Главная
Работа в Москве
ML Engineer в команду компьютерного зрения и мультимодальных моделей в AI VK

ML Engineer в команду компьютерного зрения и мультимодальных моделей в AI VK

Москва Опыт работы от 3 лет Постоянная занятость Полный день

Поделиться Сохранить

Описание

Группа машинного зрения направления R&D работает на стыке исследований и продуктовой разработки. Мы выходим за рамки стандартного анализа изображений и фокусируемся на мультимодальном ИИ для решения комплексных задач. Наша работа охватывает как критически важные бизнес-задачи, например высоконадёжную верификацию пользователей, так и амбициозные R&D-направления, включая визуально-языковые модели (VLM) для распознавания текстов и интеграцию визуальной модальности в речевые модели (SpeechLM).

Если вам интересно работать на стыке обработки пикселей и семантического понимания вы наш кандидат.

Задачи

Next-Gen OCR: обучение визуально-языковых моделей (VLM) для задач OCR, переход от классических пайплайнов к end-to-end пониманию и извлечению структуры из документов
Исследования в мультимодальности: лидирование исследовательского трека по добавлению визуальной модальности в речевые языковые модели (SpeechLM), чтобы научить модели одновременно видеть и говорить
Верификация пользователей: создание и внедрение надёжных CV-моделей для верификации через камеру: распознавание лиц (Face Recognition), Liveness Detection и методы защиты от спуфинга (Anti-spoofing)
Оптимизация: Deep Learning моделей по скорости (latency) и памяти для работы в продакшен-окружении
Внедрение в production: взаимодействие с backend-разработчиками для вывода моделей в прод, обеспечение их надёжности и масштабируемости для будущих бизнес-задач
Research: мониторинг свежих статей на arXiv в областях CV, NLP и Multimodal Learning

Требования

2+ года опыта в Computer Vision и Deep Learning, твёрдое понимание линейной алгебры, теории вероятностей и методов оптимизации
Отличное знание Python и фреймворков глубокого обучения (преимущественно PyTorch)
Глубокое понимание современных архитектур, особенно трансформеров (ViT) и CNN
Понимание того, как связывать разные модальности (например, выравнивание эмбеддингов изображений с аудио- или текстовыми токенами)
Практический опыт с задачами верификации/идентификации (ArcFace, Triplet Loss и так далее) или детекции/сегментации
Уверенное владение Git, умение писать чистый код и понимание базовых процессов MLOps

Будет плюсом

Опыт обучения или fine-tuning больших мультимодальных моделей (например, LLaVA, Qwen-VL)
Опыт оптимизации инференса: квантизация, TensorRT/Triton, ONNX, CUDA Graphs
Навыки обучения больших моделей с Mixed Precision и Distributed Data Parallel (DDP) в PyTorch
Опыт построения пайплайнов для генерации синтетических данных или использования Active Learning
Опыт чтения и воспроизведения алгоритмов из научных статей
Опыт работы с kubeflow и airflow

Откликнуться

10 часов назад Источник: hh.ru

Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.

Рекомендуемые вакансии

ML Engineer в команду Вторички

Циан
Москва

Описание Циан публичная IT-компания, крупнейший в России сервис для поиска недвижимости, входит в мировой топ-10. Больше 20 лет мы помогаем быстрее решать вопросы с жилой и коммерческой недвижимостью ...

25.12.2025

ML-инженер в команду эффективного рантайма и инференса

Т-Банк
Москва

Описание Наша команда оптимизирует инференс нейросетевых моделей. Мы начинали с голосовых технологий и смогли заметно улучшить throughput и latency. Теперь мы развиваем решения для NLP, LLM, CV и ...

30.12.2025

Senior ML Engineer в команду Search

UZUM TECHNOLOGIES
Москва

Описание Про команду: Поиск - один из ключевых драйверов роста GMV. Наша команда постоянно улучшает релевантность выдачи и производительность движка, чтобы пользователи могли быстро найти то, что им ...

28.12.2025

Посмотреть все похожие вакансии