MLOps ML inference engineer
СБЕРОписание
Мы разрабатываем автономные агентные решения на основе больших языковых моделей (LLM) для высоконагруженных систем оценки нефинансовых рисков. Наша миссия обеспечить мгновенную, надёжную и безопасную работу ИИ-агентов в продакшене без участия человека.
Центральный вызов минимизировать latency и задержки в инференсе, сохраняя при этом масштабируемость, устойчивость и безопасность архитектуры.
Обязанности
- Проектировать, развивать и оптимизировать высокопроизводительный стек инференса для LLM и других моделей (низкая задержка, высокая пропускная способность)
- внедрять современные методы и архитектуры (vLLM, TensorRT-LLM, FlashAttention и др.), снижающие latency и повышающие эффективность использования GPU
- создавать инструменты наблюдаемости, позволяющие выявлять узкие места, источники нестабильности и избыточного потребления ресурсов
- участвовать в проектировании и эволюции агентных архитектур: оркестрация, память, безопасные guardrails, оценка качества
- проводить технические исследования (R&D), быстро прототипировать, измерять и масштабировать решения в продакшен.
- влиять на инженерную культуру: участвовать в дизайн-сессиях, код-ревью, менторстве, формировании best practices.
Требования
- Опыт в промышленной backend-разработке на Python (или близком стеке), с фокусом на производительность и надёжность
- глубокое понимание современных архитектур ML/LLM и интуитивное чувство, как их оптимизировать именно для инференса
- уверенный опыт работы с PyTorch, NVIDIA GPU и стеком оптимизации: CUDA, NCCL, TensorRT, cuBLAS, и т.п
- знакомство с технологиями HPC (InfiniBand, NVLink, RDMA) приветствуется.
- опыт проектирования распределённых, высоконагруженных систем с продуманной observability (логи, метрики, трассировка)
- привычка всё измерять, принимать решения на основе данных и метрик.
- практика эксплуатации ML систем в продакшене: A/B-тесты, офлайн/онлайн-оценка, мониторинг деградации качества
- способность быстро осваивать новые концепции (агенты, RAG, инструментализация, безопасность) и доводить их до рабочего состояния.
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы
- ежегодный пересмотр зарплаты и годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.
день назад
Источник: hh.ru
Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.
Рекомендуемые вакансии
ML Data engineer (LLM Gigachat)
от
200 000 руб.
Описание Компания Сбер ищет хорошего специалиста на вакансию ML Data engineer (LLM Gigachat) . Москва (Россия), Санкт-Петербург (Россия). От 200 000 . Требуемые навыки: #middle, #Python, # ...
18.12.2025
Инженер MLOps (ML Engineer)
... команд за счет опытного ML Engineer. Обязанности Вывод AI-продуктов ... работы ML инженером с опытом MLOps / DevOps для ML, из ... ETL-to-inference). Построение масштабируемых пайплайнов: CI/CD для ML (Jenkins ...
08.12.2025
Senior MLOps Engineer
Описание Мы ищем Senior MLOps Engineer, который примет активное участие в создании надежной и маштабируемой платформы для разработки, внедрения и мониторинга ML моделей. Платформа предусматривает два ...
12.12.2025