Главная
Работа в Москве
Technical Lead CUDA/Triton Kernel Development for LLM Acceleration

Technical Lead CUDA/Triton Kernel Development for LLM Acceleration

СБЕР

Москва Опыт работы от 6 лет Постоянная занятость Полный день

Поделиться Сохранить

Описание

Мы создаём самые сильные языковые модели в России и одни из самых больших в мире такие как GigaChat3 Ultra. Создание таких систем требует оптимизации архитектуры под GPU и решение проблем с масштабированием на кластера из тысяч видеокарт. Все это - нетривиальные инженерные вызовы, решение которых закладывается в следующие поколения наших моделей. У нас вы будете работать с современным набором видеокарт: NVIDIA B200/H100. Наш стек полностью интегрирован с PyTorch/TensorRT/ONNX и активно использует Triton, CUDA, CUTLASS и кастомные ядра для оптимизации: FlashAttention, PagedAttention, DeepEP, и др.

Среди наших достижений - реализация собственных ядер для распределённого обучения: асинхронный Expert & Tensor Parallel, а также Async Liger. Но хочется больше

Цель - снизить latency и увеличить throughput, оптимизировать новые архитектуры, делать их обучение экономически выгодным по сравнению с классическими LLM & MoE

Обязанности

лидировать направление по разработке и оптимизации CUDA/Triton-ядер для LLM
тесно взаимодействовать с ML-инженерами и research-командами для понимания workload ов и bottleneck ов (например: multinode inference, sparse attention, mixture-of-experts, long-context inference)
участвовать в open-source инициативах (возможно форки/патчи в Triton, upstream в PyTorch/TensorRT/SGLang)

Мы ожидаем, что вы:

имеете 5+ лет опыта в low-level GPU программировании (CUDA C++, PTX/SASS, shared memory/coalescing/warp-shuffle, async memcpy, stream management)
глубоко понимаете архитектуру NVIDIA GPU (Tensor Cores, warp execution, occupancy, L2 cache hierarchy) и умеете профилировать через Nsight
владеете Triton (или готовы освоить быстро) и понимаете его trade-offs vs чистая CUDA
есть опыт работы с современными фреймворками: PyTorch (custom ops, torch.compile), TensorRT (plugins), возможно SGLang
имеете опыт управления технической командой (2+ лет как lead/tech lead)

Плюсом будет:

понимание сетевой составляющей обучений на больших кластерах (опыт работы с NVSHMEM, NCC)
знание CPU/GPU взаимодействия (pinned memory, zero-copy, unified memory pitfalls)
опыт оптимизации под конкретные HW например, Hopper vs Ampere.

Условия

удалённо по всей России
возможность оформления в аккредитованную IT-компанию
годовая премия по итогам работы
регулярный пересмотр зарплат
корпоративный спортзал и зоны отдыха
более 400 программ СберУниверситета для роста
программа адаптации и помощь руководителя на старте
крупнейшее DS&AI community более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы
ДМС, льготное страхование для семьи, корпоративная пенсионная программа
ипотека для сотрудников по дисконтной программе
СберПрайм+ и скидки у партнёров
бонус за рекомендации в команду.

Откликнуться

18 дней назад Источник: hh.ru

Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.

Рекомендуемые вакансии

Технический руководитель/Technical Lead(государственная информационная система)

до 400 000 руб.

ЛАНИТ
Москва

ОписаниеКомпания ЛАНИТ ищет хорошего специалиста на вакансию Технический руководитель/Technical Lead(государственная информационная система) . Москва (Россия). До 400 000 . Полный рабочий день. Требуе...

07.01.2026

до 400 000 руб.

AI Lead / Head of AI Development (Platform AI)

400 000 - 600 000 руб.

Солвтех
Москва

Описание

О вакансии

Мы развиваем промышленную цифровую платформу для поддержки инженерных и операционных решений в нефтегазовой и энергетической отраслях. Платформа используется ...

25.12.2025

400 000 - 600 000 руб.

Tech Lead / AI Solutions Engineer (Generative AI / LLM)

Интерпроком,ООО
Москва

Описание

Основная цель

Сформировать технологическое лидерство в области AI/LLM/ML и выстроить короткий цикл гипотеза прототип пилот с контролем качества, бюджета и рисков. ...

25.12.2025

Посмотреть все похожие вакансии