Главная
Работа в Москве
Инженер данных в Путешествия

Инженер данных в Путешествия

Яндекс

Москва Опыт работы от 3 лет Постоянная занятость Полный день

Поделиться Сохранить

Описание

Наша команда превращает терабайты данных в понятные и полезные инсайты, которые используют аналитики и сервис, помогающий миллионам людей путешествовать. Наш продукт растёт огромными темпами, и вместе с ним растут наши задачи, например развитие собственного DWH.

Хранилище у нас построено на системах хранения данных YTsaurus (кластер MapReduce собственной разработки) и СlickHouse. Для разработки, оркестрации и мониторинга ETL-процессов используется собственный фреймворк, созданный внутри Яндекса. Для организации модели хранения данных на разных уровнях применяются различные методологии проектирования хранилищ данных: Lambda-архитектура, Data Lake, Data Vault.

Какие задачи вас ждут

Разработка, сопровождение и ревью ETL-процессов поставки данных
Вам предстоит создавать конвейеры для извлечения, трансформации и загрузки данных из различных источников, настраивать их расписание и мониторинг. Важно будет регулярно проверять и улучшать существующий код, оперативно исправлять возникающие ошибки, а также тщательно документировать все преобразования и потоки данных как собственные, так и коллег, обеспечивая соответствие стандартам качества и производительности.

Проектирование структуры хранения данных в разных слоях хранилища
Вы будете определять оптимальные схемы организации данных для каждого слоя, учитывая требования к скорости запросов и объёму хранения. Задача включает разработку моделей данных, настройку партиционирования, индексации и сжатия для повышения производительности, а также согласование структур с командами аналитики и разработки и адаптацию схем при изменении бизнес процессов.

Выявление и оптимизация неэффективных участков в процессах поставки данных
Вам нужно будет анализировать время выполнения ETL задач, профилировать данные для обнаружения аномалий и избыточности, пересматривать алгоритмы трансформации для снижения нагрузки на систему.

Погружение в данные прикладных бизнес-областей и становление в них экспертом
Вы будете детально изучать бизнес процессы и ключевые метрики компании, разбираться в логике расчёта показателей и источниках их формирования.

Мы ждем, что вы

Проектировали DWH (слои, модели хранения данных, ETL-процессы)
Разрабатывали ETL-процессы на Apache Airflow или аналогах
Настраивали поставки данных по API
Разбираетесь в SQL на уровне эксперта
Пишете на одном из языков высокого уровня (Python, Go, Java и т. д.)
Понимаете устройство и архитектуру реляционных баз данных
Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными

Будет плюсом, если вы

Пользовались хотя бы одной MPP-СУБД (Greenplum, ClickHouse, Vertica, Teradata и т. д.)
Понимаете принципы работы технологий распределённой обработки данных (Hadoop, MapReduce и MPP)

Откликнуться

7 дней назад Источник: hh.ru

Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.

Рекомендуемые вакансии

Инженер данных в Отдел технологий инжиниринга данных

Альфа-Банк
Москва

Описание Что мы предлагаем: Разработка библиотеки инструментов обработки данных для моделей машинного обучения; Разработка сервисов и ETL процессов обработки данных для их использования в моделях ...

23.12.2025

Инженер данных (Трайб Data Office)

АО ОТП Банк (JSC OTP Bank )
Москва

Описание Customer Data Quality команда, которая управляет и улучшает качество клиентских данных в экосистеме Банка. Мы ответственны за создание и поддержание мастер-систем, которые обеспечивают ...

25.12.2025

Старший инженер данных отдела разработки аналитических систем

до 300 000 руб.

РНПК
Москва

Описание Обязанности: 1. Разработка и поддержка data pipeline Создание и оптимизация ETL/ELT-процессов для интеграции данных из разнородных источников (внешние данные о рисках, файловые хранилища и ...

02.01.2026

до 300 000 руб.

Посмотреть все похожие вакансии