Data Engineer Senior
WMTОписание
Обязанности: Проектирование и разработка:
Проектирование и разработка ETL/ELT-процессов в Apache Airflow для обработки
миллиардов событий
Разработка витрин данных с использованием кодогенерации и автоматизации
Проектирование инкрементальных загрузок и механизмов снятия снепшотов
Репликация данных из внешних источников (Cassandra, PostgreSQL и др.) через
Spark
Работа с хеш-функциями для генерации суррогатных ключей и обеспечения
параллельной загрузки
Оптимизация и производительность:
Оптимизация производительности ETL-процессов и SQL-запросов (YQL,
ClickHouse)
Работа с бакфилами (backfill) пересчет исторических данных
Настройка и оптимизация ресурсных пулов в YTsaurus
Архитектура и масштабирование:
Участие в архитектурных решениях по развитию платформы
Проектирование гибкой модели данных, допускающей добавление новых
источников без разрушения существующей схемы
Обеспечение горизонтальной масштабируемости решений
Работа с Infrastructure as Code (GitLab CI/CD, Kubernetes)
Работа с командой:
Code review и соблюдение стандартов разработки
Документирование ETL-процессов
Опыт работы Data Engineer от 5 лет, из них минимум 2 года в роли Senior
Глубокое знание Apache Airflow (разработка DAG ов, кастомные операторы,
сенсоры)
Экспертное владение SQL и понимание оптимизации запросов
Опыт проектирования и построения Data Warehouse (Kimball, Data Vault, или
аналоги)
Уверенное владение Python для ETL-разработки
Опыт работы с Apache Spark (PySpark/Scala)
Понимание принципов работы с большими данными и распределенными системами
Опыт работы с колоночными СУБД
Знание методологий инкрементальной загрузки
Опыт с системами контроля версий (Git) и CI/CD
Будет большим плюсом:
Опыт работы с YTsaurus (YandexTable) или другими MapReduce-системами
Опыт работы с графовыми БД (Neo4j)
Знание методологий Data Vault 2.0
Опыт кодогенерации для ETL-процессов
Опыт репликации данных из различных источников (Debezium, Kafka и др.)
Знание Apache Cassandra
Опыт работы с S3-совместимыми хранилищами (MinIO)
- высокий уровень дохода
- новые технологии
- интересные задачи