Локация

Site Reliability Engineer (SRE)

BetBoom
Москва Опыт работы от 6 лет Постоянная занятость Полный день
Поделиться

Описание

Мы динамично растущая технологическая компания, и наш продукт - это сложная высоконагруженная система, обрабатывающая большие объемы данных.
Мы ищем опытного и инициативного SRE-инженера, который готов присоединиться к нашей сильной Ops-команде и вместе с нами обеспечивать бесперебойную работу и развитие нашей платформы.


Чем вы будете заниматься:

  • Обеспечение стабильности, доступности и отказоустойчивости production-окружения совместно с командами разработки.
  • Развитие и поддержка системы observability на основе современного стека (Victoriametrics, Grafana, Tempo, Elasticsearch, Pyroscope, Sentry) для полного контроля над системой.
  • Оперативное участие в инцидентах: диагностика, устранение, последующий разбор и реализация мер по предотвращению их повторения.
  • Построение и отладка процессов инцидент-менеджмента.
  • Автоматизация и развитие инфраструктуры.
  • Разработка автоматизаций для устранения рутины и повышения надежности (преимущественно на Go).

Наш технологический стек:

  • Инфраструктура: Managed Kubernetes, GCP, Yandex Cloud, Selectel.
  • Сети: Cloud, Cilium, Linkerd (Service Mesh).
  • Observability: Victoriametrics, Grafana, Tempo, Elasticsearch, OTLP, Pyr-oscope, Sentry.
  • IaaC & CI/CD: Terraform, Terragrunt, Ansible (минимально), GitLab CI.
  • Сервисы и БД: Node.js, Go (HTTP/gRPC), PostgreSQL (CloudNative-PG), ClickHouse, RabbitMQ, Redis.
  • Автоматизации: Внутренние инструменты на Go.

Мы ищем специалиста, который:

  • Имеет опыт работы SRE/DevOps в высоконагруженных production-средах.
  • Обладает глубоким пониманием Kubernetes и опыт отладки приложений в нем.
  • Имеет практический опыт построения и использования систем observability (мониторинг, логи, трейсинг).
  • Понимает принципы сетевого взаимодействия, работы протоколов (HTTP/gRPC) и уметь диагностировать проблемы на этом уровне.
  • Имеет базовые навыки программирования на Go для создания автоматизаций.
  • Понимает жизненный цикл и особенности работы реляционных и нереляционных СУБД (PostgreSQL, ClickHouse).
  • Обязательно умеет работать самостоятельно, генерировать задачи и проактивно решать проблемы. Не ждет готовых ТЗ.
5 дней назад Источник: hh.ru
Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.
Рекомендуемые вакансии

Site Reliability Engineer (SRE)

  • Finstar Financial Group
  • Москва
... мобильное приложение. Сейчас мы ищем Site Reliability Engineer (SRE) , который будет отвечать за стабильность ... ); Опыт работы в роли SRE / DevOps / Infrastructure Engineer от 3 лет; Отличное ...
16.12.2025

Site Reliability Engineer SRE МТС Линк

  • МТС
  • Москва
Описание МТС Линк это IT-направление экосистемы. Создаём и развиваем цифровые инструменты для коммуникации и командной работы, чтобы дать людям свободу в профессиональной и творческой деятельности. ...
25.12.2025

Site Reliability Engineer (SRE)

  • Astrum Entertainment
  • Москва
Описание Astrum Entertainment это один из крупнейших российских разработчиков и издателей компьютерных и мобильных игр. Портфолио компании насчитывает более 20 игр, включая такие хиты, как Warface, ...
18.12.2025