Локация

Site Reliability Engineer (SRE)

Finstar Financial Group
Москва Опыт работы от 3 лет Постоянная занятость Полный день
Поделиться

Описание

В NOVACARD мы создаём продукт, который меняет подход к кредитованию: первая в Мексике карта без процентов и годового обслуживания, полностью управляемая через мобильное приложение.


Сейчас мы ищем Site Reliability Engineer (SRE) , который будет отвечать за стабильность, производительность и надёжность наших ключевых продакшн-систем.

Вы будете работать на стыке разработки и эксплуатации создавать инструменты автоматизации, повышать наблюдаемость и предотвращать инциденты до их возникновения.

Чем предстоит заниматься:

  • Обеспечивать стабильность, производительность и отказоустойчивость продакшн-систем;

  • Разрабатывать и поддерживать инструменты для автоматизации инфраструктуры и наблюдаемости;

  • Мониторить состояние систем, реагировать на инциденты и проводить анализ первопричин (RCA);

  • Сотрудничать с командами разработки для повышения масштабируемости и надёжности сервисов;

  • Определять и контролировать SLI , SLO и Error Budgets ;

  • Руководить инцидентами: организовывать процесс восстановления, документировать RCA и проводить постмортемы;

  • Настраивать и администрировать Grafana и Zabbix , проектировать информативные дашборды и оптимизировать алерты;

  • Интегрировать и мониторить внешние вендорские системы, взаимодействовать с технической поддержкой поставщиков.

Наши ожидания:

  • Свободное владение русским языком, английский не ниже B1 (уверенное чтение технической документации);

  • Опыт работы в роли SRE / DevOps / Infrastructure Engineer от 3 лет;

  • Отличное понимание принципов observability (metrics, logs, traces);

  • Практический опыт работы с Grafana и Zabbix (администрирование, настройка, оптимизация алертов);

  • Навыки работы с AWS и CI/CD-инструментами;

  • Знание и применение принципов SLI / SLO / Error Budgets на практике;

  • Опыт проведения и документирования инцидентов и постмортемов;

  • Навыки написания скриптов для автоматизации (Python, Bash или Go);

  • Понимание принципов работы распределённых систем и сетевых протоколов.


Будет плюсом:

  • Опыт мониторинга и поддержки мобильных приложений;

  • Знание Terraform, Prometheus, Loki, ELK или аналогичных инструментов;

  • Опыт работы с Kubernetes и контейнеризацией.


Мы предлагаем:

  • Динамичный и быстроразвивающийся бизнес, ресурсы и возможность вместе создать выдающийся продукт на мировых рынках Азии, Латинской Америки, Европы и СНГ;

  • Официальное оформление в соответствии с ТК РФ (мы аккредитованная IT-компания);

  • Стабильную белую заработную плату с прозрачным учетом всех выплат + бонусы за достижение KPI;

  • ДМС (включая стоматологию) с первого рабочего дня при трудоустройстве по ТК РФ;

  • Современную рабочую технику;

  • Удалённую работу из любой точки мира;

  • Гибкое начало и окончание рабочего дня;

  • Работу в дружной команде профессионалов.

18 дней назад Источник: hh.ru
Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.
Рекомендуемые вакансии

DevOps Engineer / Site Reliability Engineer (SRE)

  • Kameleoon
  • Москва
Описание О нас Мы - международная IT-компания с офисами в Париже, США и Германии. Наш продукт - платформа для персонализации и A/B тестирования. К нам обращаются автопроизводители, банки, интернет- ...
11.01.2026

Site Reliability Engineer (SRE)

  • BetBoom
  • Москва
Описание Мы динамично растущая технологическая компания, и наш продукт - это сложная высоконагруженная система, обрабатывающая большие объемы данных. Мы ищем опытного и инициативного SRE-инженера, ...
12.01.2026

Senior DevOps / Site Reliability Engineer, SRE

  • Нейротехнологии
  • Москва
Описание Наш проект GPU-платформа на ранней стадии, где мы строим собственную инфраструктуру для ML / AI-нагрузок с фокусом на безопасность, изоляцию клиентов и стабильную работу GPU-серверов. Сейчас ...
06.01.2026