Срок для отклика истек

Описание вакансии

Мы разрабатываем high-load web сервисы, с расчетной нагрузкой от 7000 rps. Стараемся использовать только open source продукты и уходить от vendor lock-in. Мы разрабатываем распределенные event-driven системы.

Фронт построен вокруг React – для роутинга используем React Router (если нужен SSR – используем кастомное решение), в качестве стейт-менеджера применяется MobX State Tree, бандлим всё это с помощью Vite. В планах перевести все приложения на Remix и уйти от хранения состояния на клиенте, вместо этого перейти на server-driven state.

Разрабатываем внутренний UI-kit на основе headless компонентов React Aria и tokenized дизайн-системы. Пока UI-kit в разработке – используем emotion (CSS-in-JS) , но в дальнейшем уйдём от runtime решений для стилизации.

Деплоим сервисы в Kubernetes. Используем CI/CD на Gitlab, с пайплайнами для unit/integration/e2e автотестов. Мониторим при помощи Prometheus и Grafana, логи храним в ELK и Sentry.

Для разработки B2B платформы в сфере high risk, ищем в команду талантливого Lead SRE.

Чем предстоит заниматься:

  • Формировать команду SRE и организовывать процесс работы команды для достижения отказоустойчивости системы;
  • Разработка и ввод в эксплуатацию процессов реагирования на инциденты;
  • Настройка каналов получения инцидентов;
  • Создание верхнеуровневых метрик и алертов для оповещении об инцидентах и отслеживания статуса работы системы;
  • Организация дежурств для реагирования на инциденты;
  • Организация процессов закрытия инцидентов: написание постмортемов, заведение задач на разработку и инфраструктуру по результатам инцидента;
  • Создание и обработка чек листов ввода в эксплуатацию новых сервисов и новых технологий;
  • Сбор точек отказа системы, подготовка и контроль выполнения плана по их устранению;
  • Подготовка и проведение учений с имитациями аварий во всех сервисах системы;
  • Ведение наглядного учета доступности системы с возможностью демонстрации прогресса по количеству инцидентов и скорости их решения.

Что мы ожидаем от кандидата:

  • Опыт управления и набора SRE команд;
  • Опыт создания и внедрения SRE процессов;
  • Знание DevOps практик;
  • Хорошее понимание инфраструктуры, баз данных, особенностей распределенной архитектуры.

Будет плюсом:

  • Умение пользоваться средствами профилирования на Go, MySql и прочими средствами диагностики и выявления проблем;
  • Умение работать с логами в kibana и метриками в grafana.

Мы рады предложить Вам:

Социальные гарантии:

  • Белая заработная плата 2 раза в месяц, которая зависит от пожеланий, скиллов и опыта;
  • Годовой бонус (13-я ЗП);
  • Реферальная программа за успешную рекомендацию кандидата;
  • ДМС, подарки для сотрудников и их детей.

Комфортные условия работы:

  • Формат работы — офис/гибрид/удаленка;
  • Гибкое начало рабочего дня;
  • Бесплатные корпоративные обеды и сладости;
  • Абонемент в спортзал за счет компании;
  • Рабочее место оборудовано современной техникой с учетом Ваших пожеланий;
  • Отсутствие бюрократии, вопросы решаются оперативно, без многочисленных согласований.

Перспективы самореализации и развития:

  • Наличие большого количества задач, которые дают возможность материального и профессионального роста;
  • Поездки на ИТ-конференции, митапы, учебные курсы за счет компании;
  • Компенсация оплаты занятий по английскому языку;
  • Большая высококвалифицированная команда, тимлид, техлид, проджект менеджер, к которым всегда можно обратиться 🙂