Описание вакансии
Мы разрабатываем high-load web сервисы, с расчетной нагрузкой от 7000 rps. Стараемся использовать только open source продукты и уходить от vendor lock-in. Мы разрабатываем распределенные event-driven системы.
Фронт построен вокруг React – для роутинга используем React Router (если нужен SSR – используем кастомное решение), в качестве стейт-менеджера применяется MobX State Tree, бандлим всё это с помощью Vite. В планах перевести все приложения на Remix и уйти от хранения состояния на клиенте, вместо этого перейти на server-driven state.
Разрабатываем внутренний UI-kit на основе headless компонентов React Aria и tokenized дизайн-системы. Пока UI-kit в разработке – используем emotion (CSS-in-JS) , но в дальнейшем уйдём от runtime решений для стилизации.
Деплоим сервисы в Kubernetes. Используем CI/CD на Gitlab, с пайплайнами для unit/integration/e2e автотестов. Мониторим при помощи Prometheus и Grafana, логи храним в ELK и Sentry.
Для разработки B2B платформы в сфере high risk, ищем в команду талантливого Lead SRE.
Чем предстоит заниматься:
- Формировать команду SRE и организовывать процесс работы команды для достижения отказоустойчивости системы;
- Разработка и ввод в эксплуатацию процессов реагирования на инциденты;
- Настройка каналов получения инцидентов;
- Создание верхнеуровневых метрик и алертов для оповещении об инцидентах и отслеживания статуса работы системы;
- Организация дежурств для реагирования на инциденты;
- Организация процессов закрытия инцидентов: написание постмортемов, заведение задач на разработку и инфраструктуру по результатам инцидента;
- Создание и обработка чек листов ввода в эксплуатацию новых сервисов и новых технологий;
- Сбор точек отказа системы, подготовка и контроль выполнения плана по их устранению;
- Подготовка и проведение учений с имитациями аварий во всех сервисах системы;
- Ведение наглядного учета доступности системы с возможностью демонстрации прогресса по количеству инцидентов и скорости их решения.
Что мы ожидаем от кандидата:
- Опыт управления и набора SRE команд;
- Опыт создания и внедрения SRE процессов;
- Знание DevOps практик;
- Хорошее понимание инфраструктуры, баз данных, особенностей распределенной архитектуры.
Будет плюсом:
- Умение пользоваться средствами профилирования на Go, MySql и прочими средствами диагностики и выявления проблем;
- Умение работать с логами в kibana и метриками в grafana.
Мы рады предложить Вам:
Социальные гарантии:
- Белая заработная плата 2 раза в месяц, которая зависит от пожеланий, скиллов и опыта;
- Годовой бонус (13-я ЗП);
- Реферальная программа за успешную рекомендацию кандидата;
- ДМС, подарки для сотрудников и их детей.
Комфортные условия работы:
- Формат работы — офис/гибрид/удаленка;
- Гибкое начало рабочего дня;
- Бесплатные корпоративные обеды и сладости;
- Абонемент в спортзал за счет компании;
- Рабочее место оборудовано современной техникой с учетом Ваших пожеланий;
- Отсутствие бюрократии, вопросы решаются оперативно, без многочисленных согласований.
Перспективы самореализации и развития:
- Наличие большого количества задач, которые дают возможность материального и профессионального роста;
- Поездки на ИТ-конференции, митапы, учебные курсы за счет компании;
- Компенсация оплаты занятий по английскому языку;
- Большая высококвалифицированная команда, тимлид, техлид, проджект менеджер, к которым всегда можно обратиться 🙂