Описание вакансии
Мы ищем единомышленников к себе в проект по распознованию потокового видео внутри крупнейшей социальной сети при помощи AI.
Где осуществляется: оценка кадра и формирование витрин с товарами популярных маркетплейсов, рекламных тэгов и много другое, формирование нового продукта монетизации видео контента в крупнейшей социальной сети при помощи нейросетей.
Обязанности:
1. Разработка функциональности для обработки звука:
◦ Интеграция и использование модели Whisper для распознавания речи.
◦ Разработка решений для обработки аудио данных, включая преобразование, аннотацию и анализ.
2. Разработка функциональности для обработки изображений:
◦ Разработка и оптимизация решений с использованием Vision Transformer (ViT) моделей для классификации изображений и других задач компьютерного зрения.
◦ Интеграция моделей для обработки изображений в реальные приложения.
3. Разработка REST API с Pydantic и FastAPI:
◦ Разработка endpoints для взаимодействия с ML-пайплайнами, включая обработку аудио и изображений.
◦ Валидация входных данных с Pydantic.
◦ Разработка асинхронных API с FastAPI.
Технические навыки:
✅ Back-End:
• Python (FastAPI, Flask).
• Pydantic (валидация данных, OpenAPI).
• Docker (разработка контейнеризированных сервисов).
• Базы данных (PostgreSQL / SQLite / MongoDB).
• Асинхронное программирование (asyncio, Aiohttp, WebSockets).
• ML-фреймворки: PyTorch, TensorFlow, OpenCLIP, ONNX.
• Работа с изображениями: OpenCV, FFmpeg, PyAV.
• Обработка аудио: Whisper, другие аудио-модели.
✅ Front-End (желательно):
• Опыт работы с React/Vue.js или другим фреймворком.
• Разработка простых UI для аннотации и визуализации данных.
• Взаимодействие с REST API.
✅ DevOps / CI/CD:
• Docker, Kubernetes — на уровне пользователя.
• GitHub Actions, GitLab CI/CD.
• MLFlow (желательно).
Требования:
• Опыт разработки на Python (3.8+) не менее 2-3 лет;
• Глубокое понимание принципов разработки API (REST, OpenAPI);
• Опыт работы с ML-фреймворками (PyTorch, TensorFlow, ONNX);
• Опыт работы с аудио и изображениями (Whisper, Vision Transformer, OpenCV);
• Навыки работы с базами данных (PostgreSQL, SQLite, MongoDB);
• Опыт работы с Docker и CI/CD;
Будет плюсом:
• Опыт работы с Triton Inference Server.
• Опыт работы с YOLO, Detectron2, MMDetection.
• Опыт работы с WebRTC (для потоковой обработки видео).
• Опыт работы с CLIP-моделями (OpenCLIP, OWL-V2, CLIP от OpenAI).
• Опыт работы с LLM (Large Language Models), в т.ч. LLaMA, GPT.