Разработчик Python для разработки функциональности обработки аудио и изображений

25.02.2025
250 000 - 300 000 / месяц
Вакансия истекает: 07.03.2025
Откликнуться

Описание вакансии

Мы ищем единомышленников к себе в проект по распознованию потокового видео внутри крупнейшей социальной сети при помощи AI.
Где осуществляется: оценка кадра и формирование витрин с товарами популярных маркетплейсов, рекламных тэгов и много другое, формирование нового продукта монетизации видео контента в крупнейшей социальной сети при помощи нейросетей.

Обязанности:

1. Разработка функциональности для обработки звука:

◦ Интеграция и использование модели Whisper для распознавания речи.

◦ Разработка решений для обработки аудио данных, включая преобразование, аннотацию и анализ.

2. Разработка функциональности для обработки изображений:

◦ Разработка и оптимизация решений с использованием Vision Transformer (ViT) моделей для классификации изображений и других задач компьютерного зрения.

◦ Интеграция моделей для обработки изображений в реальные приложения.

3. Разработка REST API с Pydantic и FastAPI:

◦ Разработка endpoints для взаимодействия с ML-пайплайнами, включая обработку аудио и изображений.

◦ Валидация входных данных с Pydantic.

◦ Разработка асинхронных API с FastAPI.

Технические навыки:

✅ Back-End:

• Python (FastAPI, Flask).

• Pydantic (валидация данных, OpenAPI).

• Docker (разработка контейнеризированных сервисов).

• Базы данных (PostgreSQL / SQLite / MongoDB).

• Асинхронное программирование (asyncio, Aiohttp, WebSockets).

• ML-фреймворки: PyTorch, TensorFlow, OpenCLIP, ONNX.

• Работа с изображениями: OpenCV, FFmpeg, PyAV.

• Обработка аудио: Whisper, другие аудио-модели.

✅ Front-End (желательно):

• Опыт работы с React/Vue.js или другим фреймворком.

• Разработка простых UI для аннотации и визуализации данных.

• Взаимодействие с REST API.

✅ DevOps / CI/CD:

• Docker, Kubernetes — на уровне пользователя.

• GitHub Actions, GitLab CI/CD.

• MLFlow (желательно).

Требования:

• Опыт разработки на Python (3.8+) не менее 2-3 лет;

• Глубокое понимание принципов разработки API (REST, OpenAPI);

• Опыт работы с ML-фреймворками (PyTorch, TensorFlow, ONNX);

• Опыт работы с аудио и изображениями (Whisper, Vision Transformer, OpenCV);

• Навыки работы с базами данных (PostgreSQL, SQLite, MongoDB);

• Опыт работы с Docker и CI/CD;

Будет плюсом:

• Опыт работы с Triton Inference Server.

• Опыт работы с YOLO, Detectron2, MMDetection.

• Опыт работы с WebRTC (для потоковой обработки видео).

• Опыт работы с CLIP-моделями (OpenCLIP, OWL-V2, CLIP от OpenAI).

• Опыт работы с LLM (Large Language Models), в т.ч. LLaMA, GPT.