Архитектура ML-систем: пайплайны, стек, аудит

Когда это нужно

Модель есть — прода нет

Прототип работает в ноутбуке, но непонятно, как превратить его в надёжный сервис с мониторингом и SLA.

Система не держит нагрузку

Растут пользователи и данные — растут задержки и счета. Нужно перепроектировать узкие места без остановки бизнеса.

LLM-затраты вышли из-под контроля

Счёт за API растёт быстрее пользы. Подберём связку: меньшие модели, кэширование, роутинг запросов, self-hosted там, где это окупается.

Выбор стека с нуля

RAG или fine-tuning, какая векторная база, облако или своё железо — решения, которые дорого менять потом.

Что я делаю

1

Ревью текущей архитектуры

Разбор системы и кода с командой: узкие места, риски, лишние затраты. Отчёт с приоритизированными рекомендациями.

2

Проектирование пайплайнов

Обучение, инференс, данные: схема системы под вашу нагрузку и команду — без переусложнения.

3

Выбор стека и инфраструктуры

Модели, векторные базы, оркестрация, мониторинг — с оценкой полной стоимости владения.

4

Сопровождение внедрения

Ревью реализации, помощь команде на созвонах, корректировка решений по ходу. Реализует ваша команда или Gless AI Политика ПД.

Этим я занимаюсь руками — 7+ лет

OZON

Поиск и matching на масштабе

Микросервисная архитектура real-time matching товаров, precision 95%. pySpark, Hadoop, Kafka.

ZENCODER

LLM в продакшене

Обучение и деплой моделей для code completion и ИИ-агентов для кода — задержки, стоимость и качество в одном бюджете.

СТЕК

PyTorch · LLM · RAG · MLOps

Transformers, fine-tuning, векторный поиск, Docker/Kubernetes, Spark — выбираю из того, чем пользовался сам.

Частые вопросы

В каком формате проходит работа?

Разовое архитектурное ревью с отчётом и рекомендациями — 1–2 недели, либо сопровождение: проектируем вместе с вашей командой и сопровождаю внедрение.

Нужен ли доступ к коду и инфраструктуре?

Для ревью достаточно созвонов с командой, схем и выборочного доступа к коду. Работаю под NDA, формат доступа обсуждаем под вашу безопасность.

Сколько это стоит?

Часовая консультация — 5 000 ₽. Архитектурное ревью — оценка после бесплатного вводного созвона, зависит от размера системы. Сопровождение — от 80 000 ₽/мес.

Покажите систему — скажу, где она сломается

Бесплатный вводный созвон 30 минут: разберём текущую архитектуру и риски.

Написать в Telegram →