Из ноутбука — в прод: масштабируемые пайплайны, выбор стека и инфраструктуры, контроль затрат на LLM. Проектирую сам — на опыте поиска OZON и ИИ-агентов Zencoder.
Прототип работает в ноутбуке, но непонятно, как превратить его в надёжный сервис с мониторингом и SLA.
Растут пользователи и данные — растут задержки и счета. Нужно перепроектировать узкие места без остановки бизнеса.
Счёт за API растёт быстрее пользы. Подберём связку: меньшие модели, кэширование, роутинг запросов, self-hosted там, где это окупается.
RAG или fine-tuning, какая векторная база, облако или своё железо — решения, которые дорого менять потом.
Разбор системы и кода с командой: узкие места, риски, лишние затраты. Отчёт с приоритизированными рекомендациями.
Обучение, инференс, данные: схема системы под вашу нагрузку и команду — без переусложнения.
Модели, векторные базы, оркестрация, мониторинг — с оценкой полной стоимости владения.
Ревью реализации, помощь команде на созвонах, корректировка решений по ходу. Реализует ваша команда или Gless AI Политика ПД.
Микросервисная архитектура real-time matching товаров, precision 95%. pySpark, Hadoop, Kafka.
Обучение и деплой моделей для code completion и ИИ-агентов для кода — задержки, стоимость и качество в одном бюджете.
Transformers, fine-tuning, векторный поиск, Docker/Kubernetes, Spark — выбираю из того, чем пользовался сам.
Разовое архитектурное ревью с отчётом и рекомендациями — 1–2 недели, либо сопровождение: проектируем вместе с вашей командой и сопровождаю внедрение.
Для ревью достаточно созвонов с командой, схем и выборочного доступа к коду. Работаю под NDA, формат доступа обсуждаем под вашу безопасность.
Часовая консультация — 5 000 ₽. Архитектурное ревью — оценка после бесплатного вводного созвона, зависит от размера системы. Сопровождение — от 80 000 ₽/мес.
Бесплатный вводный созвон 30 минут: разберём текущую архитектуру и риски.