Команда Gless AI заняла 2-е место из 350 на Agentic Legal RAG Challenge 2026 и выиграла 8 000 $. Задача: система отвечает на 900 вопросов по корпусу из 300 юридических PDF — судебные решения, законы, регламенты DIFC — и для каждого ответа даёт цитату с точностью до страницы. Наш итог: 76.7 балла, медианная задержка 1.97 секунды, до первого места не хватило 1.2 балла — вот лидерборд.

Ниже — что сработало, а в конце список того, что мы попробовали и выкинули. Он, честно говоря, полезнее.

Почему скоринг решает архитектуру

Формула оценки перемножала три вещи: правильность ответа, качество grounding (та самая цитата до страницы) и задержку. Перемножала, а не складывала — слабый grounding убивает результат, какими бы хорошими ни были ответы. Множитель за скорость: 1.05× при ответе быстрее секунды и 0.85× — медленнее пяти. Поэтому всё, что добавляло сотни миллисекунд без прироста качества, шло под нож.

Индексация

Обработка запроса

Генерация

GPT-5.4 со structured output без reasoning-режима. Главный трюк — schema-guided reasoning: в схеме ответа первым идёт поле «рассуждение», потом сам ответ, потом цитаты. Модель вынуждена сначала проанализировать, а уже потом коммититься к ответу. Плюс экономия токенов: длинные ID документов заменяли короткими алиасами D1, D2 перед промптом.

Что попробовали и выкинули

Выводы

Хорошо настроенный RAG-пайплайн всё ещё бьёт агентов на чётко поставленных retrieval-задачах. И второе, важнее: хороший RAG — это не только правильный ответ, но и проверяемый ответ. Цитата до страницы — это то, что отличает систему, которой юрист может доверять, от красивой демки. Про то, почему проверяемость сейчас главное узкое место, я писал в «Кризисе верификации».

Полная версия разбора на английском — в статье на LinkedIn.

← Все статьи