Инженерия Creative Ventures10 мин чтения

Оценка LLM: практичный плейбук для продакшен-агентов

Большинство команд застревает на vibes-evals. Вот eval-харнесс, который мы гоняем на каждом продакшен-агенте — golden-сеты, трёхслойное скоринг-правило и когда пора остановиться.

Дашборд оценки LLM — golden-сет и слои скоринга

Каждая команда, с которой мы говорим, в какой-то форме прогоняет LLM-evals. Большинство делает это неправильно. Обычно проблема не в модели — проблема в измерении. Вот плейбук оценки LLM, который мы гоняем на каждом продакшен-агенте — без частей, которые красиво звучат на конференциях.

Начни с golden-сета, не с метрики

Первый артефакт любой LLM-оценки — 40 вручную отобранных примеров, представляющих форму вашего трафика. Не 400, не 4 000 — 40. Мало, чтобы человек мог реально прочитать их, достаточно, чтобы ловить регрессии категории. Каждый всплывающий в продакшене баг уходит в golden-сет.

LLM golden-сет — вручную отобранные eval-примеры
Golden-сет — 40 примеров, по абзацу комментариев каждому, у каждого есть владелец-человек.

Трёхслойная модель скоринга для LLM-агентов

Мы оцениваем каждый ответ агента в три слоя. Жёсткие ограничения — вызвал ли нужный tool, валиден ли output по схеме. Корректность — для проверяемых задач, действительно ли ответ правильный. Суждение — оценила ли вторая модель ответ как usable. Слои не взвешиваются: провал на любом — это провал.

Чекер жёстких ограничений для LLM-output
Дашборд слоя суждения LLM

Когда прекратить eval и начать слушать продакшен

Больше eval — не всегда лучше. Когда агент проходит golden-сет >95%, следующая регрессия почти наверняка придёт из категории, которую вы не предсказали. Это точка, в которой надо перестать добавлять покрытие и начать добавлять телеметрию из продакшена.

Eval-харнесс — это forcing function для понимания собственного продукта. Если ты не можешь написать тест — ты не знаешь фичу достаточно, чтобы её выпустить.
Внутренняя инженерная заметка