Сигнал и шум: как SNR повышает надёжность оценки LLM

Почему важна надёжность оценки

Оценка больших языковых моделей (LLM) требует значительных ресурсов. По мере роста моделей выбор правильных бенчмарков и метрик становится критичным не только для рейтингов, но и для практических решений по разработке, которые должны сохранять полезность при масштабировании. Исследование Allen Institute for AI (Ai2) предлагает смотреть на оценку через призму сигнала и шума, а также их отношения — SNR, что даёт конкретные способы снизить неопределённость и повысить надёжность оценивания.

Что такое сигнал и шум

Сигнал

Сигнал показывает, насколько бенчмарк способен разделить более сильные модели и более слабые. На практике это мера разброса результатов моделей по заданию. При высоком сигнале результаты распределены широко, что облегчает ранжирование. Низкий сигнал приводит к плотному скоплению оценок, когда трудно понять, какая модель действительно лучше.

Шум

Шум — это вариативность оценок, вызванная случайностью при обучении: разные инициализации, порядок данных, колебания между чекпоинтами в одном запуске. Высокий шум снижает надёжность, так как повторные эксперименты при тех же настройках могут давать разные результаты.

Почему важно отношение SNR

Ai2 подчёркивает, что полезность бенчмарка определяется не только сигналом или шумом по отдельности, а их отношением. Высокий SNR означает, что бенчмарк стабильно даёт надёжные сравнения и пригоден для принятия решений, которые будут корректны при масштабировании.

Влияние SNR на практические решения

Два типичных сценария, где надёжность оценки критична:

Точность выбора: тренировка нескольких маленьких моделей по разным рецептам и выбор лучшей для масштабирования. Важно, сохраняется ли порядок на малой шкале при переходе на большую.
Прогнозирование по законам масштабирования: подгонка scaling law на маленьких моделях для предсказания большой модели.

Ai2 показывает, что высокий SNR связан с лучшей точностью принятия решений (R^2 = 0.626) и предсказуемостью ошибок scaling law (R^2 = 0.426). Низкий сигнал или высокий шум увеличивают риск того, что результаты малых экспериментов не подтвердятся на продакшн-уровне.

Как измерять сигнал и шум

Практические определения Ai2:

Сигнал: максимальная разница (дисперсия) в результатах между двумя моделями в популяции, нормированная по среднему результату.
Шум: относительное стандартное отклонение результатов среди финальных чекпоинтов одного обучения.

SNR можно посчитать как относительную дисперсию (сигнал) делённую на относительное стандартное отклонение (шум). Шум между чекпоинтами хорошо коррелирует с другими источниками случайности, поэтому служит практичным прокси для общей вариативности.

Интервенции для повышения SNR

Ai2 проверяет несколько практических приёмов, повышающих SNR и тем самым надёжность оценки:

Фильтрация подзадач по SNR Многозадачные бенчмарки часто усредняют результаты по множеству подзадач. Выбор подмножества подзадач с высоким SNR вместо использования полного набора существенно улучшает SNR и точность решений. Например, использование 16 лучших из 57 подзадач MMLU дало более высокий SNR и лучшие предсказания, а также исключило подзадачи с высокой ошибкой разметки.
Усреднение чекпоинтов Усреднение результатов по нескольким финальным чекпоинтам или использование экспоненциального скользящего среднего во время обучения уменьшает влияние временного шума. Это последовательно повышает точность выбора (в отчёте упоминается улучшение на 2.4%) и снижает ошибки прогнозов scaling law.
Использование непрерывных метрик, например bits-per-byte (BPB) Метрики классификации вроде accuracy теряют информацию о непрерывных выходах модели. Переход к BPB (связанной с perplexity) заметно повышает SNR в генеративных задачах. Ai2 приводит примеры: GSM8K SNR вырос с 1.2 до 7.0, MBPP с 2.0 до 41.8; это сопровождалось ростом точности решений (MBPP с 68% до 93%, Minerva MATH с 51% до 90%).

Практические рекомендации

Выбирайте бенчмарки и подзадачи с высоким SNR для принятия решений, которые нужно перенести на большие модели.
Качество важнее количества: небольшой набор высококачественных подзадач часто эффективнее большого, но шумного бенчмарка.
Сглаживайте случайность через усреднение чекпоинтов или EMA, чтобы уменьшить шум.
Для сложных и генеративных задач отдавайте предпочтение непрерывным метрикам вроде BPB для повышения стабильности ранжирования.

Ai2 публикует набор данных примерно из 900 000 оценок на 465 открытых моделях, что даёт сообществу инструменты для дальнейших улучшений науки об оценке LLM.