Fluid Benchmarking: адаптивная IRT-оценка, которая дольше сохраняет информативность метрик LLM

Почему простая точность уже не хватает

Обычная оценка LLM использует фиксированные подмножества и сообщает статическую точность. Такой подход смешивает качество и сложность заданий, делает измерения шумными и приводит к раннему «выравниванию» кривых обучения, хотя модель всё ещё становится лучше. Fluid Benchmarking меняет парадигму: модель оценивают в латентном пространстве способности и адаптивно подбирают наиболее информативные задания для текущей способности модели.

Главная идея: способность вместо голой точности

Fluid Benchmarking заменяет точность процедурой, основанной на психометрике. Двухпараметрическая логистическая модель IRT (2PL) переводит бинарные ответы в латентную способность θ. Для задания j с дискриминацией a_j и сложностью b_j вероятность правильного ответа

p(u_ij = 1) = logistic(a_j (θ_i − b_j))

На оценке для кандидатной модели оценивают способность θ^ (MAP), максимизируя правдоподобие 2PL по наблюдаемым ответам на введённых заданиях. В отличие от точности, вклад каждого задания взвешен через дискриминацию и сложность.

/* 



At evaluation, estimate the MAP ability θ^i for the candidate LM by maximizing the 2PL likelihood over its observed right/wrong responses on the administered items. Items are weighted by their discrimination and difficulty, unlike accuracy which weights all equally

Как выбираются задания: выбор по информации Фишера

После оценки текущей способности θ^(t) выбирают следующее задание q_j, максимизирующее информацию Фишера в этой точке:

I(θ_i, a_j, b_j) = a_j^2 · logistic(a_j(θ_i − b_j)) · (1 − logistic(a_j(θ_i − b_j)))

Задания с высокой информацией минимизируют дисперсию оценки способности. По мере обучения модели самые информативные задания смещаются от лёгких к сложным, поэтому состав подмножества эволюционирует вместе с возможностями модели.

Что такое «лучше» в оценке

Авторы измеряют четыре конкретные размерности:

На ряде популярных бенчмарков и у нескольких моделей Fluid показывает явные улучшения по всем этим измерениям.

Результаты в цифрах

Аблационные эксперименты показывают, что агрегирование через IRT повышает валидность, но динамический выбор заданий именно через информацию Фишера отвечает за снижение дисперсии и повышение монотонности.

Практические моменты и динамическая остановка

Fluid поддерживает динамическую остановку: прекращать оценку, когда стандартная ошибка оценки способности падает ниже заданного порога (например, среднего разрыва по способностям между соседними моделями в таблице лидеров). На практике требуемое число заданий меняется с этапа обучения (приблизительно 20 заданий на ранних этапах, более 80 на средних), что объясняет неэффективность фиксированных бюджетов.

Операционные издержки включают поддержание актуальных матриц ответов, периодическую перенастройку параметров IRT по мере роста моделей и надёжную бинаризацию ответов для задач с открытым ответом. Fluid не придумывает новые задачи, а перевзвешивает и переупорядочивает существующие для максимизации информации о латентной способности.

Где применять Fluid

Fluid — метод уточнения бенчмарков: он годится для предтренировочных и посттренировочных оценок и для разных модальностей при наличии достаточного числа ответов для подгонки модели IRT. По мере роста моделей параметры IRT требуют обновления, чтобы сохранялась различимость между ранее «слишком сложными» заданиями.

Fluid Benchmarking делает оценку LLM более бюджетно-эффективной и стабильной, что особенно полезно для in-loop оценок и ранжирования моделей.