Fluid Benchmarking: адаптивная IRT-оценка, которая дольше сохраняет информативность метрик LLM
‘Fluid Benchmarking использует 2PL IRT и выбор заданий по информации Фишера, чтобы сделать оценку LLM более стабильной, ресурсно-эффективной и менее подверженной ошибочным меткам.’