GDPval от OpenAI: тестирование ИИ на реальных экономически значимых задачах

Что измеряет GDPval

OpenAI представила GDPval, набор для оценки, который измеряет работу моделей ИИ на реальных экономически значимых задачах. Набор включает 1 320 заданий по 44 профессиям в девяти ведущих секторах экономики США. В отличие от узких академических бенчмарков, GDPval сосредоточен на аутентичных результатах работы: презентациях, таблицах, брифах, CAD-артефактах, аудио и видео.

Дизайн задач и золотой поднабор

Задания были собраны у отраслевых профессионалов со средним опытом 14 лет и сопоставлены с рабочими активностями O*NET. Входы и выходы мультимодальны и ориентированы на файлы, часто требуя нескольких справочных файлов для одного задания. OpenAI опубликовала 220 задач в виде золотого поднабора с публичными промптами и эталонами, однако основное оценивание по-прежнему проводится через слепые попарные сравнения экспертами из-за субъективности и разнообразия форматов.

Как модели работают по сравнению с экспертами

На золотом поднаборе передовые модели по слепому экспертному обзору достигают качества, приближающегося к экспертному, по значительной доле задач. Отношение побед и ничьих моделей к человеку для топ-моделей близко к паритету, а прогресс выглядит примерно линейным в выпусках моделей. Частые ошибки включают неполное следование инструкциям, проблемы с форматированием, некорректное использование данных и галлюцинации. Усиление поддержки форматов и стимулирование большего уровня рассуждений дает предсказуемый прирост качества.

Время и экономия затрат

GDPval проводит сценарные анализы, сравнивая полностью человеческие рабочие процессы с процессами, где модель помогает и результаты проходят экспертную проверку. Оцениваются время выполнения человеком и затраты на оплату труда, время и стоимость рецензирования, задержки модели и стоимость API, а также эмпирически наблюдаемые коэффициенты выигрыша моделей. Результаты показывают потенциал сокращения времени и затрат для многих классов задач с учетом накладных расходов на проверку.

Автоматизированная оценка: полезный прокси, но не оракул

Экспериментальный автоматизированный попарный грейдер для золотого поднабора совпадает с мнением экспертов примерно в 66% случаев, что примерно на 5 процентных пунктов ниже согласия между людьми. Этот грейдер служит прокси для быстрой итерации и доступности, но не заменяет экспертную проверку.

Область применения, ограничения и дальнейшие шаги

Версия GDPval-v0 направлена на компьютерно-опосредованную работу с знаниями. Физический труд, долгосрочное интерактивное взаимодействие и специфичные для организации инструменты находятся за рамками. Задания одношажные и точно специфицированы, и при сокращении контекста качество падает. Создание набора и оценка требуют значительных ресурсов, что объясняет интерес к автоматизированному грейдеру и стимулирует дальнейшее расширение покрытия и реалистичности.

Как GDPval дополняет другие оценки

GDPval дополняет существующие оценки OpenAI за счет охвата профессий, мультимодальности и ориентированности на файлы, а также отчетов о предпочтениях людей, анализов времени и стоимости и абляционных исследований по усилиям рассуждения и скелетизации агентов. Выпуск v0 версионирован и призван служить воспроизводимой отправной точкой для отслеживания реальных приростов возможностей моделей по отраслям.