<НА ГЛАВНУЮ

Кризис оценки ИИ: почему старые тесты не работают и что будет дальше

Традиционные бенчмарки перестают адекватно отражать реальные способности ИИ. Появляются новые методы оценки, такие как LiveCodeBench Pro и Xbench, которые предлагают более точное измерение возможностей моделей.

Проблема измерения эффективности ИИ

Вопросы вроде «DeepSeek лучше ChatGPT?» или «Насколько хороша модель Anthropic?» кажутся простыми, но на самом деле раскрывают глубокую проблему — как определить, что значит «хороший» ИИ? Большинство задающих такие вопросы не уточняют критерии, что усложняет оценку.

Ограничения бенчмарков

Традиционно ИИ оценивают с помощью бенчмарков — тестов с фиксированным набором вопросов, где оценивается количество правильных ответов. Но, как и стандартизированные экзамены вроде SAT, они не всегда отражают глубину интеллекта и умение рассуждать. Новые модели часто демонстрируют лучшие показатели, но это не всегда значит реальный прогресс.

Почему бенчмарки устаревают

Бенчмарки устарели по нескольким причинам. Во-первых, модели обучаются специально для хороших результатов на тестах — это «подгонка под экзамен». Во-вторых, данные для обучения часто содержат вопросы и ответы из бенчмарков, что искажает результаты. В-третьих, многие тесты достигли предела: модели показывают более 90% точности, и дальнейший рост становится статистическим шумом. Особенно это заметно в сложных задачах по программированию, рассуждениям и STEM.

Новые методы оценки ИИ

Появляются новые бенчмарки. Например, LiveCodeBench Pro использует задачи из международных олимпиад по программированию. Топовые модели сейчас набирают около 53% на средних задачах и 0% на самых сложных — там, где люди показывают высокие результаты. Это показывает, что ИИ умеет планировать и выполнять задачи, но ему трудно с тонкими алгоритмическими рассуждениями.

Другой подход — оценивать ИИ по уровню риска, а не только по эффективности, что важно для реальных приложений, где ошибки могут привести к серьёзным последствиям.

Динамические и практические бенчмарки

Некоторые проекты, как ARC-AGI, держат часть данных в секрете, чтобы избежать переобучения. Meta создала LiveBench с обновлениями каждые шесть месяцев для проверки адаптивности. Китайский Xbench оценивает и технические знания, и практическую пользу, например, подбор кандидатов или маркетинговые задачи, с планами расширения на финансы, право и дизайн.

Вне технических навыков: креативность и предпочтения людей

Сильные навыки рассуждения не всегда означают творческий или интересный опыт для пользователя. Исследований по оценке творческих возможностей ИИ пока мало. Платформы вроде LMarena позволяют людям сравнивать ответы моделей, но они могут предпочитать более приятные, хоть и не всегда точные ответы.

Культурные вызовы в исследовании ИИ

На конференции CVPR профессор из NYU Сэининг Си критиковал культуру гиперконкуренции в ИИ-исследованиях, где важны быстрые публикации и краткосрочные успехи, а не глубокое понимание. Такая установка влияет и на подходы к оценке ИИ.

Куда движется оценка ИИ

Сегодня нет единой комплексной системы для полной оценки моделей ИИ, особенно в социальных, эмоциональных и междисциплинарных аспектах. Но новые бенчмарки показывают сдвиг в сторону более значимых измерений. Скептицизм и инновации в методах тестирования необходимы по мере развития ИИ.

🇬🇧

Switch Language

Read this article in English

Switch to English