Китайская компания представила динамичный набор AI-бенчмарков для тестирования моделей
Китайская компания Hongshan Capital Global представила Xbench — постоянно обновляемый AI-бенчмарк, который оценивает модели на академических и практических задачах. Лидирует ChatGPT o3.
Представление Xbench: новая эра в оценке AI
Китайская венчурная компания Hongshan Capital Global разработала Xbench — уникальный AI-бенчмарк, который постоянно обновляется. В отличие от традиционных тестов, которые проверяют модели на статичных заданиях, Xbench оценивает способность AI не только проходить произвольные тесты, но и выполнять реальные задачи. Такой подход помогает лучше понять, действительно ли модели рассуждают, а не просто воспроизводят данные из обучения.
Открытая часть вопросов и рейтинг моделей
Часть вопросов Xbench стала открытой и доступна для бесплатного использования. Компания также опубликовала рейтинг, сравнивающий популярные AI-модели по результатам тестирования. Лидером во всех категориях стал ChatGPT o3, за ним следуют ByteDance’s Doubao, Gemini 2.5 Pro, Grok и Claude Sonnet.
История создания и методика
Бенчмарк начали разрабатывать в 2022 году после успеха ChatGPT, сначала как внутренний инструмент для оценки перспективных моделей с целью инвестиций. Под руководством партнёра Гун Юаня команда привлекла внешних специалистов и постепенно расширила систему, решив в итоге сделать её общедоступной.
Xbench использует два подхода:
- Традиционный академический тест для оценки знаний в разных областях.
- Оценку на основе реальных задач, похожую на техсобеседование, измеряющую экономическую ценность моделей.
Компоненты оценки интеллекта
Оценка интеллекта включает две части:
-
Xbench-ScienceQA: вопросы на уровне аспирантуры по STEM-дисциплинам — от биохимии до орбитальной механики. Вопросы составляются аспирантами и проверяются профессорами. Оценивается не только правильность ответа, но и логика рассуждений.
-
Xbench-DeepResearch: проверяет умение модели проводить исследование на китайском языке. Десять экспертов создали 100 вопросов по музыке, истории, финансам и литературе, требующих глубокого поиска, а не простого гугления. Оценивается разнообразие источников, достоверность фактов и честность о нехватке данных. Например, вопрос: «Сколько китайских городов в трёх северо-западных провинциях граничат с иностранными странами?» Правильный ответ — 12, и лишь 33% моделей ответили верно.
Планы на будущее и обновления
Команда планирует расширить тест, добавив параметры креативности, сотрудничества между моделями и надёжности. Обещают обновлять вопросы раз в квартал, сохраняя набор данных наполовину открытым.
Оценка реальной готовности моделей
Для проверки практических навыков Xbench использует задачи из реальных рабочих процессов, сначала в рекрутинге и маркетинге. Примеры: подбор пяти квалифицированных инженеров по батареям с обоснованием выбора, подбор рекламодателей для коротких видео среди 800+ инфлюенсеров.
Скоро появятся категории по финансам, юриспруденции, бухгалтерии и дизайну, но вопросы для них пока не открыты.
Результаты тестирования
ChatGPT o3 лидирует в профессиональных категориях. В рекрутинге за ним идут Perplexity Search и Claude 3.5 Sonnet. В маркетинге хорошо выступили Claude, Grok и Gemini.
Мнение экспертов
Зихан Чжэн, ведущий исследователь LiveCodeBench Pro из NYU, отмечает, что трудно количественно оценить некоторые аспекты AI, но считает Xbench многообещающим проектом.
Switch Language
Read this article in English