Китайская компания представила динамичный набор AI-бенчмарков для тестирования моделей

Представление Xbench: новая эра в оценке AI

Китайская венчурная компания Hongshan Capital Global разработала Xbench — уникальный AI-бенчмарк, который постоянно обновляется. В отличие от традиционных тестов, которые проверяют модели на статичных заданиях, Xbench оценивает способность AI не только проходить произвольные тесты, но и выполнять реальные задачи. Такой подход помогает лучше понять, действительно ли модели рассуждают, а не просто воспроизводят данные из обучения.

Открытая часть вопросов и рейтинг моделей

Часть вопросов Xbench стала открытой и доступна для бесплатного использования. Компания также опубликовала рейтинг, сравнивающий популярные AI-модели по результатам тестирования. Лидером во всех категориях стал ChatGPT o3, за ним следуют ByteDance’s Doubao, Gemini 2.5 Pro, Grok и Claude Sonnet.

История создания и методика

Бенчмарк начали разрабатывать в 2022 году после успеха ChatGPT, сначала как внутренний инструмент для оценки перспективных моделей с целью инвестиций. Под руководством партнёра Гун Юаня команда привлекла внешних специалистов и постепенно расширила систему, решив в итоге сделать её общедоступной.

Xbench использует два подхода:

Традиционный академический тест для оценки знаний в разных областях.
Оценку на основе реальных задач, похожую на техсобеседование, измеряющую экономическую ценность моделей.

Компоненты оценки интеллекта

Оценка интеллекта включает две части:

Xbench-ScienceQA: вопросы на уровне аспирантуры по STEM-дисциплинам — от биохимии до орбитальной механики. Вопросы составляются аспирантами и проверяются профессорами. Оценивается не только правильность ответа, но и логика рассуждений.
Xbench-DeepResearch: проверяет умение модели проводить исследование на китайском языке. Десять экспертов создали 100 вопросов по музыке, истории, финансам и литературе, требующих глубокого поиска, а не простого гугления. Оценивается разнообразие источников, достоверность фактов и честность о нехватке данных. Например, вопрос: «Сколько китайских городов в трёх северо-западных провинциях граничат с иностранными странами?» Правильный ответ — 12, и лишь 33% моделей ответили верно.

Планы на будущее и обновления

Команда планирует расширить тест, добавив параметры креативности, сотрудничества между моделями и надёжности. Обещают обновлять вопросы раз в квартал, сохраняя набор данных наполовину открытым.

Оценка реальной готовности моделей

Для проверки практических навыков Xbench использует задачи из реальных рабочих процессов, сначала в рекрутинге и маркетинге. Примеры: подбор пяти квалифицированных инженеров по батареям с обоснованием выбора, подбор рекламодателей для коротких видео среди 800+ инфлюенсеров.

Скоро появятся категории по финансам, юриспруденции, бухгалтерии и дизайну, но вопросы для них пока не открыты.

Результаты тестирования

ChatGPT o3 лидирует в профессиональных категориях. В рекрутинге за ним идут Perplexity Search и Claude 3.5 Sonnet. В маркетинге хорошо выступили Claude, Grok и Gemini.

Мнение экспертов

Зихан Чжэн, ведущий исследователь LiveCodeBench Pro из NYU, отмечает, что трудно количественно оценить некоторые аспекты AI, но считает Xbench многообещающим проектом.