«Абсолютный ноль» от Университета Цинхуа: обучение ИИ без внешних данных

Развитие возможностей рассуждения в больших языковых моделях

Большие языковые модели (LLM) повысили свои способности к рассуждению благодаря обучению с подкреплением с проверяемыми наградами (RLVR), которое ориентируется на обратную связь по результатам, а не на подражание промежуточным шагам рассуждения. Однако существующие методы RLVR сталкиваются с проблемами масштабируемости из-за зависимости от вручную собранных наборов вопросов и ответов. По мере развития моделей создание больших качественных датасетов становится неустойчивым и может ограничивать автономное обучение ИИ.

Эволюция самообучающихся моделей

Созданы различные подходы для улучшения рассуждений LLM. Метод STaR внедрил самоинициируемое обучение с экспертной итерацией и проверенными ответами. Модель o1 масштабировала эту идею, достигнув лучших результатов, после чего R1 применил RL напрямую к базовым LLM. Парадигмы самоигры развились от ранних систем из двух агентов, как у Шмидхубера, к сложным решениям вроде AlphaGo и AlphaZero. Современные модели SPIN, Self-Rewarding Language Models, SPC и SPAG используют самоигру для повышения согласованности и рассуждений.

Введение в Absolute Zero и AZR

Исследователи из Университета Цинхуа, Пекинского института общего искусственного интеллекта и Университета штата Пенсильвания предложили парадигму Absolute Zero, позволяющую модели самостоятельно генерировать и решать задачи, максимально улучшая обучение без внешних данных. Absolute Zero Reasoner (AZR) самостоятельно развивает учебный план и рассуждения через кодовый исполнитель, который проверяет сгенерированные задачи и ответы, обеспечивая единый источник проверяемой награды для обоснованного обучения. AZR эффективно работает на моделях разных масштабов и типов.

Механизм обучения AZR

В условиях многозадачного обучения AZR генерирует новые задачи на основе предыдущих примеров, решает их и получает обратную связь через кодовый исполнитель, который создает, выполняет и проверяет кодовые задачи. Алгоритм AZR включает инициализацию буфера, управление вводом и предложением задач, построение валидных задач, проверку решений и оценку преимущества с помощью Task-Relative REINFORCE++.

Производительность и масштабируемость

Модель Absolute Zero Reasoner-Coder-7B достигла лучших результатов по общему и кодовому среднему, превзойдя предыдущие модели на 1,8% несмотря на отсутствие доступа к внешним данным. Она превосходит модели, обученные на данных экспертов, в кодировании на 0,3%. Более крупные модели (7B и 14B) продолжают улучшаться после 200 этапов обучения, а прирост производительности вне распределения увеличивается с ростом модели (+5,7%, +10,2%, +13,2% для 3B, 7B и 14B соответственно).

Безопасность и перспективы

Хотя Absolute Zero снижает потребность в человеко-курируемых датасетах, вопросы безопасности остаются актуальными. Команда зафиксировала "ух-ух моменты" — проблемы с безопасностью в цепочках рассуждений у модели Llama-3.1-8B. Необходим постоянный контроль для управления этими рисками, что становится важным направлением для будущих исследований.

Подробнее можно ознакомиться с публикацией, моделью на Hugging Face и страницей GitHub. Следите за обновлениями в Twitter.