ASTRO улучшает способность Llama 3 к рассуждению более чем на 16% с помощью посттренировки
ASTRO — новая методика посттренировки, существенно повышающая способность Llama 3 к рассуждению, используя поисковое мышление и самокоррекцию, с приростом по бенчмаркам до 20%.
Улучшение рассуждений в Llama 3 без изменений архитектуры
Повышение способности больших языковых моделей (LLM) к рассуждению без изменения архитектуры — важная задача. Исследователи из Meta AI и Университета Вашингтона представили ASTRO (Autoregressive Search-Taught Reasoner) — посттренировочную методику, которая усиливает рассуждения в Llama-3.1-70B-Instruct.
Принцип работы ASTRO: цепочки рассуждений с поиском
ASTRO обучает Llama 3 выполнять поиск в контексте, самоанализ и возврат к предыдущим шагам — техники, вдохновленные человеческим решением задач и символическим поиском. Метод начинается с Монте-Карло дерева поиска (MCTS) по путям решения математических задач, включая правильные и ошибочные варианты. Эти деревья поиска преобразуются в длинные цепочки рассуждений (CoT), отражающие ошибки и исправления, которые переписываются на естественном языке для обучения с учителем.
Это позволяет модели не просто решать шаг за шагом, но и переоценивать свои действия, возвращаясь назад при обнаружении ошибок. Например, модель может сказать: «Давайте вернемся к тому месту, где мы составили уравнение», демонстрируя самокоррекцию.
Обучение с учителем с использованием поисковых приоритетов
ASTRO дообучает Llama-3.1-70B-Instruct на 36 100 тщательно подобранных цепочках рассуждений из наборов данных MATH, AMC/AIME и AoPS. Это приводит к значительным улучшениям:
- MATH 500: 69.6%
- AMC 2023: 51.9%
- AIME 2024: 16.3%
Результаты превосходят базовые модели и другие варианты без поисковых приоритетов, показывая, что обучение с учителем на структурированных поисковых данных повышает эффективность рассуждений.
Обучение с подкреплением с учетом поиска
После обучения с учителем ASTRO применяет обучение с подкреплением, инициализируя модель из чекпоинта SFT. Используется модифицированная оптимизация GRPO с проверяемыми наградами (+1 за правильный ответ, -1 за неправильный) на 8700 умеренно сложных задачах. Во время обучения длина цепочек рассуждений увеличивается, что говорит о глубоком внутреннем поиске.
Результаты после RL:
- MATH 500: 81.8%
- AMC 2023: 64.4%
- AIME 2024: 30.0%
Эти показатели сравнимы или превосходят более крупные модели, что подтверждает эффективность метода ASTRO.
Важность возвратов и самокоррекции
Наблюдается сильная положительная корреляция (коэффициент Пирсона > 0.8) между частотой возвратов к предыдущим шагам и улучшением точности. Модель ASTRO-RL все чаще выполняет самокорректирующие действия по мере обучения, что напрямую связано с ростом качества решений.
Сравнительные преимущества и интерпретируемость
Контрольные эксперименты показывают, что ASTRO превосходит модели, обученные на цепочках рассуждений без поисковых приоритетов, с преимуществом от 2% до 3.9% по разным тестам. Выходы ASTRO можно визуализировать в виде ориентированных графов, где узлы — шаги рассуждений, а ребра — переходы и исправления, что улучшает понимание работы модели.
ASTRO демонстрирует, что улучшение рассуждений в LLM достигается не через увеличение размера модели или предобучения, а через продуманные методы посттренировки, имитирующие поисковые алгоритмы на естественном языке. Такой подход устанавливает новый стандарт для дообучения открытых языковых моделей, позволяя им мыслить и исправлять себя как человек.
Для подробностей ознакомьтесь с оригинальной статьей и следите за исследователями в Twitter, а также присоединяйтесь к сообществам ML SubReddit и Newsletter.
Switch Language
Read this article in English