<НА ГЛАВНУЮ

ASTRO улучшает способность Llama 3 к рассуждению более чем на 16% с помощью посттренировки

ASTRO — новая методика посттренировки, существенно повышающая способность Llama 3 к рассуждению, используя поисковое мышление и самокоррекцию, с приростом по бенчмаркам до 20%.

Улучшение рассуждений в Llama 3 без изменений архитектуры

Повышение способности больших языковых моделей (LLM) к рассуждению без изменения архитектуры — важная задача. Исследователи из Meta AI и Университета Вашингтона представили ASTRO (Autoregressive Search-Taught Reasoner) — посттренировочную методику, которая усиливает рассуждения в Llama-3.1-70B-Instruct.

Принцип работы ASTRO: цепочки рассуждений с поиском

ASTRO обучает Llama 3 выполнять поиск в контексте, самоанализ и возврат к предыдущим шагам — техники, вдохновленные человеческим решением задач и символическим поиском. Метод начинается с Монте-Карло дерева поиска (MCTS) по путям решения математических задач, включая правильные и ошибочные варианты. Эти деревья поиска преобразуются в длинные цепочки рассуждений (CoT), отражающие ошибки и исправления, которые переписываются на естественном языке для обучения с учителем.

Это позволяет модели не просто решать шаг за шагом, но и переоценивать свои действия, возвращаясь назад при обнаружении ошибок. Например, модель может сказать: «Давайте вернемся к тому месту, где мы составили уравнение», демонстрируя самокоррекцию.

Обучение с учителем с использованием поисковых приоритетов

ASTRO дообучает Llama-3.1-70B-Instruct на 36 100 тщательно подобранных цепочках рассуждений из наборов данных MATH, AMC/AIME и AoPS. Это приводит к значительным улучшениям:

  • MATH 500: 69.6%
  • AMC 2023: 51.9%
  • AIME 2024: 16.3%

Результаты превосходят базовые модели и другие варианты без поисковых приоритетов, показывая, что обучение с учителем на структурированных поисковых данных повышает эффективность рассуждений.

Обучение с подкреплением с учетом поиска

После обучения с учителем ASTRO применяет обучение с подкреплением, инициализируя модель из чекпоинта SFT. Используется модифицированная оптимизация GRPO с проверяемыми наградами (+1 за правильный ответ, -1 за неправильный) на 8700 умеренно сложных задачах. Во время обучения длина цепочек рассуждений увеличивается, что говорит о глубоком внутреннем поиске.

Результаты после RL:

  • MATH 500: 81.8%
  • AMC 2023: 64.4%
  • AIME 2024: 30.0%

Эти показатели сравнимы или превосходят более крупные модели, что подтверждает эффективность метода ASTRO.

Важность возвратов и самокоррекции

Наблюдается сильная положительная корреляция (коэффициент Пирсона > 0.8) между частотой возвратов к предыдущим шагам и улучшением точности. Модель ASTRO-RL все чаще выполняет самокорректирующие действия по мере обучения, что напрямую связано с ростом качества решений.

Сравнительные преимущества и интерпретируемость

Контрольные эксперименты показывают, что ASTRO превосходит модели, обученные на цепочках рассуждений без поисковых приоритетов, с преимуществом от 2% до 3.9% по разным тестам. Выходы ASTRO можно визуализировать в виде ориентированных графов, где узлы — шаги рассуждений, а ребра — переходы и исправления, что улучшает понимание работы модели.

ASTRO демонстрирует, что улучшение рассуждений в LLM достигается не через увеличение размера модели или предобучения, а через продуманные методы посттренировки, имитирующие поисковые алгоритмы на естественном языке. Такой подход устанавливает новый стандарт для дообучения открытых языковых моделей, позволяя им мыслить и исправлять себя как человек.

Для подробностей ознакомьтесь с оригинальной статьей и следите за исследователями в Twitter, а также присоединяйтесь к сообществам ML SubReddit и Newsletter.

🇬🇧

Switch Language

Read this article in English

Switch to English