PrimeIntellect Представляет INTELLECT-2: 32-Миллиардная Модель для Рассуждений с Децентрализованным Асинхронным Обучением
PrimeIntellect представил INTELLECT-2 — 32-миллиардную модель для рассуждений, обученную с помощью децентрализованного асинхронного обучения с подкреплением, которая превосходит предыдущие модели и доступна с открытым исходным кодом.
Проблемы Централизованного Обучения Больших Языковых Моделей
С ростом параметров и сложности рассуждений традиционные централизованные методы обучения сталкиваются с серьёзными ограничениями. Такие методы зависят от тесно связанных вычислительных кластеров с высокоскоростными соединениями, которые дороги, доступны в ограниченном количестве и имеют проблемы с масштабируемостью. Централизованные архитектуры также ограничивают возможности для сотрудничества, особенно в условиях открытых исследований. Децентрализованные подходы к обучению позволяют расширить участие и сделать процесс более устойчивым к сбоям.
INTELLECT-2: Открытый и Децентрализованный
PrimeIntellect выпустил INTELLECT-2 — модель для рассуждений с 32 миллиардами параметров, обученную с помощью Generalized Reinforcement Policy Optimization (GRPO) в полностью децентрализованной асинхронной среде обучения с подкреплением. Модель лицензирована по Apache 2.0 и включает веса модели, полный исходный код и логи обучения. INTELLECT-2 превосходит по производительности предыдущую лидирующую модель QwQ-32B на ключевых тестах рассуждения, поддерживая воспроизводимость и развитие исследований.
Инновационная Архитектура для Распределённого Обучения
INTELLECT-2 построен на новой архитектуре, разработанной специально для распределённых систем, включающей три основных компонента:
- PRIME-RL: Асинхронный движок обучения с подкреплением, разделяющий этапы генерации роллаутов, обучения и распространения параметров. Это устраняет необходимость в синхронных обновлениях и позволяет работать в условиях нестабильных сетей.
- SHARDCAST: HTTP-протокол с топологией дерева, обеспечивающий быструю передачу весов модели между распределёнными рабочими узлами без специальной инфраструктуры.
- TOPLOC: Механизм проверки на основе локально-чувствительного хеширования для обнаружения изменений в выводах модели, что важно для сохранения целостности в распределённых и потенциально неоднородных аппаратных средах.
Такая архитектура позволяет обучать INTELLECT-2 на гетерогенных системах с минимальными накладными расходами на координацию, сохраняя качество модели и согласованность выводов.
Данные, Методика Обучения и Результаты
В пост-обучении использовалось около 285 000 проверяемых задач, сосредоточенных на рассуждениях, программировании и математических вычислениях. Источники данных включали NuminaMath-1.5, Deepscaler и SYNTHETIC-1. Модель дополнительно обучалась с помощью асинхронного GRPO.
Применялась двухфазная стратегия обучения: новые веса политики транслировались, пока существующие потоки роллаутов и обучения оставались активными, что минимизировало простаивание. Для повышения стабильности использовалась двусторонняя обрезка коэффициентов вероятности токенов, уменьшая дисперсию больших обновлений.
Для выбора качественных демонстраций применялись эвристики и автоматические фильтры, а также была создана специализированная модель вознаграждения для ранжирования результатов. Цикл обучения с подкреплением отдавал предпочтение выводам с более продуманной структурой рассуждений, что приводило к заметным улучшениям по сравнению с базовыми моделями.
INTELLECT-2 превосходит QwQ-32B по ряду тестов, ориентированных на рассуждения, особенно в задачах по математике и программированию. Асинхронное дообучение GRPO и специально подобранная модель вознаграждения обеспечивают более структурированные и проверяемые результаты, демонстрируя, что децентрализованное пост-обучение может конкурировать с традиционными методами RLHF, предлагая при этом большую гибкость и масштабируемость.
Значение и Перспективы
INTELLECT-2 — важный шаг к децентрализации обучения больших моделей. Успешное пост-обучение 32-миллиардной модели с использованием распределённого асинхронного обучения с подкреплением демонстрирует практичную и расширяемую альтернативу централизованным RLHF-пайплайнам. Модульная архитектура — PRIME-RL, SHARDCAST и TOPLOC — решает основные задачи масштабируемости, эффективности коммуникаций и проверки выводов.
С ростом интереса к открытому и децентрализованному развитию ИИ, INTELLECT-2 служит воспроизводимым эталоном и платформой для дальнейших экспериментов в области распределённого обучения моделей.
Подробнее о проекте можно узнать в публикации, на Hugging Face и в официальном релизе. Следите за исследователями в Twitter и присоединяйтесь к сообществу ML SubReddit с более чем 90 тысячами участников.
Switch Language
Read this article in English