PrimeIntellect Представляет INTELLECT-2: 32-Миллиардная Модель для Рассуждений с Децентрализованным Асинхронным Обучением

Проблемы Централизованного Обучения Больших Языковых Моделей

С ростом параметров и сложности рассуждений традиционные централизованные методы обучения сталкиваются с серьёзными ограничениями. Такие методы зависят от тесно связанных вычислительных кластеров с высокоскоростными соединениями, которые дороги, доступны в ограниченном количестве и имеют проблемы с масштабируемостью. Централизованные архитектуры также ограничивают возможности для сотрудничества, особенно в условиях открытых исследований. Децентрализованные подходы к обучению позволяют расширить участие и сделать процесс более устойчивым к сбоям.

INTELLECT-2: Открытый и Децентрализованный

PrimeIntellect выпустил INTELLECT-2 — модель для рассуждений с 32 миллиардами параметров, обученную с помощью Generalized Reinforcement Policy Optimization (GRPO) в полностью децентрализованной асинхронной среде обучения с подкреплением. Модель лицензирована по Apache 2.0 и включает веса модели, полный исходный код и логи обучения. INTELLECT-2 превосходит по производительности предыдущую лидирующую модель QwQ-32B на ключевых тестах рассуждения, поддерживая воспроизводимость и развитие исследований.

Инновационная Архитектура для Распределённого Обучения

INTELLECT-2 построен на новой архитектуре, разработанной специально для распределённых систем, включающей три основных компонента:

PRIME-RL: Асинхронный движок обучения с подкреплением, разделяющий этапы генерации роллаутов, обучения и распространения параметров. Это устраняет необходимость в синхронных обновлениях и позволяет работать в условиях нестабильных сетей.
SHARDCAST: HTTP-протокол с топологией дерева, обеспечивающий быструю передачу весов модели между распределёнными рабочими узлами без специальной инфраструктуры.
TOPLOC: Механизм проверки на основе локально-чувствительного хеширования для обнаружения изменений в выводах модели, что важно для сохранения целостности в распределённых и потенциально неоднородных аппаратных средах.

Такая архитектура позволяет обучать INTELLECT-2 на гетерогенных системах с минимальными накладными расходами на координацию, сохраняя качество модели и согласованность выводов.

Данные, Методика Обучения и Результаты

В пост-обучении использовалось около 285 000 проверяемых задач, сосредоточенных на рассуждениях, программировании и математических вычислениях. Источники данных включали NuminaMath-1.5, Deepscaler и SYNTHETIC-1. Модель дополнительно обучалась с помощью асинхронного GRPO.

Применялась двухфазная стратегия обучения: новые веса политики транслировались, пока существующие потоки роллаутов и обучения оставались активными, что минимизировало простаивание. Для повышения стабильности использовалась двусторонняя обрезка коэффициентов вероятности токенов, уменьшая дисперсию больших обновлений.

Для выбора качественных демонстраций применялись эвристики и автоматические фильтры, а также была создана специализированная модель вознаграждения для ранжирования результатов. Цикл обучения с подкреплением отдавал предпочтение выводам с более продуманной структурой рассуждений, что приводило к заметным улучшениям по сравнению с базовыми моделями.

INTELLECT-2 превосходит QwQ-32B по ряду тестов, ориентированных на рассуждения, особенно в задачах по математике и программированию. Асинхронное дообучение GRPO и специально подобранная модель вознаграждения обеспечивают более структурированные и проверяемые результаты, демонстрируя, что децентрализованное пост-обучение может конкурировать с традиционными методами RLHF, предлагая при этом большую гибкость и масштабируемость.

Значение и Перспективы

INTELLECT-2 — важный шаг к децентрализации обучения больших моделей. Успешное пост-обучение 32-миллиардной модели с использованием распределённого асинхронного обучения с подкреплением демонстрирует практичную и расширяемую альтернативу централизованным RLHF-пайплайнам. Модульная архитектура — PRIME-RL, SHARDCAST и TOPLOC — решает основные задачи масштабируемости, эффективности коммуникаций и проверки выводов.

С ростом интереса к открытому и децентрализованному развитию ИИ, INTELLECT-2 служит воспроизводимым эталоном и платформой для дальнейших экспериментов в области распределённого обучения моделей.