<НА ГЛАВНУЮ

DeepSeek R1T2 Chimera: революция в LLM с ускорением на 200% и улучшенным выводом

DeepSeek-TNG представила R1T2 Chimera — новую Assembly-of-Experts LLM модель, которая работает вдвое быстрее R1-0528 и улучшает рассуждения, доступна под лицензией MIT.

Представляем DeepSeek-TNG R1T2 Chimera

Компания TNG Technology Consulting выпустила DeepSeek-TNG R1T2 Chimera — инновационную модель Assembly-of-Experts (AoE), которая объединяет три мощных родительских модели: R1-0528, R1 и V3-0324. Этот подход демонстрирует, как интерполяция экспертных слоев может повысить эффективность больших языковых моделей (LLM).

Assembly-of-Experts: новый подход к эффективному созданию моделей

Традиционное обучение и дообучение LLM требуют огромных вычислительных ресурсов. Метод AoE от TNG решает эту проблему, объединяя модели Mixture-of-Experts (MoE) на уровне весовых тензоров без дополнительного обучения. Это позволяет создавать новые модели за линейное время, наследуя возможности нескольких родителей. Архитектура R1T2 сочетает экспертные тензоры из R1 с базой V3-0324 и выборочно интегрирует улучшения из R1-0528, оптимизируя баланс между скоростью вывода и качеством рассуждений.

Прирост производительности и интеллектуальные компромиссы

По результатам тестов, R1T2 работает более чем на 20% быстрее, чем R1, и вдвое быстрее R1-0528. Эти улучшения достигаются за счет сокращения длины выходных токенов и целенаправленной интеграции экспертных тензоров. Несмотря на небольшое отставание от R1-0528 в чистом интеллекте, R1T2 значительно превосходит R1 в сложных тестах, таких как GPQA Diamond и AIME-2024/2025.

Модель сохраняет важные следы рассуждений, которые проявляются только при превышении определенного порога вклада R1, обеспечивая надежное поэтапное мышление — ключевой аспект для сложных задач.

Эмерджентные свойства в пространстве параметров

Исследование, сопровождающее R1T2, подтверждает, что объединение моделей позволяет создавать жизнеспособные варианты по всему спектру интерполяции. Интеллект изменяется постепенно, а поведенческие маркеры, такие как последовательное использование токенов рассуждений, возникают внезапно при весе R1 около 50%. Это указывает на то, что некоторые свойства сосредоточены в отдельных подпространствах весов LLM.

Объединяя только маршрутизированные экспертные тензоры и сохраняя другие компоненты — например, механизмы внимания и общие MLP из V3-0324, — R1T2 достигает высокого уровня рассуждений при минимальной многословности. Это создает эффект "think-token consistency", когда рассуждения точны и лаконичны.

Отзывы сообщества Reddit

Сообщество Reddit LocalLLaMA поделилось первыми положительными впечатлениями о R1T2. Пользователи отмечают отзывчивость модели, эффективность использования токенов и баланс скорости с когерентностью. Один из участников написал: «Впервые модель Chimera действительно ощущается как улучшение и в скорости, и в качестве». Другие отметили лучшее поведение в задачах с математическим уклоном по сравнению с предыдущими версиями R1.

Некоторые также заметили более устойчивую и реальную манеру поведения R1T2, которая реже генерирует ошибки (галлюцинации) по сравнению с моделями на базе R1 или V3. Такие свойства особенно важны для разработчиков, нуждающихся в стабильных LLM для промышленного использования.

Открытость и перспективы

R1T2 доступна под лицензией MIT на Hugging Face как DeepSeek-TNG R1T2 Chimera. Выпуск стимулирует эксперименты сообщества, включая дообучение и обучение с подкреплением. Внутренние системы TNG на серверless-платформе обрабатывают почти 5 миллиардов токенов ежедневно.

DeepSeek-TNG R1T2 Chimera демонстрирует, как Assembly-of-Experts позволяет создавать мощные и эффективные LLM без градиентного обучения. Объединив сильные стороны R1 в рассуждениях, эффективный токен-дизайн V3-0324 и улучшения из R1-0528, R1T2 задает новый стандарт сбалансированных моделей.

Успешное объединение моделей на масштабе 671 миллиарда параметров делает R1T2 примером для будущих исследований в области интерполяции параметров, открывая путь к модульной и более интерпретируемой разработке LLM.

Больше информации — в научной статье и на Hugging Face. Следите за проектом в Twitter, присоединяйтесь к ML SubReddit с 100k+ участниками и подписывайтесь на рассылку.

🇬🇧

Switch Language

Read this article in English

Switch to English