DeepSeek R1T2 Chimera: революция в LLM с ускорением на 200% и улучшенным выводом
DeepSeek-TNG представила R1T2 Chimera — новую Assembly-of-Experts LLM модель, которая работает вдвое быстрее R1-0528 и улучшает рассуждения, доступна под лицензией MIT.
Представляем DeepSeek-TNG R1T2 Chimera
Компания TNG Technology Consulting выпустила DeepSeek-TNG R1T2 Chimera — инновационную модель Assembly-of-Experts (AoE), которая объединяет три мощных родительских модели: R1-0528, R1 и V3-0324. Этот подход демонстрирует, как интерполяция экспертных слоев может повысить эффективность больших языковых моделей (LLM).
Assembly-of-Experts: новый подход к эффективному созданию моделей
Традиционное обучение и дообучение LLM требуют огромных вычислительных ресурсов. Метод AoE от TNG решает эту проблему, объединяя модели Mixture-of-Experts (MoE) на уровне весовых тензоров без дополнительного обучения. Это позволяет создавать новые модели за линейное время, наследуя возможности нескольких родителей. Архитектура R1T2 сочетает экспертные тензоры из R1 с базой V3-0324 и выборочно интегрирует улучшения из R1-0528, оптимизируя баланс между скоростью вывода и качеством рассуждений.
Прирост производительности и интеллектуальные компромиссы
По результатам тестов, R1T2 работает более чем на 20% быстрее, чем R1, и вдвое быстрее R1-0528. Эти улучшения достигаются за счет сокращения длины выходных токенов и целенаправленной интеграции экспертных тензоров. Несмотря на небольшое отставание от R1-0528 в чистом интеллекте, R1T2 значительно превосходит R1 в сложных тестах, таких как GPQA Diamond и AIME-2024/2025.
Модель сохраняет важные следы рассуждений, которые проявляются только при превышении определенного порога вклада R1, обеспечивая надежное поэтапное мышление — ключевой аспект для сложных задач.
Эмерджентные свойства в пространстве параметров
Исследование, сопровождающее R1T2, подтверждает, что объединение моделей позволяет создавать жизнеспособные варианты по всему спектру интерполяции. Интеллект изменяется постепенно, а поведенческие маркеры, такие как последовательное использование токенов рассуждений, возникают внезапно при весе R1 около 50%. Это указывает на то, что некоторые свойства сосредоточены в отдельных подпространствах весов LLM.
Объединяя только маршрутизированные экспертные тензоры и сохраняя другие компоненты — например, механизмы внимания и общие MLP из V3-0324, — R1T2 достигает высокого уровня рассуждений при минимальной многословности. Это создает эффект "think-token consistency", когда рассуждения точны и лаконичны.
Отзывы сообщества Reddit
Сообщество Reddit LocalLLaMA поделилось первыми положительными впечатлениями о R1T2. Пользователи отмечают отзывчивость модели, эффективность использования токенов и баланс скорости с когерентностью. Один из участников написал: «Впервые модель Chimera действительно ощущается как улучшение и в скорости, и в качестве». Другие отметили лучшее поведение в задачах с математическим уклоном по сравнению с предыдущими версиями R1.
Некоторые также заметили более устойчивую и реальную манеру поведения R1T2, которая реже генерирует ошибки (галлюцинации) по сравнению с моделями на базе R1 или V3. Такие свойства особенно важны для разработчиков, нуждающихся в стабильных LLM для промышленного использования.
Открытость и перспективы
R1T2 доступна под лицензией MIT на Hugging Face как DeepSeek-TNG R1T2 Chimera. Выпуск стимулирует эксперименты сообщества, включая дообучение и обучение с подкреплением. Внутренние системы TNG на серверless-платформе обрабатывают почти 5 миллиардов токенов ежедневно.
DeepSeek-TNG R1T2 Chimera демонстрирует, как Assembly-of-Experts позволяет создавать мощные и эффективные LLM без градиентного обучения. Объединив сильные стороны R1 в рассуждениях, эффективный токен-дизайн V3-0324 и улучшения из R1-0528, R1T2 задает новый стандарт сбалансированных моделей.
Успешное объединение моделей на масштабе 671 миллиарда параметров делает R1T2 примером для будущих исследований в области интерполяции параметров, открывая путь к модульной и более интерпретируемой разработке LLM.
Больше информации — в научной статье и на Hugging Face. Следите за проектом в Twitter, присоединяйтесь к ML SubReddit с 100k+ участниками и подписывайтесь на рассылку.
Switch Language
Read this article in English