IBM Представляет Granite 4.0 Tiny: Компактная Открытая Модель для Длинных Контекстов и Инструкций

Знакомьтесь с Granite 4.0 Tiny Preview: Компактная, но Мощная

IBM выпустила превью Granite 4.0 Tiny — самую маленькую модель из семейства Granite 4.0. Модель с лицензией Apache 2.0 создана для эффективной работы с длинными контекстами и задачами, требующими следования инструкциям, сохраняя при этом прозрачность и высокую производительность.

Архитектура: Гибрид MoE и Слои в Стиле Mamba-2

Granite 4.0 Tiny построена на гибридной архитектуре Mixture-of-Experts (MoE) с 7 миллиардами параметров, из которых активируется только 1 миллиард за проход. Такая разреженность снижает вычислительные затраты, что делает модель подходящей для устройств с ограниченными ресурсами и вывода на периферии.

Вариант Base-Preview использует архитектуру только с декодером, дополненную слоями в стиле Mamba-2 — линейной рекуррентной альтернативой традиционным механизмам внимания. Это улучшает масштабируемость по длине входа, поддерживая задачи понимания документов, суммаризации диалогов и сложных вопросов с множеством переходов.

Особенность модели — отсутствие позиционных кодировок (NoPE). Вместо фиксированных или обучаемых встраиваний позиция обрабатывается непосредственно внутри динамики слоев, что улучшает обобщение на разных длинах входных последовательностей и стабильность при генерации длинных текстов.

Производительность на Бенчмарках: Эффективность без Потерь

Несмотря на компактность, Granite 4.0 Tiny показывает значительные улучшения по сравнению с предыдущими моделями Granite. Вариант Base-Preview демонстрирует:

+5.6 на DROP (многошаговое QA)
+3.8 на AGIEval (понимание языка и рассуждения)

Эти результаты обусловлены инновационной архитектурой и масштабным предобучением на 2,5 триллионах токенов из различных областей.

Инструкционно-Тонкая Модель для Диалогов и Многоязычия

Вариант Tiny-Preview (Instruct) развивает базовую модель с помощью контролируемого дообучения и обучения с подкреплением на датасете в стиле Tülu с открытыми и синтетическими диалогами. Модель обрабатывает окна ввода и генерации до 8192 токенов, сохраняя связность на больших взаимодействиях.

В отличие от гибридов энкодер-декодер, архитектура только с декодером обеспечивает более чёткие и прослеживаемые результаты, что важно для корпоративных и критичных с точки зрения безопасности применений.

Оценки на тестах:

86.1 по IFEval (следование инструкциям)
70.05 по GSM8K (решение школьных задач по математике)
82.41 по HumanEval (генерация кода на Python)

Модель поддерживает 12 языков, что делает её пригодной для глобального использования в клиентском сервисе, автоматизации и образовании.

Открытый Код и Экосистема

IBM опубликовала обе модели на Hugging Face с полными весами, конфигурациями и примерами использования под лицензией Apache 2.0. Это стимулирует открытые эксперименты, дообучение и интеграцию в NLP-решения.

Перспективы: Развитие Семейства Granite 4.0

Granite 4.0 Tiny Preview демонстрирует стратегию IBM по созданию эффективных, прозрачных и производительных языковых моделей следующего поколения. Ожидается, что будущие версии расширят функционал и укрепят позицию IBM как лидера в ответственной открытой AI-технологии для бизнеса и науки.

Следите за обновлениями и изучайте технические детали и загрузки на Hugging Face.