IBM Представляет Granite 4.0 Tiny: Компактная Открытая Модель для Длинных Контекстов и Инструкций
IBM выпустила Granite 4.0 Tiny Preview — компактную открытую языковую модель, оптимизированную для задач с длинным контекстом и инструкциями с высокой эффективностью и производительностью.
Знакомьтесь с Granite 4.0 Tiny Preview: Компактная, но Мощная
IBM выпустила превью Granite 4.0 Tiny — самую маленькую модель из семейства Granite 4.0. Модель с лицензией Apache 2.0 создана для эффективной работы с длинными контекстами и задачами, требующими следования инструкциям, сохраняя при этом прозрачность и высокую производительность.
Архитектура: Гибрид MoE и Слои в Стиле Mamba-2
Granite 4.0 Tiny построена на гибридной архитектуре Mixture-of-Experts (MoE) с 7 миллиардами параметров, из которых активируется только 1 миллиард за проход. Такая разреженность снижает вычислительные затраты, что делает модель подходящей для устройств с ограниченными ресурсами и вывода на периферии.
Вариант Base-Preview использует архитектуру только с декодером, дополненную слоями в стиле Mamba-2 — линейной рекуррентной альтернативой традиционным механизмам внимания. Это улучшает масштабируемость по длине входа, поддерживая задачи понимания документов, суммаризации диалогов и сложных вопросов с множеством переходов.
Особенность модели — отсутствие позиционных кодировок (NoPE). Вместо фиксированных или обучаемых встраиваний позиция обрабатывается непосредственно внутри динамики слоев, что улучшает обобщение на разных длинах входных последовательностей и стабильность при генерации длинных текстов.
Производительность на Бенчмарках: Эффективность без Потерь
Несмотря на компактность, Granite 4.0 Tiny показывает значительные улучшения по сравнению с предыдущими моделями Granite. Вариант Base-Preview демонстрирует:
- +5.6 на DROP (многошаговое QA)
- +3.8 на AGIEval (понимание языка и рассуждения)
Эти результаты обусловлены инновационной архитектурой и масштабным предобучением на 2,5 триллионах токенов из различных областей.
Инструкционно-Тонкая Модель для Диалогов и Многоязычия
Вариант Tiny-Preview (Instruct) развивает базовую модель с помощью контролируемого дообучения и обучения с подкреплением на датасете в стиле Tülu с открытыми и синтетическими диалогами. Модель обрабатывает окна ввода и генерации до 8192 токенов, сохраняя связность на больших взаимодействиях.
В отличие от гибридов энкодер-декодер, архитектура только с декодером обеспечивает более чёткие и прослеживаемые результаты, что важно для корпоративных и критичных с точки зрения безопасности применений.
Оценки на тестах:
- 86.1 по IFEval (следование инструкциям)
- 70.05 по GSM8K (решение школьных задач по математике)
- 82.41 по HumanEval (генерация кода на Python)
Модель поддерживает 12 языков, что делает её пригодной для глобального использования в клиентском сервисе, автоматизации и образовании.
Открытый Код и Экосистема
IBM опубликовала обе модели на Hugging Face с полными весами, конфигурациями и примерами использования под лицензией Apache 2.0. Это стимулирует открытые эксперименты, дообучение и интеграцию в NLP-решения.
Перспективы: Развитие Семейства Granite 4.0
Granite 4.0 Tiny Preview демонстрирует стратегию IBM по созданию эффективных, прозрачных и производительных языковых моделей следующего поколения. Ожидается, что будущие версии расширят функционал и укрепят позицию IBM как лидера в ответственной открытой AI-технологии для бизнеса и науки.
Следите за обновлениями и изучайте технические детали и загрузки на Hugging Face.
Switch Language
Read this article in English