IBM Granite 4.0: гибрид Mamba-2/Transformer снижает потребление памяти без потери качества

Granite 4.0 — это шаг IBM от монолитных Transformer-стеков к гибридной архитектуре Mamba-2/Transformer, цель которой — резко снизить использование памяти при инференсе, сохранив качество модели.

Гибридная архитектура

Granite 4.0 чередует небольшую долю self-attention блоков с большинством слоев состояния Mamba-2 примерно в соотношении 1:9. Такой подход сохраняет преимущества внимания там, где оно важно, и использует слои Mamba-2 для более эффективной обработки дальних зависимостей и состояния при меньших накладных расходах по памяти. По данным IBM, это позволяет сократить использование оперативной памяти более чем на 70% для задач с длинным контекстом и мультисессионным инференсом по сравнению с классическими Transformer-моделями.

Выпущенные варианты и размеры

IBM выпускает базовые и инструктивные варианты по четырем начальным моделям:

Все модели распространяются под лицензией Apache-2.0 и криптографически подписаны. IBM также указывает, что Granite стала первой открытой семейством моделей, покрытым аккредитованной системой управления ИИ по стандарту ISO/IEC 42001:2023. В 2025 году ожидаются варианты, оптимизированные для рассуждений и ‘Thinking’ задач.

Обучение, контекст и форматы весов

Granite 4.0 обучалась на образцах длиной до 512k токенов и тестировалась аж до 128k токенов. Публичные контрольные точки на Hugging Face доступны в формате BF16; IBM также публикует квантованные версии и конверсии в GGUF. FP8 доступен как опция исполнения на поддерживаемом оборудовании, но сам релиз веса в FP8 не распространяется.

Производительность и результаты тестов

IBM подчеркивает сильные стороны в задачах следования инструкциям и использовании инструментов:

Подробности и сводки доступны на странице анонса IBM: https://www.ibm.com/new/announcements/ibm-granite-4-0-hyper-efficient-high-performance-hybrid-models

Доступность и поддержка экосистемы

Granite 4.0 доступна через IBM watsonx.ai и распространяется на платформах Docker Hub, Hugging Face, LM Studio, NVIDIA NIM, Ollama, Replicate, Dell Pro AI Studio/Enterprise Hub, Kaggle и других. IBM ведет работу по интеграции гибридного сервинга с vLLM, llama.cpp, NexaML и MLX.

Наличие BF16 контрольных точек и GGUF конверсий упрощает локальную оценку и тестирование, а подписанные артефакты и покрытие ISO/IEC 42001 снимают вопросы происхождения и соответствия, которые часто тормозят внедрение в корпоративных средах.

Практическое значение

Гибрид Mamba-2/Transformer вместе с MoE на активных параметрах выглядит как прагматичный путь к снижению TCO. Существенное сокращение памяти и улучшенная работа с длинным контекстом позволяют обслуживать те же рабочие нагрузки на меньшем кластере GPU. Для бизнеса это означает более простую производственную интеграцию, особенно в связке с аудитируемыми релизами и широким набором каналов распространения.

Для технических деталей, карточек моделей и скачивания изучите страницу на Hugging Face и технический анонс IBM. Дополнительные материалы и руководства можно найти на GitHub и в сообществах IBM.