Falcon H1R-7B: Компактная мощь в рассуждениях

Обзор Falcon H1R-7B

Институт инновационных технологий (TII), Абу-Даби, выпустил Falcon-H1R-7B — модель рассуждений с 7B параметрами, которая сопоставима или превосходит многие модели от 14B до 47B в математике, кодировании и общих тестах, оставаясь при этом компактной и эффективной. Эта модель основана на Falcon H1 7B Base и доступна на Hugging Face в коллекции Falcon-H1R.

Архитектурные Инновации

Falcon-H1R-7B объединяет три дизайнерских решения: гибридные трансформеры с Mamba2 в основе, поддержку контекста 256k токенов и методику обучения, смешивающую контрольное долгосрочное рассуждение с обучением с подкреплением через GRPO.

Гибридный Трансформер и Архитектура Mamba2

Falcon-H1R-7B использует модель декодера, которая сочетает слои трансформеров и компоненты Mamba2. Блоки трансформеров обеспечивают стандартное внимание, а Mamba2 улучшает линейное моделирование последовательностей и управление памятью для более длинных контекстов.

Протокол Обучения для Задач Рассуждения

Двухступенчатая Тренировочная Пайплайн

Первая стадия: Холодный старт с контролируемой дообученностью на Falcon-H1-7B Base, смешивая долгосрочные рассуждения в трех областях: математике, программировании и науке.
Вторая стадия: Уточнение с GRPO, награждающее правильные цепочки рассуждений с символическими проверками действительных ответов для математики и тестами выполнения для кода.

Производительность по Бенчмаркам

Falcon-H1R-7B устанавливает конкурентные бенчмарки в математике и кодировании.

В математике она набрала 73.96%, превосходя более крупные модели, такие как Qwen3-32B.
Бенчмарки включают 88.1% на AIME 24 и 68.6% на LiveCodeBench v6.

Оценка Общего Рассуждения

Достигает 49.48% в общем, доказывая, что хорошо оптимизированная модель на 7B может соперничать с более крупными моделями.

Продуктивность Выводов и Эффективность Проверки

С продуктивностью около 1000–1800 токенов в секунду, Falcon-H1R-7B превосходит по масштабируемости времени теста благодаря своей методике Deep Think, достигая высоких точностей на различных бенчмарках, что делает модель чрезвычайно эффективной.

Ключевые Выводы

Falcon-H1R-7B работает на 7B параметрах, поддерживая контекст 256k токенов.
Двухступенчатая тренировочная пайплайн улучшает возможности в задачах рассуждения.
Она демонстрирует сильные результаты в математике и кодировании, противостоя моделям с гораздо большим количеством параметров.
Продуктивность вывода значительно улучшена благодаря гибридной архитектуре.