Falcon H1R-7B: Компактная мощь в рассуждениях
Falcon-H1R-7B от TII лидирует в математике и программировании с 7B параметрами.
Обзор Falcon H1R-7B
Институт инновационных технологий (TII), Абу-Даби, выпустил Falcon-H1R-7B — модель рассуждений с 7B параметрами, которая сопоставима или превосходит многие модели от 14B до 47B в математике, кодировании и общих тестах, оставаясь при этом компактной и эффективной. Эта модель основана на Falcon H1 7B Base и доступна на Hugging Face в коллекции Falcon-H1R.
Архитектурные Инновации
Falcon-H1R-7B объединяет три дизайнерских решения: гибридные трансформеры с Mamba2 в основе, поддержку контекста 256k токенов и методику обучения, смешивающую контрольное долгосрочное рассуждение с обучением с подкреплением через GRPO.
Гибридный Трансформер и Архитектура Mamba2
Falcon-H1R-7B использует модель декодера, которая сочетает слои трансформеров и компоненты Mamba2. Блоки трансформеров обеспечивают стандартное внимание, а Mamba2 улучшает линейное моделирование последовательностей и управление памятью для более длинных контекстов.
Протокол Обучения для Задач Рассуждения
Двухступенчатая Тренировочная Пайплайн
- Первая стадия: Холодный старт с контролируемой дообученностью на Falcon-H1-7B Base, смешивая долгосрочные рассуждения в трех областях: математике, программировании и науке.
- Вторая стадия: Уточнение с GRPO, награждающее правильные цепочки рассуждений с символическими проверками действительных ответов для математики и тестами выполнения для кода.
Производительность по Бенчмаркам
Falcon-H1R-7B устанавливает конкурентные бенчмарки в математике и кодировании.
- В математике она набрала 73.96%, превосходя более крупные модели, такие как Qwen3-32B.
- Бенчмарки включают 88.1% на AIME 24 и 68.6% на LiveCodeBench v6.
Оценка Общего Рассуждения
Достигает 49.48% в общем, доказывая, что хорошо оптимизированная модель на 7B может соперничать с более крупными моделями.
Продуктивность Выводов и Эффективность Проверки
С продуктивностью около 1000–1800 токенов в секунду, Falcon-H1R-7B превосходит по масштабируемости времени теста благодаря своей методике Deep Think, достигая высоких точностей на различных бенчмарках, что делает модель чрезвычайно эффективной.
Ключевые Выводы
- Falcon-H1R-7B работает на 7B параметрах, поддерживая контекст 256k токенов.
- Двухступенчатая тренировочная пайплайн улучшает возможности в задачах рассуждения.
- Она демонстрирует сильные результаты в математике и кодировании, противостоя моделям с гораздо большим количеством параметров.
- Продуктивность вывода значительно улучшена благодаря гибридной архитектуре.
Switch Language
Read this article in English