<НА ГЛАВНУЮ

Falcon H1R-7B: Компактная мощь в рассуждениях

Falcon-H1R-7B от TII лидирует в математике и программировании с 7B параметрами.

Обзор Falcon H1R-7B

Институт инновационных технологий (TII), Абу-Даби, выпустил Falcon-H1R-7B — модель рассуждений с 7B параметрами, которая сопоставима или превосходит многие модели от 14B до 47B в математике, кодировании и общих тестах, оставаясь при этом компактной и эффективной. Эта модель основана на Falcon H1 7B Base и доступна на Hugging Face в коллекции Falcon-H1R.

Архитектурные Инновации

Falcon-H1R-7B объединяет три дизайнерских решения: гибридные трансформеры с Mamba2 в основе, поддержку контекста 256k токенов и методику обучения, смешивающую контрольное долгосрочное рассуждение с обучением с подкреплением через GRPO.

Гибридный Трансформер и Архитектура Mamba2

Falcon-H1R-7B использует модель декодера, которая сочетает слои трансформеров и компоненты Mamba2. Блоки трансформеров обеспечивают стандартное внимание, а Mamba2 улучшает линейное моделирование последовательностей и управление памятью для более длинных контекстов.

Протокол Обучения для Задач Рассуждения

Двухступенчатая Тренировочная Пайплайн

  1. Первая стадия: Холодный старт с контролируемой дообученностью на Falcon-H1-7B Base, смешивая долгосрочные рассуждения в трех областях: математике, программировании и науке.
  2. Вторая стадия: Уточнение с GRPO, награждающее правильные цепочки рассуждений с символическими проверками действительных ответов для математики и тестами выполнения для кода.

Производительность по Бенчмаркам

Falcon-H1R-7B устанавливает конкурентные бенчмарки в математике и кодировании.

  • В математике она набрала 73.96%, превосходя более крупные модели, такие как Qwen3-32B.
  • Бенчмарки включают 88.1% на AIME 24 и 68.6% на LiveCodeBench v6.

Оценка Общего Рассуждения

Достигает 49.48% в общем, доказывая, что хорошо оптимизированная модель на 7B может соперничать с более крупными моделями.

Продуктивность Выводов и Эффективность Проверки

С продуктивностью около 1000–1800 токенов в секунду, Falcon-H1R-7B превосходит по масштабируемости времени теста благодаря своей методике Deep Think, достигая высоких точностей на различных бенчмарках, что делает модель чрезвычайно эффективной.

Ключевые Выводы

  • Falcon-H1R-7B работает на 7B параметрах, поддерживая контекст 256k токенов.
  • Двухступенчатая тренировочная пайплайн улучшает возможности в задачах рассуждения.
  • Она демонстрирует сильные результаты в математике и кодировании, противостоя моделям с гораздо большим количеством параметров.
  • Продуктивность вывода значительно улучшена благодаря гибридной архитектуре.
🇬🇧

Switch Language

Read this article in English

Switch to English