<НА ГЛАВНУЮ

Falcon-H1: прорывная гибридная модель, конкурирующая с гигантами на 70 миллиардов параметров

Falcon-H1 от TII — гибридная модель, объединяющая внимание и модели состояний, достигающая результатов, сопоставимых с ведущими LLM на 70 миллиардов параметров, с оптимизацией эффективности и масштабируемости.

Гибридная архитектура Falcon-H1

Серия Falcon-H1, разработанная Институтом технологических инноваций (TII), представляет новую гибридную архитектуру, объединяющую механизм внимания на базе трансформера и модели состояний (SSM) на базе Mamba. Эти модули работают параллельно, а их выходы конкатенируются перед проекцией. Такой подход отличается от традиционных последовательных интеграций и позволяет независимо настраивать количество каналов внимания и SSM. Стандартное соотношение каналов составляет 2:1:5 для SSM, внимания и MLP соответственно, что оптимизирует эффективность и обучение модели.

Архитектурные инновации и оптимизация

Важные новшества включают оптимальный подбор каналов, конфигурацию блоков и стратегии позиционного кодирования. Увеличение каналов внимания снижало производительность, тогда как сбалансированное распределение между SSM и MLP давало значительный прирост. Конфигурация блоков SA_M, где внимание и SSM работают полупараллельно, а затем следует MLP, показала лучшие результаты по обучающей ошибке и вычислительной эффективности. Также использовалась высокая базовая частота RoPE (10^11) для улучшения обобщения на длинных контекстах. Эксперименты показали, что более глубокие модели превосходят более широкие при одинаковом количестве параметров, что демонстрирует Falcon-H1-1.5B-Deep.

Токенизация и многоязычная поддержка

Falcon-H1 применяет кастомный токенизатор Byte Pair Encoding (BPE) с размером словаря от 32К до 261К токенов. Разделение цифр и пунктуации улучшает работу с кодом и многоязычными текстами. Внедрение LATEX-токенов повышает точность на математических тестах. Токенизатор поддерживает 18 языков и масштабируется до более чем 100, оптимизируя метрики fertility и bytes per token.

Данные для обучения и стратегия

Обучение проводилось на тщательно отобранном корпусе из 20 триллионов токенов, включающем качественные веб-данные (FineWeb), многоязычные наборы данных (Common Crawl, Wikipedia, arXiv, OpenSubtitles и др.), корпус кода на 67 языках с фильтрацией качества и дедупликацией, математические наборы данных (MATH, GSM8K), а также синтетические данные, созданные с помощью различных LLM. Для работы с длинными контекстами использовались методы Fill-in-the-Middle и синтетические задачи рассуждений с длиной до 256К токенов.

Инфраструктура и методы обучения

Обучение использовало максимальную параметризацию обновления (µP) для плавного масштабирования моделей. Использовались передовые стратегии параллелизма, такие как Mixer Parallelism (MP) и Context Parallelism (CP), для повышения пропускной способности при обработке длинных контекстов. Модели Falcon-H1 также выпущены в форматах bfloat16 и 4-битном квантовании для эффективного развертывания на устройствах с ограниченными ресурсами.

Оценка и производительность

Falcon-H1 демонстрирует выдающуюся производительность на параметр. Версия 34B-instruct превосходит или не уступает моделям масштаба 70 миллиардов параметров, таким как Qwen2.5-72B и LLaMA3.3-70B, по задачам рассуждений, математике, следованию инструкциям и многоязычной обработке. Модель 1.5B-Deep конкурирует с моделями 7B–10B, а 0.5B достигает уровня 7B-моделей 2024 года. Тесты включают MMLU, GSM8K, HumanEval и задачи с длинными контекстами, с сильной выравненностью через SFT и DPO.

Итоги

Falcon-H1 устанавливает новый стандарт для открытых больших языковых моделей, сочетая гибридную параллельную архитектуру, продвинутую токенизацию, эффективное обучение и широкие многоязычные возможности. Инновационное использование SSM и внимания обеспечивает непревзойденную производительность в рамках практичных вычислительных и памяти ресурсов, что делает модель подходящей для разнообразных исследовательских и практических применений.

Технический отчет, веса моделей, обучающие материалы и сообщество доступны на Hugging Face и связанных платформах.

🇬🇧

Switch Language

Read this article in English

Switch to English