Falcon-H1: прорывная гибридная модель, конкурирующая с гигантами на 70 миллиардов параметров
Falcon-H1 от TII — гибридная модель, объединяющая внимание и модели состояний, достигающая результатов, сопоставимых с ведущими LLM на 70 миллиардов параметров, с оптимизацией эффективности и масштабируемости.
Гибридная архитектура Falcon-H1
Серия Falcon-H1, разработанная Институтом технологических инноваций (TII), представляет новую гибридную архитектуру, объединяющую механизм внимания на базе трансформера и модели состояний (SSM) на базе Mamba. Эти модули работают параллельно, а их выходы конкатенируются перед проекцией. Такой подход отличается от традиционных последовательных интеграций и позволяет независимо настраивать количество каналов внимания и SSM. Стандартное соотношение каналов составляет 2:1:5 для SSM, внимания и MLP соответственно, что оптимизирует эффективность и обучение модели.
Архитектурные инновации и оптимизация
Важные новшества включают оптимальный подбор каналов, конфигурацию блоков и стратегии позиционного кодирования. Увеличение каналов внимания снижало производительность, тогда как сбалансированное распределение между SSM и MLP давало значительный прирост. Конфигурация блоков SA_M, где внимание и SSM работают полупараллельно, а затем следует MLP, показала лучшие результаты по обучающей ошибке и вычислительной эффективности. Также использовалась высокая базовая частота RoPE (10^11) для улучшения обобщения на длинных контекстах. Эксперименты показали, что более глубокие модели превосходят более широкие при одинаковом количестве параметров, что демонстрирует Falcon-H1-1.5B-Deep.
Токенизация и многоязычная поддержка
Falcon-H1 применяет кастомный токенизатор Byte Pair Encoding (BPE) с размером словаря от 32К до 261К токенов. Разделение цифр и пунктуации улучшает работу с кодом и многоязычными текстами. Внедрение LATEX-токенов повышает точность на математических тестах. Токенизатор поддерживает 18 языков и масштабируется до более чем 100, оптимизируя метрики fertility и bytes per token.
Данные для обучения и стратегия
Обучение проводилось на тщательно отобранном корпусе из 20 триллионов токенов, включающем качественные веб-данные (FineWeb), многоязычные наборы данных (Common Crawl, Wikipedia, arXiv, OpenSubtitles и др.), корпус кода на 67 языках с фильтрацией качества и дедупликацией, математические наборы данных (MATH, GSM8K), а также синтетические данные, созданные с помощью различных LLM. Для работы с длинными контекстами использовались методы Fill-in-the-Middle и синтетические задачи рассуждений с длиной до 256К токенов.
Инфраструктура и методы обучения
Обучение использовало максимальную параметризацию обновления (µP) для плавного масштабирования моделей. Использовались передовые стратегии параллелизма, такие как Mixer Parallelism (MP) и Context Parallelism (CP), для повышения пропускной способности при обработке длинных контекстов. Модели Falcon-H1 также выпущены в форматах bfloat16 и 4-битном квантовании для эффективного развертывания на устройствах с ограниченными ресурсами.
Оценка и производительность
Falcon-H1 демонстрирует выдающуюся производительность на параметр. Версия 34B-instruct превосходит или не уступает моделям масштаба 70 миллиардов параметров, таким как Qwen2.5-72B и LLaMA3.3-70B, по задачам рассуждений, математике, следованию инструкциям и многоязычной обработке. Модель 1.5B-Deep конкурирует с моделями 7B–10B, а 0.5B достигает уровня 7B-моделей 2024 года. Тесты включают MMLU, GSM8K, HumanEval и задачи с длинными контекстами, с сильной выравненностью через SFT и DPO.
Итоги
Falcon-H1 устанавливает новый стандарт для открытых больших языковых моделей, сочетая гибридную параллельную архитектуру, продвинутую токенизацию, эффективное обучение и широкие многоязычные возможности. Инновационное использование SSM и внимания обеспечивает непревзойденную производительность в рамках практичных вычислительных и памяти ресурсов, что делает модель подходящей для разнообразных исследовательских и практических применений.
Технический отчет, веса моделей, обучающие материалы и сообщество доступны на Hugging Face и связанных платформах.
Switch Language
Read this article in English