Hugging Face представляет SmolLM3: Компактная 3-миллиардная модель для многоязычного рассуждения с длинным контекстом
Hugging Face представила SmolLM3 — многоязычную языковую модель с 3 миллиардами параметров, способную работать с длинными контекстами до 128 тысяч токенов. Она обеспечивает высокую производительность при компактной архитектуре, подходящей для ограниченного оборудования.
SmolLM3: Эффективное рассуждение с длинным контекстом
Hugging Face выпустила SmolLM3 — компактную языковую модель с архитектурой в 3 миллиарда параметров, которая отлично справляется с многоязычными задачами рассуждения на длинных контекстах. В отличие от большинства моделей, требующих более 7 миллиардов параметров для работы с длинными контекстами, SmolLM3 достигает передовых результатов с меньшим количеством параметров, что обеспечивает экономичность и возможность запуска на ограниченном оборудовании.
Обзор модели и варианты
SmolLM3 поддерживает последовательности длиной до 128 000 токенов и была обучена на крупном наборе данных из 11 триллионов токенов. Модель конкурирует с более крупными решениями, такими как Mistral, LLaMA 2 и Falcon, демонстрируя отличные возможности использования инструментов и рассуждений на основе немногих примеров. Доступны две версии:
- SmolLM3-3B-Base: Базовая языковая модель, обученная на всем корпусе из 11 триллионов токенов.
- SmolLM3-3B-Instruct: Вариант с инструкционным дообучением, оптимизированный для рассуждений и использования инструментов.
Обе версии доступны под лицензией Apache 2.0 на Hugging Face Model Hub.
Ключевые особенности
Рассуждение с длинным контекстом
SmolLM3 использует модифицированный механизм внимания, позволяющий эффективно обрабатывать очень длинные контексты — до 128 тысяч токенов. Это критично для задач с большими документами, журналами и структурированными данными, где длина контекста влияет на точность.
Двухрежимное рассуждение
Вариант с инструкционным дообучением поддерживает два режима:
- Следование инструкциям для задач в стиле чата и с использованием инструментов.
- Многоязычные задачи вопрос-ответ и генерация текста на шести языках (английский, французский, испанский, немецкий, итальянский, португальский).
Это обеспечивает универсальность для открытой генерации и структурированных рассуждений.
Многоязычная поддержка
Обученная на многоязычном корпусе, SmolLM3 демонстрирует высокие результаты на различных языках и бенчмарках, таких как XQuAD и MGSM, сохраняя качество с минимальными потерями при переходе между языками.
Компактность при высокой производительности
Несмотря на небольшой размер, SmolLM3 сопоставима с более крупными моделями на 7 миллиардов параметров по многим задачам благодаря масштабному набору данных и оптимизированной архитектуре.
Использование инструментов и структурированные ответы
Модель отлично справляется с задачами вызова инструментов, строго соблюдая схемы входных и выходных данных, что подходит для автономных агентов и систем с API.
Технические детали обучения
Обучение проводилось на внутреннем разнообразном датасете, включающем веб-контент, код, академические работы и многоязычные источники. Обучение осуществлялось на GPU-кластерах с оптимизациями, такими как Flash Attention v2, для эффективной работы с длинными последовательностями. Токенизатор поддерживает до 128 тысяч токенов и основан на SentencePiece, используемом для всех языков.
Для поддержки длинного контекста применены линейные и групповые механизмы внимания, снижающие вычислительную сложность и использование памяти во время обучения и инференса.
Инструкционно настроенный вариант дополнительно обучался с помощью библиотеки trlx для согласования с чат-инструкциями, рассуждениями и демонстрациями использования инструментов.
Результаты на бенчмарках
SmolLM3 показывает конкурентоспособные результаты на:
- XQuAD (многоязычный QA) с высокими баллами во всех языках.
- MGSM (многоязычная школьная математика) превосходит несколько более крупных моделей в zero-shot режиме.
- ToolQA и MultiHopQA демонстрируют многоступенчатое рассуждение и понимание контекста.
- ARC и MMLU показывают высокую точность в областях здравого смысла и профессиональных знаний.
Соотношение производительности к размеру параметров является одним из лучших в своем классе.
Сценарии использования
SmolLM3 идеально подходит для:
- Дешевых многоязычных AI решений в чатботах, службах поддержки и суммаризации документов.
- Легковесных систем с ретривалом (RAG), где важна работа с длинным контекстом.
- Агентов с использованием инструментов, требующих строгого соблюдения схем и детерминированного выполнения.
- Развертывания на периферии и в приватных средах с ограничениями по оборудованию или конфиденциальности.
SmolLM3 от Hugging Face представляет собой важный шаг вперед в создании небольших, но мощных языковых моделей, способных выполнять сложные многоязычные задачи с длинным контекстом.
Switch Language
Read this article in English