Hugging Face представляет SmolLM3: Компактная 3-миллиардная модель для многоязычного рассуждения с длинным контекстом

SmolLM3: Эффективное рассуждение с длинным контекстом

Hugging Face выпустила SmolLM3 — компактную языковую модель с архитектурой в 3 миллиарда параметров, которая отлично справляется с многоязычными задачами рассуждения на длинных контекстах. В отличие от большинства моделей, требующих более 7 миллиардов параметров для работы с длинными контекстами, SmolLM3 достигает передовых результатов с меньшим количеством параметров, что обеспечивает экономичность и возможность запуска на ограниченном оборудовании.

Обзор модели и варианты

SmolLM3 поддерживает последовательности длиной до 128 000 токенов и была обучена на крупном наборе данных из 11 триллионов токенов. Модель конкурирует с более крупными решениями, такими как Mistral, LLaMA 2 и Falcon, демонстрируя отличные возможности использования инструментов и рассуждений на основе немногих примеров. Доступны две версии:

SmolLM3-3B-Base: Базовая языковая модель, обученная на всем корпусе из 11 триллионов токенов.
SmolLM3-3B-Instruct: Вариант с инструкционным дообучением, оптимизированный для рассуждений и использования инструментов.

Обе версии доступны под лицензией Apache 2.0 на Hugging Face Model Hub.

Ключевые особенности

Рассуждение с длинным контекстом

SmolLM3 использует модифицированный механизм внимания, позволяющий эффективно обрабатывать очень длинные контексты — до 128 тысяч токенов. Это критично для задач с большими документами, журналами и структурированными данными, где длина контекста влияет на точность.

Двухрежимное рассуждение

Вариант с инструкционным дообучением поддерживает два режима:

Следование инструкциям для задач в стиле чата и с использованием инструментов.
Многоязычные задачи вопрос-ответ и генерация текста на шести языках (английский, французский, испанский, немецкий, итальянский, португальский).

Это обеспечивает универсальность для открытой генерации и структурированных рассуждений.

Многоязычная поддержка

Обученная на многоязычном корпусе, SmolLM3 демонстрирует высокие результаты на различных языках и бенчмарках, таких как XQuAD и MGSM, сохраняя качество с минимальными потерями при переходе между языками.

Компактность при высокой производительности

Несмотря на небольшой размер, SmolLM3 сопоставима с более крупными моделями на 7 миллиардов параметров по многим задачам благодаря масштабному набору данных и оптимизированной архитектуре.

Использование инструментов и структурированные ответы

Модель отлично справляется с задачами вызова инструментов, строго соблюдая схемы входных и выходных данных, что подходит для автономных агентов и систем с API.

Технические детали обучения

Обучение проводилось на внутреннем разнообразном датасете, включающем веб-контент, код, академические работы и многоязычные источники. Обучение осуществлялось на GPU-кластерах с оптимизациями, такими как Flash Attention v2, для эффективной работы с длинными последовательностями. Токенизатор поддерживает до 128 тысяч токенов и основан на SentencePiece, используемом для всех языков.

Для поддержки длинного контекста применены линейные и групповые механизмы внимания, снижающие вычислительную сложность и использование памяти во время обучения и инференса.

Инструкционно настроенный вариант дополнительно обучался с помощью библиотеки trlx для согласования с чат-инструкциями, рассуждениями и демонстрациями использования инструментов.

Результаты на бенчмарках

SmolLM3 показывает конкурентоспособные результаты на:

XQuAD (многоязычный QA) с высокими баллами во всех языках.
MGSM (многоязычная школьная математика) превосходит несколько более крупных моделей в zero-shot режиме.
ToolQA и MultiHopQA демонстрируют многоступенчатое рассуждение и понимание контекста.
ARC и MMLU показывают высокую точность в областях здравого смысла и профессиональных знаний.

Соотношение производительности к размеру параметров является одним из лучших в своем классе.

Сценарии использования

SmolLM3 идеально подходит для:

Дешевых многоязычных AI решений в чатботах, службах поддержки и суммаризации документов.
Легковесных систем с ретривалом (RAG), где важна работа с длинным контекстом.
Агентов с использованием инструментов, требующих строгого соблюдения схем и детерминированного выполнения.
Развертывания на периферии и в приватных средах с ограничениями по оборудованию или конфиденциальности.

SmolLM3 от Hugging Face представляет собой важный шаг вперед в создании небольших, но мощных языковых моделей, способных выполнять сложные многоязычные задачи с длинным контекстом.