SmallThinker: Прорывные эффективные LLM, разработанные для локальных устройств

Переосмысление языковых моделей для локального использования

Традиционные большие языковые модели (LLM) создаются для работы в облачных дата-центрах, что делает их неудобными для запуска на локальных устройствах, таких как ноутбуки, смартфоны или встроенные системы. SmallThinker ломает этот стереотип, будучи спроектированными с нуля для эффективной работы в условиях ограничений локального железа.

Инновационная архитектура для эффективности

SmallThinker использует тонко гранулированную архитектуру Mixture-of-Experts (MoE), при которой для каждого токена активируется лишь небольшой набор экспертов, что значительно снижает требования к памяти и вычислительным ресурсам. Основные варианты:

SmallThinker-4B-A0.6B: всего 4 миллиарда параметров, активны 600 миллионов на токен.
SmallThinker-21B-A3B: всего 21 миллиард параметров, активны 3 миллиарда на токен.

Такой подход сохраняет высокую емкость моделей при низком потреблении ресурсов.

Дополнительные архитектурные новшества:

Разреженность с ReGLU в feed-forward слоях: более 60% нейронов неактивны внутри активированных экспертов, уменьшая вычислительные затраты.
Гибридное внимание NoPE-RoPE: чередование глобальных слоев без позиционного эмбеддинга (NoPE) и локальных RoPE слоев с скользящим окном для поддержки длинного контекста (до 32K токенов для 4B и 16K для 21B) при уменьшенном размере кеша.
Предварительный маршрутизатор внимания и интеллектуальный оффлоадинг: предсказание необходимых экспертов перед каждым шагом внимания и предварительная подкачка их параметров с SSD/флэш-накопителей, кэширование горячих экспертов в ОЗУ для скрытия задержек ввода-вывода и максимизации пропускной способности.

Методика обучения

Модели SmallThinker обучались с нуля на масштабных наборах данных:

Вариант 4B — 2.5 триллиона токенов.
Вариант 21B — 7.2 триллиона токенов.

Данные включают отобранные открытые коллекции, синтетические наборы по математике и программированию, а также корпуса с инструкциями и подсказками, ориентированные на STEM, математику и кодирование.

Результаты тестирования

Академические задачи: SmallThinker-21B-A3B сопоставим или превосходит модели с аналогичным числом параметров в тестах по математике, программированию и общим знаниям, таких как MMLU, Math-500, GPQA-Diamond и HumanEval.

Работа на реальном железе: 4B-модель стабильно работает с 1 ГБ ОЗУ, 21B — с 8 ГБ, сохраняя высокую скорость инференса (например, более 20 токенов в секунду на стандартных CPU), превосходя конкурентов при ограниченной памяти.

Разреженность и специализация экспертов

Логи активации показывают, что большинство экспертов используется редко, а небольшой набор специализирован на конкретных доменах или языках, что позволяет эффективно кэшировать активные эксперты. Высокая разреженность нейронов сохраняется на всех слоях, что снижает вычислительные затраты.

Ограничения и планы на будущее

Существуют ограничения: корпус обучения меньше, чем у передовых облачных моделей; отсутствует обучение с подкреплением от человеческой обратной связи (RLHF); основное внимание уделено английскому и китайскому языкам и STEM-направлениям. В будущем планируется расширение данных и внедрение RLHF для улучшения согласованности и безопасности модели.

Доступность

Модели SmallThinker-4B-A0.6B-Instruct и SmallThinker-21B-A3B-Instruct открыты и доступны для исследователей и разработчиков, демонстрируя новый подход, где дизайн модели ориентирован на локальное использование, а не только на облачную инфраструктуру.

Для подробностей доступны научная статья, обучающие материалы и сообщества.