SmallThinker: Прорывные эффективные LLM, разработанные для локальных устройств
'SmallThinker представляет семейство эффективных больших языковых моделей, специально разработанных для локального развертывания на устройствах с ограниченными ресурсами. Эти модели демонстрируют высокую производительность и скорость при низком потреблении памяти.'
Переосмысление языковых моделей для локального использования
Традиционные большие языковые модели (LLM) создаются для работы в облачных дата-центрах, что делает их неудобными для запуска на локальных устройствах, таких как ноутбуки, смартфоны или встроенные системы. SmallThinker ломает этот стереотип, будучи спроектированными с нуля для эффективной работы в условиях ограничений локального железа.
Инновационная архитектура для эффективности
SmallThinker использует тонко гранулированную архитектуру Mixture-of-Experts (MoE), при которой для каждого токена активируется лишь небольшой набор экспертов, что значительно снижает требования к памяти и вычислительным ресурсам. Основные варианты:
- SmallThinker-4B-A0.6B: всего 4 миллиарда параметров, активны 600 миллионов на токен.
- SmallThinker-21B-A3B: всего 21 миллиард параметров, активны 3 миллиарда на токен.
Такой подход сохраняет высокую емкость моделей при низком потреблении ресурсов.
Дополнительные архитектурные новшества:
- Разреженность с ReGLU в feed-forward слоях: более 60% нейронов неактивны внутри активированных экспертов, уменьшая вычислительные затраты.
- Гибридное внимание NoPE-RoPE: чередование глобальных слоев без позиционного эмбеддинга (NoPE) и локальных RoPE слоев с скользящим окном для поддержки длинного контекста (до 32K токенов для 4B и 16K для 21B) при уменьшенном размере кеша.
- Предварительный маршрутизатор внимания и интеллектуальный оффлоадинг: предсказание необходимых экспертов перед каждым шагом внимания и предварительная подкачка их параметров с SSD/флэш-накопителей, кэширование горячих экспертов в ОЗУ для скрытия задержек ввода-вывода и максимизации пропускной способности.
Методика обучения
Модели SmallThinker обучались с нуля на масштабных наборах данных:
- Вариант 4B — 2.5 триллиона токенов.
- Вариант 21B — 7.2 триллиона токенов.
Данные включают отобранные открытые коллекции, синтетические наборы по математике и программированию, а также корпуса с инструкциями и подсказками, ориентированные на STEM, математику и кодирование.
Результаты тестирования
Академические задачи: SmallThinker-21B-A3B сопоставим или превосходит модели с аналогичным числом параметров в тестах по математике, программированию и общим знаниям, таких как MMLU, Math-500, GPQA-Diamond и HumanEval.
Работа на реальном железе: 4B-модель стабильно работает с 1 ГБ ОЗУ, 21B — с 8 ГБ, сохраняя высокую скорость инференса (например, более 20 токенов в секунду на стандартных CPU), превосходя конкурентов при ограниченной памяти.
Разреженность и специализация экспертов
Логи активации показывают, что большинство экспертов используется редко, а небольшой набор специализирован на конкретных доменах или языках, что позволяет эффективно кэшировать активные эксперты. Высокая разреженность нейронов сохраняется на всех слоях, что снижает вычислительные затраты.
Ограничения и планы на будущее
Существуют ограничения: корпус обучения меньше, чем у передовых облачных моделей; отсутствует обучение с подкреплением от человеческой обратной связи (RLHF); основное внимание уделено английскому и китайскому языкам и STEM-направлениям. В будущем планируется расширение данных и внедрение RLHF для улучшения согласованности и безопасности модели.
Доступность
Модели SmallThinker-4B-A0.6B-Instruct и SmallThinker-21B-A3B-Instruct открыты и доступны для исследователей и разработчиков, демонстрируя новый подход, где дизайн модели ориентирован на локальное использование, а не только на облачную инфраструктуру.
Для подробностей доступны научная статья, обучающие материалы и сообщества.
Switch Language
Read this article in English