Apriel-1.5-15B-Thinker: мультиформатный модельный разум на одном GPU

октября 2, 2025 · 2 min

Что такое Apriel-1.5-15B-Thinker

ServiceNow AI Research Lab представила Apriel-1.5-15B-Thinker — модель для мультиформатного рассуждения с 15 миллиардами параметров. Контрольная точка публикуется под лицензией MIT на Hugging Face, а весь пайплайн сделан воспроизводимым для независимой проверки.

Архитектура и масштабирование

Модель берёт за основу Pixtral-12B-Base-2409 от Mistral и применяет увеличение глубины декодера: слои декодера расширены с 40 до 48. После этого выполнена реалignment проекционной сети, чтобы согласовать кодировщик изображений с увеличенным декодером. Такой подход позволяет не тренировать модель с нуля и сохранить возможность развертывания на одном GPU.

Среднетренировочный рецепт: CPT и SFT

Процесс обучения ориентирован на данные и состоит из двух среднетренировочных этапов без использования подкрепления:

CPT (Continual Pretraining): два подэтапа. Сначала смешанные текстово-изображенные данные для формирования базовых навыков рассуждения и понимания документов и диаграмм. Затем целевые синтетические визуальные задачи — восстановление, сопоставление, детекция, подсчёт — для улучшения пространственного и композиционного рассуждения. Длины последовательностей увеличены до 32k и 16k токенов соответственно, с выборочной потерей на токенах отклика для инструкционных образцов.
SFT (Supervised Fine-Tuning): высококачественные инструкции с трассировкой рассуждений по математике, программированию, науке, использованию инструментов и следованию инструкциям. Были выполнены две дополнительные SFT прогонки (стратифицированный поднабор и длинный контекст), результаты которых были объединены в итоговую контрольную точку. RL или RLAIF не применялись.

Примечание по данным: примерно 25% текстовой части в миксе при увеличении глубины взято из коллекции NVIDIA Nemotron.

Оценки и результаты

Модель достигает Artificial Analysis Intelligence Index (AAI) равного 52, агрегирующего десять сторонних оценок, включая MMLU-Pro, GPQA Diamond, AIME 2025, LiveCodeBench и другие. При значительно меньшем размере Apriel показывает сопоставимые комбинированные результаты с передовыми системами, при этом обеспечивая значительную экономию ресурсов.

Некоторые показатели по задачам:

AIME 2025: примерно 87.5–88% pass@1
GPQA Diamond: около 71% точности
IFBench: примерно 62
τ²-Bench Telecom: около 68
LiveCodeBench: ~72.8

С использованием VLMEvalKit для воспроизводимости Apriel демонстрирует конкурентные результаты в наборах MMMU, LogicVista, MathVision, MathVerse, MMStar, CharXiv, AI2D и BLINK, особенно хорошо справляясь с документами, диаграммами и тексто-ориентированными математическими изображениями.

Практическая значимость

Открытые веса, воспроизводимый рецепт обучения и возможность разместить контрольную точку на одном GPU делают Apriel удобным для предприятий и исследователей, которым нужны решения для on-premise или air-gapped развёртываний с фиксированными ограничениями по памяти и задержке. Apriel представляет собой экономичный и прозрачный эталон для оценки перед переходом к большим закрытым моделям.

Где найти материалы

Все веса, рецепт обучения и протокол оценки доступны на Hugging Face под лицензией MIT для проверки и экспериментов.

Hugging Face: https://huggingface.co/ServiceNow-AI/Apriel-1.5-15b-Thinker Исследовательский PDF: https://huggingface.co/ServiceNow-AI/Apriel-1.5-15b-Thinker/blob/main/Apriel-1.5-Thinker.pdf