Apriel-1.5-15B-Thinker: мультиформатный модельный разум на одном GPU
Что такое Apriel-1.5-15B-Thinker
ServiceNow AI Research Lab представила Apriel-1.5-15B-Thinker — модель для мультиформатного рассуждения с 15 миллиардами параметров. Контрольная точка публикуется под лицензией MIT на Hugging Face, а весь пайплайн сделан воспроизводимым для независимой проверки.
Архитектура и масштабирование
Модель берёт за основу Pixtral-12B-Base-2409 от Mistral и применяет увеличение глубины декодера: слои декодера расширены с 40 до 48. После этого выполнена реалignment проекционной сети, чтобы согласовать кодировщик изображений с увеличенным декодером. Такой подход позволяет не тренировать модель с нуля и сохранить возможность развертывания на одном GPU.
Среднетренировочный рецепт: CPT и SFT
Процесс обучения ориентирован на данные и состоит из двух среднетренировочных этапов без использования подкрепления:
CPT (Continual Pretraining): два подэтапа. Сначала смешанные текстово-изображенные данные для формирования базовых навыков рассуждения и понимания документов и диаграмм. Затем целевые синтетические визуальные задачи — восстановление, сопоставление, детекция, подсчёт — для улучшения пространственного и композиционного рассуждения. Длины последовательностей увеличены до 32k и 16k токенов соответственно, с выборочной потерей на токенах отклика для инструкционных образцов.
SFT (Supervised Fine-Tuning): высококачественные инструкции с трассировкой рассуждений по математике, программированию, науке, использованию инструментов и следованию инструкциям. Были выполнены две дополнительные SFT прогонки (стратифицированный поднабор и длинный контекст), результаты которых были объединены в итоговую контрольную точку. RL или RLAIF не применялись.
Примечание по данным: примерно 25% текстовой части в миксе при увеличении глубины взято из коллекции NVIDIA Nemotron.
Оценки и результаты
Модель достигает Artificial Analysis Intelligence Index (AAI) равного 52, агрегирующего десять сторонних оценок, включая MMLU-Pro, GPQA Diamond, AIME 2025, LiveCodeBench и другие. При значительно меньшем размере Apriel показывает сопоставимые комбинированные результаты с передовыми системами, при этом обеспечивая значительную экономию ресурсов.
Некоторые показатели по задачам:
- AIME 2025: примерно 87.5–88% pass@1
- GPQA Diamond: около 71% точности
- IFBench: примерно 62
- τ²-Bench Telecom: около 68
- LiveCodeBench: ~72.8
С использованием VLMEvalKit для воспроизводимости Apriel демонстрирует конкурентные результаты в наборах MMMU, LogicVista, MathVision, MathVerse, MMStar, CharXiv, AI2D и BLINK, особенно хорошо справляясь с документами, диаграммами и тексто-ориентированными математическими изображениями.
Практическая значимость
Открытые веса, воспроизводимый рецепт обучения и возможность разместить контрольную точку на одном GPU делают Apriel удобным для предприятий и исследователей, которым нужны решения для on-premise или air-gapped развёртываний с фиксированными ограничениями по памяти и задержке. Apriel представляет собой экономичный и прозрачный эталон для оценки перед переходом к большим закрытым моделям.
Где найти материалы
Все веса, рецепт обучения и протокол оценки доступны на Hugging Face под лицензией MIT для проверки и экспериментов.
Hugging Face: https://huggingface.co/ServiceNow-AI/Apriel-1.5-15b-Thinker Исследовательский PDF: https://huggingface.co/ServiceNow-AI/Apriel-1.5-15b-Thinker/blob/main/Apriel-1.5-Thinker.pdf