Apriel-1.5-15B-Thinker: мультиформатный модельный разум на одном GPU

Что такое Apriel-1.5-15B-Thinker

ServiceNow AI Research Lab представила Apriel-1.5-15B-Thinker — модель для мультиформатного рассуждения с 15 миллиардами параметров. Контрольная точка публикуется под лицензией MIT на Hugging Face, а весь пайплайн сделан воспроизводимым для независимой проверки.

Архитектура и масштабирование

Модель берёт за основу Pixtral-12B-Base-2409 от Mistral и применяет увеличение глубины декодера: слои декодера расширены с 40 до 48. После этого выполнена реалignment проекционной сети, чтобы согласовать кодировщик изображений с увеличенным декодером. Такой подход позволяет не тренировать модель с нуля и сохранить возможность развертывания на одном GPU.

Среднетренировочный рецепт: CPT и SFT

Процесс обучения ориентирован на данные и состоит из двух среднетренировочных этапов без использования подкрепления:

Примечание по данным: примерно 25% текстовой части в миксе при увеличении глубины взято из коллекции NVIDIA Nemotron.

Оценки и результаты

Модель достигает Artificial Analysis Intelligence Index (AAI) равного 52, агрегирующего десять сторонних оценок, включая MMLU-Pro, GPQA Diamond, AIME 2025, LiveCodeBench и другие. При значительно меньшем размере Apriel показывает сопоставимые комбинированные результаты с передовыми системами, при этом обеспечивая значительную экономию ресурсов.

Некоторые показатели по задачам:

С использованием VLMEvalKit для воспроизводимости Apriel демонстрирует конкурентные результаты в наборах MMMU, LogicVista, MathVision, MathVerse, MMStar, CharXiv, AI2D и BLINK, особенно хорошо справляясь с документами, диаграммами и тексто-ориентированными математическими изображениями.

Практическая значимость

Открытые веса, воспроизводимый рецепт обучения и возможность разместить контрольную точку на одном GPU делают Apriel удобным для предприятий и исследователей, которым нужны решения для on-premise или air-gapped развёртываний с фиксированными ограничениями по памяти и задержке. Apriel представляет собой экономичный и прозрачный эталон для оценки перед переходом к большим закрытым моделям.

Где найти материалы

Все веса, рецепт обучения и протокол оценки доступны на Hugging Face под лицензией MIT для проверки и экспериментов.

Hugging Face: https://huggingface.co/ServiceNow-AI/Apriel-1.5-15b-Thinker Исследовательский PDF: https://huggingface.co/ServiceNow-AI/Apriel-1.5-15b-Thinker/blob/main/Apriel-1.5-Thinker.pdf