Mistral AI представляет серию Magistral: передовые LLM с цепочкой рассуждений для бизнеса и открытого ПО
Mistral AI представила серию Magistral — новые большие языковые модели, оптимизированные для рассуждений и мультиязычности, доступные в открытом и корпоративном вариантах.
Представляем серию Magistral от Mistral AI
Компания Mistral AI выпустила серию Magistral — новые большие языковые модели (LLM), оптимизированные для задач рассуждения. Эта серия знаменует собой важный шаг вперёд в развитии технологий LLM, сосредотачиваясь на рассуждениях во время инференса — ключевом направлении в искусственном интеллекте.
Основные модели: Magistral Small и Magistral Medium
Серия Magistral включает две модели:
- Magistral Small: открытая модель с 24 миллиардами параметров, доступная по лицензии Apache 2.0. Она поддерживает мультиязычное рассуждение и доступна для исследований и коммерческого использования через Hugging Face.
- Magistral Medium: проприетарная модель для корпоративного использования, оптимизированная для работы в реальном времени через облако и API-сервисы Mistral, обеспечивает повышенную пропускную способность и масштабируемость.
Супервизия цепочки рассуждений повышает качество
Обe модели используют метод цепочки рассуждений (Chain-of-Thought, CoT), который позволяет генерировать промежуточные логические шаги. Это улучшает точность, интерпретируемость и устойчивость, особенно в сложных задачах, таких как математика, юридический анализ и научные исследования.
Мультиязычная поддержка расширяет возможности
Magistral Small изначально поддерживает несколько языков, включая французский, испанский, арабский и упрощённый китайский, что расширяет её применение в глобальных масштабах.
Впечатляющие результаты тестов
Внутренние проверки показывают, что Magistral Medium достигает 73.6% точности на бенчмарке AIME2024, повышаясь до 90% при голосовании большинства. Magistral Small достигает 70.7%, увеличиваясь до 83.3% в ансамбле, что ставит эти модели в ряд с ведущими LLM.
Высокая пропускная способность и низкая задержка
Magistral Medium обеспечивает скорость инференса до 1000 токенов в секунду, что подходит для производственных систем с критичными требованиями к задержкам. Эти улучшения достигнуты благодаря собственным пайплайнам обучения с подкреплением и эффективным стратегиям декодирования.
Инновационная архитектура модели
Mistral разработала собственный пайплайн тонкой настройки с обучением с подкреплением, вместо использования готовых шаблонов RLHF. Это позволяет создавать связные и качественные цепочки рассуждений. Модели также поддерживают "выравнивание языка рассуждений" для согласованности сложных выходных данных и совместимы с инструкциями, пониманием кода и вызовом функций.
Влияние на индустрию и перспективы
Серия Magistral ориентирована на регулируемые отрасли — здравоохранение, финансы, юридические технологии — где важны точность и прозрачность. Вместо увеличения масштаба параметров Mistral делает ставку на эффективность и качество рассуждений во время инференса.
Двойной подход компании — открытая и проприетарная модели — позволяет охватить широкий круг пользователей от исследователей до предприятий. Ожидается, что публичные бенчмарки, такие как MMLU, GSM8K и Big-Bench-Hard, подтвердят возможности серии.
Доступность и взаимодействие с сообществом
Magistral Small доступна на Hugging Face, а предварительная версия Magistral Medium — через Le Chat и API-платформу Mistral. Проект приглашает следить за новостями в Twitter, присоединяться к ML SubReddit и подписываться на рассылку для получения свежих обновлений.
Switch Language
Read this article in English