AI2 представил Olmo 3: открытая серия LLM 7B и 32B на базе Dolma 3 и Dolci

Что такое Olmo 3?

Olmo 3 — это полностью открытая серия плотных трансформеров от Allen Institute for AI (AI2). Выпущены модели с 7 и 32 миллиардами параметров, каждая с контекстным окном в 65 536 токенов. AI2 раскрывает весь «поток модели»: рецепты данных, промежуточные чекпойнты, код обучения, пайплайны посттренировки и инструменты для оценки.

Набор данных Dolma 3 и поэтапная учебная программа

В основе обучения лежит Dolma 3 — набор данных, включающий Dolma 3 Mix, Dolma 3 Dolmino Mix и Dolma 3 Longmino Mix. Dolma 3 Mix представляет собой предобучающую выборку на 5.9T токенов с веб-текстом, научными PDF, репозиториями кода и прочими естественными данными. Dolmino и Longmino — это отфильтрованные, более качественные срезы этой выборки.

Dolma 3 Mix используется для основной предобучающей фазы Olmo 3-Base. Далее применяют Dolma 3 Dolmino Mix — 100B токенов mid-training, ориентированных на математику, код, следование инструкциям, понимание прочитанного и задачи, требующие размышлений. Longmino добавляет 50B токенов для 7B модели и 100B токенов для 32B модели с акцентом на длинные документы и научные PDF, обработанные через olmOCR. Такая поэтапная программа обеспечивает стабильность и качество при обучении с 65K контекстом.

Обучение на крупных кластерах

Olmo 3-Base 7B обучался на Dolma 3 Mix с использованием 1 024 H100 GPU, достигая примерно 7 700 токенов на устройство в секунду. На последующих этапах использовались 128 H100 для mid-training и 256 H100 для расширения длинного контекста.

Семейство моделей и варианты

Серия Olmo 3 включает несколько вариантов, основанных на одинаковой учебной рецептуре:

Olmo 3-Base 7B и 32B: базовые модели для исследований с поддержкой длинного контекста.
Olmo 3-Think 7B и 32B: модели с фокусом на рассуждение, использующие посттренировочную последовательность SFT, DPO и RLVR в рамках OlmoRL.
Olmo 3-Instruct 7B: адаптирована для следования инструкциям, мульти-тёрн-чатов и использования инструментов посредством Dolci Instruct SFT/DPO/RL.
Olmo 3-RL Zero 7B: чистый RL-пут, отделяющий данные предобучения от данных для RL, с Dolci RL Zero наборами, деактивированными относительно Dolma 3.

Сравнения и результаты

AI2 позиционирует Olmo 3-Base 32B как один из ведущих полностью открытых базовых моделей в своей категории, конкурентоспособный с Qwen 2.5 и Gemma 3. Olmo 3-Think 32B заявлен как сильнейшая полностью открытая модель для рассуждений, сокращающая отрыв от Qwen 3 32B при использовании примерно в 6 раз меньшего числа токенов для обучения. Olmo 3-Instruct 7B, по данным AI2, сопоставима или превосходит открытых конкурентов по задачам инструкций и диалога.

Открытость, воспроизводимость и инструменты

Ключевая особенность Olmo 3 — это практическая реализация прозрачности по всей цепочке: рецепты Dolma 3, поэтапное предобучение и посттренировка Dolci, RLVR в OlmoRL, а также наборы для оценки вроде OLMES и OlmoBaseEval. Публикация чекпойнтов, конфигураций и инструментов упрощает воспроизводимость, отладку и расширение моделей в контролируемых экспериментах.

Почему это важно

Olmo 3 предоставляет исследователям и практикам открытые и воспроизводимые компоненты LLM от исходных данных до RL-готовых вариантов. Доступ к длинному контексту, версиям, сфокусированным на рассуждении, и полному описанию пайплайнов снижает барьеры для исследований в области цепочек рассуждений, работы с длинными документами и RL на языковых моделях.

AI2 представил Olmo 3: открытая серия LLM 7B и 32B на базе Dolma 3 и Dolci

Switch Language