Hermes 4: гибридное рассуждение в открытых моделях с передовыми результатами

августа 28, 2025 · 3 min

Гибридное рассуждение с тегами для мысли

Hermes 4 от Nous Research — это семейство открытых моделей (14B, 70B, 405B), основанных на контрольных точках Llama 3.1. Модель поддерживает гибридное рассуждение: можно запрашивать обычные ответы или получать явные цепочки рассуждений в тегах … для сложных задач. Такой подход позволяет показывать внутреннюю логику вывода при необходимости и сохранять краткость ответов в обычном режиме.

DataForge — графовая генерация синтетических данных

DataForge является основным компонентом подготовки данных для Hermes 4. В отличие от ручной курировки, DataForge строит данные через ориентированный ациклический граф (DAG), где каждая вершина реализует интерфейс действия по типу PDDL. Вершины задают предусловия, постусловия и преобразования, что позволяет автоматически собирать сложные конвейеры преобразований. Например, система может превратить статью из Википедии в рэп-песню, а затем сгенерировать пары инструкция-ответ на базе этой трансформации.

Система сгенерировала примерно 5 миллионов примеров (~19 миллиардов токенов). Образцы с рассуждениями специально были более «тяжёлыми» по токенам — в среднем в пять раз длиннее не-рассуждённых примеров, чтобы поддерживать следы мышления длиной до 16 000 токенов.

Масштабный отбор с помощью Atropos

Hermes 4 использует Atropos — open-source среду усиленного обучения от Nous Research — для реализации rejection sampling по почти 1000 специализированным верификаторам. Эта инфраструктура фильтрует высококачественные траектории рассуждений по различным доменам.

Ключевые среды верификации включают Answer Format Training (более 150 форматов вывода), Instruction Following (RLVR-IFEval задачи с комплексными ограничениями), Schema Adherence (генерация JSON проверяемая через Pydantic) и тренинг по использованию инструментов для агентного поведения. Отбор создаёт корпус верифицированных траекторий с несколькими уникальными путями решения одной и той же верифицированной задачи, что помогает модели выучивать устойчивые паттерны рассуждения вместо заучивания шаблонов.

Контроль длины и решение проблемы чрезмерных рассуждений

Одна из ключевых идей Hermes 4 — борьба с генерацией чрезмерно длинных цепочек рассуждений. Команда обнаружила, что 14B модель достигала максимальной длины контекста в 60% случаев на LiveCodeBench в режиме рассуждения. Решение состоит во втором этапе контролируемого дообучения, который учит модель прекращать рассуждение ровно на 30 000 токене:

Генерируются следы рассуждений текущей политикой
Вставляется токен ровно на 30 000 токене
Обучается только решение о завершении, не сама цепочка рассуждений
Градиентные обновления применяются лишь к токенам и

Этот подход дал значительное сокращение длинных генераций: 78.4% на AIME'24, 65.3% на AIME'25 и 79.8% на LiveCodeBench при относительно малой потере точности (4.7%–12.7%). Благодаря фокусировке сигнала обучения на решении остановки, метод избегает рисков коллапса модели и формирует надёжное «счётное» поведение.

Результаты бенчмарков и нейтральная выравненность

Hermes 4 демонстрирует лидирующие показатели среди открытых моделей. Конфигурация 405B достигла 96.3% на MATH-500 (в режиме рассуждений), 81.9% на AIME'24, 78.1% на AIME'25, 70.5% на GPQA Diamond и 61.3% на LiveCodeBench. На RefusalBench модель показала 57.1% в режиме рассуждений — значительно выше GPT-4o (17.67%) и Claude Sonnet 4 (17%), что указывает на способность модели работать с противоречивыми темами, сохраняя при этом границы поведения.

Nous Research подчёркивает нейтральную философию выравнивания: модели остаются управляемыми и прозрачными, доказывая, что сложные способности к рассуждению возможны при открытых и воспроизводимых методах разработки.

Техническая архитектура и обучение

Обучение проводилось на модифицированном TorchTitan на 192 NVIDIA B200 GPU. Для обработки сильной разнородности длины выборок применялись эффективная упаковка (>99.9% эффективности батчей), flex attention и маскирование лосса, при котором вклад в кросс-энтропию даёт только роль assistant. Использовался косинусный график скорости обучения с 300 warmup шагами и 9 000 итоговых шагов при контексте в 16 384 токена и глобальном размере батча 384, с комбинированием Data, Tensor и Fully Sharded Data Parallelism.

Значение для открытого AI

Hermes 4 показывает, что достижения уровня фронтира в рассуждениях возможны в рамках открытых моделей: аккуратно спроектированные синтетические данные, масштабная верификация и таргетированное дообучение по остановке создают мощные и прозрачные системы, доступные для воспроизведения и развития сообществом.

Paper: https://arxiv.org/pdf/2508.18255 Project: https://hermes4.nousresearch.com/