OpenAI представила Reinforcement Fine-Tuning на o4-mini для продвинутой настройки AI моделей

Представляем Reinforcement Fine-Tuning (RFT)

OpenAI запустила Reinforcement Fine-Tuning (RFT) на своей модели рассуждений o4-mini — инновационный метод, который улучшает настройку фундаментальных моделей для специализированных задач. В отличие от традиционной дообучения с учителем, RFT использует принципы обучения с подкреплением, позволяя разработчикам задавать пользовательские цели и функции вознаграждения для точного управления улучшением модели.

Как работает RFT

RFT выходит за рамки использования размеченных данных, включая специализированную функцию оценки — грейдер, который оценивает и присваивает баллы выводам модели согласно заданным критериям. Этот сигнал вознаграждения обучает модель создавать ответы, лучше соответствующие желаемому поведению, что особенно важно для субъективных или сложных задач без четкой эталонной правды. Например, в медицинских объяснениях, где оптимальная формулировка субъективна, грейдер может оценивать ясность, точность и полноту для обучения модели.

Почему модель o4-mini?

Модель o4-mini, выпущенная в апреле 2025 года, — это компактная и мощная модель рассуждений, оптимизированная для текстовых и визуальных данных. Она отлично справляется со структурированным рассуждением и цепочками размышлений, что делает её идеальной для многозадачных приложений. Применение RFT к o4-mini позволяет получить легкую модель с точной настройкой для специфических задач, сохраняя при этом вычислительную эффективность и возможность работы в реальном времени.

Практические примеры использования RFT на o4-mini

Ранние пользователи продемонстрировали значительные улучшения:

Accordance AI повысила точность налогового анализа на 39% с помощью правил оценки для соответствия.
Ambience Healthcare улучшила точность медицинского кодирования ICD-10 на 12 пунктов по сравнению с метками врачей.
Юридический стартап Harvey увеличил F1 для извлечения ссылок на 20%, достигнув результата GPT-4o при меньшей задержке.
Runloop повысил генерацию корректных фрагментов Stripe API на 12% благодаря синтаксическому грейдингу.
Milo улучшил качество расписания на сложных запросах на 25 пунктов.
SafetyKit увеличил точность модерации контента с 86% до 90% F1, применяя детализированное соблюдение политики. Эти примеры подчёркивают способность RFT точно настраивать модели под разные важные задачи.

Как начать работу с RFT на o4-mini

Чтобы использовать RFT, разработчикам нужно:

Создать функцию оценки: Python-функция, возвращающая баллы от 0 до 1, отражающая предпочтения задачи, например, правильность или тон.
Подготовить набор данных: Собрать разнообразные и сложные примеры, отражающие целевую область.
Запустить обучение: Использовать API или панель OpenAI для запуска RFT с настройками.
Оценивать и улучшать: Отслеживать прогресс вознаграждения и корректировать логику оценки для оптимизации модели.

Детальная документация и примеры доступны в руководстве OpenAI по RFT.

Доступ и стоимость

RFT доступен для проверенных организаций. Стоимость обучения — 100 долларов в час активного времени обучения. Если для оценки используется хостинговая модель OpenAI (например, GPT-4o), оплата токенов происходит отдельно. Организации, которые делятся своими наборами данных для исследований, получают скидку 50% на обучение.

Новый этап настройки AI моделей

RFT — важный шаг в адаптации фундаментальных моделей, позволяющий моделям учиться на основе обратной связи, отражающей реальные цели и ограничения. С доступностью RFT на модели o4-mini разработчики получают мощный инструмент для точной настройки не только языка, но и рассуждений, что открывает путь к более надежному и эффективному внедрению AI.