OpenAI выпустила gpt-oss-safeguard — открытые модели для проверки безопасности по политике (120B и 20B)
OpenAI представила gpt-oss-safeguard — две открытые модели, которые применяют политики разработчика во время инференса; версии 120B и 20B доступны на Hugging Face под Apache 2.0
Что такое gpt-oss-safeguard
OpenAI представила исследовательский предпросмотр gpt-oss-safeguard — две открытые модели для рассуждений о безопасности, которые позволяют разработчикам применять собственные политики безопасности во время инференса. Выпущены две версии: gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Обе модели были дообучены от gpt-oss, лицензированы по Apache 2.0 и доступны на Hugging Face для локального использования.
Почему политика в качестве входа важна
Классические модерационные модели обучаются под одну фиксированную политику. При изменении этой политики модель нужно переобучать или заменять. gpt-oss-safeguard меняет логику: политика, заданная разработчиком, передаётся вместе с пользовательским контентом, а модель делает пошаговый анализ, нарушает ли контент указанную политику. Такой подход превращает задачу безопасности в задачу подсказки и оценки, что удобнее для быстро меняющихся или узкоспецифичных рисков — мошенничества, биорисков, самоубийства или игрового абьюза.
Аналог внутреннего Safety Reasoner OpenAI
OpenAI сообщает, что gpt-oss-safeguard — это реализация с открытыми весами того самого Safety Reasoner, который используется внутри систем вроде GPT 5, ChatGPT Agent и Sora 2. В продакшене OpenAI сначала запускает небольшие высокочувствительные фильтры, а затем передаёт сомнительные или чувствительные случаи на рассуждающую модель. В недавних релизах до 16 процентов вычислительных ресурсов уходило на безопасность. Открытый релиз позволяет внешним командам воспроизвести эту многоуровневую защиту.
Размеры моделей и требования к железу
- gpt-oss-safeguard-120b: примерно 117B параметров с 5.1B активных параметров; рассчитана на одну 80GB H100-класса GPU.
- gpt-oss-safeguard-20b: примерно 21B параметров с 3.6B активных параметров; ориентирована на меньшую задержку и GPU с 16GB.
Обе модели обучены в harmony response формате, поэтому запросы должны следовать этой структуре, иначе качество упадёт. Лицензия Apache 2.0 разрешает коммерческое локальное развёртывание.
Результаты оценки
OpenAI тестировала модели на внутренних мультиполитичных наборах и публичных датасетах. В задачах мультиполитичной точности gpt-oss-safeguard и внутренний Safety Reasoner опережают gpt-5-thinking и базовые gpt-oss. На датасете модерации 2022 года новые модели немного превосходят gpt-5-thinking и внутренний Reasoner, но OpenAI подчёркивает, что разница статистически незначима. На ToxicChat внутренний Reasoner остаётся лидером, gpt-oss-safeguard идёт близко за ним. В целом открытые модели конкурентоспособны для реальных задач модерации.
Рекомендации по развёртыванию
Полное рассуждение для каждого запроса дорогостояще. Рекомендуемая схема — слой быстрых, высокочувствительных классификаторов для всего трафика, с передачей только сомнительных или чувствительных случаев на gpt-oss-safeguard. Для сценариев с требованием быстрых ответов разумно запускать Reasoner асинхронно. Такая многослойная архитектура повторяет практику OpenAI и учитывает, что специализированные классификаторы при наличии хороших размеченных данных всё ещё могут быть более экономичными.
Основные выводы
- gpt-oss-safeguard позволяет применять политику во время инференса, что исключает необходимость переобучения при смене правил.
- Модели повторяют паттерн внутреннего Safety Reasoner и рассчитаны на реальные развёртывания.
- Оба варианта сохраняют harmony response формат, доступны под Apache 2.0 на Hugging Face и подходят для локального коммерческого использования.
- В оценках модели показывают конкурентные результаты, с нюансными отличиями от внутренних систем, которые не всегда статистически значимы.
- OpenAI рекомендует использовать модели в составе многоуровневой системы модерации вместе с ресурсами сообщества.
Открытый релиз делает воспроизводимым внутренний подход к безопасности и даёт платформам возможность внедрять собственные таксономии и аудит рассуждений модели без изменения весов.
Switch Language
Read this article in English