Что такое gpt-oss-safeguard

OpenAI представила исследовательский предпросмотр gpt-oss-safeguard — две открытые модели для рассуждений о безопасности, которые позволяют разработчикам применять собственные политики безопасности во время инференса. Выпущены две версии: gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Обе модели были дообучены от gpt-oss, лицензированы по Apache 2.0 и доступны на Hugging Face для локального использования.

Почему политика в качестве входа важна

Классические модерационные модели обучаются под одну фиксированную политику. При изменении этой политики модель нужно переобучать или заменять. gpt-oss-safeguard меняет логику: политика, заданная разработчиком, передаётся вместе с пользовательским контентом, а модель делает пошаговый анализ, нарушает ли контент указанную политику. Такой подход превращает задачу безопасности в задачу подсказки и оценки, что удобнее для быстро меняющихся или узкоспецифичных рисков — мошенничества, биорисков, самоубийства или игрового абьюза.

Аналог внутреннего Safety Reasoner OpenAI

OpenAI сообщает, что gpt-oss-safeguard — это реализация с открытыми весами того самого Safety Reasoner, который используется внутри систем вроде GPT 5, ChatGPT Agent и Sora 2. В продакшене OpenAI сначала запускает небольшие высокочувствительные фильтры, а затем передаёт сомнительные или чувствительные случаи на рассуждающую модель. В недавних релизах до 16 процентов вычислительных ресурсов уходило на безопасность. Открытый релиз позволяет внешним командам воспроизвести эту многоуровневую защиту.

Размеры моделей и требования к железу

gpt-oss-safeguard-120b: примерно 117B параметров с 5.1B активных параметров; рассчитана на одну 80GB H100-класса GPU.
gpt-oss-safeguard-20b: примерно 21B параметров с 3.6B активных параметров; ориентирована на меньшую задержку и GPU с 16GB.

Обе модели обучены в harmony response формате, поэтому запросы должны следовать этой структуре, иначе качество упадёт. Лицензия Apache 2.0 разрешает коммерческое локальное развёртывание.

Результаты оценки

OpenAI тестировала модели на внутренних мультиполитичных наборах и публичных датасетах. В задачах мультиполитичной точности gpt-oss-safeguard и внутренний Safety Reasoner опережают gpt-5-thinking и базовые gpt-oss. На датасете модерации 2022 года новые модели немного превосходят gpt-5-thinking и внутренний Reasoner, но OpenAI подчёркивает, что разница статистически незначима. На ToxicChat внутренний Reasoner остаётся лидером, gpt-oss-safeguard идёт близко за ним. В целом открытые модели конкурентоспособны для реальных задач модерации.

Основные выводы

gpt-oss-safeguard позволяет применять политику во время инференса, что исключает необходимость переобучения при смене правил.
Модели повторяют паттерн внутреннего Safety Reasoner и рассчитаны на реальные развёртывания.
Оба варианта сохраняют harmony response формат, доступны под Apache 2.0 на Hugging Face и подходят для локального коммерческого использования.
В оценках модели показывают конкурентные результаты, с нюансными отличиями от внутренних систем, которые не всегда статистически значимы.
OpenAI рекомендует использовать модели в составе многоуровневой системы модерации вместе с ресурсами сообщества.

Открытый релиз делает воспроизводимым внутренний подход к безопасности и даёт платформам возможность внедрять собственные таксономии и аудит рассуждений модели без изменения весов.

OpenAI выпустила gpt-oss-safeguard — открытые модели для проверки безопасности по политике (120B и 20B)