Qwen3Guard: мультилингвальные защитные рельсы в реальном времени для стримящих LLM

Модерация в реальном времени для LLM

Команда Qwen от Alibaba выпустила Qwen3Guard — семейство мультилингвальных моделей-ограждений, предназначенных для модерации как подсказок, так и потоковых ответов в реальном времени. Выпуск включает две рабочие модальности и несколько размеров моделей, чтобы удовлетворить разные требования по задержке и точности для глобального использования.

Две модальности: Gen и Stream

Qwen3Guard доступен в двух вариантах. Qwen3Guard-Gen — генеративный классификатор, анализирующий полный контекст подсказки и ответа и выдающий структурированные результаты по безопасности. Qwen3Guard-Stream — токен-уровневый классификатор, оценивающий каждый токен по мере генерации и позволяющий применять политику во время формирования ответа. Оба варианта выпускаются в размерах 0.6B, 4B и 8B параметров.

Как работает стриминговая модерация

В Stream к последнему слою трансформера добавляются две легковесные классификационные головы: одна отслеживает пользовательскую подсказку, другая оценивает генерируемые токены в реальном времени как Safe, Controversial или Unsafe. Оценка на уровне токена позволяет вмешиваться раньше — блокировать, редактировать или перенаправлять — без ожидания полного декодирования ответа и последующей постфильтрации.

Трёхуровневая семантика рисков

Помимо бинарных меток безопасно/небезопасно, Qwen3Guard вводит метку Controversial. Этот промежуточный уровень поддерживает регулируемую строгость, позволяя сужать или расширять трактовку пограничного контента. Metка Controversial полезна для маршрутизации, эскалации или ручной проверки вместо немедленного удаления контента.

Структурированные выходы для пайплайнов

Вариант Gen выдает предсказуемый заголовок вида Safety: …, Categories: …, Refusal: …, который легко парсить в downstream-пайплайнах или использовать как сигнал вознаграждения в RL. Категории включают Насилие, Ненасильственные незаконные действия, Сексуальный контент, PII, Суицид и самоповреждение, Неэтичные действия, Политически чувствительные темы, Нарушение авторских прав и Джейлбрейк.

Бенчмарки и безопасность через RL

Исследование Qwen демонстрирует сильную среднюю F1-метрику по англоязычным, китайским и мультилингвальным бенчмаркам по безопасности для классификации подсказок и ответов, постоянно опережая предыдущие открытые модели. Для обучения ассистентов команда использовала Qwen3Guard-Gen как сигнал вознаграждения в безопасности-ориентированном RL. Чисто охранное вознаграждение повышало безопасность, но увеличивало число отказов и слегка снижало некоторые соревновательные метрики. Гибридное вознаграждение, штрафующее избыточные отказы и объединяющее сигналы качества, подняло измеряемую безопасность с примерно 60 до более 97 без ухудшения способностей к рассуждению и в некоторых случаях улучшило показатели по задачам.

Где применять Qwen3Guard в продакшене

Большинство открытых охранных моделей классифицируют только завершённые ответы. Двойные головы Qwen3Guard и оценка во времени токенов разработаны для продакшен-агентов, которые стримят ответы, что позволяет вмешиваться с меньшей задержкой и гибко настраивать политику. Уровень Controversial удобно интегрируется в корпоративные правила, где в регулируемых контекстах пограничный контент может считаться небезопасным, а в пользовательских случаях — допускаться с проверкой.

Открытые веса и охват языков

Qwen3Guard доступен с открытыми весами на Hugging Face и кодом на GitHub. Коллекция охватывает 119 языков и диалектов и представляет собой практическую базовую платформу для команд, которые хотят заменить постфактум-фильтры модерацией в реальном времени и внедрить безопасность в качестве сигнала вознаграждения при обучении RL.

Подробности доступны на странице репозитория Qwen3Guard и в коллекции на Hugging Face.