Anthropic представляет целевой фреймворк прозрачности для передовых ИИ-систем

Безопасность в разработке передовых ИИ

С быстрым развитием масштабных ИИ-систем растут и опасения по поводу безопасности и управления рисками. Компания Anthropic предложила целевой фреймворк прозрачности, ориентированный на передовые ИИ-модели — те, которые обладают наибольшим потенциалом влияния и рисками. При этом стартапы и небольшие разработчики исключены из сферы применения, чтобы поддержать инновации в широком ИИ-сообществе.

Почему только передовые модели?

Anthropic подчеркивает необходимость дифференцированного регулирования. Универсальные требования к соответствию могут стать чрезмерной нагрузкой для молодых компаний и независимых исследователей. Предложение ограничивается компаниями, создающими модели, превышающие определенные пороги по вычислительной мощности, результатам тестирования, расходам на НИОКР и годовому доходу. Это гарантирует, что строгие требования прозрачности применяются только к самым мощным и потенциально опасным системам.

Основные элементы фреймворка

Фреймворк делится на четыре ключевые части: область применения, требования до развертывания, обязательства по прозрачности и механизмы контроля.

Область применения

Фреймворк охватывает организации, разрабатывающие передовые ИИ-модели, определяемые по таким факторам, как масштаб вычислений, стоимость обучения, оценочные тесты, общие инвестиции в НИОКР и годовой доход. Стартапы и небольшие компании исключены с помощью финансовых порогов, чтобы избежать излишних регуляторных барьеров и поддержать инновации на ранних этапах.

Требования до развертывания

Перед выпуском любой подходящей передовой модели компании обязаны внедрить Secure Development Framework (SDF), включающий:

Идентификация модели: четкое указание, к каким моделям применяется SDF.
Снижение катастрофических рисков: планы по оценке и уменьшению рисков, включая химические, биологические, радиологические, ядерные угрозы (CBRN) и автономные действия модели, противоречащие намерениям разработчика.
Стандарты и оценки: четко определенные процедуры оценки.
Управление: назначение ответственного корпоративного сотрудника для контроля.
Защита информаторов: механизмы для внутреннего сообщения о проблемах безопасности без опасений репрессий.
Сертификация: подтверждение реализации SDF перед развертыванием.
Ведение документации: хранение документов SDF и обновлений не менее пяти лет.

Это обеспечивает тщательный анализ рисков и ответственность до запуска.

Обязательства по прозрачности

Компании должны публично раскрывать процессы безопасности и результаты, сохраняя баланс между открытостью и защитой конфиденциальной информации:

Публикация SDF в доступном формате.
Выпуск системных карточек при развертывании или добавлении ключевых функций, с резюме тестов, методов оценки и мер по снижению рисков.
Публичное подтверждение соблюдения с описанием мер по управлению рисками. Допускаются редакции для защиты коммерческой тайны или общественной безопасности, но пропуски должны быть обоснованы и отмечены.

Контроль и исполнение

Фреймворк предлагает четкие и умеренные меры контроля:

Запрет на ложные или вводящие в заблуждение заявления о соответствии SDF.
Возможность наложения гражданских штрафов Генеральным прокурором.
30-дневный период для исправления несоответствий.

Это стимулирует соблюдение требований и снижает риск судебных разбирательств.

Стратегическое значение и гибкость

Фреймворк Anthropic не только предлагает регуляторные рекомендации, но и устанавливает отраслевые нормы. Он задает базовые ожидания для разработки передовых моделей ИИ до появления формального регулирования. Фокус на структурированной отчетности и ответственной корпоративной ответственности вместо всеобъемлющих правил или запретов создает масштабируемую модель, адаптирующуюся к изменениям технологий и рисков.

Модульная структура позволяет корректировать пороги и требования по мере развития возможностей ИИ и изменения масштабов внедрения, что особенно важно в быстро меняющейся сфере передовых ИИ.

Взвешенный подход

Anthropic предлагает прагматичный компромисс — вводить значимые требования по прозрачности и безопасности для самых мощных систем, при этом освобождая мелких разработчиков от чрезмерных обязательств. Такой целевой подход может помочь политикам и разработчикам двигаться к безопасному развитию ИИ без ущерба для инноваций.