Исследователи из MIT выявляют ограничения вложенного контроля ИИ с помощью новой модели на основе рейтинга Эло
Исследователи из MIT предложили новую модель на основе рейтинга Эло для количественной оценки ограничений вложенного масштабируемого надзора в ИИ, показав, что контроль более мощных систем остается сложной задачей.
Развитие контроля ИИ на фоне прогресса в AGI
Передовые компании в области ИИ делают значительные шаги к созданию искусственного общего интеллекта (AGI), что повышает необходимость разработки методов, обеспечивающих контроль и безопасность таких мощных систем. Подходы, такие как рекурсивное моделирование вознаграждения, итеративное усиление и масштабируемый надзор, направлены на то, чтобы более слабые ИИ могли эффективно контролировать более сильные. Эта концепция называется вложенным масштабируемым надзором (Nested Scalable Oversight, NSO) и базируется на рекурсивном развитии возможностей надзора.
Количественная оценка надзора с помощью модели на основе рейтинга Эло
Несмотря на концептуальное обсуждение NSO, его количественная надежность исследована недостаточно, особенно по сравнению со стандартами безопасности в других сферах с высокими рисками, таких как авиация и ядерная энергетика. Исследователи из MIT предложили новую модель, которая рассматривает надзор как игру между системами с разным уровнем возможностей. Каждому игроку присваиваются специфические для надзора и обмана рейтинги Эло, являющиеся кусочно-линейными функциями общего интеллекта.
В исследовании выявлены ключевые условия успеха NSO и оптимальное количество уровней надзора для максимизации вероятности эффективного контроля. Результаты показывают, что при контроле систем, превосходящих наблюдателя на 400 пунктов Эло, вероятность успеха NSO не превышает 52%, что указывает на значительную хрупкость метода.
Анализ четырех сценариев игр для надзора
Модель была протестирована на четырех игровых сценариях:
- Мафия: Пять жителей (Стражи) пытаются выявить одного мафиози (Гудини), проверяя навыки обмана и сотрудничества.
- Дебаты: Два оппонента ведут спор, а судья (Страж) определяет победителя, используя датасеты TruthfulQA, BoolQ и другие.
- Обратный код: Модели должны вставлять и обнаруживать скрытые поведения в коде, используя 225 Python-примеров из набора APPS.
- Военные игры: Моделируется вымышленная компания, разрабатывающая AGI, с участием ИИ (Гудини), контролера (Стража) и рассказчика.
Анализ показал, что в Мафии производительность примерно линейно зависит от интеллекта, при этом Стражи улучшаются быстрее. В Дебатах производительность Стража растет с интеллектом, а Гудини остается стабильным. В тестах с обратным кодом наблюдается асимметричное масштабирование, где Стражи обычно превосходят Гудини. В Военных играх были выделены восемь категорий стратегий, схожих для моделей разного уровня.
Ограничения и перспективы
Предложенная модель дает количественную оценку вероятности успеха надзора, но имеет ограничения. В ней рассматривается только одношаговый надзор и используются подсказываемые модели обмана, а не модели, обученные для обмана. В будущем исследователи планируют изучать многоступенчатые цепочки надзора и развивать более реалистичные модели обмана с помощью дообучения и обучения с подкреплением.
Switch Language
Read this article in English