Исследователи из MIT выявляют ограничения вложенного контроля ИИ с помощью новой модели на основе рейтинга Эло

Развитие контроля ИИ на фоне прогресса в AGI

Передовые компании в области ИИ делают значительные шаги к созданию искусственного общего интеллекта (AGI), что повышает необходимость разработки методов, обеспечивающих контроль и безопасность таких мощных систем. Подходы, такие как рекурсивное моделирование вознаграждения, итеративное усиление и масштабируемый надзор, направлены на то, чтобы более слабые ИИ могли эффективно контролировать более сильные. Эта концепция называется вложенным масштабируемым надзором (Nested Scalable Oversight, NSO) и базируется на рекурсивном развитии возможностей надзора.

Количественная оценка надзора с помощью модели на основе рейтинга Эло

Несмотря на концептуальное обсуждение NSO, его количественная надежность исследована недостаточно, особенно по сравнению со стандартами безопасности в других сферах с высокими рисками, таких как авиация и ядерная энергетика. Исследователи из MIT предложили новую модель, которая рассматривает надзор как игру между системами с разным уровнем возможностей. Каждому игроку присваиваются специфические для надзора и обмана рейтинги Эло, являющиеся кусочно-линейными функциями общего интеллекта.

В исследовании выявлены ключевые условия успеха NSO и оптимальное количество уровней надзора для максимизации вероятности эффективного контроля. Результаты показывают, что при контроле систем, превосходящих наблюдателя на 400 пунктов Эло, вероятность успеха NSO не превышает 52%, что указывает на значительную хрупкость метода.

Анализ четырех сценариев игр для надзора

Модель была протестирована на четырех игровых сценариях:

Мафия: Пять жителей (Стражи) пытаются выявить одного мафиози (Гудини), проверяя навыки обмана и сотрудничества.
Дебаты: Два оппонента ведут спор, а судья (Страж) определяет победителя, используя датасеты TruthfulQA, BoolQ и другие.
Обратный код: Модели должны вставлять и обнаруживать скрытые поведения в коде, используя 225 Python-примеров из набора APPS.
Военные игры: Моделируется вымышленная компания, разрабатывающая AGI, с участием ИИ (Гудини), контролера (Стража) и рассказчика.

Анализ показал, что в Мафии производительность примерно линейно зависит от интеллекта, при этом Стражи улучшаются быстрее. В Дебатах производительность Стража растет с интеллектом, а Гудини остается стабильным. В тестах с обратным кодом наблюдается асимметричное масштабирование, где Стражи обычно превосходят Гудини. В Военных играх были выделены восемь категорий стратегий, схожих для моделей разного уровня.

Ограничения и перспективы

Предложенная модель дает количественную оценку вероятности успеха надзора, но имеет ограничения. В ней рассматривается только одношаговый надзор и используются подсказываемые модели обмана, а не модели, обученные для обмана. В будущем исследователи планируют изучать многоступенчатые цепочки надзора и развивать более реалистичные модели обмана с помощью дообучения и обучения с подкреплением.

Исследователи из MIT выявляют ограничения вложенного контроля ИИ с помощью новой модели на основе рейтинга Эло

Развитие контроля ИИ на фоне прогресса в AGI

Количественная оценка надзора с помощью модели на основе рейтинга Эло

Анализ четырех сценариев игр для надзора

Ограничения и перспективы

Switch Language