<НА ГЛАВНУЮ

Прорыв Meta: новая методика измеряет, сколько языковые модели запоминают на уровне бит

Meta и партнёры разработали новую методику для точного измерения запоминания языковых моделей, показав, что GPT хранит около 3,6 бит на параметр, и предоставили важные инсайты о различии между запоминанием и обобщением.

Сложности с запоминанием в языковых моделях

Современные языковые модели с миллиардами параметров, обученные на триллионах токенов, вызывают споры относительно их способности к запоминанию. Традиционные методы, такие как извлечение данных и вывод членства, не всегда четко отделяют запоминание от обобщения, оставляя вопросы о том, сколько моделей действительно сохраняют из тренировочных данных.

Недостатки предыдущих методов измерения

Ранее методы оценивали запоминание на уровне всего набора данных, упуская нюансы запоминания конкретных примеров. Модели, основанные на сжатии и исследования фактов, давали частичные представления, но не отличались масштабируемостью и точностью, особенно для глубоких трансформеров.

Новая методика измерения запоминания моделей

Совместное исследование Meta FAIR, Google DeepMind, Корнеллского университета и NVIDIA представило новую методику для количественной оценки того, сколько информации модели хранят о конкретных данных. Они разделили запоминание на непреднамеренное (информация о тренировочных данных) и обобщение (изучение распределения данных). Учитывая эти различия, оценили, что модели семейства GPT хранят около 3,6 бит на параметр. Также были разработаны законы масштабирования, связывающие емкость модели, размер данных и эффективность вывода членства, на основе сотен обученных трансформеров.

Экспериментальная установка и детали обучения

Исследователи обучили сотни моделей на базе GPT-2 с параметрами от 100 тысяч до 20 миллионов, глубиной от 1 до 8 слоев и размером скрытого слоя от 32 до 512. Обучение длилось 1 миллион шагов с батчем 2048, используя точность bfloat16 на одной GPU NVIDIA A100. Модели обучались на синтетических последовательностях и очищенных 64-токеновых текстах из набора FineWeb для минимизации влияния обобщения.

Основные выводы о емкости моделей

  • Во всех конфигурациях модели хранили от 3,5 до 3,6 бит на параметр.
  • Наблюдался эффект двойного спада: при приближении размера данных к емкости модели тестовая ошибка сначала росла, а затем снижалась с началом обобщения.
  • Обучение в float32 немного увеличивало емкость (~3,83 бит на параметр) по сравнению с bfloat16 (~3,51).

Различие между запоминанием и обобщением

При переходе от синтетических к реальным текстам было отмечено:

  • Непреднамеренное запоминание увеличивалось с ростом числа параметров.
  • Запоминание снижалось с увеличением размера обучающего набора.
  • Точные оценки требуют удаления дубликатов и использования модели-оракула для базового уровня сжатия.

Законы масштабирования для вывода членства

Успех вывода членства на основе потерь моделировался через отношение емкости модели к размеру данных:

  • Вывод членства становится менее надежным при увеличении размера данных.
  • Законы масштабирования предсказывают результаты с точностью 1-2% для моделей до 1,5 млрд параметров.

Значение для дальнейших исследований

Этот принципиальный подход создаёт чёткие критерии для измерения запоминания и обобщения в языковых моделях, улучшая понимание кодирования данных трансформерами. Полученные знания помогут развивать методы оценки моделей, обеспечивать конфиденциальность и повышать интерпретируемость AI-систем.

Подробности доступны в оригинальной научной работе.

🇬🇧

Switch Language

Read this article in English

Switch to English