Революция в адаптации трансформеров: от дообучения к продвинутому проектированию подсказок
Новое исследование показывает, что подсказки во время инференса могут эффективно имитировать дообученные модели трансформеров, предлагая ресурсосберегающий подход к NLP без повторного обучения.
Проблемы дообучения больших моделей трансформеров
Модели трансформеров используют механизм самовнимания для захвата длинных зависимостей в тексте, что позволяет им эффективно понимать сложные языковые паттерны. Они способны работать с огромными объемами данных без необходимости в специализированных архитектурах для задач, что сделало их популярными в программировании, образовании и генерации контента.
Главный недостаток использования таких моделей — необходимость в контролируемом дообучении. Адаптация базовой модели под конкретную задачу требует повторного обучения на размеченных данных, что требует значительных вычислительных ресурсов и может занимать тысячи GPU-часов. Это ограничивает доступность технологий и замедляет внедрение, что подчеркивает потребность в методах, позволяющих раскрыть возможности модели без изменения ее параметров.
Подсказки во время вывода как альтернатива дообучению
Для решения этой задачи исследователи изучают методы, которые направляют поведение модели через примерные входные данные во время инференса, без обновления параметров. Метод in-context learning позволяет модели получать последовательность пар вход-выход и на их основе делать предсказания для новых данных. Такой подход дает возможность использовать базовую модель для специализированных задач, опираясь только на контекст, а не на повторное обучение.
Однако до сих пор было мало формальных доказательств, что такие методы могут стабильно достигать результатов, сравнимых с дообученными моделями.
Теоретическая основа: приближение дообученной модели через in-context learning
Исследователи из Patched Codes, Inc. показали, используя свойство Turing-полноты трансформеров, что базовая модель может приблизить поведение дообученной модели через in-context learning при наличии достаточных вычислительных ресурсов и доступа к исходным обучающим данным. Их теория количественно описывает, как размер данных, длина контекста и сложность задачи влияют на качество приближения.
Работа рассматривает задачи генерации текста и линейной классификации, устанавливая границы на размер датасета, необходимого для получения результатов с уровнем ошибки ε, сравнимым с дообученной моделью.
Проектирование подсказок с теоретическими гарантиями
Подход строится на создании подсказок, которые объединяют набор размеченных примеров с целевым запросом. Модель обрабатывает эту последовательность, выявляя закономерности для генерации ответа. Например, подсказка может содержать отзывы с оценками настроения, а затем новый отзыв для предсказания его настроения.
Процесс моделируется как симуляция машины Тьюринга, где слои самовнимания выступают в роли состояния ленты, а полносвязные слои — правил перехода. Исследователи формализовали условия, при которых расстояние между распределениями выходов базовой и дообученной моделей не превышает допустимую ошибку ε. В статье приведена конструкция этого метода и теоретические оценки его эффективности.
Количественные результаты по размеру данных и сложности задач
Для задач генерации текста с размером словаря V размер датасета должен быть порядка OmVε²log(1/δ), чтобы обеспечить приближение к дообученной модели с ошибкой ε на m контекстах. При фиксированной длине вывода l достаточно меньшего размера данных Ol log Vε²log(1/δ).
Для линейной классификации с размерностью входа d требуется Od/ε, или при ограничениях на длину контекста — O(1/ε² log(1/δ)). Эти результаты получены в идеализированных условиях, но адаптированы к реальным ограничениям, таким как конечная длина контекста и частичная доступность данных, с помощью методов, например, retrieval-augmented generation.
Значение для эффективных и масштабируемых NLP-моделей
Исследование открывает путь к ресурсосберегающему использованию NLP, показывая, что подсказки во время инференса могут почти повторять результаты контролируемого дообучения при наличии достаточного контекста. Это сочетание теории и практики доказывает, что использование скрытых возможностей модели через грамотно сконструированные подсказки — жизнеспособный, масштабируемый и эффективный подход для решения специализированных задач NLP.
Подробнее в статье. Все заслуги принадлежат исследователям проекта. Следите за обновлениями в Twitter, присоединяйтесь к ML-сообществу на Reddit с более чем 100k участников и подписывайтесь на нашу рассылку.
Switch Language
Read this article in English