Sakana AI запускает Text-to-LoRA: мгновенное создание адаптеров LLM по текстовому описанию задачи

Революция в адаптации больших языковых моделей с помощью Text-to-LoRA

Трансформерные модели, особенно большие языковые модели (LLM), кардинально изменили задачи обработки естественного языка, такие как понимание, перевод и рассуждения. Несмотря на широкий спектр возможностей, адаптация таких моделей под новые специализированные задачи остаётся сложной, требующей длительной настройки, подбора датасетов и больших вычислительных ресурсов.

Проблемы кастомизации больших языковых моделей

Адаптация фундаментальных моделей под уникальные задачи обычно связана с созданием специализированных адаптеров, что занимает много времени и ресурсов. Каждый адаптер создаётся с нуля, что ограничивает масштабируемость и повторное использование. Кроме того, настройка требует точного выбора гиперпараметров, а ошибки в этом могут привести к плохим результатам. В итоге получается множество изолированных компонентов, которые сложно интегрировать.

Low-Rank Adaptation (LoRA) — частичное решение

LoRA предлагает эффективный способ, изменяя лишь небольшое количество параметров с помощью низкоранговых матриц, внедряемых в замороженные слои LLM. Это снижает затраты на обучение по сравнению с полной донастройкой, но всё равно требует обучения нового адаптера для каждой задачи. Существующие методы сжатия или комбинации адаптеров зависят от предварительного обучения и не позволяют быстро генерировать адаптеры на лету.

Представляем Text-to-LoRA (T2L)

Text-to-LoRA от Sakana AI — это гиперсеть, которая генерирует адаптеры LoRA для конкретных задач по их текстовому описанию. Вместо повторного обучения адаптеров, T2L выводит веса адаптера за один проход, обучаясь на библиотеке существующих адаптеров из разных областей, таких как GSM8K, Arc-challenge, BoolQ. Это позволяет мгновенно создавать адаптеры для ранее неизвестных задач.

Принцип работы T2L

T2L использует сочетание модульных и слойных эмбеддингов вместе с векторным представлением текстового описания задачи. Были протестированы три варианта модели: большая (55 млн параметров), средняя (34 млн) и малая (5 млн). Обучение проходило на датасете Super Natural Instructions, включающем 479 задач, что позволяет T2L генерировать низкоранговые матрицы A и B, необходимые для работы адаптера LoRA. Одна модель заменяет сотни вручную обученных адаптеров, обеспечивая стабильные результаты при меньших вычислительных затратах.

Результаты и масштабируемость

На тестах Arc-easy и GSM8K T2L достигла или превзошла показатели вручную настроенных адаптеров: 76.6% точности на Arc-easy и 89.9% на BoolQ, чуть лучше оригинальных адаптеров. На более сложных задачах, таких как PIQA и Winogrande, T2L показывала лучшие результаты, что связано с регуляризующим эффектом сжатия гиперсети. Увеличение количества обучающих задач с 16 до 479 значительно улучшило обобщение в zero-shot режиме.

Основные моменты

Мгновенная адаптация LLM с помощью естественного языка.
Поддержка zero-shot для новых задач.
Три архитектурных варианта с 5M, 34M и 55M параметров.
Тестирование на ArcE, BoolQ, GSM8K, Hellaswag и других.
Результаты, сопоставимые или лучше ручных адаптеров.
Обучение на 479 задачах из Super Natural Instructions.
Адаптеры воздействуют на проекции запроса и значения в слоях внимания (3.4 млн параметров).
Устойчивость к потерям информации при сжатии.

Значение для развития ИИ

T2L — важный шаг к гибкой и эффективной адаптации моделей. Используя естественный язык как управляющий сигнал, технология устраняет необходимость в трудоёмком переобучении. Это сокращает время и затраты на адаптацию LLM под новые задачи. Динамическая генерация адаптеров гиперсетями снижает требования к хранению, что повышает практичность метода для промышленного применения.

Подробности в научной статье и на GitHub. Следите за Sakana AI в Twitter и присоединяйтесь к их сообществу ML для новостей.