78 примеров и огромный прирост: LIMI превращает крошевые наборы данных в мощные софт-агенты

Что такое LIMI

Исследователи из Shanghai Jiao Tong University и SII Generative AI Research Lab представляют LIMI, сокращение от Less Is More for Agency. Это метод контролируемого дообучения, который превращает базовую языковую модель в способного программного или исследовательского агента, используя всего 78 курируемых, длительных и привязанных к инструментам траекторий. На AgencyBench LIMI достигает 73.5% в среднем (FTFC 71.7, RC@3 74.2, SR@3 74.6), опережая сильные базы и модели, обученные на существенно больших наборах данных.

В чем новизна подхода

Ключевая идея — принцип эффективности агентства: компетентность агента растет больше за счет качества и структуры данных, чем за счет их количества. Вместо тысяч коротких пар инструкция-ответ LIMI использует небольшое число плотных демонстраций, каждая из которых фиксирует полный многошаговый рабочий процесс: рассуждения, вызовы инструментов, наблюдения за средой и шаги верификации.

Как собирались данные

Набор для обучения состоит из 78 траекторий: 60 реальных запросов практиков и 18 синтезированных примеров на основе популярных GitHub pull request’ов. Аннотации и проверку качества выполняли аспиранты/PhD с тщательной QA. Каждая траектория содержит много токенов (приблизительно от 13k до 152k токенов, в среднем около 42.4k) и фиксирует полный путь от запроса до успешного завершения задач по интерактивной разработке и исследовательским рабочим процессам.

Тренировка и базовые модели

LIMI применили к GLM-4.5 (355B) и GLM-4.5-Air (106B) с использованием slime SFT фреймворка. Конфиги обучения были одинаковыми в сравнительных экспериментах, чтобы выделить влияние структуры и качества данных. Цель — понять, насколько далеко можно продвинуть поведение агента, обучая его на небольшом наборе длинных траекторий.

Оценка и результаты

Основная оценка проводилась на AgencyBench с тремя раундами и метриками FTFC, SR@3, RC@3, а также на наборе обобщающих бенчмарков (TAU2, EvalPlus-HE/MBPP, DS-1000, SciCode). LIMI показал средний результат 73.5% на AgencyBench, значительно опередив базовые модели: GLM-4.5 — 45.1, Qwen3-235B-A22B — 27.5 и другие. Впечатляет сравнение с дообучением на 10 000 примерах: LIMI 73.5% против 47.8% у AFM-CodeAgent SFT, что дает 128-кратное сокращение числа примеров и прирост в 53.7 процентных пункта.

В задачах обобщения LIMI показывает около 57% в среднем по инструментальным, кодовым и научным задачам. Даже без доступа к инструментам LIMI сохраняет небольшое преимущество, что указывает на получение извнеинструментальных навыков планирования и оркестровки.

Почему важна качество траекторий

Результаты LIMI подчеркивают, что длинные, связные траектории, имитирующие реальные рабочие процессы, содержат стратегии планирования, последовательное использование инструментов и шаги проверки, которые краткие инструкции не передают. Одна плотная демонстрация кодирует многошаговые паттерны, которые модель способна воспроизвести и обобщить эффективнее, чем множество разрозненных примеров.

Практические выводы и дальнейшие шаги

LIMI показывает перспективный путь для создания практичных программных агентов при ограниченном бюджете на разметку: инвестируйте в сбор качественных, привязанных к инструментам траекторий, а не в простое масштабирование общих SFT данных. Дальнейшие исследования могут расширить покрытие задач, автоматизировать синтез траекторий и проверить переносимость на другие базовые модели и среда выполнения. Статья, код и модель доступны для репродукции результатов.