Google превращает TimesFM в few-shot прогнозер для временных рядов с помощью in-context fine-tuning

сентября 24, 2025 · 2 min

Какая проблема решается

В практических сценариях прогнозирования часто приходится выбирать между точностью при перетренировке под каждую задачу и удобством единой модели, работающей в ноль. Исследование Google предлагает технологию, которая сохраняет один pretrained чекпоинт TimesFM и при этом позволяет модели адаптироваться на лету во время вывода, используя несколько связанных серий в качестве примеров в контексте.

Как работает in-context fine-tuning

In-context fine-tuning, или ICF, это продолженное предобучение TimesFM. Базовая архитеκтура — это decoder-only трансформер с патчингом: вход разбивается на патчи по 32 точки, а выход декодируется на 128 точек через общий MLP-хед. Для ICF тренировочные последовательности строятся путем перемежения истории целевой серии с несколькими «support» сериями, разделенными обучаемым сепаратором. Целевая функция остается предсказанием следующего токена, но модель учится через causal attention извлекать структуру между примерами.

Что значит few-shot здесь

При инференсе пользователь конкатенирует историю целевой серии с k похожими отрывками из других серий, каждый отделен сепаратором. Модель, обученная на таких примерах, использует их как образцы для адаптации без обновления весов. Это похоже на few-shot prompting в LLM, только для числовых временных рядов и патчированных входов.

Сравнение с классическим fine-tuning

На наборе из 23 датасетов, выходящих за распределение обучающих данных, TimesFM-ICF достигает паритета с per-dataset fine-tuning и превосходит базовую TimesFM на 6.8 процента по геометрическому среднему масштабированного MASE. Наблюдается очевидный компромисс между точностью и задержкой: больше in-context примеров улучшает прогноз, но увеличивает время инференса. Контрольные эксперименты показывают, что структурированные in-context примеры эффективнее простого увеличения длины контекста.

Чем это отличается от Chronos

Подходы типа Chronos дискретизируют значения в словарь токенов и демонстрируют сильный zero-shot результат и быстрые варианты. Основной вклад Google не в новом токенизаторе, а в умении заставить модель временных рядов учиться на примерах в контексте при инференсе, то есть переносить идею few-shot prompting в область числового прогнозирования.

Архитектурные моменты, на которые стоит смотреть

Ключевые элементы ICF:

обучаемые сепараторные токены для границ между сериями
causal self-attention над смешанными историями и примерами
сохранение патчинга и общего MLP-хеда
continued pretraining на перемеженных последовательностях, чтобы модель научилась использовать кросс-примерные сигналы

Практические выводы

TimesFM-ICF делает один pretrained чекпоинт пригодным для few-shot прогнозирования. В условиях многопользовательских систем и когда дорого держать per-dataset training pipelines, основным рычагом управления становится подбор и кураторство support-сетов, что снижает нагрузку на MLOps и сохраняет уровень точности, сопоставимый с тонкой настройкой.