Обобщение в моделях Flow Matching обусловлено аппроксимацией поля скорости, а не стохастичностью

Понимание обобщения в глубоких генеративных моделях

Глубокие генеративные модели, такие как диффузионные и flow matching, демонстрируют впечатляющие результаты в создании реалистичного и разнообразного контента: изображений, аудио, видео и текста. Однако ключевой задачей остаётся понимание механизма обобщения — умеют ли модели создавать новые данные или лишь запоминают обучающую выборку. Некоторые исследования показывают, что крупные диффузионные модели запоминают отдельные примеры, в то время как другие выявляют признаки обобщения при обучении на больших наборах данных, что указывает на фазовый переход между запоминанием и обобщением.

Обзор существующих исследований по Flow Matching

Ранее изучались решения в закрытом виде, динамика запоминания и обобщения, а также фазы генеративных процессов. Предлагались методы регрессии по полю скорости и сглаженной оптимальной генерации скорости. Геометрические интерпретации связывают переход к обобщению с размером датасета, а временной анализ выделяет фазы, зависящие от размерности и числа образцов. Однако методы валидации, основанные на стохастичности обратного процесса, неприменимы к flow matching, что оставляет пробелы в понимании.

Новые открытия: ошибки на ранних траекториях как источник обобщения

Исследователи из Университета Жан Моне и Университета Клода Бернара показали, что обобщение в flow matching возникает из-за ограниченной способности нейросетей точно аппроксимировать поле скорости в ранние и поздние интервалы времени. Это связано с переходом от стохастического к детерминированному поведению траекторий. Предложен алгоритм обучения, регрессирующий на точное поле скорости, что улучшает обобщение на стандартных датасетах изображений.

Исследование источников обобщения

Работа опровергает предположения о стохастичности цели, используя формулы оптимального поля скорости в закрытом виде, демонстрируя, что после малых временных значений взвешенное среднее условных целей flow matching совпадает с одним значением ожидания. Эксперименты на подвыборках CIFAR-10 от 10 до 10 000 образцов исследуют качество аппроксимации между изученным и оптимальным полями скорости. Также созданы гибридные модели с кусочно-заданными траекториями: оптимальное поле скорости для ранних интервалов и изученное поле для поздних, с настраиваемым порогом для определения критических периодов.

Эмпирический Flow Matching: обучение с детерминированными целями

Реализован алгоритм обучения с регрессией на более детерминированные цели, вычисляемые по формулам в закрытом виде. Сравнивались vanilla conditional flow matching, optimal transport flow matching и empirical flow matching на CIFAR-10 и CelebA. Для оценки использовали несколько образцов для эмпирического среднего, а метрики включали Fréchet Inception Distance с Inception-V3 и DINOv2 для непредвзятой оценки. Вычислительная сложность составила O(M × |B| × d). Увеличение числа образцов M снижало стохастичность целей, улучшая стабильность с умеренным приростом вычислений при M, равном размеру батча.

Аппроксимация поля скорости — ключ к обобщению

Исследование опровергает мнение, что стохастичность функции потерь является главным фактором обобщения в flow matching. Важна именно способность точно аппроксимировать поле скорости, особенно на ранних этапах траектории. Несмотря на эмпирические успехи, полное описание изученных полей скорости вне оптимальных траекторий остаётся задачей для будущих исследований с использованием архитектурных индуктивных предубеждений.

Этические аспекты

Улучшение понимания обобщения порождает вопросы о возможном злоупотреблении генеративными моделями для создания дипфейков, нарушения приватности и производства синтетического контента. Необходимо внимательно подходить к этическому использованию таких технологий, чтобы минимизировать риски.