Яндекс представляет Alchemist: Компактный датасет для улучшения качества моделей текст-в-изображение

Проблемы генерации текст-в-изображение

Несмотря на успехи таких моделей, как DALL-E 3, Imagen 3 и Stable Diffusion 3, добиться стабильного высокого качества результатов остаётся сложной задачей. Крупномасштабное предобучение даёт общие знания, но не обеспечивает выдающуюся эстетическую составляющую и точное соответствие запросам. Критически важным этапом является контролируемая дообучка (SFT), эффективность которой во многом зависит от качества используемого датасета.

Ограничения существующих датасетов

Большинство доступных датасетов для SFT либо сфокусированы на узких визуальных темах (аниме, отдельные жанры), либо используют простые эвристики для фильтрации данных с веба. Человеческая курaция дорогая и плохо масштабируется, часто пропуская важные для улучшения модели примеры. Кроме того, многие современные модели используют проприетарные датасеты с ограниченной прозрачностью.

Alchemist — датасет с руководством модели

Яндекс выпустил Alchemist — компактный универсальный датасет для SFT, включающий 3350 тщательно отобранных пар изображений и описаний. В отличие от традиционных подходов, отбор данных основан на предобученной диффузионной модели, которая выступает в роли оценщика качества образцов. Такой метод позволяет выбрать обучающий материал с максимальным влиянием на производительность без субъективных оценок человека или простых эстетических метрик.

Конструкция датасета и этапы фильтрации

Формирование Alchemist начинается с ~10 миллиардов изображений из интернета и проходит несколько этапов:

Первичная фильтрация: удаление NSFW и изображений с разрешением ниже 1024×1024 пикселей.
Грубая фильтрация качества: с помощью классификаторов, обученных на датасетах качества изображений (KonIQ-10k, PIPAL), исключаются фото с артефактами сжатия, размытием, водяными знаками и другими дефектами.
Дедупликация и отбор по качеству: кластеризация похожих изображений с использованием SIFT-подобных признаков и отбор только качественных примеров по модели TOPIQ.
Отбор на основе диффузионной модели: ключевой этап — ранжирование изображений по активациям кросс-внимания предобученной диффузионной модели. Выбираются образцы с высокой визуальной сложностью, эстетикой и стилевой насыщенностью.
Переподпись описаний: финальные изображения получают новые подписи с помощью тонко настроенной модели видение-язык, что улучшает соответствие и удобство для SFT.

Исследования показали, что увеличение объёма датасета сверх 3350 образцов ведёт к снижению качества обученных моделей, подчёркивая важность качества над количеством.

Результаты на различных моделях Stable Diffusion

Эффективность Alchemist проверена на пяти вариантах Stable Diffusion (SD1.5, SD2.1, SDXL, SD3.5 Medium и Large), сравнивая обучение на Alchemist, сопоставимом по размеру наборе LAION-Aesthetics v2 и исходных моделях.

Оценка людьми: эксперты оценивали соответствие текста изображению, эстетику, сложность и достоверность. Модели, дообученные на Alchemist, показали значительный прирост по эстетике и сложности (12–20%), превзойдя как базовые, так и LAION-версии, при этом сохранив стабильное соответствие запросам.
Автоматические метрики: показатели FD-DINOv2, CLIP Score, ImageReward и HPS-v2 подтвердили преимущество моделей, обученных на Alchemist.
Влияние размера датасета: большие варианты Alchemist ухудшили результаты, что подтверждает эффективность строгой фильтрации и высокого качества примеров.

Практическое применение и значение

Яндекс уже использует Alchemist для обучения своей модели YandexART v2.5 и планирует применять датасет для дальнейших обновлений. Alchemist устанавливает новый стандарт для SFT-датасетов, делая упор на выборочные, качественные данные и открытость для исследователей.

Этот подход открывает воспроизводимый путь к улучшению качества генерации текст-в-изображение, особенно в восприятии эстетики и визуальной сложности, учитывая при этом компромиссы по достоверности в новых моделях.

Для подробностей ознакомьтесь с публикацией и датасетом Alchemist на Hugging Face.