CoDA-1.7B: дискретно-диффузная модель для кода с двунаправленной денойзингом и параллельной генерацией токенов
Salesforce AI Research выпустила CoDA-1.7B — дискретно-диффузную языковую модель для генерации кода, которая восстанавливает целые последовательности через денойзинг с двунаправленным контекстом и обновляет сразу несколько токенов параллельно. В релизе доступны как Base, так и Instruct чекпойнты, а также воспроизводимая сквозная пайплайн для обучения, оценки и сервинга.
Архитектура и этапы обучения
CoDA адаптирует 1.7-миллиардный трансформерный бэкенд под дискретную диффузию для текста. На этапе обучения последовательности маскируются и затем итеративно восстанавливаются с использованием полного внимания по всей последовательности. Такой подход естественно поддерживает инфиллы и неавторегресcивное декодирование, так как отсутствует фиксированный порядок генерации слева направо.
В модельной карте описан трёхэтапный пайплайн:
- Предобучение с двунаправленным маскированием для обучения восстановлению токенов из полного контекста.
- Надзорное пост‑обучение (SFT/Instruct) для настройки модели под инструкции и повышения качества генерации кода.
- Прогрессивный денойзинг на инференсе, где замаскированные последовательности постепенно восстанавливаются за несколько диффузионных шагов.
Также предоставлены воспроизводимые скрипты для предобучения на TPU, тонкой настройки на GPU и оценки.
Ключевые возможности
- Двунаправленный контекст через диффузионный денойзинг, отсутствие фиксированного порядка генерации и поддержка инфиллов.
- Сэмплинг с учётом уверенности (entropy-style decoding) для балансировки качества и скорости за счёт параметров алгоритма и температуры.
- Открытый пайплайн обучения и развертывания с CLI и скриптами деплоя.
Результаты на бенчмарках
CoDA-1.7B-Instruct показывает конкурентоспособные pass@1 значения на стандартных наборах: HumanEval 54.3%, HumanEval+ 47.6%, MBPP 47.2%, MBPP+ 63.2%, агрегат EvalPlus 55.4%. Для сравнения, некоторые 7B-диффузионные базelines, например Dream-7B-Instruct, имеют HumanEval около 57.9%, что указывает на то, что CoDA с 1.7B параметрами сопоставим по ряду метрик с более крупными моделями, при значительно меньшей вычислительной «весовой» стоимости.
Эти результаты показывают, что дискретная диффузия с параллельными обновлениями токенов и полным вниманием может быть эффективным подходом для генерации кода на небольших моделях.
Поведение при инференсе и настройка
Стоимость инференса и латентность зависят от числа диффузионных шагов. CoDA предоставляет управляющие параметры для настройки компромисса между латентностью и качеством: STEPS, ALG=“entropy”, ALG_TEMP и длина блоков. За счёт параллельного обновления токенов под полным вниманием CoDA нацелен на снижение wall-clock латентности на малых масштабах по сравнению с более крупными диффузионными моделями при сопоставимом бюджете шагов.
Опции сэмплинга по уверенности позволяют быстрее декодировать ценой некоторого снижения качества или, наоборот, повысить качество, увеличив число шагов или понизив температуру.
Деплой, лицензирование и инструменты
Репозиторий включает FastAPI сервер с OpenAI-совместимыми API и интерактивный CLI для локального инференса; инструкции покрывают настройку окружения и скрипт start_server.sh. Модельные карты и коллекция на Hugging Face централизуют артефакты. Чекпойнты опубликованы на Hugging Face под лицензией CC BY-NC 4.0.
Модель и артефакты доступны по ссылке: https://huggingface.co/Salesforce/CoDA-v0-Instruct.
Значение релиза
CoDA-1.7B служит наглядным эталоном дискретно-диффузной генерации кода на компактной модели: двунаправленный денойзинг с параллельными обновлениями токенов, воспроизводимая цепочка от предобучения до SFT и сервинга, а также конкурентные результаты на бенчмарках. Наличие управляющих параметров инференса и открытого стека для деплоя делает релиз удобным для экспериментов и локального запуска.