JetBrains представляет Mellum: открытая языковая модель, ориентированная на разработчиков
JetBrains выпустила Mellum — языковую модель с 4 миллиардами параметров, специализированную для задач программирования, чтобы улучшить AI-поддержку в разработке ПО.
Mellum: языковая модель, созданная для программирования
Компания JetBrains представила Mellum — языковую модель с 4 миллиардами параметров, специально разработанную для задач разработки программного обеспечения. Эта модель отражает инженерный подход JetBrains, сосредоточенный на таких задачах, как автодополнение, заполнение пропусков и структурное понимание кода.
Узкая, но глубокая специализация
JetBrains называет Mellum «фокусной моделью», что означает узкую, но глубокую специализацию на программировании. В отличие от универсальных больших языковых моделей, Mellum избегает ненужной нагрузки, повышая эффективность работы в средах, похожих на IDE.
Поддержка множества языков программирования
Модель поддерживает широкий спектр языков: Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust и Ruby, что соответствует требованиям современных мульти-языковых команд разработчиков.
Архитектура и процесс обучения
Mellum построена по архитектуре, похожей на LLaMA, и была обучена с нуля на более чем 4.2 триллионах токенов, взятых из богатых кодом источников, таких как The Stack, StarCoder, CommitPack и английская Википедия. Модель имеет окно контекста в 8000 токенов и обучалась с использованием bf16 mixed precision на кластере из 256 GPUs NVIDIA H200, связанных по Infiniband. Обучение длилось около 20 дней.
Результаты тестирования
JetBrains проверила Mellum на нескольких бенчмарках:
- RepoBench v1.1 (8K контекст): Python EM 27.97%, Java EM 31.08%
- SAFIM (заполнение с учётом синтаксиса): pass@1 38.11%
- HumanEval Infilling: однострочное 66.21%, многострочное 38.52%, случайный фрагмент 29.70%
Эти показатели подтверждают специализацию Mellum на структурном понимании кода, особенно при работе с частичными или прерванными фрагментами.
Причины открытого исходного кода
JetBrains открыла исходный код Mellum для обеспечения прозрачности, возможности повторного использования в пользовательских средах, поощрения сотрудничества сообщества и образовательных целей. В релиз вошли базовая модель (Mellum-4b-base) и версия с дополнительным обучением для Python (Mellum-4b-sft-python), доступные под лицензией Apache 2.0 на Hugging Face.
Влияние на инструменты для разработчиков
Mellum даёт JetBrains возможность улучшить AI-инструменты для разработчиков, предлагая компактную и эффективную модель, оптимизированную под работу с исходным кодом. Это часть более широкой стратегии по внедрению нескольких фокусных моделей для специализированных задач, таких как генерация диффов и помощь в обзоре кода, что поддерживает экономичные и контекстно осознанные AI решения.
Mellum — важный шаг в развитии специализированных языковых моделей, ориентированных на практическое использование в программной инженерии, создавая прочную базу для будущих AI-инструментов поддержки разработки.
Switch Language
Read this article in English