<НА ГЛАВНУЮ

JetBrains представляет Mellum: открытая языковая модель, ориентированная на разработчиков

JetBrains выпустила Mellum — языковую модель с 4 миллиардами параметров, специализированную для задач программирования, чтобы улучшить AI-поддержку в разработке ПО.

Mellum: языковая модель, созданная для программирования

Компания JetBrains представила Mellum — языковую модель с 4 миллиардами параметров, специально разработанную для задач разработки программного обеспечения. Эта модель отражает инженерный подход JetBrains, сосредоточенный на таких задачах, как автодополнение, заполнение пропусков и структурное понимание кода.

Узкая, но глубокая специализация

JetBrains называет Mellum «фокусной моделью», что означает узкую, но глубокую специализацию на программировании. В отличие от универсальных больших языковых моделей, Mellum избегает ненужной нагрузки, повышая эффективность работы в средах, похожих на IDE.

Поддержка множества языков программирования

Модель поддерживает широкий спектр языков: Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust и Ruby, что соответствует требованиям современных мульти-языковых команд разработчиков.

Архитектура и процесс обучения

Mellum построена по архитектуре, похожей на LLaMA, и была обучена с нуля на более чем 4.2 триллионах токенов, взятых из богатых кодом источников, таких как The Stack, StarCoder, CommitPack и английская Википедия. Модель имеет окно контекста в 8000 токенов и обучалась с использованием bf16 mixed precision на кластере из 256 GPUs NVIDIA H200, связанных по Infiniband. Обучение длилось около 20 дней.

Результаты тестирования

JetBrains проверила Mellum на нескольких бенчмарках:

  • RepoBench v1.1 (8K контекст): Python EM 27.97%, Java EM 31.08%
  • SAFIM (заполнение с учётом синтаксиса): pass@1 38.11%
  • HumanEval Infilling: однострочное 66.21%, многострочное 38.52%, случайный фрагмент 29.70%

Эти показатели подтверждают специализацию Mellum на структурном понимании кода, особенно при работе с частичными или прерванными фрагментами.

Причины открытого исходного кода

JetBrains открыла исходный код Mellum для обеспечения прозрачности, возможности повторного использования в пользовательских средах, поощрения сотрудничества сообщества и образовательных целей. В релиз вошли базовая модель (Mellum-4b-base) и версия с дополнительным обучением для Python (Mellum-4b-sft-python), доступные под лицензией Apache 2.0 на Hugging Face.

Влияние на инструменты для разработчиков

Mellum даёт JetBrains возможность улучшить AI-инструменты для разработчиков, предлагая компактную и эффективную модель, оптимизированную под работу с исходным кодом. Это часть более широкой стратегии по внедрению нескольких фокусных моделей для специализированных задач, таких как генерация диффов и помощь в обзоре кода, что поддерживает экономичные и контекстно осознанные AI решения.

Mellum — важный шаг в развитии специализированных языковых моделей, ориентированных на практическое использование в программной инженерии, создавая прочную базу для будущих AI-инструментов поддержки разработки.

🇬🇧

Switch Language

Read this article in English

Switch to English