Zhipu AI представляет GLM-4.7-Flash для локального кодирования
Узнайте о GLM-4.7-Flash, инновационной модели Zhipu AI для эффективных задач локального кодирования.
Последний релиз Zhipu AI
GLM-4.7-Flash — новый участник в семье GLM 4.7, разработанный специально для разработчиков, которым необходимы сильные возможности кодирования и разумного вывода в модели, предназначенной для локальной работы. Zhipu AI (Z.ai) характеризует GLM-4.7-Flash как модель 30B-A3B MoE, что делает её ведущей моделью в классе 30B, сосредоточенной на оптимизации как производительности, так и эффективности.
Класс модели и позиция в GLM 4.7
GLM-4.7-Flash обладает архитектурой генерации текста с 31B параметрами, поддерживающими тензорные типы BF16 и F32. Идентифицированная с архитектурным тегом glm4_moe_lite, она эффективно обслуживает как английский, так и китайский языки, что делает её универсальной для разговорных приложений. Эта модель стратегически расположена рядом с более крупными вариантами, такими как GLM-4.7 и GLM-4.7-FP8, обеспечивая компактную альтернативу для задач кодирования и логического вывода.
Архитектура и длина контекста
Используя архитектуру Смешанных Экспертов, GLM-4.7-Flash позволяет хранить больше параметров, чем активируется для каждого токена. Этот дизайн способствует специализации, сохраняя при этом эффективную вычислительную способность на уровне меньших плотных моделей.
С поддержкой длины контекста в 128k токенов, GLM-4.7-Flash достигает впечатляющих результатов по когнитивным эталонам по сравнению с аналогами. Эта ёмкость идеально подходит для работы с большими кодовыми базами и длинными техническими документами, что исключает необходимость в агрессивном делении, часто требуемом другими моделями.
Используя стандартный интерфейс языкового моделирования и шаблон чата, интеграция в существующие LLM-пакеты требует минимальных изменений.
Конкурентные результаты оценок
В косвенных сравнениях команда Z.ai проводит оценку GLM-4.7-Flash по сравнению с Qwen3-30B-A3B-Thinking-2507 и GPT-OSS-20B. Результаты показывают, что GLM-4.7-Flash либо выводит вперед, либо конкурирует по множеству эталонов в математике, логике и программировании.
Параметры оценки и режим мышления
Стандартные настройки для GLM-4.7-Flash включают температуру 1.0, top p 0.95 и максимальное количество токенов 131072. Эти настройки формируют относительно открытый режим выборки с широким бюджетом генерации.
Для специализированных задач применяются более строгие настройки: температура 0.7 и максимальное количество новых токенов устанавливается на 16384 для Terminal Bench и SWE-bench Verified. Для τ²-Bench используется температура 0 и максимальное количество новых токенов также ограничивается на 16384, обеспечивая большую стабильность для многошаговых взаимодействий.
Команда Z.ai также рекомендует активировать режим Сохраненного Мышления при многопроцессных агентных задачах, чтобы сохранить внутреннее рассуждение в процессе взаимодействия — это особенно важно для сложных последовательностей вызовов функций.
Соответствие рабочим процессам разработчика
GLM-4.7-Flash сочетает в себе множество характеристик, полезных для приложений, ориентированных на кодирование:
- Архитектура 30B-A3B MoE с 31B параметрами и длиной контекста 128k токенов.
- Сильные результаты в эталонах AIME 25, GPQA, SWE-bench Verified, τ²-Bench и BrowseComp.
- Документированные параметры оценки и режим Сохраненного Мышления для многопроцессных агентных задач.
- Первоклассная поддержка vLLM, SGLang и основанного на трансформерах вывода.
- Растущее множество финотюнов и квантизаций, доступных в экосистеме Hugging Face.
Исследуйте и взаимодействуйте
Для получения дополнительных деталей ознакомьтесь с Весами модели и следуйте за новостями на Twitter. Присоединяйтесь к нашему SubReddit по машинному обучению и подписывайтесь на нашу рассылку для получения новых обновлений.
Switch Language
Read this article in English