Zhipu AI представляет GLM-4.7-Flash для локального кодирования

Последний релиз Zhipu AI

GLM-4.7-Flash — новый участник в семье GLM 4.7, разработанный специально для разработчиков, которым необходимы сильные возможности кодирования и разумного вывода в модели, предназначенной для локальной работы. Zhipu AI (Z.ai) характеризует GLM-4.7-Flash как модель 30B-A3B MoE, что делает её ведущей моделью в классе 30B, сосредоточенной на оптимизации как производительности, так и эффективности.

Класс модели и позиция в GLM 4.7

GLM-4.7-Flash обладает архитектурой генерации текста с 31B параметрами, поддерживающими тензорные типы BF16 и F32. Идентифицированная с архитектурным тегом glm4_moe_lite, она эффективно обслуживает как английский, так и китайский языки, что делает её универсальной для разговорных приложений. Эта модель стратегически расположена рядом с более крупными вариантами, такими как GLM-4.7 и GLM-4.7-FP8, обеспечивая компактную альтернативу для задач кодирования и логического вывода.

Архитектура и длина контекста

Используя архитектуру Смешанных Экспертов, GLM-4.7-Flash позволяет хранить больше параметров, чем активируется для каждого токена. Этот дизайн способствует специализации, сохраняя при этом эффективную вычислительную способность на уровне меньших плотных моделей.

С поддержкой длины контекста в 128k токенов, GLM-4.7-Flash достигает впечатляющих результатов по когнитивным эталонам по сравнению с аналогами. Эта ёмкость идеально подходит для работы с большими кодовыми базами и длинными техническими документами, что исключает необходимость в агрессивном делении, часто требуемом другими моделями.

Используя стандартный интерфейс языкового моделирования и шаблон чата, интеграция в существующие LLM-пакеты требует минимальных изменений.

Конкурентные результаты оценок

В косвенных сравнениях команда Z.ai проводит оценку GLM-4.7-Flash по сравнению с Qwen3-30B-A3B-Thinking-2507 и GPT-OSS-20B. Результаты показывают, что GLM-4.7-Flash либо выводит вперед, либо конкурирует по множеству эталонов в математике, логике и программировании.

Параметры оценки и режим мышления

Стандартные настройки для GLM-4.7-Flash включают температуру 1.0, top p 0.95 и максимальное количество токенов 131072. Эти настройки формируют относительно открытый режим выборки с широким бюджетом генерации.

Для специализированных задач применяются более строгие настройки: температура 0.7 и максимальное количество новых токенов устанавливается на 16384 для Terminal Bench и SWE-bench Verified. Для τ²-Bench используется температура 0 и максимальное количество новых токенов также ограничивается на 16384, обеспечивая большую стабильность для многошаговых взаимодействий.

Команда Z.ai также рекомендует активировать режим Сохраненного Мышления при многопроцессных агентных задачах, чтобы сохранить внутреннее рассуждение в процессе взаимодействия — это особенно важно для сложных последовательностей вызовов функций.

Соответствие рабочим процессам разработчика

GLM-4.7-Flash сочетает в себе множество характеристик, полезных для приложений, ориентированных на кодирование:

Архитектура 30B-A3B MoE с 31B параметрами и длиной контекста 128k токенов.
Сильные результаты в эталонах AIME 25, GPQA, SWE-bench Verified, τ²-Bench и BrowseComp.
Документированные параметры оценки и режим Сохраненного Мышления для многопроцессных агентных задач.
Первоклассная поддержка vLLM, SGLang и основанного на трансформерах вывода.
Растущее множество финотюнов и квантизаций, доступных в экосистеме Hugging Face.

Исследуйте и взаимодействуйте

Для получения дополнительных деталей ознакомьтесь с Весами модели и следуйте за новостями на Twitter. Присоединяйтесь к нашему SubReddit по машинному обучению и подписывайтесь на нашу рассылку для получения новых обновлений.