Zhipu GLM-4.6: 200K контекст, экономия токенов и открытые веса
Что нового в GLM-4.6
GLM-4.6 от Zhipu AI — важное обновление семейства GLM, ориентированное на агентные рабочие процессы, длинноконтекстное рассуждение и практические задачи кодирования. Модель увеличивает окно ввода до 200K токенов и поддерживает до 128K выходных токенов, снижая при этом потребление токенов в прикладных задачах. Поставляется с открытыми весами для локального использования и доступна через Z.ai и OpenRouter.
Окно контекста и лимиты вывода
GLM-4.6 поддерживает входной контекст до 200K токенов и максимум 128K выходных токенов. Такое расширенное окно позволяет работать с длинными документами, продолжительными траекториями агентов и многомодульными сценариями кодирования без внешней памяти.
Практическое кодирование и эффективность токенов
По расширенному CC-Bench, где многотуровые задачи оценивают люди в изолированных Docker-средах, GLM-4.6 достигает почти паритета с Claude Sonnet 4, показывая 48.6% win-rate. Zhipu сообщает, что GLM-4.6 использует примерно на 15% меньше токенов по сравнению с GLM-4.5 для завершения тех же задач. Промпты задач и траектории агентов публикуются для проверки.
Компания отмечает, что несмотря на явные преимущества перед GLM-4.5 по ряду публичных бенчмарков, GLM-4.6 все еще отстает от Sonnet 4.5 в некоторых аспектах кодирования, что важно учитывать при выборе модели для конкретных задач.
Позиционирование в бенчмарках
Zhipu констатирует улучшения относительно GLM-4.5 по восьми публичным бенчмаркам и указывает на паритет с Claude Sonnet 4/4.6 на нескольких из них. Это указывает на инкрементальный, но существенный прогресс в пропускной способности и эффективности токенов.
Доступность и интеграция в экосистему
GLM-4.6 доступна через Z.ai API и OpenRouter. Модель интегрируется с популярными агентами для кодирования, такими как Claude Code, Cline, Roo Code и Kilo Code. Пользователи Coding Plan могут обновиться, просто сменив имя модели на glm-4.6.
Открытые веса и лицензия
В карточке модели на Hugging Face указана лицензия MIT и конфигурация MoE приблизительно 355B параметров с BF16/F32 тензорами. Важно помнить, что общее количество параметров в MoE не равно числу активных параметров на токен, и карточка не указывает число активных параметров для GLM-4.6.
Веса размещены на Hugging Face и ModelScope, что облегчает скачивание для локальных экспериментов и разворачивания.
Локальный вывод и инструменты
Документация покрывает локальную подачу через vLLM и SGLang, а также появляются комьюнити-квантизации для аппаратуры уровня рабочей станции. Публичные репозитории и страницы модели содержат примеры и инструкции для исследователей и разработчиков.
FAQ
- Каковы лимиты контекста и вывода?
GLM-4.6 поддерживает входной контекст 200K токенов и максимум 128K выходных токенов.
- Доступны ли открытые веса и под какой лицензией?
Да. В карточке на Hugging Face указана лицензия MIT и MoE-конфигурация около 357B параметров с BF16/F32 тензорами.
- Как GLM-4.6 сравнивается с GLM-4.5 и Claude Sonnet 4 в прикладных задачах?
По расширенному CC-Bench GLM-4.6 использует примерно на 15% меньше токенов, чем GLM-4.5, и достигает почти паритета с Claude Sonnet 4 с 48.6% win-rate.
- Можно ли запускать GLM-4.6 локально?
Да. Zhipu предоставляет веса на Hugging Face и ModelScope и документирует локальный вывод с помощью vLLM и SGLang. Появляются квантизации сообщества для рабочих станций.
Больше технических деталей и загрузки доступны по адресу https://z.ai/blog/glm-4.6 и на странице модели Hugging Face.