Zhipu GLM-4.6: 200K контекст, экономия токенов и открытые веса

Что нового в GLM-4.6

GLM-4.6 от Zhipu AI — важное обновление семейства GLM, ориентированное на агентные рабочие процессы, длинноконтекстное рассуждение и практические задачи кодирования. Модель увеличивает окно ввода до 200K токенов и поддерживает до 128K выходных токенов, снижая при этом потребление токенов в прикладных задачах. Поставляется с открытыми весами для локального использования и доступна через Z.ai и OpenRouter.

Окно контекста и лимиты вывода

GLM-4.6 поддерживает входной контекст до 200K токенов и максимум 128K выходных токенов. Такое расширенное окно позволяет работать с длинными документами, продолжительными траекториями агентов и многомодульными сценариями кодирования без внешней памяти.

Практическое кодирование и эффективность токенов

По расширенному CC-Bench, где многотуровые задачи оценивают люди в изолированных Docker-средах, GLM-4.6 достигает почти паритета с Claude Sonnet 4, показывая 48.6% win-rate. Zhipu сообщает, что GLM-4.6 использует примерно на 15% меньше токенов по сравнению с GLM-4.5 для завершения тех же задач. Промпты задач и траектории агентов публикуются для проверки.

Компания отмечает, что несмотря на явные преимущества перед GLM-4.5 по ряду публичных бенчмарков, GLM-4.6 все еще отстает от Sonnet 4.5 в некоторых аспектах кодирования, что важно учитывать при выборе модели для конкретных задач.

Позиционирование в бенчмарках

Zhipu констатирует улучшения относительно GLM-4.5 по восьми публичным бенчмаркам и указывает на паритет с Claude Sonnet 4/4.6 на нескольких из них. Это указывает на инкрементальный, но существенный прогресс в пропускной способности и эффективности токенов.

Доступность и интеграция в экосистему

GLM-4.6 доступна через Z.ai API и OpenRouter. Модель интегрируется с популярными агентами для кодирования, такими как Claude Code, Cline, Roo Code и Kilo Code. Пользователи Coding Plan могут обновиться, просто сменив имя модели на glm-4.6.

Открытые веса и лицензия

В карточке модели на Hugging Face указана лицензия MIT и конфигурация MoE приблизительно 355B параметров с BF16/F32 тензорами. Важно помнить, что общее количество параметров в MoE не равно числу активных параметров на токен, и карточка не указывает число активных параметров для GLM-4.6.

Веса размещены на Hugging Face и ModelScope, что облегчает скачивание для локальных экспериментов и разворачивания.

Локальный вывод и инструменты

Документация покрывает локальную подачу через vLLM и SGLang, а также появляются комьюнити-квантизации для аппаратуры уровня рабочей станции. Публичные репозитории и страницы модели содержат примеры и инструкции для исследователей и разработчиков.

FAQ

  1. Каковы лимиты контекста и вывода?

GLM-4.6 поддерживает входной контекст 200K токенов и максимум 128K выходных токенов.

  1. Доступны ли открытые веса и под какой лицензией?

Да. В карточке на Hugging Face указана лицензия MIT и MoE-конфигурация около 357B параметров с BF16/F32 тензорами.

  1. Как GLM-4.6 сравнивается с GLM-4.5 и Claude Sonnet 4 в прикладных задачах?

По расширенному CC-Bench GLM-4.6 использует примерно на 15% меньше токенов, чем GLM-4.5, и достигает почти паритета с Claude Sonnet 4 с 48.6% win-rate.

  1. Можно ли запускать GLM-4.6 локально?

Да. Zhipu предоставляет веса на Hugging Face и ModelScope и документирует локальный вывод с помощью vLLM и SGLang. Появляются квантизации сообщества для рабочих станций.

Больше технических деталей и загрузки доступны по адресу https://z.ai/blog/glm-4.6 и на странице модели Hugging Face.