Zhipu AI представила GLM-4.5V: открытая мультимодальная модель с контекстом 64К и режимом Thinking Mode
'GLM-4.5V от Zhipu AI — открытая мультимодальная модель с 106B параметрами в фоне и 12B активных параметров, поддержкой 64К токенов и режимом Thinking Mode для сложного визуально-текстового анализа.'
Что такое GLM-4.5V
Zhipu AI опубликовала исходники GLM-4.5V, новую мультимодальную vision-language модель на базе GLM-4.5-Air. Архитектура содержит в сумме 106 миллиардов параметров, но благодаря дизайну Mixture-of-Experts активирует примерно 12 миллиардов параметров на запрос, что позволяет сочетать высокую точность и экономичное развёртывание.
Ключевые возможности
- Анализ изображений: модель распознаёт сложные сцены, фиксирует пространственные связи, обнаруживает дефекты и умеет сопоставлять информацию по нескольким изображениям.
- Понимание видео: 3D сверточный визуальный энкодер обеспечивает обработку длинных видео, временную дискриминацию и автоматическую сегментацию событий.
- Пространственное обоснование: 3D Rotational Positional Encoding (3D-RoPE) улучшает восприятие трёхмерных соотношений в кадре.
- Задачи GUI и агентные сценарии: чтение экранов, локализация иконок и кнопок, планирование действий в интерфейсах для доступности и автоматизации.
- Разбор диаграмм и документов: извлечение структурированных данных и выводов из плотных диаграмм, инфографики и длинных иллюстрированных документов с поддержкой до 64 000 токенов контекста.
- Точное локальное обоснование: модель локализует объекты и элементы UI с опорой на семантические знания, что полезно для AR, разметки изображений и контроля качества.
Архитектура и обучение
GLM-4.5V использует гибридный pipeline, совмещающий визуальный энкодер, MLP-адаптер и языковой декодер для слияния визуальной и текстовой информации. MoE обеспечивает общий масштаб в 106B параметров при активации 12B для инференса. Видео обрабатываются через временное понижение дискретизации и 3D свёртки, что позволяет работать с высокими разрешениями и нативными соотношениями сторон. Режим обучения сочетает масштабное мультимодальное предобучение, supervised fine-tuning и Reinforcement Learning с Curriculum Sampling (RLCS) для улучшения долговременного цепочного рассуждения.
Thinking Mode: настраиваемая глубина рассуждения
Режим Thinking Mode позволяет выбирать поведение модели:
- Thinking Mode ON: углублённое поэтапное рассуждение для сложных задач, таких как логические выводы и детальный разбор диаграмм и документов.
- Thinking Mode OFF: быстрые и прямые ответы для рутинных запросов и простых вопросов.
Это даёт пользователю возможность балансировать между скоростью и объяснимостью.
Бенчмарки и практическое применение
GLM-4.5V показывает SOTA результаты по 41–42 публичным мультимодальным бенчмаркам, включая MMBench, AI2D, MMStar и MathVista. Модель опережает многие открытые и некоторые проприетарные системы в задачах STEM QA, анализа диаграмм, работы с GUI и понимания видео. В реальных внедрениях она помогает в обнаружении дефектов, автоматическом анализе отчётов, создании цифровых ассистентов и технологиях доступности.
Сценарии использования
- Обнаружение дефектов и модерация контента с помощью анализа изображений
- Анализ длинных видео для обзоров безопасности, спорта и образовательных материалов
- Помощь в доступности и автоматизации через чтение экранов и планирование действий в интерфейсах
- Анализ финансовых и научных отчётов с разбором диаграмм и изображений
- AR и робототехника с точной визуальной локализацией
Доступ и ресурсы
GLM-4.5V распространяется под лицензией MIT, что упрощает доступ для исследователей и разработчиков. Zhipu AI предоставляет ссылки на статью, модель на Hugging Face, репозиторий GitHub и обучающие материалы для старта и экспериментов.
Switch Language
Read this article in English