<НА ГЛАВНУЮ

Zhipu AI представила GLM-4.5V: открытая мультимодальная модель с контекстом 64К и режимом Thinking Mode

'GLM-4.5V от Zhipu AI — открытая мультимодальная модель с 106B параметрами в фоне и 12B активных параметров, поддержкой 64К токенов и режимом Thinking Mode для сложного визуально-текстового анализа.'

Что такое GLM-4.5V

Zhipu AI опубликовала исходники GLM-4.5V, новую мультимодальную vision-language модель на базе GLM-4.5-Air. Архитектура содержит в сумме 106 миллиардов параметров, но благодаря дизайну Mixture-of-Experts активирует примерно 12 миллиардов параметров на запрос, что позволяет сочетать высокую точность и экономичное развёртывание.

Ключевые возможности

  • Анализ изображений: модель распознаёт сложные сцены, фиксирует пространственные связи, обнаруживает дефекты и умеет сопоставлять информацию по нескольким изображениям.
  • Понимание видео: 3D сверточный визуальный энкодер обеспечивает обработку длинных видео, временную дискриминацию и автоматическую сегментацию событий.
  • Пространственное обоснование: 3D Rotational Positional Encoding (3D-RoPE) улучшает восприятие трёхмерных соотношений в кадре.
  • Задачи GUI и агентные сценарии: чтение экранов, локализация иконок и кнопок, планирование действий в интерфейсах для доступности и автоматизации.
  • Разбор диаграмм и документов: извлечение структурированных данных и выводов из плотных диаграмм, инфографики и длинных иллюстрированных документов с поддержкой до 64 000 токенов контекста.
  • Точное локальное обоснование: модель локализует объекты и элементы UI с опорой на семантические знания, что полезно для AR, разметки изображений и контроля качества.

Архитектура и обучение

GLM-4.5V использует гибридный pipeline, совмещающий визуальный энкодер, MLP-адаптер и языковой декодер для слияния визуальной и текстовой информации. MoE обеспечивает общий масштаб в 106B параметров при активации 12B для инференса. Видео обрабатываются через временное понижение дискретизации и 3D свёртки, что позволяет работать с высокими разрешениями и нативными соотношениями сторон. Режим обучения сочетает масштабное мультимодальное предобучение, supervised fine-tuning и Reinforcement Learning с Curriculum Sampling (RLCS) для улучшения долговременного цепочного рассуждения.

Thinking Mode: настраиваемая глубина рассуждения

Режим Thinking Mode позволяет выбирать поведение модели:

  • Thinking Mode ON: углублённое поэтапное рассуждение для сложных задач, таких как логические выводы и детальный разбор диаграмм и документов.
  • Thinking Mode OFF: быстрые и прямые ответы для рутинных запросов и простых вопросов.

Это даёт пользователю возможность балансировать между скоростью и объяснимостью.

Бенчмарки и практическое применение

GLM-4.5V показывает SOTA результаты по 41–42 публичным мультимодальным бенчмаркам, включая MMBench, AI2D, MMStar и MathVista. Модель опережает многие открытые и некоторые проприетарные системы в задачах STEM QA, анализа диаграмм, работы с GUI и понимания видео. В реальных внедрениях она помогает в обнаружении дефектов, автоматическом анализе отчётов, создании цифровых ассистентов и технологиях доступности.

Сценарии использования

  • Обнаружение дефектов и модерация контента с помощью анализа изображений
  • Анализ длинных видео для обзоров безопасности, спорта и образовательных материалов
  • Помощь в доступности и автоматизации через чтение экранов и планирование действий в интерфейсах
  • Анализ финансовых и научных отчётов с разбором диаграмм и изображений
  • AR и робототехника с точной визуальной локализацией

Доступ и ресурсы

GLM-4.5V распространяется под лицензией MIT, что упрощает доступ для исследователей и разработчиков. Zhipu AI предоставляет ссылки на статью, модель на Hugging Face, репозиторий GitHub и обучающие материалы для старта и экспериментов.

🇬🇧

Switch Language

Read this article in English

Switch to English