<НА ГЛАВНУЮ

GLM-4.1V-Thinking: Новый уровень мультизадачного понимания и рассуждений

GLM-4.1V-Thinking — современная модель видения и языка, устанавливающая новые стандарты мультизадачного рассуждения и понимания в сложных AI задачах.

Роль моделей видения и языка

Модели видения и языка (VLM) стали ключевыми в современных интеллектуальных системах, позволяя глубоко понимать визуальный контент. Сложность задач, требующих мультизадачного интеллекта, растет — от научного решения проблем до создания автономных агентов. Сегодня от VLM ожидают не только восприятия, но и продвинутого рассуждения.

Представляем GLM-4.1V-Thinking

Исследователи из Zhipu AI и Университета Цинхуа разработали GLM-4.1V-Thinking — модель, направленную на общее мультизадачное понимание и рассуждение. В основе подхода — метод обучения с подкреплением и поэтапной выборкой (RLCS), который раскрывает потенциал модели и улучшает её работу в задачах STEM, анализе видео, распознавании контента, программировании, привязке объектов, GUI-агентах и понимании длинных документов.

Архитектура и инновации

GLM-4.1V-Thinking состоит из трёх основных компонентов: энкодера видения, MLP-адаптера и декодера LLM. В качестве энкодера используется AIMv2-Huge, а в роли языковой модели — GLM. Особенности модели включают замену 2D-сверток на 3D-свертки для обработки временных данных, интеграцию 2D-RoPE для поддержки произвольных разрешений и экстремальных аспектов изображений (более 200:1), а также расширение RoPE до 3D-RoPE для улучшения пространственного понимания в мультимодальных задачах. Для видео добавляются временные токены и штампы времени, что помогает модели учитывать реальные временные промежутки между кадрами.

Стратегия обучения

На этапе предобучения используется разнообразный набор данных, сочетающий крупные академические корпуса с насыщенными знаниями изображениями и текстами. Включение чисто текстовых данных поддерживает языковые возможности модели, обеспечивая лучшее качество pass@k по сравнению с аналогичными моделями. Супервизированная дообучение использует тщательно подобранный корпус длинных цепочек рассуждений (long-CoT) для выполнения длинных выводов в задачах STEM и инструкции. Этап обучения с подкреплением объединяет методы RLVR и RLHF для масштабного обучения во всех мультимодальных доменах.

Результаты и достижения

GLM-4.1V-9B-Thinking превосходит все открытые модели с параметрами менее 10 млрд на задачах визуальных вопросов и ответов (VQA) для одиночных и множественных изображений. Модель добивается наилучших результатов на сложных STEM-бенчмарках MMMU_Val, MMMU_Pro, VideoMMMU и AI2D. В областях OCR и анализа графиков устанавливает новые рекорды на ChartQAPro и ChartMuseum. Для понимания длинных документов лидирует на MMLongBench и устанавливает новые стандарты в GUI-агентах и мультимодальном программировании. Модель демонстрирует высокую эффективность в видеоанализе, превосходя VideoMME, MMVU и MotionBench.

Ограничения и перспективы

Несмотря на успехи, остаются проблемы: нестабильность обучения, непоследовательное улучшение качества рассуждений с помощью RL и сложности с обработкой сложных случаев. Будущие исследования должны улучшить контроль и оценку рассуждений, используя модели вознаграждения для анализа промежуточных шагов и выявления ошибок и логических несоответствий. Важна также борьба с обходом систем вознаграждения в субъективных задачах для достижения универсального интеллекта.

Исследователи опубликовали исходный код GLM-4.1V-9B-Thinking. Подробнее можно узнать на странице с статьёй и GitHub. Все заслуги принадлежат авторам проекта.

🇬🇧

Switch Language

Read this article in English

Switch to English