Glyph превращает страницы в токены: визуальное сжатие 3

О чем Glyph

Glyph от Zhipu AI переосмысливает задачу масштабирования длинного контекста: он рендерит очень длинные текстовые последовательности в изображения страниц, после чего визуально-языковая модель (VLM) обрабатывает эти страницы целиком. Каждый визуальный токен кодирует сразу много символов, что сокращает эффективную длину последовательности при сохранении смысла. Подход направлен на экстремально большие контексты и заявляет 3–4× сжатие токенов без ухудшения точности.

Почему текст в изображения

Классические методы — расширение позиционных кодировок или модификации внимания — всё равно ведут к росту вычислений и памяти с числом токенов. Retrieval сокращает вход, но может пропустить важные свидетельства и добавляет задержки. Glyph меняет представление: увеличивая плотность информации на токен посредством визуального представления, за тот же бюджет токенов модель покрывает больше исходного контекста. VLM, который уже учится OCR, анализу макета и мультимодальному рассуждению, становится основным обработчиком такого плотного представления.

Архитектура и этапы обучения

Конвейер Glyph включает три ключевых этапа:

Непрерывный предподготовительный тренинг: VLM обучают на больших корпусах отрендеренного длинного текста с разной типографикой и стилями. Цель — выровнять визуальные и текстовые представления и перенести навыки работы с длинным контекстом на визуальные токены.
LLM-управляемый поиск рендеринга: генетический цикл, где LLM мутирует параметры рендера — размер страницы, DPI, семейство и размер шрифта, межстрочный интервал, выравнивание, отступы и межсимвольные интервалы. Кандидаты оцениваются на валидации для совместной оптимизации точности и сжатия.
Посттренинг: супервизированная дообучение и обучение с подкреплением через Group Relative Policy Optimization (GRPO), плюс вспомогательная задача выравнивания OCR. OCR-потеря улучшает точность распознавания символов при мелких шрифтах и плотной верстке.

Поиск параметров рендера автоматически подбирает типографику и макет, балансирующие сжатие и читаемость для обработки VLM.

Результаты и эффективность

Оценка проводилась на LongBench, MRCR и Ruler. Основные показатели:

Среднее эффективное сжатие примерно 3.3× на LongBench (по некоторым задачам до 5×) и около 3.0× на MRCR.
Ускорение prefill примерно 4.8×, декодирования около 4.4× и пропускной способности SFT примерно в 2× по сравнению с текстовой моделью при 128K входах.
Компромиссы DPI: при dpi 72 среднее сжатие 4.0× и максимум 7.7× для конкретных подзадач; dpi 96 дает среднее 2.2× и максимум 4.4×; dpi 120 — среднее 1.2× и максимум 2.8×. Более высокий DPI при инференсе улучшает показатели за счёт более чётких глифов, что помогает OCR и парсингу макета.

В экстримальном кейсе 128K VLM смог обрабатывать задачи, которые в исходном виде соответствуют примерно 1M токенов при агрессивном визуальном сжатии.

Применения и ограничения

Glyph полезен для мультимодального понимания документов и задач с длинными диалогами или документами, где важен большой контекст. Обучение на отрендеренных страницах повышает качество на документных бенчмарках по сравнению с базовыми визуальными моделями, что указывает на полезность рендер-объектива для задач с фигурами и макетами.

Основные ограничения — чувствительность к агрессивной типографике: очень мелкие шрифты и плотное межсимвольное пространство ухудшают точность распознавания, особенно для редких алфавитно-цифровых строк. Подход предполагает серверную отрисовку и VLM с сильными OCR и макетными приоретами; некоторые подзадачи (например, UUID) были исключены при недостаточной символной точности.

Выводы

Glyph рассматривает масштабирование длинного контекста как задачу визуального сжатия текста: рендерим страницы, обрабатываем VLM и добиваемся значительного сжатия токенов без потери смысла. Команда сообщает 3–4× сжатие с сопоставимой точностью сильных 8B текстовых базовых моделей и существенными улучшениями по скорости и памяти. Код, веса и карточки моделей доступны на GitHub и Hugging Face, бумага опубликована на arXiv: https://arxiv.org/pdf/2510.17800