Glyph превращает страницы в токены: визуальное сжатие 3–4× для миллионных контекстов
Glyph рендерит длинные тексты в страницы и обрабатывает их VLM, достигая 3–4× сжатия токенов и заметного прироста скорости при работе с 128K входами.
О чем Glyph
Glyph от Zhipu AI переосмысливает задачу масштабирования длинного контекста: он рендерит очень длинные текстовые последовательности в изображения страниц, после чего визуально-языковая модель (VLM) обрабатывает эти страницы целиком. Каждый визуальный токен кодирует сразу много символов, что сокращает эффективную длину последовательности при сохранении смысла. Подход направлен на экстремально большие контексты и заявляет 3–4× сжатие токенов без ухудшения точности.
Почему текст в изображения
Классические методы — расширение позиционных кодировок или модификации внимания — всё равно ведут к росту вычислений и памяти с числом токенов. Retrieval сокращает вход, но может пропустить важные свидетельства и добавляет задержки. Glyph меняет представление: увеличивая плотность информации на токен посредством визуального представления, за тот же бюджет токенов модель покрывает больше исходного контекста. VLM, который уже учится OCR, анализу макета и мультимодальному рассуждению, становится основным обработчиком такого плотного представления.
Архитектура и этапы обучения
Конвейер Glyph включает три ключевых этапа:
- Непрерывный предподготовительный тренинг: VLM обучают на больших корпусах отрендеренного длинного текста с разной типографикой и стилями. Цель — выровнять визуальные и текстовые представления и перенести навыки работы с длинным контекстом на визуальные токены.
- LLM-управляемый поиск рендеринга: генетический цикл, где LLM мутирует параметры рендера — размер страницы, DPI, семейство и размер шрифта, межстрочный интервал, выравнивание, отступы и межсимвольные интервалы. Кандидаты оцениваются на валидации для совместной оптимизации точности и сжатия.
- Посттренинг: супервизированная дообучение и обучение с подкреплением через Group Relative Policy Optimization (GRPO), плюс вспомогательная задача выравнивания OCR. OCR-потеря улучшает точность распознавания символов при мелких шрифтах и плотной верстке.
Поиск параметров рендера автоматически подбирает типографику и макет, балансирующие сжатие и читаемость для обработки VLM.
Результаты и эффективность
Оценка проводилась на LongBench, MRCR и Ruler. Основные показатели:
- Среднее эффективное сжатие примерно 3.3× на LongBench (по некоторым задачам до 5×) и около 3.0× на MRCR.
- Ускорение prefill примерно 4.8×, декодирования около 4.4× и пропускной способности SFT примерно в 2× по сравнению с текстовой моделью при 128K входах.
- Компромиссы DPI: при dpi 72 среднее сжатие 4.0× и максимум 7.7× для конкретных подзадач; dpi 96 дает среднее 2.2× и максимум 4.4×; dpi 120 — среднее 1.2× и максимум 2.8×. Более высокий DPI при инференсе улучшает показатели за счёт более чётких глифов, что помогает OCR и парсингу макета.
В экстримальном кейсе 128K VLM смог обрабатывать задачи, которые в исходном виде соответствуют примерно 1M токенов при агрессивном визуальном сжатии.
Применения и ограничения
Glyph полезен для мультимодального понимания документов и задач с длинными диалогами или документами, где важен большой контекст. Обучение на отрендеренных страницах повышает качество на документных бенчмарках по сравнению с базовыми визуальными моделями, что указывает на полезность рендер-объектива для задач с фигурами и макетами.
Основные ограничения — чувствительность к агрессивной типографике: очень мелкие шрифты и плотное межсимвольное пространство ухудшают точность распознавания, особенно для редких алфавитно-цифровых строк. Подход предполагает серверную отрисовку и VLM с сильными OCR и макетными приоретами; некоторые подзадачи (например, UUID) были исключены при недостаточной символной точности.
Выводы
Glyph рассматривает масштабирование длинного контекста как задачу визуального сжатия текста: рендерим страницы, обрабатываем VLM и добиваемся значительного сжатия токенов без потери смысла. Команда сообщает 3–4× сжатие с сопоставимой точностью сильных 8B текстовых базовых моделей и существенными улучшениями по скорости и памяти. Код, веса и карточки моделей доступны на GitHub и Hugging Face, бумага опубликована на arXiv: https://arxiv.org/pdf/2510.17800
Switch Language
Read this article in English