Glyph превращает страницы в токены: визуальное сжатие 3–4× для миллионных контекстов
Glyph рендерит длинные тексты в страницы и обрабатывает их VLM, достигая 3–4× сжатия токенов и заметного прироста скорости при работе с 128K входами.
Найдено записей: 9
Glyph рендерит длинные тексты в страницы и обрабатывает их VLM, достигая 3–4× сжатия токенов и заметного прироста скорости при работе с 128K входами.
'Liquid AI представила LFM2-VL-3B, 3B мультимодальную модель для edge с управляемыми бюджетами токенов, нативной поддержкой соотношений сторон и открытыми весами для локального запуска'
'Агенты на базе VLM показывают сильные результаты в веб-задачах, но управление на уровне ОС остаётся сложной задачей; Gemini 2.5 и Claude Sonnet 4.5 лидируют на текущих бенчмарках.'
'Hugging Face выпустил Smol2Operator, открытый рецепт для обучения 2.2B VLM выполнять GUI-задачи через двухфазный SFT и унифицированное пространство действий.'
'Vision-RAG превосходит Text-RAG на документах с таблицами и графиками, сохраняя визуальные доказательства и улучшая end-to-end точность при разумном управлении стоимостью.'
Hugging Face открывает FineVision — большой мультимодальный датасет на 24,3 млн сэмплов, который повышает точность VLM и минимизирует утечку данных.
'NuMind представила NuMarkdown-8B-Thinking, reasoning VLM который анализирует разметку документов и выводит чистый Markdown, готовый для RAG и архивов.'
MiMo-VL-7B — мощная визуально-языковая модель от исследователей Xiaomi, показывающая передовые результаты в визуальном понимании и мультимодальном рассуждении благодаря инновационным методам обучения.
Модели с визуально-языковым пониманием и цепочечным рассуждением позволяют ИИ интерпретировать изображения с понятными объяснениями, трансформируя такие сферы, как медицина, автономные автомобили и образование.