FILTER MODE ACTIVE

#VLM

Найдено записей: 9

#VLM28.10.2025

Glyph превращает страницы в токены: визуальное сжатие 3–4× для миллионных контекстов

Glyph рендерит длинные тексты в страницы и обрабатывает их VLM, достигая 3–4× сжатия токенов и заметного прироста скорости при работе с 128K входами.

ЧИТАТЬ →

#VLM24.10.2025

LFM2-VL-3B: 3-миллиардная мультимодальная модель Liquid AI для edge-устройств

'Liquid AI представила LFM2-VL-3B, 3B мультимодальную модель для edge с управляемыми бюджетами токенов, нативной поддержкой соотношений сторон и открытыми весами для локального запуска'

ЧИТАТЬ →

#VLM10.10.2025

Как агенты для работы с компьютером превращают экран в пользователя: от браузера к полной ОС-контролю

'Агенты на базе VLM показывают сильные результаты в веб-задачах, но управление на уровне ОС остаётся сложной задачей; Gemini 2.5 и Claude Sonnet 4.5 лидируют на текущих бенчмарках.'

ЧИТАТЬ →

#VLM26.09.2025

Smol2Operator: открытый конвейер Hugging Face для превращения 2.2B VLM в GUI-агента

'Hugging Face выпустил Smol2Operator, открытый рецепт для обучения 2.2B VLM выполнять GUI-задачи через двухфазный SFT и унифицированное пространство действий.'

ЧИТАТЬ →

#VLM25.09.2025

Vision-RAG против Text-RAG: какой подход лучше для корпоративного поиска?

'Vision-RAG превосходит Text-RAG на документах с таблицами и графиками, сохраняя визуальные доказательства и улучшая end-to-end точность при разумном управлении стоимостью.'

ЧИТАТЬ →

#VLM06.09.2025

FineVision: Hugging Face выпустил открытый датасет на 24 млн примеров для обучения VLM

Hugging Face открывает FineVision — большой мультимодальный датасет на 24,3 млн сэмплов, который повышает точность VLM и минимизирует утечку данных.

ЧИТАТЬ →

#VLM11.08.2025

NuMind представляет NuMarkdown-8B-Thinking: reasoning VLM для надежной конвертации документов в Markdown

'NuMind представила NuMarkdown-8B-Thinking, reasoning VLM который анализирует разметку документов и выводит чистый Markdown, готовый для RAG и архивов.'

ЧИТАТЬ →

#VLM02.06.2025

MiMo-VL-7B: Продвинутая модель для визуального восприятия и мультимодального анализа

MiMo-VL-7B — мощная визуально-языковая модель от исследователей Xiaomi, показывающая передовые результаты в визуальном понимании и мультимодальном рассуждении благодаря инновационным методам обучения.

ЧИТАТЬ →

#VLM19.05.2025

Как модели с визуально-языковым пониманием и цепочечным рассуждением меняют ИИ

Модели с визуально-языковым пониманием и цепочечным рассуждением позволяют ИИ интерпретировать изображения с понятными объяснениями, трансформируя такие сферы, как медицина, автономные автомобили и образование.

ЧИТАТЬ →