DeepSeek превращает текст в изображения, чтобы решить проблему памяти AI

Новый подход к памяти искусственного интеллекта

Китайская компания DeepSeek представила OCR-модель, которая экспериментирует с иной формой хранения и извлечения информации. Вместо того чтобы представлять каждое слово в виде множества текстовых токенов, система преобразует письменный контент в изображение-подобные представления и использует эти визуальные токены как сжатую память. Это позволяет сохранять примерно ту же информацию при заметно меньшем количестве токенов.

Как работает модель

Модель — это система оптического распознавания символов (OCR), извлекающая текст из изображений и преобразующая его в машинно-читаемые слова — то же, что лежит в основе сканеров и переводчиков текста на фотографиях. По данным статьи и ранних обзоров, по ключевым бенчмаркам модель показывает уровень, сопоставимый с лучшими системами. Однако главная научная цель — не столько точность OCR, сколько использование OCR как платформы для более эффективного упаковывания контекста.

Вместо хранения каждого токена текста DeepSeek рендерит фрагменты текста в виде изображений и индексирует эти изображения как компактные визуальные токены. Это позволяет системе сохранять плотный контекст, сокращая число токенов, с которыми нужно работать. Также применяется многоуровневое сжатие: свежий или важный контент хранится четко, а старый или менее значимый постепенно «размывается», чтобы экономить место — по аналогии с тем, как человеческая память с течением времени теряет детали.

Почему важна эффективность памяти

Большие языковые модели обычно разбивают текст на тысячи мелких токенов. С ростом длины диалогов хранение и вычисления над этими токенами становятся дорогими, что замедляет работу моделей и может приводить к потере раннего контекста — явлению, которое часто называют контекстной деградацией. Если те же объемы контекста можно представить меньшим числом токенов, моделям потребуется меньше вычислений и памяти для поддержания длинных бесед, а это снижает энергопотребление и инфраструктурные затраты.

DeepSeek предлагает визуальные токены вместо текстовых, чтобы упаковать больше информации в один токен. Это может позволить моделям хранить более длинную и полезную историю без пропорционального роста вычислительных затрат.

Реакция исследователей

Идея привлекла внимание сообщества. Бывший руководитель AI в Tesla Андрджей Карпати положительно отозвался о концепции, отметив перспективу использования изображений в качестве входа для моделей вместо чистого текста. Ученые из Северо-Западного университета посчитали статью важным шагом: она расширяет прежние идеи об использовании изображений для хранения контекста и демонстрирует их жизнеспособность в больших масштабах.

Эксперты отмечают и нерешенные задачи: текущие реализации чаще запоминают последнее сказанное, а не самое важное, поэтому нужно работать над динамическим «затуханием» памяти и приоритетизацией значимости информации. Кроме того, исследователям интересно проверить, как визуальные токены будут работать не только для хранения, но и для рассуждений.

Практические преимущества и ограничения

Помимо повышения эффективности памяти, система может генерировать большие объемы синтетических обучающих данных. DeepSeek утверждает, что их OCR способен выдавать свыше 200 000 страниц данных в день на одной GPU, что может помочь при нехватке качественных текстов для обучения.

Тем не менее это ранняя стадия исследований. Визуальные токены и многоуровневое сжатие выглядят многообещающими, но требуются дополнительные эксперименты, чтобы показать их применимость к разным моделям и задачам, а также улучшить способы забывания неважной информации при сохранении ключевых деталей.

Возможные последствия для интеллектуальных агентов

Если подход масштабируется, он может дать более способных помощников, которые запоминают длительные непрерывные беседы и оказывают более последовательную помощь. Компактное хранение контекста позволит системам поддерживать больший эффективный запас памяти без резкого роста вычислительных затрат, что откроет путь к более эффективным и долговременным интерактивным агентам.