Google DeepMind представляет Gemma 3n: компактную мульти-модальную ИИ-модель для реального времени на мобильных устройствах

Революция в мобильном ИИ с Gemma 3n

С ростом спроса на более умный, быстрый и приватный ИИ на мобильных устройствах Google DeepMind выпустила Gemma 3n — компактную и эффективную мульти-модальную ИИ-модель, созданную для работы в реальном времени на телефонах, планшетах и ноутбуках. Эта модель внедряет интеллект непосредственно в устройства, обеспечивая мгновенный отклик, снижая потребление памяти и повышая приватность пользователей.

Проблемы мобильного мульти-модального ИИ

Мульти-модальный ИИ, который способен обрабатывать текст, изображения, аудио и видео, сталкивается с серьезными ограничениями на мобильных устройствах из-за ограниченной оперативной памяти и процессорных ресурсов. В отличие от облачных систем, использующих мощные вычислительные ресурсы, модели на устройстве должны эффективно работать в условиях жестких аппаратных ограничений, избегая задержек и проблем с приватностью, связанных с облаком.

Эволюция предыдущих моделей

Ранее выпущенные модели, такие как Gemma 3 и Gemma 3 QAT, улучшали эффективность, но все еще требовали мощного оборудования, что ограничивало их использование в реальном времени на смартфонах. Несмотря на поддержку сложных функций, компромиссы по отклику и памяти сдерживали их мобильную применимость.

Инновации в Gemma 3n

Gemma 3n разработана для мобильных платформ Android и Chrome и является основой для следующей версии Gemini Nano. Ключевое новшество — применение Per-Layer Embeddings (PLE), значительно снижающего использование ОЗУ. Несмотря на 5 и 8 миллиардов параметров, модели Gemma 3n работают с памятью, эквивалентной моделям на 2 и 4 миллиарда параметров, занимая только 2 ГБ и 3 ГБ динамической памяти соответственно.

Архитектура включает вложенную модель, где активная модель с 4 миллиардами параметров содержит подмодель на 2 миллиарда, обученную с помощью MatFormer. Это позволяет динамически переключать режимы производительности без загрузки отдельных моделей. Технологии KVC sharing и активационной квантизации снижают задержки и ускоряют отклик, улучшая время реакции на мобильных устройствах в 1.5 раза по сравнению с Gemma 3 4B и повышая качество результатов.

Производительность и возможности

Gemma 3n демонстрирует высокие результаты в автоматическом распознавании речи и переводе, набирая 50.1% по многоязычному бенчмарку WMT24++ (ChrF) по таким языкам, как японский, немецкий, корейский, испанский и французский. Возможность mix’n’match позволяет создавать подмодели с оптимальными балансами качества и скорости. Модель поддерживает перемешанные входные данные из разных модальностей (текст, аудио, изображения, видео), обеспечивая более естественное и контекстное взаимодействие.

Работа в оффлайн-режиме гарантирует сохранность приватности и надежность без подключения к интернету. Применения включают живую визуальную и аудиальную обратную связь, генерацию контекстного контента и продвинутые голосовые функции.

Сотрудничество и доступность

Gemma 3n создана в сотрудничестве Google, DeepMind, Qualcomm, MediaTek и Samsung System LSI и доступна в превью через Google AI Studio и Google AI Edge, с поддержкой обработки текста и изображений.

Это достижение задает новый стандарт мобильного ИИ, сочетая вычислительную эффективность, приватность и скорость отклика, делая сложный мульти-модальный ИИ доступным прямо на повседневных устройствах.