Google представляет Gemma 3n: компактная мультимодальная модель ИИ для устройств на периферии

Представляем Gemma 3n для периферийного ИИ

Google выпустил Gemma 3n — новую мультимодальную модель искусственного интеллекта, разработанную специально для работы на устройствах периферии. С мобильной архитектурой Gemma 3n позволяет смартфонам, носимым устройствам и умным камерам обрабатывать текст, изображения, аудио и видео прямо на устройстве, без необходимости в облачных вычислениях. Это обеспечивает конфиденциальность и работу ИИ в реальном времени.

Основные особенности и варианты моделей

Семейство Gemma 3n включает две версии:

Gemma 3n E2B: обеспечивает производительность, сопоставимую с моделями на 5 миллиардов параметров, при меньшем энергопотреблении и ресурсах, подходит для устройств с ограниченными возможностями.
Gemma 3n E4B: обеспечивает производительность на уровне моделей с 8 миллиардами параметров и первая модель с менее чем 10 миллиардами параметров, преодолевшая отметку 1300 баллов на тесте MMLU.

Обе модели отлично справляются со сложными задачами: математикой, программированием, логическим мышлением, а также с визуально-языковыми задачами, такими как генерация подписей к изображениям и визуальные вопросы-ответы, и понимают речь и видео в реальном времени.

Мультиязычные и мультимодальные возможности

Gemma 3n поддерживает мультимодальное понимание на 35 языках и задачи только с текстом на более чем 140 языках, что делает её универсальной для глобальных приложений.

Удобство для разработчиков и открытый доступ

Google предоставляет Gemma 3n на платформах вроде Hugging Face с преднастроенными контрольными точками и API. Модели совместимы с TensorFlow Lite, ONNX и NVIDIA TensorRT, что облегчает тонкую настройку и развёртывание на разном оборудовании.

Практические применения

Gemma 3n открывает возможности для инновационных приложений на периферии:

Реальное время и доступность на устройстве с субтитрами и адаптивным описанием окружения для людей с нарушениями слуха и зрения.
Образовательные приложения, объединяющие текст, изображения и аудио для погружения в обучение.
Автономные системы зрения в умных камерах, которые интерпретируют движение, объекты и голосовой контекст без обращения к облаку.

Тренировка и инновации в оптимизации

Модель обучалась на тщательно подобранном мультимодальном наборе данных с текстами, изображениями, аудио и видео. Оптимизации включают переработку блоков трансформера, разреженность внимания и маршрутизацию токенов, что снижает требования к памяти и энергии, сохраняя качество.

Значение Gemma 3n

Gemma 3n меняет подход к созданию моделей: вместо увеличения размера акцент делается на эффективность архитектуры, мультимодальное понимание и портативность. Это соответствует видению Google о более умном, быстром и конфиденциальном ИИ, который работает на обычных устройствах, обеспечивая уровень облачных моделей.

Изучите технические детали, модели на Hugging Face и попробуйте на Google Studio. Этот релиз представляет собой важный шаг в развитии периферийного ИИ.