Google представляет Gemma 3n: компактная мультимодальная модель ИИ для устройств на периферии
Google представил Gemma 3n — компактную мультимодальную модель ИИ, оптимизированную для эффективной работы на периферийных устройствах, обеспечивающую обработку текста, изображений, аудио и видео в реальном времени.
Представляем Gemma 3n для периферийного ИИ
Google выпустил Gemma 3n — новую мультимодальную модель искусственного интеллекта, разработанную специально для работы на устройствах периферии. С мобильной архитектурой Gemma 3n позволяет смартфонам, носимым устройствам и умным камерам обрабатывать текст, изображения, аудио и видео прямо на устройстве, без необходимости в облачных вычислениях. Это обеспечивает конфиденциальность и работу ИИ в реальном времени.
Основные особенности и варианты моделей
Семейство Gemma 3n включает две версии:
- Gemma 3n E2B: обеспечивает производительность, сопоставимую с моделями на 5 миллиардов параметров, при меньшем энергопотреблении и ресурсах, подходит для устройств с ограниченными возможностями.
- Gemma 3n E4B: обеспечивает производительность на уровне моделей с 8 миллиардами параметров и первая модель с менее чем 10 миллиардами параметров, преодолевшая отметку 1300 баллов на тесте MMLU.
Обе модели отлично справляются со сложными задачами: математикой, программированием, логическим мышлением, а также с визуально-языковыми задачами, такими как генерация подписей к изображениям и визуальные вопросы-ответы, и понимают речь и видео в реальном времени.
Мультиязычные и мультимодальные возможности
Gemma 3n поддерживает мультимодальное понимание на 35 языках и задачи только с текстом на более чем 140 языках, что делает её универсальной для глобальных приложений.
Удобство для разработчиков и открытый доступ
Google предоставляет Gemma 3n на платформах вроде Hugging Face с преднастроенными контрольными точками и API. Модели совместимы с TensorFlow Lite, ONNX и NVIDIA TensorRT, что облегчает тонкую настройку и развёртывание на разном оборудовании.
Практические применения
Gemma 3n открывает возможности для инновационных приложений на периферии:
- Реальное время и доступность на устройстве с субтитрами и адаптивным описанием окружения для людей с нарушениями слуха и зрения.
- Образовательные приложения, объединяющие текст, изображения и аудио для погружения в обучение.
- Автономные системы зрения в умных камерах, которые интерпретируют движение, объекты и голосовой контекст без обращения к облаку.
Тренировка и инновации в оптимизации
Модель обучалась на тщательно подобранном мультимодальном наборе данных с текстами, изображениями, аудио и видео. Оптимизации включают переработку блоков трансформера, разреженность внимания и маршрутизацию токенов, что снижает требования к памяти и энергии, сохраняя качество.
Значение Gemma 3n
Gemma 3n меняет подход к созданию моделей: вместо увеличения размера акцент делается на эффективность архитектуры, мультимодальное понимание и портативность. Это соответствует видению Google о более умном, быстром и конфиденциальном ИИ, который работает на обычных устройствах, обеспечивая уровень облачных моделей.
Изучите технические детали, модели на Hugging Face и попробуйте на Google Studio. Этот релиз представляет собой важный шаг в развитии периферийного ИИ.
Switch Language
Read this article in English