<НА ГЛАВНУЮ

Gemini 3 Pro от Google: Sparse MoE и контекст на 1M токенов для практичных мультимодальных агентов

'Google представил Gemini 3 Pro, мультимодальную модель со sparse MoE и окном контекста на 1 млн токенов для задач рассуждения, кода и агентных рабочих процессов.'

Что представляет собой Gemini 3 Pro

Google представила семейство Gemini 3, где центральной моделью стала Gemini 3 Pro. Компания позиционирует эту модель как важный шаг от моделей, отвечающих на одиночные запросы, к системам, способным рассуждать по миллиону токенов, понимать многомодальные сигналы и действовать как агенты от имени пользователя. Gemini 3 Pro уже доступна в превью и интегрирована в приложение Gemini, AI Mode в Поиске, Gemini API, Google AI Studio, Vertex AI и новую платформу разработки агентов Google Antigravity.

Архитектура sparse MoE и огромный контекст

Gemini 3 Pro построена как трансформер со sparse mixture of experts и нативной поддержкой текста, изображений, аудио и видео. Слои sparse MoE перенаправляют каждый токен к небольшому набору экспертов, что позволяет масштабировать общий размер параметров без пропорционального роста вычислительных затрат на токен. Модель принимает до 1 млн токенов во входе и может генерировать до 64k выходных токенов, что важно для больших кодовых баз, длинных документов или многочасовых расшифровок. Модель обучалась с нуля, а не как дообучение Gemini 2.5.

Данные обучения и тонкая настройка

Данные обучения включают крупномасштабный публичный веб-текст, код на многих языках, изображения, аудио и видео, а также лицензированные источники, данные взаимодействия пользователей и синтетические примеры. После базового обучения модель проходит мультимодальную инструкционную тонкую настройку и обучение с подкреплением по отзывам от людей и критиков для улучшения многошагового рассуждения, решения задач и доказательной деятельности. Обучение выполняется на TPUs Google с использованием JAX и ML Pathways.

Бенчмарки по рассуждению и академическим задачам

Gemini 3 Pro демонстрирует значительный прогресс по сравнению с Gemini 2.5 Pro на публичных бенчмарках и конкурирует с передовыми моделями, такими как GPT 5.1 и Claude Sonnet 4.5. На Humanity’s Last Exam, агрегирующем вопросы уровня PhD по наукам и гуманитарным дисциплинам, Gemini 3 Pro набирает 37.5 процента без инструментов по сравнению с 21.6 процента для Gemini 2.5 Pro, 26.5 процента для GPT 5.1 и 13.7 процента для Claude Sonnet 4.5. При включенном поиске и выполнении кода модель достигает 45.8 процента.

На визуальных головоломках ARC AGI 2 она показывает 31.1 процента, против 4.9 процента у Gemini 2.5 Pro, обходя GPT 5.1 с 17.6 процента и Claude Sonnet 4.5 с 13.6 процента. В научных вопросах по GPQA Diamond Gemini 3 Pro достигает 91.9 процента, немного опережая GPT 5.1 с 88.1 процента и Claude Sonnet 4.5 с 83.4 процента. В математике модель показывает 95.0 процента на AIME 2025 без инструментов и 100.0 процента с выполнением кода, а также 23.4 процента на MathArena Apex, сложном соревновательном бенчмарке.

Мультимодальное понимание и поведение в длинном контексте

Как нативная мультимодальная модель, Gemini 3 Pro превосходит предыдущие версии в задачах, требующих понимания нескольких модальностей. На MMMU Pro, измеряющем мультимодальные рассуждения по университетским предметам, она набирает 81.0 процента против 68.0 процента у Gemini 2.5 Pro и Claude Sonnet 4.5, и 76.0 процента у GPT 5.1. На Video MMMU, оценивающем извлечение знаний из видео, Gemini 3 Pro достигает 87.6 процента.

Пользовательский интерфейс и понимание документов также заметно улучшились. ScreenSpot Pro, бенчмарк для поиска элементов на экране, отмечает 72.7 процента у Gemini 3 Pro против 11.4 процента у Gemini 2.5 Pro. На OmniDocBench 1.5, измеряющем edit distance для OCR и структурированного понимания документов, модель показывает 0.115, что ниже всех сопоставимых базовых версий.

В задачах длинного контекста Gemini 3 Pro тестируется на MRCR v2 с 8-needle retrieval. При среднем контексте 128k она набирает 77.0 процента, а в настройке с 1M токенов достигает 26.3 процента, опережая Gemini 2.5 Pro с 16.4 процента. В опубликованных сравнениях у конкурентов пока нет поддержки такого объема контекста.

Кодирование, агенты и Google Antigravity

Ключевая история для разработчиков — это код и агентное поведение. Gemini 3 Pro возглавляет таблицу LMArena с Elo 1501 и показывает 1487 Elo в WebDev Arena. На Terminal Bench 2.0, проверяющем работу в терминале через агента, модель достигает 54.2 процента, выше GPT 5.1 с 47.6 процента и Claude Sonnet 4.5 с 42.8 процента.

На SWE Bench Verified, который оценивает правки кода с одной попытки по GitHub issues, Gemini 3 Pro набирает 76.2 процента против 59.6 процента у Gemini 2.5 Pro, 76.3 процента у GPT 5.1 и 77.2 процента у Claude Sonnet 4.5. Модель также хорошо показывает себя на τ2 bench для использования инструментов с 85.4 процента и на Vending Bench 2, оценивающем долгосрочное планирование в симулированном бизнесе, где средний чистый капитал составляет 5478.16 долларов против 573.64 долларов у Gemini 2.5 Pro и 1473.43 долларов у GPT 5.1.

Платформа Google Antigravity демонстрирует эти возможности в среде разработки агентов. Antigravity сочетает Gemini 3 Pro с моделью Gemini 2.5 Computer Use для управления браузером и моделью Nano Banana для работы с изображениями, что позволяет агентам планировать, писать код, запускать его в терминале или браузере и проверять результаты в одном рабочем процессе.

Выводы для разработчиков и продуктов

Gemini 3 Pro представляет собой сочетание sparse MoE архитектуры, 1M токенов контекста, сильного мультимодального рассуждения и интеграции с инструментами, что делает модель подготовленной для реальных агентных и производственных задач. Интеграция модели в экосистему Google дает разработчикам быстрый путь для тестирования agentic рабочих процессов и приложений с длинным контекстом. Для более глубокой технической информации Google публикует документы, гайды и репозитории с примерами и ноутбуками.

🇬🇧

Switch Language

Read this article in English

Switch to English