Обновление Gemini 2.5 Flash и Flash‑Lite: Flash‑Lite — самый быстрый проприетарный модель, выходных токенов стало вдвое меньше

Что выпустил Google

Google представил обновлённые превью моделей Gemini 2.5 Flash и Gemini 2.5 Flash‑Lite в AI Studio и Vertex AI, а также ввёл скользящие алиасы — gemini-flash-latest и gemini-flash-lite-latest, которые всегда указывают на последнее превью в каждой семье. Для стабильности в продакшене Google рекомендует фиксировать имена моделей (gemini-2.5-flash, gemini-2.5-flash-lite). Компания обещает отправить двухнедельное уведомление по электронной почте перед перенаправлением -latest алиаса и предупреждает, что лимиты, функции и стоимость могут меняться при обновлении алиаса.

Изменения в моделях и их смысл

Flash: Улучшена способность работать с инструментами агента и повысилась эффективность многопроходного рассуждения. По SWE‑Bench Verified превью показало рост примерно на +5 пунктов по сравнению с майским превью (48.9% → 54.0%), что указывает на более уверенное планирование на длинных горизонтах и навигацию по коду.

Flash‑Lite: Модель настроена на более строгие следование инструкциям, меньшую многословность и усиленные мульти модальные и переводческие возможности. Внутренние метрики Google показывают примерно 50% меньше выходных токенов для Flash‑Lite и около 24% меньше для Flash. Снижение объёма выходных токенов уменьшает расходы на их передачу и может сократить реальное время ответа в сервисах с ограниченной пропускной способностью.

Внешние бенчмарки сообщества

Аккаунт Artificial Analysis, который получил доступ до релиза, опубликовал замеры, подтверждающие заявления Google:

В сообществе также циркулирует утверждение, что новый Flash достигает точности o3 при задачах браузер‑агента, одновременно будучи быстрее и дешевле; это основано на частных наборах задач и требует собственной валидации.

Стоимость, контекст и выбор развертывания

GA‑цена Flash‑Lite по списку (по данным Google/DeepMind) составляет $0.10 за 1M входных токенов и $0.40 за 1M выходных токенов. Поскольку Flash‑Lite генерирует значительно меньше выходных токенов в многих сценариях, это сразу отражается на экономии.

Flash‑Lite поддерживает порядка 1M‑токеновый контекст и предлагает настраиваемые «thinking budgets» и подключение к инструментам (поиск, исполнение кода), что удобно для стэков агентов, которые попеременно читают, планируют и вызывают несколько инструментов.

Практические рекомендации

Имена моделей и алиасы

Проверяйте на своих рабочих нагрузках — особенно для браузер‑агентов и стеков с несколькими инструментами — прежде чем переводить продакшен на скользящие алиасы.