Обновление Gemini 2.5 Flash и Flash‑Lite: Flash‑Lite — самый быстрый проприетарный модель, выходных токенов стало вдвое меньше

Что выпустил Google

Google представил обновлённые превью моделей Gemini 2.5 Flash и Gemini 2.5 Flash‑Lite в AI Studio и Vertex AI, а также ввёл скользящие алиасы — gemini-flash-latest и gemini-flash-lite-latest, которые всегда указывают на последнее превью в каждой семье. Для стабильности в продакшене Google рекомендует фиксировать имена моделей (gemini-2.5-flash, gemini-2.5-flash-lite). Компания обещает отправить двухнедельное уведомление по электронной почте перед перенаправлением -latest алиаса и предупреждает, что лимиты, функции и стоимость могут меняться при обновлении алиаса.

Изменения в моделях и их смысл

Flash: Улучшена способность работать с инструментами агента и повысилась эффективность многопроходного рассуждения. По SWE‑Bench Verified превью показало рост примерно на +5 пунктов по сравнению с майским превью (48.9% → 54.0%), что указывает на более уверенное планирование на длинных горизонтах и навигацию по коду.

Flash‑Lite: Модель настроена на более строгие следование инструкциям, меньшую многословность и усиленные мульти модальные и переводческие возможности. Внутренние метрики Google показывают примерно 50% меньше выходных токенов для Flash‑Lite и около 24% меньше для Flash. Снижение объёма выходных токенов уменьшает расходы на их передачу и может сократить реальное время ответа в сервисах с ограниченной пропускной способностью.

Внешние бенчмарки сообщества

Аккаунт Artificial Analysis, который получил доступ до релиза, опубликовал замеры, подтверждающие заявления Google:

Пропускная способность: В тестах endpoint Gemini 2.5 Flash‑Lite (Preview 09‑2025, reasoning) показал себя как самая быстрая проприетарная модель в их наборе — примерно ~887 выходных токенов/с в их конфигурации AI Studio.
Интеллект: Сентябрьские превью для Flash и Flash‑Lite повысили агрегированные показатели «интеллекта» по сравнению с предыдущими релизами, особенно в треке рассуждений.
Эффективность токенов: Внешние тесты подтверждают снижение токенов у Google (−24% Flash, −50% Flash‑Lite), что интерпретируют как улучшение стоимости достижения результата при ограничениях по задержке.

В сообществе также циркулирует утверждение, что новый Flash достигает точности o3 при задачах браузер‑агента, одновременно будучи быстрее и дешевле; это основано на частных наборах задач и требует собственной валидации.

Стоимость, контекст и выбор развертывания

GA‑цена Flash‑Lite по списку (по данным Google/DeepMind) составляет $0.10 за 1M входных токенов и $0.40 за 1M выходных токенов. Поскольку Flash‑Lite генерирует значительно меньше выходных токенов в многих сценариях, это сразу отражается на экономии.

Flash‑Lite поддерживает порядка 1M‑токеновый контекст и предлагает настраиваемые «thinking budgets» и подключение к инструментам (поиск, исполнение кода), что удобно для стэков агентов, которые попеременно читают, планируют и вызывают несколько инструментов.

Практические рекомендации

Закреплять или следовать за -latest: Если у вас строгие SLA или фиксированные лимиты — закрепляйте стабильные строки. Если вы постоянно канарируете изменения по стоимости/задержке/качеству, -latest алиасы уменьшают трение при обновлениях; Google даёт две недели уведомления перед переключением.
Высокий QPS или счётчики по токенам: Начните с превью Flash‑Lite — его меньшая многословность и улучшенное следование инструкциям уменьшают исходящие токены и задержки. Протестируйте мульти модальные и длинноконтекстные сценарии под нагрузкой.
Пайплайны агентов/инструментов: Делайте A/B тестирование Flash‑превью там, где многопроходное использование инструментов влияет на стоимость или режимы ошибок; рост SWE‑Bench Verified и данные сообщества по токенам/с говорят об улучшенном планировании при жёстких thinking budgets.

Имена моделей и алиасы

Превью: gemini-2.5-flash-preview-09-2025, gemini-2.5-flash-lite-preview-09-2025
Стабильные: gemini-2.5-flash, gemini-2.5-flash-lite
Скользящие алиасы: gemini-flash-latest, gemini-flash-lite-latest (алиасы указывают на превью и могут менять функции, лимиты и цену)

Проверяйте на своих рабочих нагрузках — особенно для браузер‑агентов и стеков с несколькими инструментами — прежде чем переводить продакшен на скользящие алиасы.