Новые возможности OpenAI: модели o3 и o4-mini с мультимодальным мышлением и интегрированными инструментами

Новые модели рассуждения от OpenAI

16 апреля 2025 года OpenAI выпустила обновлённые модели рассуждения o3 и o4-mini, которые стали развитием предыдущих моделей o1 и o3-mini. Эти модели обеспечивают улучшенную производительность, новые функции и расширенную доступность, особенно для задач, требующих сложного мышления и мультимодального понимания.

Эволюция языковых моделей OpenAI

Разработка OpenAI началась с GPT-2 и GPT-3, которые сделали ИИ для общения популярным, но показали ограничения в глубоких рассуждениях и многошаговом решении задач. GPT-4 и модели o1 и o3-mini внедрили метод цепочки рассуждений для повышения логической точности. Новые модели o3 и o4-mini продолжают развитие, значительно улучшая результаты в технических областях, таких как программирование, математика и научный анализ.

Основные улучшения в o3 и o4-mini

Улучшенные способности рассуждения

Модели тратят больше времени на обработку запросов, что позволяет им глубже анализировать и выдавать более точные ответы. Например, o3 превосходит o1 на 9% по результатам LiveBench.ai и набирает 69,1% на тесте SWE-bench, опережая конкурентов, включая Gemini 2.5 Pro. o4-mini достигает схожей глубины рассуждений при меньших затратах.

Мультимодальная интеграция: работа с изображениями и текстом

Уникальная возможность моделей — анализировать изображения вместе с текстом. Они способны распознавать даже низкокачественные изображения, такие как рукописные заметки или схемы, увеличивать и поворачивать их для лучшего понимания. Это открывает новые перспективы в образовании, науке и взаимодействии с ИИ.

Расширенное использование инструментов

o3 и o4-mini интегрируют все инструменты ChatGPT одновременно: веб-браузинг для поиска актуальной информации, выполнение Python-кода для вычислений и обработка изображений. Благодаря этому они эффективно решают сложные задачи в несколько этапов. Появление Codex CLI, легкого кроссплатформенного агента для программирования, расширяет возможности разработчиков.

Влияние на различные отрасли

Образование: интерактивное обучение с визуальными подсказками и подробными объяснениями.
Наука: ускоренный анализ данных и генерация гипотез.
Промышленность: улучшение принятия решений и устранение неполадок с помощью текстовых и визуальных запросов.
Креатив и медиа: создание раскадровок, сопоставление музыки с визуалом, советы по монтажу и создание архитектурных планов.
Доступность: подробные описания изображений для слепых, визуальные последовательности для глухих, а также перевод слов и визуальных данных для преодоления языковых барьеров.

Ограничения и перспективы

Хотя модели имеют ограничение знаний до августа 2023 года, веб-браузер помогает компенсировать этот недостаток. В будущем ожидается улучшение работы с актуальными данными и развитие автономных ИИ-агентов, способных самостоятельно планировать, учиться и действовать.

Интеграция глубокого рассуждения, мультимодальных данных и инструментов делает o3 и o4-mini важным шагом к более универсальным и автономным ИИ-решениям.