Новые возможности OpenAI: модели o3 и o4-mini с мультимодальным мышлением и интегрированными инструментами
Новые модели OpenAI o3 и o4-mini предлагают мощные возможности мультимодального мышления и интеграции инструментов, повышая точность и универсальность ИИ в работе с текстом, изображениями и кодом.
Новые модели рассуждения от OpenAI
16 апреля 2025 года OpenAI выпустила обновлённые модели рассуждения o3 и o4-mini, которые стали развитием предыдущих моделей o1 и o3-mini. Эти модели обеспечивают улучшенную производительность, новые функции и расширенную доступность, особенно для задач, требующих сложного мышления и мультимодального понимания.
Эволюция языковых моделей OpenAI
Разработка OpenAI началась с GPT-2 и GPT-3, которые сделали ИИ для общения популярным, но показали ограничения в глубоких рассуждениях и многошаговом решении задач. GPT-4 и модели o1 и o3-mini внедрили метод цепочки рассуждений для повышения логической точности. Новые модели o3 и o4-mini продолжают развитие, значительно улучшая результаты в технических областях, таких как программирование, математика и научный анализ.
Основные улучшения в o3 и o4-mini
Улучшенные способности рассуждения
Модели тратят больше времени на обработку запросов, что позволяет им глубже анализировать и выдавать более точные ответы. Например, o3 превосходит o1 на 9% по результатам LiveBench.ai и набирает 69,1% на тесте SWE-bench, опережая конкурентов, включая Gemini 2.5 Pro. o4-mini достигает схожей глубины рассуждений при меньших затратах.
Мультимодальная интеграция: работа с изображениями и текстом
Уникальная возможность моделей — анализировать изображения вместе с текстом. Они способны распознавать даже низкокачественные изображения, такие как рукописные заметки или схемы, увеличивать и поворачивать их для лучшего понимания. Это открывает новые перспективы в образовании, науке и взаимодействии с ИИ.
Расширенное использование инструментов
o3 и o4-mini интегрируют все инструменты ChatGPT одновременно: веб-браузинг для поиска актуальной информации, выполнение Python-кода для вычислений и обработка изображений. Благодаря этому они эффективно решают сложные задачи в несколько этапов. Появление Codex CLI, легкого кроссплатформенного агента для программирования, расширяет возможности разработчиков.
Влияние на различные отрасли
- Образование: интерактивное обучение с визуальными подсказками и подробными объяснениями.
- Наука: ускоренный анализ данных и генерация гипотез.
- Промышленность: улучшение принятия решений и устранение неполадок с помощью текстовых и визуальных запросов.
- Креатив и медиа: создание раскадровок, сопоставление музыки с визуалом, советы по монтажу и создание архитектурных планов.
- Доступность: подробные описания изображений для слепых, визуальные последовательности для глухих, а также перевод слов и визуальных данных для преодоления языковых барьеров.
Ограничения и перспективы
Хотя модели имеют ограничение знаний до августа 2023 года, веб-браузер помогает компенсировать этот недостаток. В будущем ожидается улучшение работы с актуальными данными и развитие автономных ИИ-агентов, способных самостоятельно планировать, учиться и действовать.
Интеграция глубокого рассуждения, мультимодальных данных и инструментов делает o3 и o4-mini важным шагом к более универсальным и автономным ИИ-решениям.
Switch Language
Read this article in English