OpenAI представила API gpt-image-1: новые возможности для генерации изображений

Представляем API для генерации изображений gpt-image-1

OpenAI выпустила новый API для генерации изображений на базе модели gpt-image-1, предоставляя разработчикам доступ к высококачественному синтезу изображений. Этот API интегрирует мультимодальные возможности ChatGPT, позволяя создавать фотореалистичные, художественные или стилизованные изображения по текстовым описаниям.

Особенности и параметры

API поддерживает следующие параметры:

Prompt (запрос): текстовое описание желаемого изображения.
Size (размер): стандартные разрешения, например, 1024×1024.
n: количество изображений, создаваемых по одному запросу.
Response format (формат ответа): base64-кодированные изображения или URL.
Style (стиль): опциональные стили, например, «vivid» или «natural».

Синхронная модель ответа позволяет разработчикам получать изображения сразу, что удобно для чат-ботов и платформ дизайна.

Технические детали

Хотя OpenAI не раскрыла полные архитектурные детали gpt-image-1, модель демонстрирует высокое соответствие запросам, детальную композицию и стилистическую согласованность. Несмотря на отличие в названии от DALL·E 3, модель продолжает исследовательскую линию OpenAI в области генерации изображений.

Интеграция предельно проста, пример кода:

from openai import OpenAI
import base64
client = OpenAI()
 
prompt = """
A children's book drawing of a veterinarian using a stethoscope to 
listen to the heartbeat of a baby otter.
"""
 
result = client.images.generate(
    model="gpt-image-1",
    prompt=prompt
)
 
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
 
# Сохраняем изображение в файл
with open("otter.png", "wb") as f:
    f.write(image_bytes)

Применение API

API gpt-image-1 открывает множество возможностей:

Инструменты генеративного дизайна для художников и маркетологов.
AI-ассистенты с визуальным контентом.
Быстрая генерация ассетов для игр и XR.
Образовательные визуализации: диаграммы и реконструкции.

Это позволяет масштабировать и персонализировать создание изображений в пользовательских приложениях.

Безопасность и модерация

OpenAI внедрила фильтры контента и классификаторы для предотвращения создания нежелательных или нарушающих политику изображений. Разработчикам рекомендуется проверять ввод пользователей и обеспечивать прозрачность использования визуального контента.