Исследователи представили General-Level и General-Bench для оценки истинной синергии в мультимодальном ИИ

Эволюция мультимодального ИИ

Искусственный интеллект вышел за рамки систем, работающих только с языком, и теперь включает модели, способные обрабатывать разные типы данных, включая текст, изображения, аудио и видео. Эта область, называемая мультимодальным обучением, стремится воспроизвести естественную способность человека интегрировать и интерпретировать разнообразную сенсорную информацию. В отличие от традиционных моделей ИИ, работающих с одним типом данных, мультимодальные генералисты разработаны для обработки и отклика на различные форматы, приближаясь к имитации человеческого мышления за счёт объединения разных видов знаний и восприятия.

Проблема истинной генерализации и синергии

Основная задача — обеспечить, чтобы мультимодальные системы демонстрировали настоящую генерализацию. Хотя многие модели могут обрабатывать несколько типов данных, им часто не хватает способности эффективно переносить знания между разными задачами и модальностями. Отсутствие этого перекрёстного улучшения, называемого синергией, тормозит развитие более умных и адаптивных систем. Модель может хорошо справляться с классификацией изображений и генерацией текста по отдельности, но не может считаться настоящим генералистом без умения интегрировать навыки из обеих областей. Достижение синергии — ключ к созданию автономных ИИ с комплексным пониманием и мышлением.

Ограничения современных подходов

Большинство существующих мультимодальных инструментов основаны на больших языковых моделях (LLM), дополненных специализированными модулями для задач распознавания изображений или анализа речи. Например, модели CLIP или Flamingo объединяют язык и зрение, но не обеспечивают глубокую интеграцию между модальностями. Вместо работы как единое целое, они функционируют слабо связанными компонентами, имитирующими мультимодальный интеллект. Такая фрагментированная архитектура препятствует полноценному обучению между модальностями, что ведёт к изолированной производительности по задачам, а не к целостному пониманию.

Введение General-Level и General-Bench

Группа исследователей из Национального университета Сингапура (NUS), Технологического университета Наньянга (NTU), Чжэцзянского университета (ZJU), Пекинского университета (PKU) и других учреждений предложила новую структуру General-Level и бенчмарк General-Bench для оценки и стимулирования синергии между модальностями и задачами.

General-Level делит модели на пять уровней в зависимости от их способности интегрировать понимание, генерацию и языковые задачи. General-Bench поддерживает эту структуру большим набором данных с более чем 700 задачами и 325 800 аннотированными примерами из текста, изображений, аудио, видео и 3D данных.

Оценка синергии между задачами и модальностями

General-Level оценивает модели не только по результатам выполнения задач, но и по способности превосходить лучшие специализированные модели за счёт использования общих знаний. Исследователи выделяют три типа синергии: задача-за-задачей, понимание-генерация и модальность-модальность. Для каждого уровня требуется растущая способность к синергии. Например, модели второго уровня поддерживают множество модальностей и задач, а модели четвёртого уровня должны демонстрировать синергию между пониманием и генерацией. Система оценок минимизирует смещение в пользу доминирующих модальностей и поощряет сбалансированную поддержку различных задач.

Тестирование комплексных мультимодальных моделей

Команда протестировала 172 крупные модели, включая более 100 топовых мультимодальных языковых моделей (MLLM), используя General-Bench. Результаты показали, что большинству моделей не хватает необходимой синергии для достижения высоких уровней генерализации. Даже продвинутые модели, такие как GPT-4V и GPT-4o, не достигли пятого уровня, требующего улучшения понимания языка с помощью неязыковых данных. Лучшие модели демонстрировали лишь базовые мультимодальные взаимодействия без полной синергии по задачам и модальностям.

General-Bench охватывает 702 задачи по 145 навыкам, охватывая 29 дисциплин и используя 58 метрик оценки, что устанавливает новый стандарт комплексности для оценки мультимодального ИИ.

Перспективы развития мультимодального ИИ

Это исследование подчёркивает разрыв между текущими мультимодальными системами и идеальными генералистами, способными к настоящей интеграции. Введение General-Level и General-Bench предоставляет инструменты, ориентированные на целостную интеграцию, а не на узкую специализацию. Эта работа закладывает фундамент для создания ИИ с повышенной гибкостью, практической применимостью и глубоким межмодальным пониманием.

Для дополнительной информации ознакомьтесь с публикацией и страницей проекта. Следите за сообществом исследователей в Twitter и присоединяйтесь к субреддиту r/machinelearningnews с более чем 90 000 участников, чтобы быть в курсе новостей.

О Marktechpost

Marktechpost развивает активное сообщество в области ИИ и машинного обучения через различные платформы:

Сообщество новостей по машинному обучению – r/machinelearningnews (более 92 тыс. участников)
Рассылка новостей – airesearchinsights.com (более 30 тыс. подписчиков)
Мероприятия miniCON AI – minicon.marktechpost.com
Отчёты и журналы по ИИ – magazine.marktechpost.com
Новости разработки и исследований ИИ – marktechpost.com (более 1 млн читателей в месяц)