Аватары Synthesia Express-2 стирают границы реального — скоро они будут отвечать

сентября 4, 2025 · 4 min

Студийная сессия и цифровой двойник

Ранним летом я посетила лондонскую студию Synthesia, чтобы записать материал для создания AI-аватара. Комната была ярко освещена: отражающие зонты, камера на штативе и ноутбук с автокей. Я прочитала заранее подготовленный бодрый текст, пытаясь держать движения естественными, но не слишком широкими. Съемочный материал пошел в обучение двух версий моего аватара: на базе старого Express-1 и новой Express-2.

От дерганых движений к правдоподобным манерам

Synthesia начинала с наложения лиц и локализации роликов, но ранние аватары часто выдавали себя резкими жестами, несинхронизированной мимикой или голосом, не совпадающим с выражением лица. Express-2 нацелен на устранение этих проблем. Новая модель дает более естественные движения рук, тонкие микровыражения лица и голосовое клонирование, сохраняющее акцент и интонации говорящего.

Просмотр моего Express-2 клона был одновременно впечатляющим и немного тревожным. Он способен держать отточенную презентацию в высоком разрешении, которую многие воспримут как реальную съемку. Черты лица и голос сильно напоминают меня, но остаются мелкие несоответствия: слишком гладкая кожа на ладонях, жесткие пряди волос, стеклянный взгляд и порой странные интонации. Эти мелочи соседствуют с в целом убедительной подачей.

Процесс создания стал проще

Раньше создание аватаров требовало длительной калибровки: чтение текста в разных эмоциональных состояниях, артикуляция фонем и повторение жестов. Команда Synthesia оптимизировала процесс. Во время моей съемки технический руководитель просил вести себя естественно и не переусердствовать с движениями. Часа записи оказалось достаточно для обеих версий, и Express-2 дал заметно более точное сходство.

Express-2 больше не нуждается в том, чтобы видеть каждую эмоцию в исходных кадрах, потому что обучен на гораздо более разнообразных и масштабных данных. Это позволяет рендеру автоматически воспроизводить уместные жесты и микровыражения, сокращая время и объем съемок.

Как модели работают вместе

Для Express-2 Synthesia объединила набор аудио- и видеомоделей. Модель голосового клонирования сохраняет акцент, интонацию и выразительность, не сглаживая их в универсальную «американскую» манеру. Express-Voice анализирует тон загруженного сценария, модель генерации жестов предлагает подходящие движения, а отдельный оценщик сверяет сгенерированные движения с аудио и выбирает наилучший вариант. Финальный мощный рендеринг формирует итоговый аватар.

Рендер-модель Express-2 насчитывает миллиарды параметров, что значительно больше, чем у Express-1 с несколькими сотнями миллионов. Это повышает скорость создания и качество, позволяя аватарам точнее воспроизводить микро-жесты и синхронизировать речь с движениями.

Сужение эффекта «зловещей долины» и психологическое влияние

Эксперты отмечают, что выдающая ошибка часто заключается не в одной явной оплошности, а в ощущении пустоты: отсутствии настоящей эмоции. Исследователь психологии, просмотревший мой аватар, сказал, что сначала он может выглядеть настоящим, но в итоге оставляет странное чувство пустоты под внешней перформансом. Эта тонкая нехватка жизненного опыта отличает отточенного синтетического спикера от реального человека.

Часть моего дискомфорта объясняется тем, что аватар преувеличивает корпоративный тон, далёкий от моей естественной манеры. Видеть постоянную гиперэнтузиазмную версию себя было отчуждающе. Появляются и практические риски: если аватары станут массовыми, они дадут новые возможности для розыгрышей и злоупотреблений — например, заставлять чей-то аватар произносить компрометирующие заявления.

Применение и следующая ступень

Сегодня Synthesia сосредоточена на корпоративных задачах: внутренние коммуникации, обучение, отчеты и маркетинг. Другие компании тоже предлагают наборы для быстрой генерации видео с AI-актерами. Партнерство Synthesia с моделью Veo 3 от Google позволяет встраивать сгенерированные видеоклипы в платформу, что расширяет возможности в образовании и развлечениях.

Следующий крупный шаг, на который указывает Synthesia, — интерактивность. Представьте аватар, который понимает вопросы в разговоре и отвечает в реальном времени, сочетая возможности диалоговой модели с реалистичным человеческим лицом. Это откроет персонализированное и адаптивное обучение, а также виртуальных ведущих по запросу. Synthesia уже предлагает кликабельные элементы для викторин и исследует полноценные разговорные аватары, которые могут остановиться, разъяснить момент или ответить на спонтанный вопрос.

Этические компромиссы и социальные последствия

Исследователи предупреждают, что сочетание агентных AI и реалистичных лиц может усилить эмоциональную привязанность и влияние. Всегда доступный, харизматичный аватар может быть сложнее игнорировать, чем текстовый чат-бот. Аватары, оптимизированные для удержания внимания, изменят человеческие связи, усложнят конкуренцию с человеческой харизмой и могут способствовать нездоровой зависимости.

Просматривая мой Express-2 аватар, я представляла доброжелательные, но странные беседы с версией себя, у которой никогда не было моего реального опыта. Она может быть отличным докладчиком, неутомимым тренером или терпеливым репетитором — и лишь мои близкие наверняка отличат её от настоящей меня.