<НА ГЛАВНУЮ

ИИ-технологии позволяют «забывать» голоса для борьбы с аудиофальсификациями

Новые ИИ-методы позволяют системам преобразования текста в речь «забывать» определённые голоса, существенно снижая риск аудиофейков и мошенничества с голосом при сохранении качества работы.

Рост числа аудиофейков и клонирования голосов

Современные достижения в области ИИ позволяют системам преобразования текста в речь воспроизводить голоса с поразительной реалистичностью, имитируя естественные интонации и манеру речи. Такая технология способна воспроизвести голос человека, имея всего несколько секунд аудиозаписи, что вызывает опасения по поводу мошенничества, дезинформации и домогательств.

Машинное «забывание» голосов

Новая методика под названием «машинное разучивание» (machine unlearning) дает возможность обучить модели ИИ забывать определённые голоса, тем самым предотвращая их воспроизведение. Эта техника не только удаляет конкретные голосовые данные из модели, но и препятствует имитации голосов, на которых модель не обучалась.

Как работает машинное разучивание

Обычно компании используют защитные механизмы (guardrails), которые фильтруют нежелательный контент на входе и выходе. Машинное разучивание подходит иначе: оно создаёт новую версию модели на основе исходной, но без учёта определённых данных, словно модель их никогда не изучала.

Особенности моделей с «zero-shot» режимом

Современные TTS-модели могут воспроизводить голоса, которых не было в обучающей выборке, имея лишь небольшой образец голоса. Поэтому задача разучивания — забыть эти голоса без потери качества имитации других разрешённых голосов.

Демонстрация на модели VoiceBox

Исследователи из университета Сунгкюнкван применили машинное разучивание к модели VoiceBox от Meta. При попытке сгенерировать «забытая» голосовую речь, модель вместо этого отвечает случайным голосом, созданным ею самостоятельно. Это снижает сходство с забытым голосом более чем на 75%, при этом ухудшая качество имитации разрешённых голосов всего на 2.8%.

Практические аспекты и ограничения

Процесс разучивания занимает несколько дней для каждого голоса и требует около пяти минут аудиозаписи на каждого человека. Для забытых голосов вводится высокая степень случайности, чтобы исключить обратное восстановление. Однако существует компромисс между степенью забывания и качеством работы модели.

Перспективы развития

Хотя технология пока на ранней стадии, машинное разучивание обещает стать эффективным инструментом для борьбы с мошенничеством и злоупотреблениями голосовыми данными. Учёные продолжают искать более быстрые и масштабируемые решения для практического внедрения.

🇬🇧

Switch Language

Read this article in English

Switch to English