Решение, искусственный интеллект или правда: СМИ выяснили детали разговора Пригожина и Ахмедова

Решение, искусственный интеллект или правда: СМИ выяснили детали разговора Пригожина и Ахмедова
Иосиф Пригожин

Недавно СМИ обратили внимание на аудиозапись, на которой, вероятно, продюсер Иосиф Пригожин и миллиардер Фархад Ахмедов ругают владимира путина и его окружения. Пригожин сразу назвал аудио фейком, сгенерированным нейросетью, что вызывает множество споров.

Об этом пишет Медуза.

Читайте также:

Что известно

В последние дни в СМИ и телеграмм-каналах широко разошлась аудиозапись разговора между вероятно российским музыкальным продюсером Иосифом Пригожиным и миллиардером Фархадом Ахмедовым, которые в нецензурной форме критикуют руководство россии.

Достоверность голосов на записи не подтверждена.

Реакция Пригожина

Позже Пригожин дал интервью "Фонтанке", в котором заявил, что "люди в частном разговоре могут говорить о чем угодно", а "нейросети сегодня позволяют делать какие-либо чудеса". При этом Пригожин утверждал, что точно не помнит подобный разговор с Ахмедовым, но периодически с ним общается.

По второй версии продюсера, запись все же не является исключительно результатом работы нейросетей, а "является симбиозом сказанных фраз и сгенерированных, но никогда не произносившихся":

"Безусловно, какие-то моменты реальны в разговоре. Голос похож на мой. Но непонятно из чего и как клеили. Нужно разбираться" , — сказал он.

Разговор полностью сгенерировала нейросеть

Такую позицию Пригожин придерживался, когда впервые прокомментировал публикацию аудиозаписи. Однако технические специалисты подчеркнули, что нейросети пока не могут столь качественно мимикрировать под голос реального человека, тем более делать это в течение 35 минут.

У человека есть небольшие слова-паразиты, он подбирает фразы, когда формирует предложение. Алгоритм может скопировать звук и голос, но не может воспроизвести уникальные языковые признаки.

По словам айтишника, продукты, которые доступны сегодня на рынке и позволяют реалистично копировать голос (например, Prime Voice AI), заточены в основном под английский язык, и у них нет российских аналогов сравнимого качества.

"При попытке копирования русского языка вы всегда можете услышать характерный металлический звон в голосе очень заметно, что это ненастоящий звук. На английском это уже невнятно, но на русском так же не надиктуешь. Так что с точки зрения AI этот разговор — точно не дипфейк, я уверен в этом на 100%", — сказал он.

Разговор склеили из настоящих реплик Пригожина и Ахмедова

По анализу журналистов, есть несколько доказательств, что разговор не склеен.

  • На протяжении всей записи слышен фоновый шум и другие голоса, фон всегда разный. На звуковой дорожке, которая, вероятно, относится к Пригожину, звучит голос очень похожий на голос его жены Валерии (в эти моменты Пригожин обращается к этому голосу "Лер").
  • Поскольку голоса собеседников записаны в два канала – левый и правый – легко услышать, что происходит на каждой дорожке отдельно. Подделать такой разный фоновый шум невероятно сложно (это и неразборчивые голоса людей, к которым Пригожин обращается по-английски, и звуки, похожие на звуки лифта или нажатие кнопок). На дорожке Ахмедова такого шума меньше, но в одном моменте чей-то женский голос на заднем плане подсказывает ему "разворовали", а затем он повторяет это слово.
  • Сам характер разговора и то, как собеседники взаимодействуют друг с другом, выглядит естественно: повторение слов и реплик, когда подбирают слова, переспрос "слышишь?" (чтобы убедиться, что собеседник слышит), поддакивание и восклицание в знак согласия. Такие реакции очень сложно специально смонтировать – это титаническая и очень сложная работа.
  • Качество связи на протяжении всего разговора неравномерно: где-то Пригожина слышно лучше, а где-то хуже. Иногда отдельные звуки как бы чуть-чуть съедаются (особенно в конце фраз, что естественно для нашего языка). Вряд ли поначалу хороший звук можно было специально столь ухудшить.
  • В некоторых моментах слышно, как Пригожин скрадывает голос и пытается говорить не очень громко: так поступают люди, которые не хотят, чтобы посторонние в помещении их услышали.
  • Ключевые реплики Иосифа Пригожина об отношении к власти, к войне и его мнении о происходящем в стране звучат максимально естественно (и это фрагменты диалога, в которых собеседники взаимодействуют абсолютно правдоподобно).

На аудиозаписи говорят актеры

"Такое объяснение косвенно противоречит словам самого Иосифа Пригожина — он утверждал, что в разговоре "есть реальные моменты", при этом на аудиозаписи нет никаких признаков резкого изменения в языке собеседников, и вряд ли на такую пародию способны даже самые талантливые актеры", — пишет издание.

Впрочем, есть и другой способ подделать чей-то голос: злоумышленник может записать себя, выдерживая все характерные паузы и интонации жертвы, и использовать технологию voice conversion — с ее помощью нейросеть редактирует звук, имитируя голос другого человека (примеры работы таких нейросетей).

Эксперт по генеративным нейросетям рассказал, что такой сценарий в теории возможен, и плохое качество звука на записи могло бы помочь скрыть изменения. Для того чтобы научить нейросети, достаточно минутной записи голоса, который нужно симитировать.

При этом самая сложная задача для предполагаемых создателей фейкового аудио — не изменение звука, а создание правдоподобного сценария, в котором фальшивые Пригожин и Ахмедов обсуждали множество деталей, связанных с их частной жизнью. На это обращает внимание журналист Андрей Захаров:

В 90% фейковых разговоров выходит Майк и Ник (писать правдивые диалоги — особое мастерство), в остальных 10% слепят максимум две минуты по той же причине — правдивый, живой диалог очень сложно написать.

Напомним, основатель российского ЧВК "Вагнер" Евгений Пригожин прокомментировал скандал со слитным телефонным разговором музыкального продюсера Иосифа Пригожина с олигархом Фархадом Ахмедовым.

По мнению основателя ЧВК, критически отзываться в частном разговоре о так называемом "СВО" можно, а вот отказываться от своих слов нет.