Постанова, штучний інтелект чи правда: ЗМІ вияснили деталі розмови Пригожина та Ахмедова

Постанова, штучний інтелект чи правда: ЗМІ вияснили деталі розмови Пригожина та Ахмедова
Йосип Пригожин

Нещодавно ЗМІ звернули увагу на аудіозапис, на якому, ймовірно, продюсер Йосип Пригожин та мільярдер Фархад Ахмедов лають володимира путіна та його оточення. Пригожин одразу назвав аудіо фейком, згенерованим нейромережею, що викликаю чимало суперечок.

Про це пише Медуза.

Читайте також:

Що відомо 

В останні дні у ЗМІ та телеграм-каналах широко розійшовся аудіозапис розмови між, ймовірно, російським музичним продюсером Йосипом Пригожиним  та мільярдером Фархадом Ахмедовим, які у нецензурній формі критикують керівництво росії. 

Достовірність голосів на записі не підтверджена. 

Реакція Пригожина

Пізніше Пригожин дав інтерв'ю "Фонтанці", в якому заявив, що "люди у приватній розмові можуть говорити про що завгодно", а "нейромережі сьогодні дозволяють робити будь-які дива". При цьому Пригожин стверджував, що точно не пам'ятає подібну розмову з Ахмедовим, але періодично з ним спілкується.

За другою версією продюсера, запис все ж таки не є виключно результатом роботи нейромереж, а "є симбіозом сказаних фраз і тих, що були згенеровані, але ніколи не вимовлялися":

"Безумовно, якісь моменти є реальними у розмові. Голос схожий на мій. Але незрозуміло з чого та як клеїли. Потрібно розбиратися", — сказав він.

Розмову повністю згенерувала нейромережа

Як пише видання, таку позицію Пригожин дотримувався, коли вперше прокоментував публікацію аудіозапису. Однак, технічні спеціалісти наголосили, що нейромережі поки що не можуть настільки якісно мімікрувати під голос реальної людини, тим більше робити це протягом 35 хвилин.

Людина має невеликі слова-паразити, вона підбирає фрази, коли формує пропозицію. Алгоритм може копіювати звук та голос, але не може відтворити унікальні мовні ознаки.

За словами айтішника, продукти, які доступні сьогодні на ринку і дозволяють реалістично копіювати голос (наприклад, Prime Voice AI), заточені в основному під англійську мову, і вони не мають російських аналогів порівнянної якості.

"При спробі копіювання російської мови ви завжди можете почути характерний металевий дзвін у голосі дуже помітно, що це несправжній звук. Англійською це вже невиразно, але російською так само не надиктуєш. Тож з погляду AI ця розмова — точно не дипфейк, я впевнений у цьому на 100%", — сказав він.

Розмову склеїли зі справжніх реплік Пригожина та Ахмедова

За аналізом журналістів, є декілька доказів, що розмова не склеєна.

  • Протягом усього запису чути фоновий шум та інші голоси, фон завжди різний. На звуковій доріжці, яка, ймовірно, відноситься до Пригожина, звучить голос, дуже схожий на голос його дружини Валерії (у ці моменти Пригожин звертається до цього голосу "Лер").
  • Оскільки голоси співрозмовників записані у два канали — лівий та правий — легко почути, що відбувається на кожній доріжці окремо. Підробити такий різний фоновий шум неймовірно складно (це і нерозбірливі голоси людей, до яких Пригожин звертається англійською, і звуки, схожі на звуки ліфта або натискання кнопок). На доріжці Ахмедова такого шуму менше, але в одному моменті чийсь жіночий голос на задньому плані підказує йому "розікрали", а потім він повторює це слово.
  • Сам характер розмови і те, як співрозмовники взаємодіють один з одним, виглядає природно: повторення слів та реплік, коли підбирають слова, перепитування "чуєш?" (щоб переконатися, що співрозмовник чує), підтакування та гукання на знак згоди. Такі реакції дуже складно спеціально змонтувати — це титанічна та вкрай складна робота.
  • Якість зв'язку протягом усієї розмови нерівномірна: десь Пригожина чути краще, а десь гірше. Іноді окремі звуки як би трохи з'їдаються (особливо наприкінці фраз, що природно для нашої мови). Навряд чи спочатку добрий звук можна було спеціально настільки погіршити.
  • У деяких моментах чутно, як Пригожин приглушує голос і намагається говорити не дуже голосно: так роблять люди, які не хочуть, щоби сторонні в приміщенні їх почули.
  • Ключові репліки Йосипа Пригожина про ставлення до влади, до війни та його думку про те, що відбувається в країні, звучить максимально природно (і це фрагменти діалогу, в яких співрозмовники взаємодіють абсолютно правдоподібно).

На аудіозаписі говорять актори

"Таке пояснення побічно суперечить словам самого Йосипа Пригожина — він стверджував, що в розмові "є реальні моменти", при цьому на аудіозаписі немає жодних ознак різкої зміни у мові співрозмовників, і навряд чи на таку пародію здатні навіть найталановитіші актори", — пише видання.

Втім, є й інший спосіб підробити чийсь голос: зловмисник може записати себе, витримуючи всі характерні паузи та інтонації жертви, та використовувати технологію voice conversion — з її допомогою нейромережа редагує звук, імітуючи голос  іншої людини ( ось приклади роботи таких нейромереж).

Експерт із генеративних нейромереж розповів, що такий сценарій у теорії можливий, і погана якість звуку на записі могла б допомогти приховати зміни. Для того, щоб навчити нейромережу, достатньо хвилинного запису голосу, який потрібно зімітувати.

При цьому найскладніше завдання для передбачуваних творців фейкового аудіо — не зміна звуку, а створення правдоподібного сценарію, в якому б фальшиві Пригожин і Ахмедов обговорювали безліч деталей, пов'язаних з їх приватним життям. На це звертає увагу журналіст Андрій Захаров:

У 90% фейкових розмов виходить Майк і Нік (писати правдиві діалоги — особлива майстерність), у решті 10% зліплять щонайбільше дві хвилини з тієї ж причини — правдивий, живий діалог дуже складно написати.

Нагадаємо, засновник російської ПВК "Вагнер" Євген Пригожин прокоментував скандал зі злитою телефонною розмовою музичного продюсера Йосипа Пригожина з олігархом Фархадом Ахмедовим.

На думку засновника ПВК, критично відгукуватися у приватній розмові про так звану "СВО" можна, а ось відмовлятися від своїх слів — ні.