Сьогодні, де технології розвиваються невпинними кроками, штучний інтелект стає дедалі невід’ємною частиною нашого повсякдення. Ми звикли до дещо механічних голосів віртуальних помічників, як-от Siri чи Alexa, які ще донедавна легко відрізнялися від справжньої людської мови. Проте новітні наукові дослідження свідчать, що ця грань стирається, і пересічний слухач вже не здатен відрізнити справжній голос від його цифрової імітації, створеної штучним інтелектом.
Згідно з висновками нового дослідження, опублікованого 24 вересня у впливовому науковому журналі «PLoS One», учасники експерименту не змогли точно визначити, які голоси були справжніми, а які — згенерованими ШІ, коли їм пропонували послухати людську мову поряд із її штучними версіями. Це відкриття викликає низку важливих питань щодо майбутнього взаємодії людини з технологіями.
Еволюція голосів ШІ: Від роботів до двійників
«Голоси, згенеровані штучним інтелектом, тепер навкруги нас. Ми всі спілкувалися з Alexa або Siri, або ж наші дзвінки приймали автоматизовані системи обслуговування клієнтів», — зазначила у своїй заяві провідна авторка дослідження Надін Лаван, старша викладачка психології в Лондонському університеті королеви Марії. Цей заклад вищої освіти є одним із найстаріших і найпрестижніших у Великій Британії, відомим своїми передовими дослідженнями. Лаван підкреслила, що хоча раніше такі голоси не звучали цілком по-людськи, було лише питанням часу, коли технології ШІ почнуть відтворювати натуральне, схоже на людське мовлення.
Дослідження показало цікаву відмінність. Хоча загальні голоси, створені штучним інтелектом з нуля, не завжди сприймалися як реалістичні, звукові клони, створені на основі голосів справжніх людей, так звані “діпфейки” (deepfake), виявилися настільки ж правдоподібними, як і їхні живі прототипи. Діпфейк-технологія – це синтез медіа, де існуючі зображення, аудіо- чи відеоматеріали маніпулюються за допомогою штучного інтелекту, аби створити нові, фальшиві, але переконливі версії.
Заплутані результати експерименту
Вчені надали учасникам дослідження 80 різних зразків голосів: 40, згенерованих ШІ, та 40 справжніх людських. Їх попросили визначити, які з них, на їхню думку, були справжніми, а які — штучними. У середньому лише 41% голосів ШІ, створених “з нуля”, були помилково ідентифіковані як людські, що свідчить про збереження можливості розрізняти їх від справжніх у більшості випадків.
Однак ситуація кардинально змінилася для клонованих ШІ-голосів. Більшість із них (58%) були помилково класифіковані як людські. Лише трохи більше (62%) справжніх людських голосів були правильно ідентифіковані. Це привело дослідників до висновку, що не існує статистично значущої різниці в нашій здатності відрізняти голоси реальних людей від їхніх діпфейкових клонів.
Загрозливі перспективи та етичні виклики
Наслідки цих результатів потенційно мають глибокий вплив на питання етики, авторського права та безпеки, наголосила Надін Лаван. Якщо зловмисники використовуватимуть штучний інтелект для клонування вашого голосу, це значно полегшить обхід протоколів голосової автентифікації у банках або дозволить обманом змусити ваших близьких переказувати гроші.
Ми вже бачили кілька подібних прикладів. Зокрема, 9 липня Шерон Брайтвелл була ошукана на 15 000 доларів. Вона слухала те, що, як їй здавалося, було плачем її доньки по телефону, яка повідомила, що потрапила в аварію і потребує грошей на юридичний супровід, щоб уникнути ув’язнення. «Ніхто не міг би переконати мене, що це була не вона», — сказала Брайтвелл про реалістичну ШІ-фальсифікацію тоді.
Живі голоси ШІ також можуть бути використані для фабрикації заяв та інтерв’ю з політиками або знаменитостями. Фальшивий аудіозапис може бути застосований для дискредитації осіб або для розпалювання заворушень, посіваючи соціальний розбрат та конфлікти. Наприклад, шахраї нещодавно створили ШІ-клон голосу прем’єра Квінсленду Стівена Майлза, використовуючи його образ, аби спонукати людей інвестувати в біткоїн-шахрайство. Квінсленд — один із найбільших штатів Австралії, а Стівен Майлз є значною політичною фігурою в регіональному уряді.
Дослідники наголосили, що голосові клони, які вони використовували в дослідженні, навіть не були особливо складними. Вони створили їх за допомогою комерційно доступного програмного забезпечення, використовуючи лише чотири хвилини запису людської мови для навчання.
Простота доступу та нові можливості
«Процес вимагав мінімальних знань, лише кілька хвилин голосових записів і майже жодних грошей», — підкреслила Лаван. «Це просто показує, наскільки доступною та складною стала технологія голосового штучного інтелекту».
Хоча діпфейки створюють безліч можливостей для зловмисників, не все так похмуро. Існують і більш позитивні можливості, які з’являються завдяки здатності створювати голоси ШІ у великих масштабах. «Можуть бути застосування для поліпшення доступності, освіти та комунікації, де високоякісні синтетичні голоси на замовлення можуть покращити користувацький досвід», — додала Лаван, вказуючи на потенціал для інноваційних та корисних застосувань цієї нової ери голосових технологій.
