Da li možemo da verujemo svemu što čujemo ili VALL-E? - Рачунарски факултет

Stručnjaci iz kompanije Microsoft predstavili su novu veštačku inteligenciju pod nazivom VALL-E koja može da oponaša bilo čiji glas, a potreban joj je uzorak od samo tri sekunde. Naravno, zvuči fantastično, ali i pomalo zastrašujuće.
Zlonamerni prevaranti mogu da koriste montirane video-zapise i fotografije da bi iskoristili vašu ličnost u podle svrhe, a sada uz VALL-E tehnologiju počinje nova era audio veštačke inteligencije. Dakle, prevaranti mogu da kloniraju vaš glas i da ga koriste za sve gnusne planove koji im padnu na pamet.
Kako funkcioniše VALL-E
Da bi kompanija prikazala kako VALL-E funkcioniše, razvrstala je audio-zapise u četiri kategorije i prikazala tekst koji VALL-E izgovara nakon analize uzorka glasa korisnika koji traje samo tri sekunde.

Speaker Prompt – uzorak glasa korisnika od tri sekunde koji je dostavljen VALL-E tehnologiji.
VALL-E – Izlaz kojeg pruža veštačka inteligencija o tome kako „smatra“ da će zvučati ciljni govornik dok izgovara tekst koji je prikazan.
Ground Truth – stvarni govornik koji čita tekst kojeg izgovara VALL-E.
Baseline – model pretvaranja teksta u govor koji nije proizvod VALL-E tehnologije.

Na primer, u jednom uzorku u trajanju od tri sekunde, govornik kaže, „milked cow contains …“. VALL-E zatim emituje svoju simulaciju ciljnog govornika dok čita tekst koji je prikazan. Posle toga možete da proverite koliko je izlaz veštačke inteligencije blizak stvarnom govorniku kad preslušavate Ground Truth, koji sadrži pravi glas govornika kojeg nije generisala veštačka inteligencija. Možete da uporedite VALL-E-ove sposobnosti kloniranja glasa sa konvencionalnim modelom pretvaranja teksta u govor (tj. Baseline).
Da sve bude još jezivije, VALL-E takođe može da održi emocionalni prizvuk u nečijem glasu. Na primer, ako isporučite uzorak od tri sekunde u kojem se čuje bes u glasu, veštačka inteligencija će ponoviti i vaš besan ton u svom izlazu dok čita prikazani tekst.
Stručnjaci su se pohvalili da VALL-E nadmašuje prethodni metod pretvaranja teksta u govor, dodajući da je bolji u smislu „prirodnosti govora i sličnosti sa govornikom“.
Odmah sam shvatio prednosti VALL-E tehnologije, naročito u domenu pozajmljivanja glasa robotima, u njenoj primeni u sistemima javnog obaveštavanja, digitalnim asistentima i u mnogim drugim oblastima, ali istovremeno sam pomislio i na sve one zloupotrebe takve veštačke inteligencije kad bi dospela u pogrešne ruke.
Na primer, neko bi mogao da napravi snimak glasa neprijatelja u trajanju od tri sekunde i upotrebi VALL-E koji bi imitirao njegov glas dok izgovara nešto odvratno, što bi potencijalno moglo da uništi njegovu reputaciju. Sa druge strane, nepošteni ljudi bi mogli da iskoriste VALL-E kao odličan izgovor da sa sebe skinuli odgovornost za nešto što su rekli, odnosno, za vrlo uverljivo poricanje. Dosadašnji razlog „hakovan sam“ uskoro će sasvim lako preći u: „To nisam ja rekao. Neko je koristio VALL-E.“
Kako mašinsko učenje postaje naprednije i avangardnije, linija između ljudi i veštačke inteligencije je nejasnija i sve se to dešava zabrinjavajućom brzinom. Zbog toga moram da se zapitam da li naše specifične osobine – po kojima se razlikujemo od drugih – naše lice i glas, postaju suviše jednostavni za kloniranje.
Izgleda da su stručnjaci iz kompanije Microsoft već predvideli etičku zabrinutost oko VALL-E i zbog toga su objavili sledeću izjavu u svom izveštaju:
„Eksperimenti u ovom radu sprovedeni su pod pretpostavkom da je korisnik modela ciljni govornik i da ga je govornik odobrio. Međutim, kada se model koristi na nekim drugim govornicima, relevantne komponente treba da se koriste zajedno sa modelima za uređivanje govora, uključujući protokol da bi se obezbedila saglasnost govornika da se izvrši modifikacija i da prihvata sistem za otkrivanje uređenog govora.“
Da bi kompanija bar malo odagnala naše strahove, dodala je da se može napraviti „sistem za detekciju korišćenja VALL-E tehnologije“ da bi se utvrdilo da li je audio-uzorak stvaran ili lažan. Naglasila je i da će se pridržavati svojih šest vodećih principa razvoja veštačke inteligencije: pravičnost, pouzdanost i sigurnost, privatnost i bezbednost, inkluzivnost, transparentnost i odgovornost.
Da li su nas ubedili? Ne. Ipak, bar je dobro da znamo da je tehnološki gigant sa sedištem u Redmondu i sam svestan mogućih negativnih posledica VALL-E tehnologije.