Niksonov govor posle katastrofe na Mesecu – budućnost uz deepfake tehnologiju

Jedan nagrađivani studio koristi veštačku inteligenciju da generiše lažne glasove za industriju u Holivudu da bi pokazao kako deepfake tehnologija postavlja brojna etička pitanja. Nagrada Emi za interaktivni dokumentarac dodeljena je 29. septembra, filmu In Event of Moon Disaster (prim prev. U slučaju katastrofe na Mesecu), u kome je korišćena veštačka inteligencija za kreiranje lažnog videa sa bivšim američkim predsednikom Ričardom Niksonom. Film prikazuje kako drži govor koji je pripremljen u slučaju da misija Apolo 11 ne uspe, pri čemu bi astronauti Nil Armstrong i Baz Oldrin bili ostavljeni da večno počivaju na Mesecu. Multimedijalni projekat je napravljen u saradnji Centra za naprednu virtuelnost Instituta za tehnologiju Masačusetskog instituta, uz malu pomoć ukrajinske kompanije Respeecher , koja se bavi kloniranjem glasa, i koja je radila na Niksonovom glasu.

Aleks Serdjuk, izvršni direktor kompanije Respeecher, kaže da je ideja ovog sedmominutnog filma bila da pokaže kako će dezinformacije na mreži izgledati u budućnosti. „Projekat nije bio samo prilika da se pokaže šta sve dobro može da donese naša tehnologija, već i da se pokaže za šta su ove tehnologije sposobne“, rekao je on. U godinama koje su pred nama, deepfake video-snimci bi mogli da postanu češći na društvenim mrežama, ali i teže uočljivi, sa užasnim posledicama na društvenom nivou. Već je poznato da lažne vesti putuju brže. Studija MIT-a pokazala je, na primer, da je 70% veća verovatnoća da će lažne tvrdnje biti podeljene nego istina.

Zbog te opasnosti Serdjuk kaže da je njegova dužnost da pomogne u podizanju svesti o zloupotrebi deepfake tehnologije, što je izuzetno važan deo posla kojim se bavi njegova kompanija.

Kako se pravi deepfake snimak

Film In Event of Moon Disaster je bio ambiciozan multimedijalni projekat na kojem su radili stručnjaci iz različitih oblasti. Film su zajedno režirali Frančeska Paneta i Halsi Burgund u MIT Centru za naprednu virtuelnost i blisko su sarađivali sa dve inovativne kompanije koje su se bavile tehničkim delom projekta. Izmenjenu sliku Ričarda Niksona kreirala je firma Canny AI iz Tel Aviva, dok su glas predsednika generisali inženjeri kompanija Respeecher u svojim malim kancelarijama u Kijevu. Osvajanje nagrade Emi bilo je iznenađenje za kompaniju Respeecher , koja je osnovana pre manje od četiri godine. Tada su Serdjuk i njegov prijatelj Dmitro Belevtsov učestvovali u hakatonu pokušavajući da da urade nešto zanimljivo s obzirom na to da su se bavili dosadnom analizom podataka za banke i osiguravajuće kompanije.

Na tom hakatonu većina timova se fokusirala na korišćenje veštačke inteligencije za obradu slike, pa su Serdjuk i Belevtsov odlučili da urade nešto drugačije i fokusirali se na zvuk. Počeli su da prave softver koji je omogućavao čoveku da govori glasom druge osobe – ukratko, omogućavao je konverziju govora u govor. Projekat im se dopao i odlučili su da nastave da ga razvijaju. Ubrzo su upoznali Granta Rabera, bivšeg studenta Univerziteta „Karnegi Melon“ koji je bio zainteresovan za konverziju akcenata, što je prilično slično. Njih trojica su odlučila da osnuju kompaniju i tako je nastala Respeecher .

Kada im je MIT pokucao na vrata, tehnologija za konverziju glasa je još bila u procesu stvaranja, ali mislili su da su na visini zadatka. Bile su im potrebne dve stvari: stari snimci Ričarda Niksona i snimak govora koji predsednik nikada nije održao. MIT je angažovao glumca da imitira Niksonov stil govora, koji je morao da produži izgovor određenih reči i da pravi pauze kako bi se stekao utisak zabrinutosti i žalosti. Zatim su inženjeri iz kompanije uz pomoć duboke neuronske mreže dodali Niksonov glas glumačkom nastupu i na taj način stvorili deepfake audio-snimak. Svakome ko sluša, sintetički glas zvuči prirodno i ne razlikuje se od originala. Da bi postigli taj nivo kvaliteta, Serdjukovom timu je bilo potrebno nekoliko sati kako Niksonovih, tako i glumčevih snimaka. U međuvremenu su unapredili svoju tehnologiju, tako da je proces jednostavniji.

Uglavnom im je potrebno oko 60 minuta snimaka ciljnih i izvornih glasova. U mnogim projektima su imali manje podataka ili su podaci bili manje kvalitetni, tako da su stekli sjajno iskustvo u radu sa različitim vrstama podataka.
Za razliku od pretvaranja teksta u govor, koje često zvuči izveštačeno ili veštački, tehnologija kompanije se trudi da očuva emocije, što je potpuno očekivano s obzirom na to da su morali da dostignu visoke standarde koje su postavili stručnjaci za zvuk u Holivudu.

Kompanija Respeecher trenutno zapošljava oko 20 stručnjaka i ima klijente visokog profila. Recimo, kompanija je radila na nekoliko najsavremenijih projekata u poslednjih nekoliko godina. Na primer, ponovo je stvorila glas Majkla Jorka i tako mu omogućila da govori o svojoj retkoj bolesti amiloidozi. Serdjukov tim je vratio još jedan kultni glas, glas pokojnog trenera američkog fudbala Vinsa Lombardija, koji je tokom finala poslao ohrabrujuću poruku onima koji se bore sa pandemijom. Uz to, kompanija je takođe sintetizovala glas mladog Luka Skajvokera za poslednju epizodu druge sezone Mandalorijanca.

Serdjuk je optimista i kaže da će njegov mali studio sa sedištem u Kijevu nastaviti da doprinosi blokbasterima. Dobro je poznato da je potrebno vreme da se izgradi kredibilitet i reputacija u Holivudu, ali isto tako znamo da se dobar glas daleko čuje i zbog toga se Serdjukova tehnologija često koristi u Holivudu. Konverzije govora u govor mogu biti korisne u širokom spektru projekata, od video-igara do filmova, od audio-knjiga do asistenata u korisničkom centru. Kompanija može da obavi konverzije muškog glasa u ženski i obrnuto, a u budućnosti bi čak mogla da obavi sinhronizaciju glasa na stranim jezicima.

Etička pitanja

Kloniranje glasa postavlja brojna etička pitanja, a neki smatraju da je tehnologija uznemirujuća. Dokumentarac Roadrunner: A Film About Anthony Bourdain , koji se pojavio u bioskopima tokom leta naišao je na kritike kad je otkriveno da je deo glasa pokojnog kuvara kreiran pomoću tehnologije kloniranja glasa. Bordejn je zaista napisao te rečenice, ali ne postoji snimak u kome ih on čita. Publika nije bila upoznata da je u filmu korišćena veštačka inteligencija. To je otkriveno kasnije. Takođe, nije naznačeno da li je filmska ekipa dobila dozvolu od Bordejnove porodice da sintetički kreira njegov glas.

Serdjuk kaže da su on i druga dva suosnivača stvorili skup pravila koje treba da poštuju i oni i njihovi klijenti. Kompanija ne daje javni API , a kad god klonira glas, dodaje mu audio vodeni žig koji omogućava specijalizovanom softveru da otkrije da je korišćena deepfake tehnologija. Isto tako, kada klijent želi da klonira nečiji glas, potrebna mu je pismena saglasnost te osobe ili njene porodice. Serdjuk smatra da u njegovoj tehnologiji nema ništa novo što naše društvo nikada ranije nije videlo i da se ne razlikuje od fotošopa.

Industrija zabave tek treba da reguliše deepfake, ali Serdjuk veruje da bi skup pravila koje je razvio njegov tim trebalo da bude obavezan, s obzirom na to da bi dezinformacije na mreži mogle da postanu sve češće. Nagrada koju je njegov tim dobio mogla bi da bude mali korak u podizanju svesti o opasnostima deepfake tehnologije. Veza do sedmominutnog filma: https://www.youtube.com/watch?v=LWLadJFI8Pk&t=313s

6504-niksonov-govor-posle-katastrofe-na-mesecu-buducnost-uz-deepfake-tehnologiju