Otkrivanje lažnih video sadržaja dok „trepnete okom“ - Рачунарски факултет

Dok raste napetost pred izbore za američki Kongres u novembru ove godine pojavio se novi oblik širenja lažnih informacija. Nazvan je „duboke prevare“ (engl: deepfakes) prema nalogu pod lažnim imenom koji ga je proširio na mreži. Naziv je, verovatno, izabran jer proces koristi tehnički metod koji se zove duboko učenje i omogućava da takvi video sadržaji izgledaju izuzetno realno. Do sada su video sadržaji tog oblika uglavnom korišćeni u pornografiji i na polju satiričnih tema da bi se prikazale poznate ličnosti kako rade nešto što nikad ne bi radili u realnom životu. Ipak, sasvim je sigurno da će se video zapisi duboke prevare pojaviti tokom izborne kampanje da bi navodno prikazali kandidate koji govore nešto što nikad ne bi rekli ili odlaze nekud kuda pravi kandidati nikad ne bi otišli. Pošto su te tehnike sasvim nove, obični ljudi ne mogu da uoče razliku između pravih i lažnih video zapisa. Međutim, uz saradnju mojih kolega Ming-Čing Čanga i našeg doktoranta Jucun Lija uspeli smo da pronađemo metod pomoću kog možemo pouzdano da napravimo razliku između pravih i lažnih video sadržaja. Nažalost, to neće biti trajno rešenje jer tehnologija napreduje. Ipak i to će nam biti od pomoći, ali daje nam i nadu da će računari pomoći ljudima da odvoje istinu od laži.

Šta je „duboka prevara“?

Stvaranje duboke prevare izuzetno podseća na prevođenje teksta sa jednog jezika na drugi. Servisi kao što je prevodilac kompanije „Gugl“ koristi mašinsko učenje – računar analizira desetine hiljada tekstova na mnogim različitim jezicima – da bi pronašli uzorke korišćenja reči koje kasnije koriste u prevođenju.

Algoritmi duboke prevare rade na isti način. Koriste tip sistema mašinskog učenja koji se zove duboka neuronska mreža da bi istražili mimiku jedne osobe. Posle toga, povezuju i objedinjuju slike lica neke druge osobe, ali tako da pravi iste pokrete. Kad sve to obave, dobija se video zapis koji prikazuje ciljnu osobu kako radi ili govori nešto što je izvorna osoba uradila ili rekla.
Da bi video sadržaji bili uverljiviji, dubokim neuronskim mrežama je potrebno mnogo izvornih podataka kao što su fotografije osobe koja je izvor ili cilj imitacije. Ako je algoritam obučen na većem broju fotografija, imitacija će biti uspešnija, odnosno lažni video sadržaj izgledaće mnogo realističnije.

Uočavanje treptaja oka

Još postoje greške u tom novom tipu algoritma. Prva je u treptanju kod lažnih lica, ili bolje rečeno, imitatori ne trepću. Zdrav odrastao čovek trepne između svake dve i svakih deset sekundi, a treptaj traje od jedne desetine do četiri desetine sekunde. To bi ste videli dok biste posmatrali pravi video sadržaj u kome je snimljena osoba koja govori, međutim, to se ne dešava na lažnim snimcima.

Kad se algoritam duboke prevare obučava na slikama lica jedne osobe, on se uglavnom oslanja na fotografije koje su dostupne na internetu i koje se mogu koristiti kao podaci za podučavanje. Čak i ne možete pronaći mnogo fotografija osoba koje se često slikaju, a na kojima žmure. Takve fotografije su retke pošto su ljudima oči uglavnom otvorene, ali i fotografi obično ne objavljuju slike na kojima osobe koje slikaju žmure.

Algoritmi duboke prevare neće moći da naprave lica koja normalno trepću ako ne dobiju fotografije na kojima ljudi to rade. Kad izračunamo ukupnu brzinu treptanja i uporedimo je sa normalnim rasponom koji smo spomenuli, uočavamo da likovi u video sadržajima duboke prevare mnogo ređe trepću od pravih ljudi. U istraživanju smo koristili mašinsko učenje da bismo ispitivali zatvaranje i otvaranje oka u video zapisima.
To nas je podstaklo da krenemo u prepoznavanje lažnih video sadržaja. Zbog toga smo razvili metod koji uočava kad osoba trepne. Da budemo precizniji, skenira se svaki kadar video zapisa, otkrivaju se lica koja su u njemu i automatski se lociraju oči. Zatim se koristi još jedna duboka neuronska mreža da utvrdi da li je oko zatvoreno ili otvoreno uz zapažanja o izgledu oka, geometrijskim osobinama i pokretima. Znamo da naš rad iskorišćava grešku u vrsti podataka koja je raspoloživa za obučavanje algoritama duboke prevare. Da bismo izbegli istu grešku, obučavali smo naš sistem na velikom broju slika koje prikazuju i otvorene i zatvorene oči. Izgleda da metod odlično funkcioniše jer smo njegovom primenom uspeli da otkrijemo lažne video sadržaje u 95% slučajeva.

Naravno, ovde se otkrivanje dubokih prevara ne završava. Tehnologija se izuzetno brzo razvija, a nadmetanje između stvaranja i otkrivanja lažnih video zapisa ista je kao šahovska partija. U stvari, treptanje se može dodati lažnim video sadržajima pomoću ubacivanja slika lica sa zatvorenim očima ili korišćenjem video sekvenci. Ljudi koji žele da zbune javnost biće sve bolji u stvaranju lažnih video sadržaja, a mi i ostali koji pripadaju zajednici savremenih tehnologija moraće da traže metode da ih otkriju.