Neprijatna istina o tome kako generativna veštačka inteligencija koristi vaše podatke

Sistemi veštačke inteligencije se obučavaju na vašim podacima. Šta možete da preduzmete povodom toga?

Kada je u julu Bela kuća otkrila svoju listu obaveza o bezbednosti i zaštiti društva kojih bi dobrovoljno trebalo da se pridržava sedam kompanija koje razvijaju veštačku inteligenciju, odmah je uočeno da nešto nedostaje. Naime, ništa nije bilo navedeno u vezi sa podacima koje ti sistemi veštačke inteligencije prikupljaju i koriste za obuku te moćne tehnologije, uključujući, verovatno i vaše podatke.

Kada su se pojavili izuzetno napredni sistemi generativne veštačke inteligencije, odmah se pojavila i zabrinutost zbog problema i štete koju mogu da izazovu kod javnosti. Naravno, pojavila se i zabrinutost zbog onog što ti sistemi rade sa našim podacima. Znamo vrlo malo o tome odakle ti modeli dobijaju petabajte podataka koji su im potrebni, kako se ti podaci koriste i kakve zaštite, ako ih ima, postoje kada su u pitanju osetljive informacije. Kompanije koje prave te sisteme ne otkrivaju nam mnogo, a možda ni same ne znaju.

Možda vam sve to ne smeta, a možda smatrate da je ono dobro koje nam generativna veštačka inteligencija može doneti daleko veće od onoga lošeg što je ušlo u njenu izgradnju. Ipak, mnogi ljudi su ozbiljno zabrinuti.

Pre dva meseca, na Twitteru se pojavila objava koja je brzo postala viralna, a u kojoj se optužuje kompanija Google jer prikuplja podatke sa Google dokumenata na kojima bi obučavala svoje alate veštačke inteligencije. Autor objave u nastavku tvrdi da je kompanija „koristila dokumente i e-poštu da bi godinama trenirala svoju veštačku inteligenciju“. Početni tvit ima skoro 10 miliona pregleda, a retvitovan je nekoliko hiljada puta. Nema svrhe raspravljati da li je to tačno ili nije. (Kompanija kaže da ne koristi podatke iz svojih besplatnih ili poslovnih Workspace proizvoda, koji obuhvataju Gmail i Dokumente, za obuku svojih modela generativne veštačke inteligencije osim ako nema korisničku dozvolu, mada obučava neke veštački inteligentne funkcije Workspace proizvoda, kao što su provera pravopisa i Smart Compose koristeći anonimne podatke.)

Mnogi pravnici smatraju da tehnološke kompanije nikada nisu radile ono što danas čine sa generativnom veštačkom inteligencijom, a to je da uzimaju bilo čije informacije i unose ih u proizvod koji onda može da doprinese profesionalnoj neadekvatnosti ljudi i u potpunosti naruši njihovu privatnost.

Naravno, kompanija je imala odgovor na takve stavove. U saopštenju je vrlo jasno istakla da koristi podatke iz javnih izvora, dodajući da „američki zakon podržava korišćenje javnih informacija za stvaranje nečeg novog i korisnog i da odbacuje takve neosnovane tvrdnje.

Međutim, precizno utvrđivanje prava koja možemo da imamo nad sopstvenim informacijama još se utvrđuju i razrađuju u tužbama, štrajkovima radnika, istragama regulatora, izvršnim nalozima i možda novim zakonima. Oni bi mogli da zaštite vaše podatke u budućnosti, ali šta možemo da uradimo u vezi sa podacima koje su te kompanije već uzele, koristile i od kojih su stvorile ogromnu zaradu? Verovatno ništa, ili bar ne mnogo.

Kako kompanije dolaze do vaših podataka

Jednostavno rečeno, generativnim sistemima veštačke inteligencije je potrebno što više podataka za obuku. Što više podataka dobijaju, to bolje i približnije mogu da generišu kako ljudi zvuče, izgledaju, govore i pišu. Internet pruža ogromne količine podataka koje je relativno lako progutati pomoću alata i API-ja za automatsko preuzimanje podataka sa veba. Međutim, u tom procesu „proždiranja“ podataka ne pravi se razlika između dela koja su zaštićena autorskim pravima ili ličnih podataka. Ako su podaci tu, treba ih zgrabiti.

Dakle, pošto ne postoje smisleni propisi o privatnosti, ljudi mogu bez bilo kakvih ograničenja da prikupljaju podatke sa svih strana interneta i uzimaju sve što je „javno dostupno“, sa tog, recimo, gornjeg sloja interneta, i jednostavno ih koriste u svojim proizvodima.

To znači da, bez vašeg znanja i, očigledno, bez znanja nekoliko kompanija sa čijih se veb-stranica grabe podaci, neka startup kompanija možda uzima i koristi vaše podatke za pokretanje tehnologije za koju niste ni slutili da je moguća. Ti podaci su možda objavljeni na internetu mnogo godina godina pre nego što su te kompanije postojale, a možda te podatke uopšte niste vi objavili. Možda ste mislili da kompaniji dajete podatke da bi ih iskoristila za nešto sa čim ste se složili, ali sada strahujete da su korišćeni za nešto drugo. Politike privatnosti mnogih kompanija, koje se stalno ažuriraju i menjaju, mogu da im dozvole to drugo. Često se navodi kako se vaši podaci mogu koristiti za poboljšanje postojećih proizvoda ili razvoj novih. Moguće je da to uključuje sisteme generativne veštačke inteligencije.

Svesni smo, nažalost, i toga da su kompanije koje se bave razvojem modela generativne veštačke inteligencije vrlo šture i tajnovite kada treba da otkriju izvore svojih podataka i odmah navode da su ti podaci „javno dostupni“. Čak i detaljnija lista izvora podataka kompanije Meta koje je koristila za obučavanje prvog LLaMA modela navodi nešto što se naziva Common Crawl, a što predstavlja arhivu celog interneta otvorenog koda, kao i stranice, kao što su Github, Wikipedia i Stack Exchange, koje su, takođe, ogromna spremišta informacija. (Meta nije bila toliko otvorena u vezi sa podacima korišćenim za najnoviji model Llama 2.) Svi navedeni izvori mogu da sadrže lične podatke. OpenAI priznaje da koristi lične podatke za obuku svojih modela, ali kaže da naiđe na te podatke „slučajno“ i da ih koristi samo da učini „modele boljim“, što je mnogo bolje od onog što čine kompanije koje prikupljaju podatke korisnika da bi im prikazivali ciljane oglase.

Google i Meta poseduju ogromne količine ličnih korisničkih podataka za koje kažu da ih ne koriste za obuku jezičkih modela, ali niko nam ne garantuje da to neće uraditi u budućnosti, posebno ako bi morali da preteknu konkurenciju. Znamo da je kompanija Google godinama skenirala e-poštu korisnika kako bi im slala ciljane oglase (kompanija kaže da to više ne radi). Meta je bila upletene u veliki skandal i platila je kaznu od 5 milijardi dolara kada je delila podatke sa trećim stranama, uključujući i kompaniju Cambridge Analytica, koja ih je potom zloupotrebila. Činjenica je da su te kompanije dale korisnicima mnogo razloga da strahuju za privatnost podataka.

Autorska prava, zakoni o privatnosti i „javno dostupni“ podaci

Za stvaraoce, pisce, muzičare i glumce, na primer, autorska prava i prava na slike su glavni problem i prilično je očigledno zbog čega. Modeli generativni veštačke inteligencije su obučeni na delima koja su oni stvorili i mogli bi da ih ostave bez posla u budućnosti.

Zbog toga komičarka Sara Silverman tuži OpenAI i Metu u okviru grupne tužbe. Ona navodi da su dve kompanije obučavale modele na njenom radu koristeći skupove podataka koji su sadržali tekst iz njene knjige The Bedwetter. Tu su i tužbe oko prava na slike i korišćenja otvorenog računarskog koda.

Pisci i glumci štrajkuju između ostalog i zbog toga što se generativna veštačka inteligencija sve više koristi, jer strahuju da će studiji obučavati modele veštačke inteligencije na rečima i slikama umetnika i jednostavno generisati novi sadržaj, a da će originalni stvaraoci ostati bez određene nadoknade.

Prosečna osoba možda nema intelektualnu svojinu koju treba zaštititi, ili bar njen život možda ne zavisi od toga. Dakle, takav korisnik bi trebalo više da brine o tome kako kompanije, kao što je OpenAI, štite njegovu privatnost kada njihovi sistemi pokupe, remiksuju i izbace te podatke.

Time se bave i regulatori, zakonodavci i advokati. Italija, koja ima jače zakone o privatnosti od Sjedinjenih Država, čak je privremeno zabranila ChatGPT zbog problema zaštite privatnosti. Druge evropske zemlje pokušavaju da sprovedu sopstvenu istragu o ChatGPT-u. Federalna trgovinska komisija takođe pažljivo prati postupke kompanije OpenAI, istražujući je zbog mogućih nepoštovanja zakona o zaštiti potrošača. Agencija je takođe jasno stavila do znanja da će pažljivo pratiti alate generativne veštačke inteligencije.

Ipak, Agencija može da sprovodi samo ono što joj dozvoljavaju zakoni. Predsednik Bajden je ohrabrio Kongres da usvoji zakone koji se odnose na veštačku inteligenciju, a mnogi članovi Kongresa su rekli da spremni da nešto preduzmu. Međutim, poznato je da Kongres sve radi polako i malo je učinio da reguliše ili zaštiti potrošače od platformi društvenih mreža. Zakonodavci bi mogli iz toga da izvuku pouku i deluju brže kada je u pitanju veštačka inteligencija, ili će možda ponoviti svoju grešku. Činjenica da postoji interesovanje da se nešto uradi relativno brzo nakon što je generativna veštačka inteligencija predstavljena široj javnosti, obećava.

Kongres će malo toga moći da preduzme po pitanju privatnosti podataka, jer Sjedinjene Države nemaju savezni zakon o privatnosti potrošača na mreži. Deca mlađa od 13 godina imaju određenu zaštitu privatnosti, kao i stanovnici država koje su donele sopstvene zakone o privatnosti. Neke vrste podataka su takođe zaštićene. Zbog toga mnogi odrasli širom zemlje imaju vrlo malo prava na privatnost podataka.

Verovatno će se na sudovima otkriti koliko se generativna veštačka inteligencija uklapa u zakone koji već postoje, a tu glavnu ulogu igraju advokati. U tom slučaju, korisnici bi mogli da zahtevaju da se nešto preduzme. Da se uvede transparentnost, mogućnost odustajanja, kompenzacija, etički postupak prikupljanja podataka…

Advokati kažu da u nekim slučajevima postoji zakon koji se, doduše, ne bavi eksplicitno ljudskim pravima u vezi sa generativnom veštačkom inteligencijom, ali bi sudija mogao da ga primeni. Ovde bi trebalo spomenuti i kalifornijski zakon o privatnosti, koji zahteva od kompanija koje dele ili prodaju podatke ljudi da im daju način da izbrišu svoje informacije.

Trenutno ne postoji način da ti modeli izbrišu naše lične podatke koje su prikupili, tako da je to jasan primer kršenja privatnosti, naveli su advokati.

Na primer, ChatGPT alatke za brisanje podataka dostupne su samo ljudima koji koriste uslugu ChatGPT. Aplikacija poseduje metod da ljudi u „određenim jurisdikcijama“ zabrane da se njihovi podaci trenutno obrađuju na OpenAI modelima, ali takođe ne garantuje da će to učiniti.

Iako je kompanija OpenAI nedavno promenila politiku i prestala da obučava modele na podacima koje dostavljaju njeni klijenti, drugi deo zabrinutosti za privatnost odnosi se na to kako ti modeli koriste podatke koje im date kada ih koristite i informacije koje puštaju na internet. Kompanija je inače tužena za klevetu, jer je ChatGPT u odgovoru lažno tvrdio da je neko proneverio i ukrao novac od neprofitne organizacije, što nije prvi put da je ChatGPT nekoga lažno optužio.

Dakle, šta trenutno možete da preduzmete u vezi sa bilo čim od svega što smo naveli? Skoro ništa, i to je problem. Mnogi sadašnji problemi privatnosti rezultat su neuspeha u donošenju stvarnih, smislenih zakona o privatnosti u prošlosti koji su mogli da zaštite vaše podatke pre nego što su ti skupovi podataka i tehnologije uopšte postojali. Uvek možete da pokušate da delite što je moguće manje podataka, ali ne možete mnogo da uradite u vezi sa onim što je već sakupljeno i iskorišćeno. Za to bi vam bio potreban vremeplov, kojeg čak ni generativna veštačka inteligencija još nije uspela da izmisli.