ChatGPT ugrožava privatnost korisnika - Рачунарски факултет

Nedavna zabrana alata za generisanje teksta kompanije Open AI u Italiji mogla bi da pokrene čitav niz regulatornih problema za ChatGPT.

Kada je kompanija OpenAI predstavila GPT-3 u julu 2020.godine, donekle je omogućila i uvid u podatke koji se koriste za obuku velikih jezičkih modela. Kako se navodi u tehničkoj dokumentaciji, preuzeti su milioni stranica sa veba, objava sa Reddit-a, milioni knjiga i još mnogo toga da bi se kreirao sistem za generisanje teksta. U tim prikupljenim podacima nalaze se i neki od ličnih podataka koje delite o sebi na mreži. Zbog tih podataka kompanija OpenAI je sada u nevolji.

Italijanska agencija za zaštitu podataka je 31. marta donela privremenu odluku koja treba da se sprovede po hitnom postupku, a u kojoj zahteva da OpenAI obustavi korišćenje ličnih podataka miliona Italijana koji su obuhvaćeni podacima koje kompanija koristi za obuku ovog sistema. Prema spomenutoj agenciji, OpenAI nema zakonsko pravo da koristi lične podatke ljudi u obuci ChatGPT-ja. Kompanija je odmah na to reagovala i onemogućila Italijanima da pristupe chatbotu dok ona sama pokušava da se sporazume sa zvaničnicima, koji nastavljaju da istražuju problem.

Agencija za zaštitu podataka je preduzela mere protiv ChatGPT-a, jer se pojavila izražena zabrinutost zbog narušavanja privatnosti pri stvaranju ogromnih modela generativne veštačke inteligencije, koji se često obučavaju na neverovatno velikim količinama podataka sa interneta. Baš kao što su se umetnici i medijske kompanije žalili da su programeri, koji su stvarali modele generativne veštačke inteligencije, u svom radu koristili podatke bez dozvole, agencija sada navodi iste pritužbe u vezi sa ličnim podacima ljudi.

Očekuje se da bi države širom Evrope mogle da preduzmu slične mere. Otkako je Italija objavila rezultate svoje istrage, agencije za zaštitu podataka u Francuskoj, Nemačkoj i Irskoj kontaktirale su italijanske vlasti da bi dobile više informacija o rezultatima istrage. Iz norveške državne agencije za zaštitu podataka, koja prati razvoj događaja, kažu da, ako je definicija poslovnog modela da sa interneta sakupe sve što se može sakupiti, onda bi mogli da se suoče sa zaista značajnim problemom. Stručnjaci dodaju da, ako se model gradi na podacima koji su možda nezakonito prikupljeni, postavlja se pitanje da li neko može legalno da koristi alate.

Mera koju su preduzele italijanske vlasti u skladu je sa stalnim povećanjem nadzora i kontrole velikih modela veštačke inteligencije. Krajem marta, predstavnici velikih tehnoloških kompanija tražili su da se stane sa razvojem sistema, kao što je ChatGPT, strahujući zbog mogućih budućih posledica. Svi su shvatili da bi dosadašnji razvoj veštačke inteligencije potencijalno mogao da ima ogroman nedostatak.

Postupak Italije

Evropska Opšta uredba o zaštiti podataka o ličnosti reguliše način na koji organizacije prikupljaju, čuvaju i koriste lične podatke ljudi i tako štite podatke više od 400 miliona ljudi širom kontinenta. Pod ličnim podacima se podrazumeva mnogo toga, od imena osobe do njene IP adrese, odnosno, ako podaci mogu da se koriste za identifikaciju nekoga, oni se smatraju ličnim podacima. Za razliku od šarenih pravila o privatnosti na državnom nivou u Sjedinjenim Državama, evropska uredba štiti podatke ljudi i kad su oni slobodno dostupni na mreži. Dakle, to znači da iako su nečiji podaci javni, to ne znači da možete da ih sakupite i radite sa njima šta god želite.

Italijanska agencija smatra da ChatGPT ne poštuje četiri pravila u okviru evropske uredbe. Prvo, kompanija OpenAI nije postavila donju starosnu granicu za korisnike da bi sprečila ljude mlađe od 13 godina da koriste sistem za generisanje teksta, zatim može da pruži informacije o ljudima koje nisu tačne i korisnici nisu obavešteni da se njihovi podaci prikupljaju. Možda je četvrti problem i najvažniji. Naime, „nema pravne osnove“ za prikupljanje ličnih podataka ljudi koji se zatim ubacuju u ogromne količine podataka koji se koriste za obuku ChatGPT-a.

Pravnici iz Evropske unije kažu da je kompanija svojim postupkom sasvim očigledno prekršila zakon o zaštiti podataka.

Uopšteno govoreći, prema postavkama uredbe, da bi kompanija prikupljala i koristila podatke ljudi, mora da ima jedno od šest pravnih opravdanja, od toga da neko daje svoju dozvolu do podataka koji su potrebni kao deo uslova ugovora. Stručnjaci kažu da u konkretnom slučaju postoje dve opcije: da kompanija dobije odobrenje korisnika – što ona nije uradila – ili da ima „legitimne interese“ da koristi podatke ljudi, što je „veoma teško“ sprovesti.

Kompanijina politika privatnosti ne spominje direktno pravne razloge za korišćenje ličnih podataka ljudi u podacima za obuku, ali kaže da se oslanja na „legitimne interese“ kada „razvija“ svoje usluge. Za razliku od GPT-3, OpenAI nije objavila nikakve detalje o podacima za obuku koji su ušli u ChatGPT, a smatra se da je GPT-4 nekoliko puta veći.

Međutim, tehnička dokumentacija za GPT-4 obuhvata odeljak o privatnosti, u kome se kaže da podaci za obuku mogu da uključuju „javno dostupne lične podatke“, koji potiču iz brojnih izvora. U dokumentu se navodi da OpenAI preduzima korake da zaštiti privatnost ljudi, uključujući modele za „fino podešavanje“ koji treba da onemoguće da se od ljudi traže lični podaci i da uklone podatke ljudi iz podataka za obuku „gde je to moguće“.

Pravnici tvrde da je izuzetno važno da se reguliše postupak zakonitog prikupljanja podataka koji bi ušli u skupove podataka za obuku koji se koriste skoro svuda, od običnih algoritama do neke zaista napredne veštačke inteligencije. Sad je pravi trenutak, jer se nalazimo u situaciji gde bi tehnologija mogla da nas nadvlada.

Postupak italijanskih vlasti verovatno će biti prvi od mnogih slučajeva koji će ispitivati metode prikupljanja podataka kojima se koristi OpenAI. Uredba omogućava kompanijama sa sedištem u Evropi da imenuju jednu zemlju koja će se baviti svim njenim pritužbama – na primer, Irska se bavi kompanijama Google, Twitter i Meta. Međutim, OpenAI nema bazu u Evropi, što znači da prema uredbi svaka pojedinačna zemlja može da podnese žalbu protiv kompanije.

Podaci koji se koriste u modelu

Kompanija OpenAI nije jedina koja treba da se zabrine. Mnoga pitanja koja je pokrenula italijanska agencija verovatno će doći do srži celokupnog razvoja mašinskog učenja i sistema generativne veštačke inteligencije, kažu stručnjaci. EU razvija propise o veštačkoj inteligenciji, ali do sada je relativno malo preduzeto protiv razvoja sistema mašinskog učenja kada je u pitanju privatnost.

Stručnjaci sa Oksforda smatraju da se u temeljima te tehnologije nalazi, kako kažu, „trulež“. Naime, mnogi skupovi podataka koji se koriste za obuku sistema mašinskog učenja postoje godinama i verovatno se uopšte nije razmatrala privatnosti kada su ih sastavljali.

Postoji slojevitost i složeni lanac snabdevanja da bi ti podaci na kraju došli do, recimo, GPT-4. Međutim, nikada nije postojala nikakva planska niti podrazumevana vrsta zaštite podataka. Kreatori jedne široko korišćene baze slika, koja je deset godina korišćena za obučavanje modela veštačke inteligencije su, 2022. godine, predložili da lica ljudi na slikama budu zamagljena u skupu podataka.

U Evropi i Kaliforniji, pravila o zaštiti privatnosti pružaju ljudima mogućnost da zahtevaju da se podaci isprave ili izbrišu ako su netačni. Međutim, postupak brisanja nečega iz sistema veštačke inteligencije što je netačno ili što neko ne želi da tu bude možda neće biti jednostavno – posebno ako je poreklo podataka nejasno. Stručnjaci se pitaju da li će uredba biti u stanju da uradi bilo šta u vezi sa tim na duži rok, uključujući očuvanje ljudskih prava.

Do sada nam je poznat bar jedan slučaj brisanja podataka, kada je kompaniji, koja je ranije bila poznata kao Weight Watchers, američka Federalna trgovinska komisija naredila da izbriše algoritme kreirane od podataka za čije korišćenje nije dobila dozvolu. Ako bi se pojačala kontrola, takve odluke bi mogle da postanu učestalije. U zavisnosti od tehničke infrastrukture, moglo bi da bude prilično teško da se neki model u potpunosti očistiti od svih ličnih podataka koji su korišćeni za obuku. Ako je model obučen na nezakonito prikupljenim ličnim podacima, to bi značilo da njegovi kreatori možda ne bi smeli da ga koriste.