Kompanije treba da prestanu da koriste naše lične podatke za obuku veštačke inteligencije

Često imam utisak da sam proizvod, čak i kada sam kupac.

Kompanije Reddit, Slack, Google, Facebook i Instagram koriste naše podatke, direktno ili indirektno, da bi obučile narednu generaciju veštački inteligentnih jezičkih modela. Ipak, iako pokušavam, nikako ne mogu da se setim da je neko od mene tražio dozvolu da to uradi. Tako su te kompanije potvrdile da je glavna postavka njihovog poslovnog modela da su podaci kupaca njihov glavni proizvod.

Kompanije su velikom delu internet generacije ponudile proizvode besplatno ili za neznatnu nadoknadu da bi privukle kupce u svoje ekosisteme. Čini nam se da su proizvodi kao što su Gmail, YouTube, Facebook, Reddit i drugi besplatni, međutim oni prikupljaju korisničke podatke koji mogu da se koriste za prikazivanje oglasa ili čak prodaju nekoliko povezanih proizvoda.

Iako su takvi poslovni modeli nekada bili prihvatljivi, brzi napredak veštačke inteligencije prouzrokovao je mnogo ozbiljnije probleme kojima bi trebalo odmah da se pozabavimo, jer će verovatno imati značajne posledice na budućnost naše privatnosti.

Šta su veštačka inteligencija i veliki jezički modeli?

Trenutna generacija veštačke inteligencije zasnovana je na velikim jezičkim modelima, koji prepoznaju, razumeju i generišu ljudski jezik. Pošto su napravljeni korišćenjem mašinskog učenja, obučeni su na ogromnim skupovima podataka i mogu da generišu tekst sličan onom kojeg može da kreira čovek, prepoznaju slike, odgovaraju na pitanja ili obrađuju audio i video zapise u realnom vremenu.

Veliki jezički modeli se sastoje od tri ključna dela: parametara, težine i tokena. Parametri formiraju varijable koje model uči tokom procesa obuke. Težine određuju jačinu veza između varijabli. Tokeni čine osnovni ulaz i izlaz, tj. tekst, audio i video zapis na prirodnom jeziku koji unosimo u veliki jezički model i dobijamo kao odgovor.

Pokušaćemo pobliže da objasnimo ceo proces koristeći jednostavan primer iz svakodnevnog života. Recimo gost u restoranu naručuje određeno jelo (ulazni token). Kuvar kombinuje nekoliko sastojaka da bi napravio jelo, koje je na kraju izlazni token. Specifična mešavina sastojaka koji se koriste za spremanje tog jela su parametri, a specifičan recept predstavlja težinu. Svaki kuvar može da napravi isto jelo (pod pretpostavkom da se veoma jednostavno priprema), ali svako će imati drugačiji ukus, koji zavisi od znanja, obuke i iskustva svakog kuvara.

Hajde da se vratimo veštački inteligentnim programima, kao što su Gemini ili ChatGPT-4o, i pretpostavimo da je neko od njih tražio recept za pripremu nekog jela. Veliki jezički model može da samo nauči recept na osnovu skupa podataka kojim raspolaže. Što je više recepata prikupio, odnosno, u zavisnosti od toga koliko puta je kuvar pripremio jelo, može bolje da predvidi kako da napravi ukusno jelo. Dakle, najbolji veliki jezički model će vam ponuditi najbolje preporuke, posebno kada mu date nekoliko sastojaka i zatražite recept.

Suočavamo se sa velikim problemom zbog veštačke inteligencije

Najveći problem sa prethodno navedenim postupkom je ogromna količina podataka koji su potrebni da bi se obučili veliki jezički modeli. Daćemo vam nekoliko primera. Recimo, kompanija OpenAI je koristila milion sati YouTube video-podataka za obuku GPT-4 (što nije njen najnoviji model, već je to GPT-4o). Google DeepMind je koristio približno 10 biliona reči sakupljenih sa veba da obuči model Gemini. Meta je koristila slike, video-zapise i tekstove koje postavljate na platforme da bi obučila svoje modele generativne veštačke inteligencije.

Nažalost, to nije sve. Kompanija Google je platila društvenoj mreži Reddit 60 miliona dolara da bi skinula sve podatke kojima obučava veštačku inteligenciju. Zbog toga se društvena mreža ubrzo pretvorila u jedan od primarnih izvora za razvoj funkcije AI Overview pretraživača. Međutim, na razočaranje kompanije Google, veštačka inteligencija je potučena do nogu u okršaju sa ljudskim korisnicima interneta. Spomenućemo samo prelivanje pice lepkom ili jedenje kamenja.

Taj novac je uzela društvena mreža, a ponuđen joj je verovatno zbog toga što su mnogi od najpopularnijih termina za pretragu često praćeni rečju Reddit, jer korisnici traže odgovor od ljudi. Ipak, niko od miliona korisnika Reddita neće videti ni novičić, što je veoma čudno s obzirom na to da su baš ti korisnici besplatno radili na izgradnji platforme koju Reddit može da unovči i iskoristi. Kompanija Reddit je samo jedna od mnogih koje iskorišćavaju podatke svojih korisnika. Meta ima najveće platforme na svetu: Facebook, Instagram i WhatsApp. Ilon Mask obučava veštačku inteligenciju platforme X na Twitteru, jednom od najvećih izvora informacija u realnom vremenu. Nijedna od tih kompanija ne plaća korisnicima za korišćenje podataka, a mnoge čak podstiču korisnike da se prijave za pretplate, što znači da korisnici plaćaju da daju svoje podatke tih kompanijama. Međutim, čak i kad se pretplatite, ne postoji mogućnost da zabranite bilo kojoj kompaniji da koristi vaše podatke.

Možete da kažete i da sve te platforme koristite besplatno i da nemate pravo da se bunite zbog toga što one koriste vaše podatke. Donekle bih mogao da se složim sa takvim stavom kada se korišćenje platforme ne plaća. Kakav je slučaj kada plaćate korišćenje, a i dalje ste proizvod?

Kada bi trebalo da kažemo, „Dosta je bilo“?

Sve nas to vodi do sledećeg pitanja, a to je kada bi trebalo da kažemo „Dosta je bilo“? Već smo videli kako Google Gemini stvara veštački inteligentnog saigrača. Iako se stvara da bi se navodno smanjila previranja i komunikacije između različitih timova, sasvim je jasno da se razvija kako bi zamenio radnike na poslovima sa punim radnim vremenom. Funkcija AI Overviews kompanije Google takođe urušava ulogu novinara i onih koji proveravaju činjenice, iako je, kao što nagoveštava tužba mnogih izdavača, to počelo odavno sa drugim praksama poslovanja kompanije.

Pojava da kompanije koriste naše podatke da bi stekle korist za sebe, a nama ne daju nikakvu nadoknadu nije nova. Lu Mantuli je napravio digitalni kolačić 1994. godine, a posle godinu dana oglasi koji su ciljali određenu grupu potrošača postali su uobičajeni. Tokom više od dve decenije, privatnost digitalnih korisnika nije bila prioritet, a da Evropska unija nije uvela GDPR 2018. godine, verovatno još uvek ne bismo bili svesni ugrožene nam privatnosti. Pored toga, sada kompanije unovčavaju korisničke podatke tako što prikupljaju sve što ste bilo kada objavili na vebu da bi obučili veštačku inteligenciju.

Veštačka inteligencija će nam neizbežno promeniti digitalni život, ali ne nužno na dobar način. Iako su kompanije, kao što je OpenAI, sklopile ugovore sa velikim izdavačima (koji raspolažu velikim budžetom), kao što je Vox Media, većina ljudi neće imati koristi. Dakle, i dalje će uobičajeni korisnici biti proizvod. Rešenje je sasvim jednostavno. Kompanije treba samo da pronađu način kako da korisnicima nadoknade to što koriste njihove podatke. S obzirom na to da su Google, Meta i druge kompanije zapretile da će prestati da isporučuju sadržaj u određenim državama da bi izbegli plaćanje nadoknade izdavačima, sasvim je sigurno da neće platiti korisnicima za korišćenje podataka. Dakle, ako nećemo dobiti ni novčića od multinacionalnih korporacija koje koriste naše znanje i od toga profitiraju, onda ne bi trebalo ni da koriste naše lične podatke za obuku veštačke inteligencije. Jer ako nastavimo putem kojim se sada krećemo, jedino će one korporacije koje su ukrale naše podatke i sadržaj stvarati besplatan sadržaj i podatke koje ćemo koristiti.