Kada su zaposleni u kompaniji Meta počeli da razvijaju sada vodeći model veštačke inteligencije Llama 3, suočili su se sa jednostavnim etičkim pitanjem. Program bi morali da obuče na ogromnoj količini visokokvalitetnih pisanih dela da bi mogao da se nadmeće sa proizvodima kao što je ChatGPT, a zakonito preuzimanje takvih dela moglo bi da potraje. Sasvim sigurno bi im bilo lakše i brže kad bi se okrenuli pirateriji.
Zaposleni u Meti razgovarali su sa većim brojem kompanija o licenciranju knjiga i istraživačkih radova, ali nisu bili oduševljeni izborom koji im je ponuđen. „Ovo je nerazumno skupo“, napisao je jedan zaposleni u internom razgovoru, a u vezi sa jednim potencijalnim dogovorom, navodi se u sudskim zapisima. Viši menadžer Llama tima je dodao da bi to takođe bio „neverovatno spor“ proces: „Treba im više od četiri nedelje da dostave podatke.“ U poruci pronađenoj u drugoj pravnoj dokumentaciji, direktor inženjerskog sektora je primetio još jednu lošu stranu tog pristupa: „Problem je u tome što ljudi ne shvataju da ako licenciramo jednu knjigu, nećemo moći da se posvetimo strategiji poštenog korišćenja“, što se odnosi na moguću pravnu zabranu korišćenja knjiga zaštićenih autorskim pravima za obuku veštačke inteligencije.
Nedavno objavljeni sudski dokumenti pokazuju da je viši menadžer smatrao da je „zaista važno da Meta dobije knjige što pre“, jer su „knjige zapravo važnije od podataka sa veba“. Zaposleni u Meti skrenuli su pažnju na Library Genesis, ili LibGen, jednu od najvećih piratskih biblioteka koje kruže na mreži. Trenutno sadrži više od 7,5 miliona knjiga i 81 milion istraživačkih radova. Na kraju, tim u Meti je dobio dozvolu od „MZ-a“, što se očigledno odnosi na generalnog direktora Marka Zakerberga, da preuzme i koristi skup podataka.
Takav postupak, zajedno sa drugim informacijama koje su navedene i citirane, nedavno su postale javno dostupne kada su neke od Metinih internih komunikacija otpečaćene kao deo tužbe za povredu autorskih prava koju su protiv kompanije pokrenuli Sara Silverman, Hunot Diaz i drugi autori knjiga na stranici LibGen. Takođe je nedavno otkriveno, u drugoj tužbi koju je pokrenula druga grupa autora, da je i OpenAI koristila LibGen u obuci.
Do sada, većina ljudi nije imala uvid u sadržaj te biblioteke, iako su verovatno bili izloženi proizvodima generativne veštačke inteligencije koji ga koriste. Prema Zakerbergu, Meta AI pomoćnika su koristile stotine miliona ljudi, jer je ugrađen u Meta proizvode kao što su Facebook, WhatsApp i Instagram. Da bismo pokazali šta su koristile kompanije Meta i OpenAI, pristupili smo snimku metapodataka LibGen stranice i tako otkrili sadržaj biblioteke bez preuzimanja ili distribucije samih knjiga ili istraživačkih radova i koristili smo ga za kreiranje interaktivne baze podataka koju možete da pretražujete.
Imamo ovde i neke važne napomene. Naime, ne možemo precizno da utvrdimo koje delove LibGen stranice su Meta i OpenAI koristile za obuku svojih modela, a koje delove su možda odlučile da isključe. Takođe, baza podataka se stalno povećava. Naš snimak LibGen stranice je napravljen u januaru 2025, više od godinu dana nakon što mu je pristupila Meta, kako se navodi u tužbi, tako da neki naslovi nisu bili dostupni za preuzimanje u tom trenutku.
Metapodaci LibGen stranice su prilično neorganizovani. Greške su na svakom koraku. Iako smo pročistili podatke na različite načine, LibGen je suviše veliki sajt i pun grešaka i nemoguće je sve to doterati. Bez obzira na to, baza podataka prikazuje neverovatan obim piratski preuzetog materijala koji je dostupan za obuku modela veštačke inteligencije.
I Meta i OpenAI su na sudu tvrdile da „nema ničeg nepoštenog“ u tome što su obučavale svoje modele generativne veštačke inteligencije na radovima zaštićenim autorskim pravima bez prethodno dobijene licence, jer veliki jezički modeli „transformišu“ originalni materijal u novo delo. Odbrana postavlja mučna pitanja i verovatno je daleko od rešenja. Ipak, upotreba LibGen stranice otvara još jedno pitanje. Masovno preuzimanje se često obavlja pomoću BitTorrent protokola za deljenje datoteka popularnog među piratima zbog njegove anonimnosti, a preuzimanje pomoću tog protokola obično obuhvata istovremeno otpremanje drugim korisnicima. Interna komunikacija pokazuje da zaposleni kažu da je Meta zaista koristila torent u slučaju LibGen stranice, što znači da je mogla ne samo da pristupi piratskom materijalu, već i da ga distribuira drugima, što je potpuno nezakonito prema Zakonu o autorskim pravima, bez obzira na to šta sudovi utvrde o korišćenju materijala zaštićenog autorskim pravima za obuku generativne veštačke inteligencije. Meta je tvrdila da je „preduzela mere predostrožnosti da ne bi „rasejala“ nijednu preuzetu datoteku“ i da „nema činjenica koje bi pokazale“ da je distribuirala knjige drugima. Kako je to radila kompanija OpenAI još nije poznato.
Zaposleni u Meti su u internim komunikacijama priznali da obuka modela Llama na LibGen podacima predstavlja „srednje visok pravni rizik“ i razgovarali su o raznim „ublažavanjima“ da bi prikrili svoju aktivnost. Jedan zaposleni je preporučio programerima da „uklone podatke koji su jasno označeni kao piratski, odnosno, ukradeni“ i „da javno ne navode korišćenje podataka za obuku, uključujući LibGen“. Drugi je raspravljao o uklanjanju bilo kog reda koji sadrži ISBN, Autorska prava, ©, Sva prava zadržana. Viši menadžer Llama tima predložio je fino podešavanje Llama modela kako bi mogao da „odbije da odgovori na zahteve kao što je: „Prikaži prve tri stranice knjige Hari Poter i kamen mudrosti.“ Jedan zaposleni je primetio da „korišćenje torenta na korporativnom laptopu nije u redu“.
Nije teško uočiti zbog čega se LibGen dopada kompanijama koje se bave generativnom veštačkom inteligencijom i čiji proizvodi zahtevaju ogromne količine teksta. LibGen je ogroman sajt, mnogo puta veći od Books3, još jedne zbirke piratskih knjiga čiji smo sadržaj otkrili 2023. Ostali radovi u LibGenu obuhvataju noviju literaturu i dokumentarnu literaturu istaknutih autora, kao i članke iz vrhunskih časopisa Nature, The Science i Lancet. Obuhvata i nekoliko miliona članaka vrhunskih izdavača akademskih časopisa kao što su Elsevier i Sage Publications.
Nekoliko naučnika iz Rusije su pokrenuli LibGen 2008. godine. Kako je napisao jedan administrator LibGena, kolekcija postoji da bi služila ljudima u „Africi, Indiji, Pakistanu, Iranu, Iraku, Kini, Rusiji i nekadašnjim ruskim republikama, a posebno ljudima koji ne pripadaju akademskoj zajednici.“ Tokom godina, kolekcija je rasla, jer su saradnici gomilali sve više dela koja su piratskih preuzimana. U početku je većina radova na stranici bila na ruskom, ali su dela na engleskom brzo postala dominantna u kolekciji. LibGen stranica je brzo rasla i izbegla je da je vlasti ugase delimično zahvaljujući svom metodu širenja. Dok su neke druge biblioteke smeštene na jednoj lokaciji i zahtevaju lozinku za pristup, različiti ljudi dele LibGen u različitim verzijama preko peer-to-peer mreža.
Mnogi članovi akademske zajednice su tvrdili da su sami izdavači navukli tu vrstu piraterije na sebe, jer su pristup istraživanju učinili nepotrebno teškim i skupim. Stranicu Sci-Hub, sličnu LibGenu, pokrenula je, 2011. godine, kazahstanska studentkinja Aleksandra Elbakjan, čiji univerzitet nije omogućio pristup velikim akademskim bazama podataka. Iste godine, haktivista Aron Švarz je uhapšen nakon što je uzeo milione članaka sa JSTOR sajta u pokušaju da napravi sličnu vrstu biblioteke.
Izdavači su pokušali da zaustave širenje piratskog materijala. Izdavač akademske literature Elsevier je, 2015. godine, podneo žalbu protiv LibGena, Sci-Huba, drugih stranica i Elbakjanove lično. Sud je izdao zabranu, naredio da se sajtovi zatvore i naložio Sci-Hubu da plati izdavaču 15 miliona dolara odštete. Ipak, sajtovi su ostali aktivni, a kazne nisu plaćene. Nešto slično se dogodilo 2023. godine, kada je grupa izdavača udžbenika i stručne literature, uključujući Macmillan Learning i McGraw Hill, tužila LibGen. Tada je sud naložio LibGenu da plati 30 miliona dolara odštete, što je bila jedna od najobuhvatnijih zabrana protiv piraterije koju je izrekao američki sud. Ipak, ni ta kazna nije plaćena, a vlasti do sada uglavnom nisu bile u stanju da ograniče širenje tih biblioteka na mreži. Sedamnaest godina nakon stvaranja, LibGen nastavlja da raste.
Sasvim je sigurno da takve biblioteke čine znanje i literaturu pristupačnijim, ali se u potpunosti i pre svega oslanjaju na ljude koji stvaraju to znanje i literaturu, a njihov rad zahteva vreme, stručnost, a često i novac. Strašno je to što su četbotovi opremljeni generativnom veštačkom inteligencijom predstavljeni kao proroci koji su „učili“ iz podataka korišćenih u obuci i često ne citiraju izvore ili citiraju izmišljene izvore. Takav postupak izvlači znanje iz konteksta, sprečava ljude da sarađuju i otežava piscima i istraživačima da izgrade reputaciju i da se uključe u zdravu intelektualnu debatu. Kompanije koje razvijaju generativnu veštačku inteligenciju tvrde da će njihovi četbotovi sami postići naučni napredak, ali te tvrdnje su čisto hipotetičke.
Jedno od najvećih pitanja digitalnog doba je kako treba da upravljamo protokom znanja i kreativnog rada da bi društvo od toga imalo najveću korist. LibGen i druge piratske biblioteke čine informacije pristupačnijim i omogućavaju ljudima da besplatno čitaju originalne radove. Međutim, kompanije koje razvijaju generativnu veštačku inteligenciju, kao što je Meta, otišle su korak dalje. Naime, njihov cilj je da ubace takve radove u profitabilne tehnološke proizvode koji se takmiče sa originalima. Da li će to biti bolje za društvo od ljudskog dijaloga kojeg već počinju da zamenjuju?