Stručnjaci upozoravaju na „kolaps modela“, jer se veštačka inteligencija obučava na sadržaju kojeg je generisala veštačka inteligencija.
Nalazimo se u dobu generativne veštačke inteligencije. Samo šest meseci nakon što se pojavio ChatGPT kompanije OpenAI, čak polovina zaposlenih u nekim vodećim svetskim kompanijama već koristi tu vrstu tehnologije u svom poslovanju, a mnoge druge kompanije žurno nude nove proizvode u kojima je ugrađena generativna veštačka inteligencija.
Međutim, kao što je poznato svima koji prate razvoj visoke tehnologije i njena osnovna istraživanja, podaci koji se koriste za obuku velikih jezičkih modela (large language models – LLM) i drugih transformacionih modela koji se nalaze u osnovi proizvoda, kao što su ChatGPT, Stable Diffusion i Midjourney, u početku potiču iz ljudskih izvora – knjiga, članaka, fotografija i mnogih drugih – koji su nastali bez pomoći veštačke inteligencije.
Sada, kako sve više ljudi koristi veštačku inteligenciju u oblasti proizvodnje i objavljivanja sadržaja, postavlja se očigledno pitanje: šta se dešava kada se sadržaj koji je generisala veštačka inteligencija širi internetom, a modeli veštačke inteligencije počnu da se obučavaju na njemu, umesto na sadržaju kojeg su prvenstveno generisali ljudi?
Grupa stručnjaka iz Velike Britanije i Kanade istražila je upravo taj problem i nedavno o tome objavila rad u časopisu arXiv. Ono što su otkrili je zabrinjavajuće za trenutnu tehnologiju generativne veštačke inteligencije i njenu budućnost: „Smatramo da upotreba sadržaja kojeg je generisao modelu u obuci izaziva nepopravljive greške u rezultirajućim modelima.“
Punjenje interneta glupostima
Ako pogledamo samo distribucije verovatnoće za generativne modele veštačke inteligencije, u slučaju tekstova i slika, zaključuje se da „učenje iz podataka koje su stvorili drugi modeli dovodi do „kolapsa modela“, odnosno, degenerativnog procesa u kome, vremenom, modeli zaboravljaju pravu distribuciju podataka koja leži u osnovi. Taj proces je neizbežan, čak i u slučajevima u kojima postoje skoro idealni uslovi za dugoročno učenje.”
„Vremenom se greške u generisanim podacima nagomilavaju i na kraju primoravaju modele koji uče iz generisanih podataka da još više pogrešno percipiraju stvarnost“, napisao je jedan od autora izveštaja. „Bili smo iznenađeni kada smo primetili kako brzo dolazi do kolapsa modela, jer mogu brzo da zaborave većinu originalnih podataka iz kojih su u početku učili.“
Drugim rečima, kako model veštačke inteligencije tokom obuke prima sve više podataka koje je generisala veštačka inteligencija, tokom vremena njegov učinak je sve lošiji. U odgovorima i sadržaju koji generiše ima sve više grešaka i tako se sužava ne-pogrešna raznolikost u njegovim odgovorima.
Još jedan od autora je napisao: „Kao što smo okeane napunili plastičnim smećem i ispunili atmosferu ugljen-dioksidom, sada ćemo da natrpamo internet glupostima. To će otežati obučavanje novijih modela, jer će morati da se pozabave prošićavanjem veba, pri čemu će prednost imati firme koje su to već uradile ili koje kontrolišu pristup ljudskim interfejsima u velikom obimu. Zaista, već vidimo kako starup kompanije koje se bave veštačkom inteligencijom kopaju po internet arhivi da bi došli do podataka za obuku.“
Ted Čang, poznati autor naučne fantastike, kaže da će kopije kopija veštačke inteligencije dovesti do degradacije kvaliteta i to uporedio sa slikom u JPEG formatu čiji se kvalitet gubi pri svakom uvećanju slike.
Ovde bismo mogli da spomenemo i naučnofantastičnu komediju Četvorica kao jedan (engl. Multiplicity) iz 1996. godine, sa Majklom Kitonom u glavnoj ulozi, gde skromni čovek klonira samog sebe, a zatim klonira klonove, kod kojih dolazi do eksponencijalnog smanjenja nivoa inteligencije i povećanja gluposti.
Kako dolazi do „kolapsa modela“
U suštini, kolaps modela se dešava kada podaci koje generišu modeli veštačke inteligencije na kraju kontaminiraju skup podataka za obuku narednih modela.
„Originalni podaci koje su generisali ljudi pravednije predstavljaju svet, odnosno sadrže i nemoguće podatke“, objašnjavaju stručnjaci. „S druge strane, generativni modeli imaju tendenciju da se preopterećuju popularnim podacima i često pogrešno razumeju i pogrešno predstavljaju manje popularne podatke.“
Da bi ilustrovali taj problem, stručnjaci su opisali hipotetičku situaciju. Model mašinskog učenja se obučava na skupu podataka koji se sastoji od 100 slika mačaka – 10 ima plavo krzno, a 90 žuto. Model saznaje da su žute mačke rasprostranjenije, ali predstavlja plave mačke kao žućkastije nego što zaista jesu i ponekad vraća zelene mačke kao rezultat kada se od njega traži da proizvede nove podatke. Tokom vremena, gubi se osobina plavog krzna kroz uzastopne cikluse obuke, tako što se plava pretvara u zelenkastu, i na kraju žutu. To progresivno izobličenje i eventualni gubitak karakteristika podataka koji su u manjini je kolaps modela. Da bi se to sprečilo, važno je da se obezbedi pravična zastupljenost manjinskih grupa u skupovima podataka, u smislu količine i tačnog prikaza karakterističnih osobina. Zadatak je izazovan, jer modeli teško uče iz događaja koji se retko pojavljuju.
To „zagađenje“ podacima koje je generisala veštačka inteligencija dovodi do toga da modeli dobijaju iskrivljenu percepciju stvarnosti. Čak i kada su istraživači uspeli da obuče modele da ne proizvode odgovore koji se suviše često ponavljaju, otkrili su da se kolaps modela i dalje dešava, jer bi modeli počeli da prave pogrešne odgovore kako bi izbegli suviše često ponavljanje.
„Postoje mnogi drugi aspekti koji će dovesti do ozbiljnijih posledica, kao što je diskriminacija na osnovu pola, etničke pripadnosti ili drugih osetljivih karakteristika“, rekli su naučnici, posebno ako generativna veštačka inteligencija tokom vremena nauči da u svojim odgovorima spominje samo jednu rasu i zaboravi da postoje i druge.
Važno je napomenuti da se ovaj fenomen razlikuje od „katastrofalnog zaboravljanja“, gde modeli gube prethodno naučene informacije. S druge strane, kolaps modela obuhvata modele koji pogrešno tumače stvarnost na osnovu svojih potkrepljenih uverenja.
Istraživači koji stoje iza spomenutog dokumenta otkrili su da čak i ako se 10% originalnih podataka koje su ljudi stvorili koristi za obuku modela u narednim generacijama, „kolaps modela je neizbežan, ali neće se desiti tako brzo“.
Kako izbeći kolaps modela
Srećom, postoje načini da se izbegne kolaps modela, čak i sa postojećim transformatorima i velikim jezičkim modelima.
Naučnici ističu dva specifična načina. Prvi je očuvanje prestižne kopije originalnog skupa podataka kojeg je isključivo ili nominalno stvorio čovek i izbegavanje kontaminacije podacima koje je generisala veštačka inteligencija. Zatim bi model mogao periodično ponovo da se obučava na tim podacima, ili u potpunosti osveži na njima, počevši od nule.
Drugi način da se izbegne degradacija kvaliteta odgovora i da se smanje neželjene greške ili ponavljanja je da se u obuku ponovo uvedu novi, čisti, skupovi ljudski generisanih podataka.
Međutim, kako ističu naučnici, to bi zahtevalo neku vrstu mehanizma masovnog označavanja podataka. Dakle, oni koji proizvode sadržaj ili kompanije koje se bave veštačkom inteligencijom trebalo bi da naprave razliku između sadržaja kojeg je generisala veštačka inteligencija i onog kojeg je generisao čovek. Trenutno ne postoje tako pouzdane ili obimne aktivnosti na mreži.
Da bi se zaustavio kolaps modela, trebalo bi da se pobrinemo da manjinske grupe iz originalnih podataka budu pošteno predstavljene u narednim skupovima podataka, istakli su stručnjaci.
U praksi je to izuzetno važno. Pažljivo treba napraviti rezervnu kopiju podataka i pokriti sve moguće marginalne slučajeve. U proceni performansi modela, treba koristiti podatke na kojima se očekuje da će model raditi, čak i u slučajevima najneverovatnijih podataka. Imajte na umu da to ne znači da neverovatne podatke treba preterano nagomilavati, već da ih treba na odgovarajući način predstaviti. Kako vas napredak primorava da ponovo obučavate modele, obavezno treba da se uključe stari i novi podaci. To, svakako, povećava troškove obuke, ali pomaže nam da sprečimo kolaps modela, bar u određenom stepenu.
Šta kompanije i korisnici mogu da preduzmu
Iako je sve što smo do sada naveli prilično zabrinjavajuće za trenutni razvoj tehnologije generativne veštačke inteligencije i za kompanije koje žele da ostvare prihod od nje, posebno u srednjoročnom i dugoročnom periodu, ljudi koji kreiraju sadržaj ne moraju da brinu. Naučnici kažu da će u budućnosti ispunjenoj alatima generativne veštačke inteligencije i njihovim sadržajem, sadržaj kojeg je kreirao čovek biće još vredniji nego danas, ako ni zbog čega drugog, onda zbog toga što će taj sadržaj biti izvor čistih podataka za obuku veštačke inteligencije.
Rezultati do koji se došlo veoma su značajni za oblast veštačke inteligencije, jer ističu potrebu da se poboljšaju metodologije za održavanje integriteta generativnih modela tokom vremena. Oni naglašavaju opasnosti koje se mogu pojaviti zbog nekontrolisanih generativnih procesa i mogu da pokažu put budućim istraživanjima za razvoj procedura za sprečavanje kolapsa modela ili za upravljanje njim.