Istraživači će verovatno morati iskoriste svu svoju raspoloživu kreativnost da bi proširili podatke kojima će obučavati jezičke programe veštačke inteligencije.
Veliki jezički modeli trenutno predstavljaju jednu od najzanimljivijih i najpopularnijih oblasti istraživanja veštačke inteligencije, a kompanije se nadmeću koja će pre objaviti programe, kao što je GPT-3, koji mogu da napišu neverovatno smislene i koherentne članke, pa čak i kompjuterski kôd. Ipak, u bliskoj budućnosti se nazire problem, navodi jedna grupa stručnjaka koja se bavi prognoziranjem razvoja veštačke inteligencije. Naime, kako oni kažu, doći će do nestašice podataka na kojima bi trebalo da se obučava veštačka inteligencija za stvaranje jezičkih modela.
Jezički modeli se obučavaju na tekstovima iz različitih izvora, kao što su Wikipedia, novinski članci, naučni radovi i knjige. Poslednjih godina, vidimo da se ti modeli obučavaju na sve više podataka, jer stručnjaci smatraju da će oni zbog toga biti precizniji i svestraniji.
Međutim, problem je u tome što će se tipovi podataka koji se uobičajeno koriste za obuku jezičkih modela u potpunosti potrošiti u bliskoj budućnosti, odnosno već 2026. godine, kako se navodi u dokumentu istraživača iz organizacije Epoch, koja se bavi istraživanjem i predviđanjem razvoja veštačke inteligencije. Dokument, svakako, treba da prođe proveru nezavisnih stručnjaka. Problem proizilazi iz činjenice da istraživači moraju da pronađu sve više tekstova na kojima će obučavati jezičke modele, pošto grade moćnije modele koji imaju sve veće sposobnosti. Stručnjaci koji grade velike jezičke modele prilično su zabrinuti da će im ponestati takvih podataka, kaže jedan istraživač iz spomenute organizacije koji je istovremeno bio uključen u rad na razvoju veštačke inteligencije.
Problem delimično proizilazi iz činjenice da istraživači jezičke veštačke inteligencije filtriraju podatke koje koriste za obuku modela u dve kategorije. U jednoj su podaci visokog kvaliteta, a u drugoj oni niskog kvaliteta. Granica između te dve kategorije možda je donekle neodređena, kaže Pablo Viljalobos, istraživač u organizaciji Epoch i glavni autor dokumenta. U prvoj kategoriji se nalaze kvalitetnije napisani tekstovi koje su kreirali profesionalni pisci.
Podaci iz kategorije niskog kvaliteta pronalazimo u tekstovima, kao što su objave na društvenim mrežama ili komentari na veb-stranicama, kao što je 4chan, i znatno brojčano nadmašuju podatke koji se smatraju visokokvalitetnim. Istraživači obično samo obučavaju modele koristeći podatke koji spadaju u kategoriju visokog kvaliteta, jer je to tip jezičkog izražavanja kojeg žele da modeli reprodukuju. Takav pristup je doveo do impresivnih rezultata u velikim jezičkim modelima, kao što je GPT-3.
Takva ograničenost podataka mogla bi, između ostalog, da se prevaziđe ako bi se izvršila ponovna procena podataka koji su određeni kao niskog, odnosno, visokog kvaliteta, kaže profesor mašinskog učenja na Univerzitetu Južne Kalifornije čija je specijalnost oblast kvaliteta skupova podataka. Ako nedostatak podataka natera istraživače veštačke inteligencije da uključe raznovrsnije skupove podataka u proces obuke, to bi bilo izuzetno korisno za jezičke modele.
Istraživači takođe mogu da pronađu načine da produže vek trajanja podataka koji se koriste za obuku jezičkih modela. Trenutno se veliki jezički modeli obučavaju na istim podacima samo jednom zbog ograničenja performansi i smanjenja troškova. Ipak, možda je moguće da se model obučava nekoliko puta pomoću istih podataka.
Neki istraživači veruju da, kada su u pitanju jezički modeli, ne mora da znači da veliki jezički model mora uvek da bude bolji. Profesor informatike Persi Liang na Univerzitetu Stanford kaže da postoje dokazi da treba praviti efikasnije modele što bi poboljšalo njihovu sposobnost i da se pri tome ne treba samo baviti povećavanjem njihove veličine.
„Videli smo kako manji modeli koji su obučeni na podacima višeg kvaliteta mogu da nadmaše veće modele obučene na podacima nižeg kvaliteta“, objašnjava on.