Danas je skoro nemoguće izbeći diskusije o veštačkoj inteligenciji.
Nedavna studija istraživačkog centra Pew pokazala je da je 90 procenata Amerikanaca čulo bar nešto o veštačkoj inteligenciji, što je zapanjujuće, kada se uzme u obzir da samo oko 70 procenata Amerikanaca verovatno zna ko je trenutni potpredsednik.
Iako raste svest o mogućnostima veštačke inteligencije, sasvim je opravdano tvrditi da ljudi, ako ništa drugo, suviše sporo prepoznaju njen potencijal. U istoj studiji spomenutog centra Pew primećuje se da je samo 18 procenata odraslih u Sjedinjenim Državama isprobalo ChatGPT. Taj podatak je prilično uznemirujući, s obzirom na to koliko će posledice korišćenja veštačke inteligencije biti obimne.
Na primer, kao što je navedeno u nedavno objavljenom rezimeu na stranici Our World in Data, mogućnosti veštački inteligentnih sistema su se značajno poboljšale u poslednjih samo 10 godina, posebno u oblastima čitanja i razumevanja jezika.
Takav napredak mogućnosti sistema veštačke inteligencije odražava se povećanim naučnim interesovanjem za veštačku inteligenciju, pri čemu se broj naučnih publikacija u vezi sa veštačkom inteligencijom više nego udvostručio u prethodnoj deceniji.
Pošto ću tvrditi da ti sistemi nisu ni veštački ni inteligentni, biće mnogo bolje da ih nazovemo drugačijim imenom, odnosno, nazvaću ih velikim jezičkim modelima (engl. large language model – LLM).
Prvenstveno ću se usredsrediti na pitanje da li su ti jezički modeli inteligentni, ali, u stvari, vrlo je čudno da ih nazovemo „veštačkim“. Razmislite o drugim alatima koje koristimo da sebi olakšamo život – recimo mašine za pranje veša, robotske usisivače ili automobile. Naše mašine za pranje veša ne nazivamo „veštačkim“; niti kažemo da vozimo veštačke automobile, a sve zbog toga što takvi alati nisu lažni ili neprirodni, baš naprotiv, oni su istinska pomagala koja nam olakšavaju život.
Kada razmišljamo o izuzetnom napretku velikih jezičkih modela, ne možemo da poreknemo da su takvi sistemi takođe istinska pomagala koja obećavaju da će nam olakšati život na različite načine. Na primer, veliki jezički modeli koji imaju najbolje karakteristike neprestano se unapređuju izuzetnom brzinom i postižu rezultate koji su sve približniji dostignućima ljudskih stručnjaka na testovima opšteg znanja i znanja specifičnih za određenu oblast. Iako takvi sistemi i dalje zaostaju u sposobnosti rešavanja problema u matematici i kodiranju, veliki jezički modeli nastavljaju da napreduju i u tim oblastima.
Dakle, sasvim je pogrešno da takve sisteme nazivamo „veštačkim“, prvenstveno zbog toga što uopšte nisu lažni, već su originalni alati sa potencijalno širokim spektrom aplikacija. S obzirom na to i ako uzmemo u obzir izuzetne standarde koje su ti sistemi već dostigli, moglo bi da izgleda čudno da tvrdimo da, iako se uopšteno nazivaju „veštačkom inteligencijom“, zapravo nisu inteligentni. Dozvolite mi da objasnim zašto mislim da grešimo kada koristimo termin „veštačka inteligencija“ za te sisteme.
Prvo, dozvolite mi da kažem da neću poricati inteligenciju velikih jezičkih modela. Neću se pozivati na činjenicu da „veliki jezički modeli ne mogu da razumeju stvarnost, ne mogu da stupaju u interakciju sa njom niti da je shvate“ (kao što su u nedavnom članku rezimirani stavovi Metinog glavnog istraživača veštačke inteligencije Jana LeCuna). Neću ni tvrditi da nedostatak inteligencije velikih jezičkih modela proizilazi iz činjenice da oni nisu otelotvoreni (kao što je sugerisao filozof i kognitivni naučnik Entoni Čemero). Takođe neću naglašavati činjenicu da veliki jezički modeli nisu u stanju da svesnim iskustvom utvrde da nisu inteligentni (kao što izgleda tvrdi istraživač veštačke inteligencije Majkl Vuldridž, kada s tugom izjavljuje da „veliki jezički modeli nikada ništa nisu iskusili. Oni su samo programi koji su progutali nezamislive količine teksta. Veliki jezički modeli bi mogli da urade odličan posao u opisivanju onoga što oseća pijani čovek, ali samo zbog toga što su pročitali mnogo opisa pijanstva. Oni to sami nisu iskusili, niti to mogu da urade.”)
Najbolji argument koji ide u prilog prethodno navedenom stavu je onaj koji sam video u nedavnoj objavi Arnolda Klinga na onlajn platformi Substack. Kling u svojoj objavi navodi da veliki jezički modeli ne mogu biti inteligentni jer inteligencija „uopšte nije nešto nepromenljivo. Ona je proces koji se stalno kreće. Ona je kao nauka. Ne bi trebalo da razmišljate o nauci kao o skupu apsolutnih istina. Umesto toga, zamislite naučni metod kao način traganja za istinom.”
Kling, oslanjajući se na stavove Džonatana Rauha, naziva inteligenciju procesom kojim tražimo istinu i izbegavamo greške, ili „Ustavom znanja“. On tvrdi da veliki jezički modeli nisu veštački ekvivalent procesa poboljšanja znanja“ jer „ne obavljaju funkcije Ustava znanja, odnosno, ne proveravaju nove ideje, ne testiraju ih, niti čuvaju ono što funkcioniše, niti odbacuju sve ostalo“.
Klingov stav je pomalo nejasan jer ističe prirodu znanja kao proces i usredsređuje se na četiri glavne karakteristike ljudske inteligencije: (1) kolektivna je, (2) nije nepromenljiva, (3) evolutivna je i (4) vode je institucije.
Njegova zapažanja mogu da nas skrenu sa pravog puta, jer veliki jezički modeli ili dele te karakteristike, ili se čini da te karakteristike nisu od centralnog značaja za inteligenciju, ili i jedno i drugo. Naravno, veliki jezički modeli sami po sebi uključuju procese. S obzirom na to da skupovi podataka na kojima se obučavaju veliki jezički modeli obuhvataju celinu teksta na svetskoj mreži, bilo bi teško tvrditi da veliki jezički modeli nisu kolektivni ili da ih ne vode institucije. Ni oni ne tretiraju znanje kao nepromenljivo. Ako ste bilo kada koristili veliki jezički model, onda znate da je spreman da prizna greške i da prihvata ispravke.
Istina je da veliki jezički modeli nisu evolutivni. Pošto koriste unapred definisane algoritme koji se zatim revidiraju kroz obuku u odnosu na skup podataka, oni nisu dobar primer za evolutivne procese. Međutim, iako veliki jezički modeli nisu evolutivni, oni doprinose analognim funkcijama.
Klingova rasprava o inteligenciji kao kolektivnom, promenljivom i evolutivnom procesu kojeg vode institucije, ne uspeva da odredi šta je to zbog čega za velike jezičke modele ne možemo da kažemo da poseduju inteligenciju. Umesto da se usredsredimo na bilo koju od navedenih karakteristika inteligencije, treba da istaknemo cilj inteligencije. U idealnom slučaju, kada isprobavamo nove ideje, testiramo ih, zadržimo ono što funkcioniše i odbacimo ostalo, kako kaže Kling, težimo da dostignemo istinu. Nasuprot tome, kada veliki jezički model isproba nova predviđanja, testira ih, zadrži ono što funkcioniše i odbaci ostalo, njegov cilj je da dovrši neki tekstualni niz i to tako da se najbolje uklopi sa podacima na kojima se obučavao.
Hajde da pokušamo da ukratko objasnimo razliku. Pošto veliki jezički modeli predviđaju koji će tekst najverovatnije slediti iz datog tekstualnog niza, bilo bi pogrešno misliti da veliki jezički modeli traže istinske predstave sveta. Umesto toga, bilo bi bolje da za njih kažemo da traže verodostojne odgovore na pitanja, to jest, odgovore koje bi neko najverovatnije očekivao da dobije.
Ako je to tačno, onda veliki jezički modeli nisu inteligentni, jer imaju pogrešan cilj. Umesto da traže tačan odgovor na dato pitanje, oni nastoje da tačno predvide kako će ljudi odgovoriti na to pitanje.