GPT-4.5 je upravo položio Tjuringov test, ali još ga ne možemo nazvati opštom veštačkom inteligencijom. Šta ćemo sad?
Većina ljudi zna da je čuveni Tjuringov test, misaoni eksperiment kojeg je osmislio pionir računarstva Alan Tjuring, popularna mera napretka veštačke inteligencije. Mnogi, međutim, pogrešno pretpostavljaju da je to dokaz da mašine zaista misle.
Najnovije istraživanje o Tjuringovom testu koje su sproveli naučnici u San Dijegu sa Univerziteta Kalifornija pokazuje da najnoviji veliki jezički model GPT-4.5 kompanije OpenAI, može da prevari ljude da pomisle da je model veštačke inteligencije osoba dok sa njim razgovaraju razmenjujući tekstualne poruke, čak uspešnije nego što čovek može da ubedi drugu osobu da je čovek.
To predstavlja izuzetan napredak u sposobnosti opšte ili generativne veštačke inteligencije da proizvede ubedljiv odgovor na upit.
Dokaz postojanja opšte veštačke inteligencije?
Međutim, čak i istraživači priznaju da ako model položi Tjuringov test, to ne mora nužno da znači da je dostignuta opšta veštačka inteligencija ili OVI, odnosno da je nivo računarske obrade ekvivalentan ljudskom razmišljanju.
Stručnjak za veštačku inteligenciju Melani Mičel, profesorka na Institutu Santa Fe u Santa Feu, Novi Meksiko, napisala je u naučnom časopisu Science da je Tjuringov test manje testira same inteligenciju, a više ljudske pretpostavke. Uprkos visokim rezultatima na testu, „sposobnost tečnog izražavanja na prirodnom jeziku ili igranje šaha, nije konačan dokaz postojanja opšte inteligencije“, napisala je Mičel.
Najnovije ubedljivo dostignuće opisali su Kameron Džons i Bendžamin Bergen sa Kalifornijskog univerziteta u San Dijegu u radu objavljenom ove nedelje pod naslovom Large Language Models Pass the Turing Test (Veliki jezički modeli polažu Tjuringov test).
Rad je najnoviji deo eksperimenta koji Džons i Bergen vode godinama uz učešće studenata osnovnih studija sa tog odseka.
Kako autori napominju, decenijama se radi na tom problemu. Do danas je izneto „više od 800 odvojenih tvrdnji i kontra-argumenata“ o tome da li računari mogu da polože i da li polažu test.
Kako funkcioniše Tjuringov test
Tjuring je zamislio test kao seriju razmena tekstualnih poruka između čoveka „sudije“ i dva „svedoka“, od kojih je jedan čovek, a drugi računar.
Oba svedoka imali su zadatak da ubede čoveka sudiju da su ljudi preko poruka koje su slali. Sudija zna da je jedan od njih čovek, a drugi računar, ali ne zna koji je koji, ali to mora da pogodi.
Ta trosmerna komunikacija je od suštinske važnosti. To znači da ako sudija pogrešno proceni da je računar čovek, onda sudija nije uočio ni one znakove koje je trebalo da dobije od čoveka, a koji bi mu pokazali da je u pitanju ljudsko biće.
Drugim rečima, test proverava kako ljudi posmatraju i kakve stavove zauzimaju, ali isto tako proverava i kako funkcioniše računar.
Ažurirana verzija testa koju su napravili Džons i Bergen je objavljena na mreži, tako da možete sami da se zabavite, kao sudija ili svedok.
Kao i u slučaju prethodnih verzija, od studenata Fakulteta u San Dijega je zatraženo da koriste aplikaciju za tekstualno ćaskanje. Neki od studenata su igrali ulogu sudije, a neki svedoka u nasumičnim petominutnim razmenama poruka, dok je GPT-4.5 igrao ulogu svedoka. Svaki sudija je vodio simultane razgovore sa ljudskim i računarskim svedokom kako bi se uklopio u trosmernu komunikaciju Tjuringove formulacije.
Više velikih jezičkih modela je igralo ulogu svedoka, a sudije su slale upite kao izazove. GPT-4.5 je testiran uz pomoć dva različita upita. Jedan upit je imao minimalnu količinu informacija, dok je drugi, nazvan PERSONA, imao mnogo dodatnih detalja, uključujući „dodatna uputstva o tome kakvu ličnost treba da preuzme dok daje odgovore. Recimo, trebalo je da odigra ulogu mlade osobe koja je introvertna, poznaje internet kulturu i koristi žargon.
Rezultati
Testirana su još tri programa veštačke inteligencije: prethodni model GPT-4o kompanije OpenAI, Llama 3.1 405b kompanije Meta Platforms i veoma stari program za ćaskanje iz šezdesetih godina prošlog veka, poznat kao ELIZA. ELIZA je uključen jer je, kao primitivniji program, mogao da posluži kao provera da li su veliki jezički modeli prevarili čoveka jednostavno slučajno ili zbog toga što su zaista bolji programi.
Džons i Bergen navode da je GPT-4.5 imao uspešnost od 73%, što znači da je uspeo da prevari čoveka sudiju u 73% slučajeva kada je sudija pomislio da je model zapravo čovek. Nasuprot tome, verzija GPT-4.5 sa minimalističkim upitom i tri druga AI programa nisu ni blizu tako dobro prošli. Uspešnost se kretala od 21% do 56%, čak i kada su drugi jezički modeli dobili slično bogat PERSONA upit.
Štaviše, GPT-4.5 je postigao znatno bolje rezultate na testu nego GPT-4 prošle godine, kojeg su sproveli Džons i Bergen. Tada je imao stopu uspešnosti od samo 54%, tek nešto iznad slučajnosti.
Džons i Bergen zaključuju da „ispitivači ne samo da nisu uspeli da identifikuju pravog ljudskog svedoka, već su zapravo bili skloniji da poveruju da je model čovek nego što su verovali da su drugi ljudski učesnici ljudi“.
Da li test zaista može da izmeri inteligenciju?
Dakle, mogli biste da se zapitate zbog čega ljudi loše procenjuju razliku između računara i čoveka na osnovu poruka u ćaskanju.
Decenijama se postavlja najkontroverznije pitanje o problemu Tjuringovog testa, a to je da li on zaista meri inteligenciju, priznaju Džons i Bergen.
U vezi sa tim bismo mogli da kažemo da su mašine postale toliko savršene da mogu da „prilagode sopstveno ponašanje različitim okolnostima što ih čini neverovatno prilagodljivim i očigledno izuzetno sposobnim da prođu kao ljudi“, primećuju oni. PERSONA upit, koji su kreirali ljudi, je nešto na šta se GPT-4.5 „prilagodio“ da bi pobedio.
Ipak, treba napomenuti da je to pravi tehnički napredak u sposobnostima modela veštačke inteligencije.
Međutim, ono što se zamera testu je da ljudi možda jednostavno nisu vešti u prepoznavanju inteligencije. Autori zaključuju da njihov eksperiment to bar delimično dokazuje.
Oni primećuju da je stariji program ELIZA prevario ljudske sudije u 23% slučajeva. Kako navode, to nije bilo zato što je bio očigledno pametniji. „Mnogi učesnici su izabrali ELIZU jer nije ispunila očekivanja koja su imali od sistema veštačke inteligencije (npr. ‘bili su sarkastični’ ili ‘mislim da veštačka inteligencije ne bi bila toliko nepristojna’)“, pišu oni.
Te pretpostavke, kako navode autori, „nagoveštavaju da odluke ispitivača obuhvataju složene pretpostavke o tome kako bi se ljudi i sistemi veštačke inteligencije verovatno ponašali u tim okolnostima, umesto da jednostavno izaberu agenta koji deluje najinteligentnije“.
Zapravo, sudije ljudi nisu postavljali mnogo pitanja o znanju u svojim izazovima, iako je Tjuring smatrao da će to biti glavni kriterijum. Čovek sudija je svoje tačne presude da je svedok čovek, a ne mašina, uglavnom zasnivao na kriterijumu nedostatka znanja, navode autori.
Društvenost, a ne inteligencija
Dakle, ljudi su obraćali pažnju na sve ono što je povezano sa društvenošću, a ne na inteligenciju, što je navelo Džonsa i Bergena da zaključe da „u suštini, Tjuringov test nije direktan test inteligencije, već test ljudskih obeležja i ljudskosti“.
Tjuringu je inteligencija, možda, izgledala kao najveća prepreka da se deluje ljudski, a samim tim i da se položi Tjuringov test. Ipak, kako mašine postaju sličnije nama, drugi kontrasti su postali toliko uočljivi da sama inteligencija nije dovoljna da bi se ubedljivo delovalo na način na koji to čine ljudi.
Autori nisu naveli još jednu činjenicu, a to je da su ljudi toliko navikli da unose neki test u računar, bilo da se tako obraćaju osobi ili mašini, da test više nije nov test interakcije čoveka i računara. To je test ljudskih navika na mreži.
Napominje se i da test treba proširiti. Autori pišu da je „inteligencija složena i višestruka“ i da „nijedan jedinstveni test inteligencije ne bi mogao biti odlučujući“.
U stvari, autori nagoveštavaju da bi test dao sasvim drugačije rezultate ako bi se malo drugačije sproveo. Oni napominju da bi stručnjaci za veštačku inteligenciju mogli da učestvuju kao grupa sudija. Oni bi mogli da sude drugačije od laika jer imaju drugačija očekivanja od mašine.
Ako bi im se ponudila i neka materijalna nadoknada, sudije ljudi bi mogli detaljnije i promišljenije da ispituju. To su naznake da stav i očekivanja imaju značajnu ulogu.
Svi ti predlozi su u skladu sa sve odlučnijim nastojanjima u oblasti istraživanja veštačke inteligencije da se ljudi uključe u proces da bi procenili i vrednovali ono što mašine rade.
Da li je ljudska procena dovoljna?
Ostaje otvoreno pitanje da li će ljudska procena na kraju biti dovoljna. U filmu Blejd Raner, „replikantski“ roboti koji obitavaju među ljudima su postali toliko dobri da se ljudi oslanjaju na mašinu Vojt-Kampf, da bi otkrili ko je čovek, a ko robot.
Kako potraga za dostizanjem OVI traje, i kako ljudi shvataju koliko je teško reći šta je OVI ili kako bi je prepoznali da naiđu na nju, možda će morati da se oslone na mašine da procene mašinsku inteligenciju.
Ili će, u najmanju ruku, možda morati da pitaju mašine šta one „misle“ o ljudima koji pišu upite kako bi pokušali da navedu mašinu da prevari druge ljude.