Nadljudska veštačka inteligencija menja naše shvatanje šaha

AlfaZero ne igra šah kao mašina već kao ljudski velemajstor, pa čak i mnogo bolje. Kad je 1997. godine, program Dip blu ( Deep Blue) kompanije „ IBM “ pobedio svetskog šahovskog šampiona i legendu Garija Kasparova, šahisti su prihvatili činjenicu da su mašine bolje u šahu. Ipak, moramo da priznamo da je njihov uspeh naša zasluga jer smo ih mi naučili kako da igraju. Međutim, iako su ih ljudi programirali, tradicionalne mašine koje umeju da igraju šah igru shvataju pomalo drugačije. Uprkos ručno stvorenoj heuristici, osnova nadmoći mašine nalazi se u računanju, dakle u prebiranju po ogromnom broju poteza da bi se našli konkretni postupci za rešavanje položaja figura. Prvobitno se od šahovskih velemajstora tražio savet i uglavnom su ih angažovali da procene nizove tipičnih položaja i opišu stavove koji su doveli do procene. Posle toga, programeri bi te stavove pretvorili u još prefinjeniju heuristiku. Šahovski program ili mašina kao što je Stokfiš pretražuje oko 60 miliona položaja figura u sekundi. Rešenje do kog bi došla mašina verovatno se ne bi svidelo čoveku, čak i kad bi potez bio nesumnjivo pobednički.

Pogledajte samo kompaniju „Dipmajnd“ ( DeepMind), kao deo kompanije „Gugl“, u kojoj je stvoren AlfaZero, odnosno, svojevrsni paradoks. Naime, program je sam sebe naučio kako da igra šah (kao i još neke društvene igre), počevši skoro ni od čega, osim od osnovnih pravila igre. Napravio je sopstvene šahovske strategije tako što je odigrao milione partija protiv samog sebe i otkrio povoljne puteve istraživanja iz partija koje je dobio ili izgubio. Pored toga, program pretražuje mnogo manje položaja dok igra nego što to čini „Stokfiš“. Konačni rezultat je šahista nadljudskih moći čiji je stil vrlo sličan ljudskom.

AlfaZero je bio vrlo angažovan tokom Svetskog šahovskog prvenstva koje je bilo organizovano u Londonu u novembru prošle godine. I dok su Norvežanin Magnus Karlsen i Amerikanac Fabijano Karuana vodili bitku na šahovskoj tabli, program je procenjivao njihove poteze i davao alternativne ideje.

Pošto se program stalno bavi pojačanim učenjem, to mu daje poseban i odmah prepoznatljiv stil dok svoje ideje direktno i efikasno primenjuje. Poseduje ljudsku potrebu da se stalno usavršava i ne miruje. Mnoge njegove ideje odgovaraju pravilima koje su ljudi stvorili tokom viševekovnog bavljenja šahom. Međutim, program je napravio nešto neobično (do toga je došao pomoću arhitekture duboke neuronske mreže), a to je kombinovanje faktora koje smatramo manje značajnim ili slučajnim – kao što su ograničenja suparnikovog kralja – pomoću čega je stvorio potpuno novu strategiju. Na primer, preduzeo bi neočekivano preuranjeni potez da bi stvorio slabost kod protivnikovog kralja što bi dalje koristio kao motiv u ostatku partije.

Uz korišćenje programa čini vam se kao da imate genijalnog šahistu na dohvat ruke koji se nikad ne umara, niti mu treba pauza za kafu. Tokom šampionata bio je uvek spreman da na kreativan način optimizuje svoj položaj. Njegova nadmoć u odnosu na ostale šahovske programe ne sastoji se u proračunavaju teškog položaja već i u komplikovanom položaju figura gde je potrebna kombinacija preračunavanja, uvida u položaj figura i dugoročnog planiranja. Posebno je bila uočljiva pažnja programa da ne upadne u pasivan položaj bez izgleda da iz njega izađe.

Tehnički tim u kompaniji „Dipmajnd“ objasnio je kako je stvaranje programa i njegovo obučavanje dovelo do njegovog kreativnog i intuitivnog stila. Jedan od metoda je vrlo neobičan. Naime, program se trenira tako što igra veliki broj zapanjujuće brzih partija (40 milisekundi po potezu) protiv sebe samog pri vrlo maloj dubini pretraživanja. Sad bi trebalo napomenuti još nešto. Mnogi misle da bi program mnogo više naučio ako bi igrao sporije i kvalitetnije partije. Međutim, što je partija brža, program će ih više videti, naći će se u mnogobrojnim različitim situacijama i tako će više naučiti. Brže partije su uglavnom neuravnoteženije i daju mnogo presudnije rezultate koje AlfaZero može da iskoristi da bi poboljšao (pojačao ili smanjio) veze u svojoj mreži koje su dovele do odluke koju je doneo. Sve to odgovara današnjem procesu treniranja šahovskih velemajstora. Dok su pre 40 godina vrhunski šahisti odbacivali brze partije smatrajući da uništavaju sposobnosti i da su gubljenje vremena, današnji su velemajstori – svetski šampion Magnus Karlsen posebno – izuzetni su igrači brzopoteznog šaha i vrlo često učestvuju u takvim takmičenjima.

Još jedan zadivljujući aspekt programa je procena položaja figura. Tradicionalne mašine procenjuju položaj pomoću skale koja se zasniva na materijalu (što je uobičajeni šahovski naziv za pešake i figure). Na primer, rezultat +1,5 označava prednost od 1,5 pešaka. (Opšte prihvaćena skala za materijal u šahu je: svaki pešak vredi jedan poen, skakač i lovac vrede tri, top vredi pet, a kraljica devet poena.)

AlfaZero procenjuje pozicije koristeći verovatnoću zasnovanu na pretpostavljenoj mogućnosti pobede ili remija (u stvari, ne znamo da li program dodeljuje neke vrednosti pešacima i ostalim figurama). Verovatno se zbog toga program ne plaši da žrtvuje svoje pešake i figure da bi došao do cilja. Šta znači izgubiti jednog ili dva pešaka, ako očekujete da će se rezultat poboljšati?

Procene tradicionalnih mašina odražavaju samo jednu najbolju varijaciju do kojih su došle u zadatom položaju figura. Procena programa AlfaZero je ponderisani prosek svih varijacija koje je uzeo u obzir u određenom položaju figura, a ne samo pojedinačnu najbolju varijaciju. To omogućava programu da vodi partiju „intuitivno“ prema prilikama koje obećavaju, a u kojima su opasnost i mogućnost za grešku protivnika uvek prisutne, pri čemu ne mora da proračunava svaki detalj – baš kao što to čine najbolji šahisti. Snaga i originalnost programa AlfaZero zaista iznenađuje. Iako je šah sazdan od nadljudskih stručnih sistema, program je uspeo da otkrije i one manje poznate prostore u kojima je njegov samouki uvid kako zapanjujući, tako i vredan. Ti manje poznati prostori su toliko značajni da je program uspeo ubedljivo da pobedi najjači stručni sistem u vreme testiranja.