Veštačka inteligencija naučila da igra žmurke - Рачунарски факултет

Kompanija OpenAI je pre neki dan prikazala kako veštačka inteligencija igra žmurke. Iako se još jednom pokazalo da je ljudsko ponašanje izuzetno kompleksna kategorija, veštačka inteligencija je smislila zadivljujuće strategije u toj opštepoznatoj igri. To je bio najnoviji primer koji je pokazao da uz trenutno razvijene tehnike mašinskog učenja, jednostavno okruženje može da stvori zapanjujuće kompleksne rezultate. Inteligentni agenti igraju vrlo jednostavnu verziju igre, u kojoj oni koji traže (tragači) dobijaju poene kad god vide one koji se skrivaju (skrivače). Skrivači na početku igre dobiju malo vremena da srede mesto na kome će se sakriti i dobijaju poene kad god se uspešno sakriju. Obe strane mogu da pomeraju predmete (blokove, zidove i rampe) koji se nalaze na površini gde se igra odvija da bi osvojili poene. Rezultati dobijeni iz tako jednostavnog okruženja bili su zadivljujući. U toku 481 miliona odigranih igara, veštačka inteligencija je izgleda uspela da razvije strategije i kontra strategije. U početku, inteligentni agenti su bezglavo jurili tamo-amo da bi konačno uspeli da se usklade sa saveznicima i stvore komplikovane strategije. (Tokom igre, pokazali su sposobnost da naruše tok igre na neočekivane načine.)

To je najnoviji primer koji nam pokazuje šta se može uraditi korišćenjem jednostavne tehnike veštačke inteligencije koja se naziva pojačano učenje, u kojoj sistemi veštačke inteligencije dobijaju „nagradu“ za poželjno ponašanje i slobodni su da uče kroz milione odigranih igara da bi dobili što veću nagradu. Pojačano učenje je sasvim jednostavan proces, ali strateško ponašanje koje može proizvesti uopšte nije jednostavno. U prošlosti su istraživači koristili pojačano učenje, pored ostalih tehnika, da stvore sisteme veštačke inteligencije koji mogu da igraju vrlo komplikovane ratne igre strategije, a neki istraživači veruju da bi se samo na osnovu pojačanog učenja mogli stvoriti vrlo napredni sistemi. Jednostavna igra žmurke je odličan primer koji pokazuje kako pojačano učenje funkcioniše u praksi i kako jednostavna uputstva mogu da dovedu do zapanjujuće inteligentnog ponašanja.

Prva lekcija: Kako se sakriti i kako tražiti?

Možda su inteligentni agenti morali da odigraju nekoliko miliona partija, ali, konačno, su shvatili osnovna pravila igre: treba da jure jedni druge po polju.

Druga lekcija: Kako se gradi skrovište

Inteligentni agenti imaju mogućnost da pričvrste blokove. Samo onaj tim koji je pričvrstio blok može ga osloboditi. Posle vežbanja u milionima partija, agenti su naučili da naprave skrovište od raspoloživih blokova. U skrovištu ih tragači ne mogu pronaći, tako da je to poen za skrivače, bar dok nekom na pamet nije pala nova ideja.

Kako se pomoću postolja upada u skrovište

Posle nekoliko miliona partija, tragači su shvatili kako da doskoče takvom ponašanju skrivača. Privukli su postolje do skrovišta, popeli se na njega i pronašli skrivače.
Posle izvesnog vremena, skrivači su smislili protivnapad: shvatili su da mogu da zamrznu postolja i tako spreče tragače da ih pomere s mesta. Članovi tima iz kompanije OpenAI mislili su da je igri tu kraj, ali prevarili su se.

Pomeranje kutija da bi se došlo do skrovišta

Konačno, tragači su naučili da pomere kutiju do zamrznutog postolja, popnu se na kutiju i „lebde“ zajedno s njom do skrovišta gde su opet pronašli skrivače.

Odbrana protiv pomeranja kutija

Ovde je strategija za skrivače bila sasvim očigledna. Trebalo je samo da zamrznu sve oko sebe i tako tragačima uskrate svaku mogućnost da iskoriste bilo koji predmet koji bi mogao da im pomogne, a to su naučili kako da urade. Tako se odvija igra žmurke između inteligentnih agenata dok se milioni partija nižu i oni stiču potrebno iskustvo. Najinteresantnije je to što nijedan oblik ponašanja koji su agenti ispoljili nije bio naučen niti direktno nagrađen. Agenti su dobijali nagradu samo ako su uspeli da osvoje poen. Ipak, i taj jednostavni podsticaj bio je sasvim dovoljan da podstakne mnogo kreativnosti u oblicima ponašanja.

Mnogi stručnjaci za veštačku inteligenciju smatraju da pojačano učenje može biti iskorišćeno za rešavanje komplikovanih zadataka koji bi imali implikacije u realnom svetu. Razvijanje moćnog strateškog odlučivanja iz jednostavnih uputstava je zadivljujuće, ali i zabrinjavajuće. Rešavanje zadataka pomoću pojačanog učenja vodi, kao što smo videli, do mnogih neočekivanih oblika ponašanja, što može biti simpatično u igri žmurke, ali izuzetno uznemirujuće u mnogim situacijama u kojim se radi o životu i smrti. To su opasni neželjeni efekti tehnologija kakvo je i pojačano učenje. S jedne strane, predstavljaju moćne procese koji mogu da stvore napredne oblike ponašanja iz jednostavne polazne tačke. S druge strane, predstavljaju moćne procese koji mogu da stvore neočekivano – ponekad neželjeno – napredno ponašanje iz jednostavne polazne tačke. I dok sistemi veštačke inteligencije postaju moćniji, moramo se uveriti da će moći da urade samo ono što mi želimo.