Вештачка интелигенција научила да игра жмурке

Компанија OpenAI је пре неки дан приказала како вештачка интелигенција игра жмурке. Иако се још једном показало да је људско понашање изузетно комплексна категорија, вештачка интелигенција је смислила задивљујуће стратегије у тој општепознатој игри. То је био најновији пример који је показао да уз тренутно развијене технике машинског учења, једноставно окружење може да створи запањујуће комплексне резултате. Интелигентни агенти играју врло једноставну верзију игре, у којој они који траже (трагачи) добијају поене кад год виде оне који се скривају (скриваче). Скривачи на почетку игре добију мало времена да среде место на коме ће се сакрити и добијају поене кад год се успешно сакрију. Обе стране могу да померају предмете (блокове, зидове и рампе) који се налазе на површини где се игра одвија да би освојили поене. Резултати добијени из тако једноставног окружења били су задивљујући. У току 481 милиона одиграних игара, вештачка интелигенција је изгледа успела да развије стратегије и контра стратегије. У почетку, интелигентни агенти су безглаво јурили тамо-амо да би коначно успели да се ускладе са савезницима и створе компликоване стратегије. (Током игре, показали су способност да наруше ток игре на неочекиване начине.)

То је најновији пример који нам показује шта се може урадити коришћењем једноставне технике вештачке интелигенције која се назива појачано учење, у којој системи вештачке интелигенције добијају „награду“ за пожељно понашање и слободни су да уче кроз милионе одиграних игара да би добили што већу награду. Појачано учење је сасвим једноставан процес, али стратешко понашање које може произвести уопште није једноставно. У прошлости су истраживачи користили појачано учење, поред осталих техника, да створе системе вештачке интелигенције који могу да играју врло компликоване ратне игре стратегије, а неки истраживачи верују да би се само на основу појачаног учења могли створити врло напредни системи. Једноставна игра жмурке је одличан пример који показује како појачано учење функционише у пракси и како једноставна упутства могу да доведу до запањујуће интелигентног понашања.

Прва лекција: Како се сакрити и како тражити?

Можда су интелигентни агенти морали да одиграју неколико милиона партија, али, коначно, су схватили основна правила игре: треба да јуре једни друге по пољу.

Друга лекција: Како се гради скровиште

Интелигентни агенти имају могућност да причврсте блокове. Само онај тим који је причврстио блок може га ослободити. После вежбања у милионима партија, агенти су научили да направе скровиште од расположивих блокова. У скровишту их трагачи не могу пронаћи, тако да је то поен за скриваче, бар док неком на памет није пала нова идеја.

Како се помоћу постоља упада у скровиште

После неколико милиона партија, трагачи су схватили како да доскоче таквом понашању скривача. Привукли су постоље до скровишта, попели се на њега и пронашли скриваче.
После извесног времена, скривачи су смислили противнапад: схватили су да могу да замрзну постоља и тако спрече трагаче да их помере с места. Чланови тима из компаније OpenAI мислили су да је игри ту крај, али преварили су се.

Померање кутија да би се дошло до скровишта

Коначно, трагачи су научили да помере кутију до замрзнутог постоља, попну се на кутију и „лебде“ заједно с њом до скровишта где су опет пронашли скриваче.

Одбрана против померања кутија

Овде је стратегија за скриваче била сасвим очигледна. Требало је само да замрзну све око себе и тако трагачима ускрате сваку могућност да искористе било који предмет који би могао да им помогне, а то су научили како да ураде. Тако се одвија игра жмурке између интелигентних агената док се милиони партија нижу и они стичу потребно искуство. Најинтересантније је то што ниједан облик понашања који су агенти испољили није био научен нити директно награђен. Агенти су добијали награду само ако су успели да освоје поен. Ипак, и тај једноставни подстицај био је сасвим довољан да подстакне много креативности у облицима понашања.

Многи стручњаци за вештачку интелигенцију сматрају да појачано учење може бити искоришћено за решавање компликованих задатака који би имали импликације у реалном свету. Развијање моћног стратешког одлучивања из једноставних упутстава је задивљујуће, али и забрињавајуће. Решавање задатака помоћу појачаног учења води, као што смо видели, до многих неочекиваних облика понашања, што може бити симпатично у игри жмурке, али изузетно узнемирујуће у многим ситуацијама у којим се ради о животу и смрти.  То су опасни нежељени ефекти технологија какво је и појачано учење. С једне стране, представљају моћне процесе који могу да створе напредне облике понашања из једноставне полазне тачке. С друге стране, представљају моћне процесе који могу да створе неочекивано – понекад нежељено – напредно понашање из једноставне полазне тачке. И док системи вештачке интелигенције постају моћнији, морамо се уверити да ће моћи да ураде само оно што ми желимо.

Рачунарски факултет Рачунарски факултет 011-33-48-079