Zašto je mašinskom učenju osim statistike potrebna i semantika?

Nagli razvoj dubokog učenja uveo je novu generaciju alatki mašinskog učenja koje mogu da identifikuju uzorke u ogromnom skupu podataka uz preciznost koju stručnjaci nikada ne mogu da dostignu. S druge strane, pošto su mašine dostigle ljudsku или super-ljudsku preciznost u velikom broju zadataka, sve više smo skloni da ih opisujemo terminima koje koristimo da bismo opisali ljude, dakle kao silicijumske inkarnacije života koje uče o svetu i stiču saznanja o njemu. Ipak, presudna razlika između ljudi i mašina je rasuđivanje o svetu. Ljudi u tom procesu koriste semantičke apstrakcije višeg reda dok se mašine slepo drže statistike. Glavna razlika između mašinskog i ljudskog učenja se sastoji u tome da ljudi dok uče povezuju uočene uzorke sa semantičkim apstrakcijama višeg reda koje se odnose na određene predmete i procese. Uz to, naše prethodno stečeno znanje i iskustvo daju neophodan kontekst koji omogućava rasuđivanje o uzorcima i identifikuju one koji najverovatnije predstavljaju ogromno primenjivo znanje.

S druge strane, mašine nepokolebljivo traže najjače signale u gomili podataka. Pošto ne poseduju oslonac u prethodno stečenom znanju или životnom iskustvu da bi razumele značenje tih signala, algoritmi dubokog učenja ne mogu da naprave razliku između prividnih i značajnih pokazatelja. Umesto toga, one samo neumitno dešifruju svet oko sebe koristeći statistiku, a ne semantiku. Čovek, kome pokažete niz fotografija pasa koji trče po parku i kućnih mačaka koje trče po stanovima, može, koristeći životno iskustvo, da shvati da u tom određenom kontekstu pozadina fotografija nije važna da bi odredio da li fotografija predstavlja psa или mačku. Algoritam mašinskog učenja, s druge strane, može da prepozna da je najjači signal koji ukazuje na razliku između psa i mačke svetla fotografija koja je slikana napolju или tamna napravljena u zatvorenom prostoru. Ako je mašini cilj da poveća preciznost u prepoznavanju pasa i kao i da su sve fotografije slikane napolju, onda je to zaista „najbolji“ signal na koji mašine mogu da se oslone. Međutim, u tom slučaju neizbežno će napraviti grešku ako im se pokažu fotografije koje prikazuju velike mačke, kao što su lavovi.

Zbog toga je izuzetno važno da se mašinama, dok uče, prikazuju raznovrsni podaci da bi videle različite kontra-primere koji bi onemogućili stvaranje prividnih uzoraka. To, u stvari, znači da bi pri premeštanju nameštaja u sobi, slepi algoritam morao da pronađe put do izlaznih vrata, umesto da mu se omogući da vidi kojim će putem doći do njih.
Nažalost, svaki stručnjak koji se bavi dubokim učenjem svestan je da vrlo mali broj skupova podataka ima takvu raznolikost koja bi onemogućila stvaranje prividnih signala. Stvaranje raznovrsnog skupa podataka za obuku mašina takođe zahteva kreativnost koja bi mogla da predvidi svaki mogući uzorak na koji bi se mašina oslonila i ručno ga unapred otklonila i umesto njega postavila kontra-primer. Međutim, sposobnost algoritama mašinskog učenja da prodre duboko u najfinije uzorke skupa podataka znači da je skoro nemoguće suprotstaviti se svakom mogućem prividnom signalu koji bi mašina mogla da pronađe.

Današnji računarski algoritmi vizije su sve bolji jer počinju da dele fotografije u objekte i vrše prepoznavanje na nivou predmeta, što „leči“ samo određene simptome problema, ali ga ne rešava u potpunosti. Algoritmima mašinskog učenja i dalje u velikoj meri nedostaje sposobnost da rasuđuju o međusobnim vezama predmeta na fotografiji. Što je još značajnije, njihovo oslanjanje na jednostavne uzorke, a ne na semantičke apstrakcije, znači da im nedostaje naše poznavanje spoljašnjeg sveta da bi rešile nedoumice koristeći informacije koje se ne nalaze na fotografiji.

Mašina koja je obučavana na fotografijama koje prikazuju pse napolju i mačke unutra verovatno neće uspeti da prepozna lava u mački koja se nalazi napolju jer ne može da razdvoji objekte od njihovog konteksta. S druge strane, kontekst je od presudnog značaja u procesu prepoznavanja. Uzmimo, na primer, fotografiju glavnog borbenog tenka. Većina ljudi bi ga označila kao tenk ako bi ga na fotografiji videli da se nalazi na pesku. Ako bi se kamera udaljila i prikazala širu sliku, videli bismo da nije u pitanju pesak u pustinji već na igralištu i da ga drži dete koje se njime igra. Ljudi su sposobni da iskoriste kontekst da bi prepoznali objekat u njemu kao igračku.

Iako danas mašine možemo brzo naučiti toj razlici prikazujući im mnoštvo primera u kojima deca drže igračku borbenog tenka, končani rezultat bi bio mnogo nepouzdaniji u poređenju sa našim rasuđivanjem. Mašina može naučiti osnovni kontekst ako joj damo dovoljno primera, a to je da uzorci i teksture povezane sa decom na slici menjaju oznaku objekta – to nije više pravi tenk nego igračka. Međutim, ako bismo mašini prikazali istu tu igračku na prilazu ispred kuće, ali ne i ljude, mašina bi je verovatno videla kao pravi borbeni tenk.

Ukratko, uzorci koje mašine nauče predstavljaju vrlo krhke, površinske vizuelne karakteristike ulaznih podataka, a ne apstrakcije višeg reda koje bi im omogućile da povežu ono što su videle sa spoljašnjim znanjem i ispravno rasuđuju o onome što gledaju. U suštini, taj proces je vrlo sličan onom kad se čoveku prikažu uzorci u gomili brojeva i od njega se traži da označi koji brojevi treba dalje da se pojave, a da pri tom ne shvata šta ti bojevi predstavljaju i šta ta odluka obuhvata.

Zbog toga su, između ostalog, sadašnji sistemi dubokog učenja toliko krhki i naivni bez obzira na neverovatnu moć. Oni traže veze između podataka, umesto značenja.
Tu je i najveća kontradikcija dubokog učenja: mašine koje obavljaju zadatke u većini slučajeva na nivou super-ljudi, da bi spektakularno pogrešile na najneočekivaniji način i kontra-intuitivno.  Aplikacije mašinskog učenja koje odlučuju o pitanjima „života i smrti“, kao što su autonomna vozila, izuzetno nas plaše jer ne znamo kakav najjednostavniji slučaj ih može naterati da iznenada pogreše, što može dovesti do fatalnih posledica.

Kako bismo mogli to da popravimo?

Mogli bismo da napravimo sisteme mašinskog učenja koji će moći brzo da opišu uzorke koje su naučili da bi stručnjak mogao da ih pregleda i odobri. Takav timski pristup bi obuhvatio izuzetan proces mašinskog prepoznavanja uzoraka sa ljudskim poznavanjem oblasti. S druge strane, mašinsko učenje je uspešno upoređeno sa ljudskim u mnogim oblastima, između ostalog i zbog svoje sposobnosti da uoče fine или neočekivane uzorke koje ljudi ne bi ni primetili, ali koji predstavljaju ispravne signale koje ljudi jednostavno nisu otkrili.

Takav slučaj se javlja posebno u teorijskim oblastima kao što je ljudsko ponašanje na nivou populacije gde su podaci dobijeni posmatranjem malobrojni или potpuno nedostupni i dovode do teorija kojima su promakli svi signali za koje smo kasnije utvrdili da su imali najveću moć predviđanja. U takvim situacijama, napravili bismo najveću grešku kad bismo ljudima dali da pregledaju uzorke do kojih su došle mašine jer bi svi uzorci bili odbačeni pošto se ne bi uklapali u ljudske (i pogrešne) teorije. Uzimajući sve u obzir, tokom poslednjih pet godina, mašinsko učenje je doživelo preporod u kome su pristupi dubokog učenja uspeli da reše najteže zadatke kao što je računarska vizija или da pokažu izuzetnu preciznost u velikom broju oblasti. Ipak, velika krhkost tih rešenja i nemogućnost da se utvrdi gde bi mogle da pogreše predstavljaju izazove dok duboko učenje nalazi svoju primenu u oblastima u kojima se rešavaju pitanja života i smrti kao što su autonomna vozila i medicina. Najveći problem se sastoji u tome što algoritmi mašinskog učenja samo slepo uče statističke uzorke ne shvatajući da li se ti uzorci pravilno odnose na zadatak koji im je poveren. Tek onda kad sistemi dubokog učenja budu mogli da rasuđuju o svetu u smislu semantike, a ne statistike, i kad budu mogli da povežu saznanja o spoljašnjem svetu i kontekst sa procesom donošenja odluka, imaćemo mašine koje će moći da smanje krhkost i broj grešaka koje ima i pravi današnja generacija veštačke inteligencije.

5198-zasto-je-masinskom-ucenju-osim-statistike-potrebna-i-semantika