Зашто је машинском учењу осим статистике потребна и семантика?

Нагли развој дубоког учења увео је нову генерацију алатки машинског учења које могу да идентификују узорке у огромном скупу података уз прецизност коју стручњаци никада не могу да достигну. С друге стране, пошто су машине достигле људску или супер-људску прецизност у великом броју задатака, све више смо склони да их описујемо терминима које користимо да бисмо описали људе, дакле као силицијумске инкарнације живота које уче о свету и стичу сазнања о њему. Ипак, пресудна разлика између људи и машина је расуђивање о свету. Људи у том процесу користе семантичке апстракције вишег реда док се машине слепо држе статистике. Главна разлика између машинског и људског учења се састоји у томе да људи док уче повезују уочене узорке са семантичким апстракцијама вишег реда које се односе на одређене предмете и процесе. Уз то, наше претходно стечено знање и искуство дају неопходан контекст који омогућава расуђивање о узорцима и идентификују оне који највероватније представљају огромно примењиво знање.

С друге стране, машине непоколебљиво траже најјаче сигнале у гомили података. Пошто не поседују ослонац у претходно стеченом знању или животном искуству да би разумеле значење тих сигнала, алгоритми дубоког учења не могу да направе разлику између привидних и значајних показатеља. Уместо тога, оне само неумитно дешифрују свет око себе користећи статистику, а не семантику. Човек, коме покажете низ фотографија паса који трче по парку и кућних мачака које трче по становима, може, користећи животно искуство, да схвати да у том одређеном контексту позадина фотографија није важна да би одредио да ли фотографија представља пса или мачку. Алгоритам машинског учења, с друге стране, може да препозна да је најјачи сигнал који указује на разлику између пса и мачке светла фотографија која је сликана напољу или тамна направљена у затвореном простору. Ако је машини циљ да повећа прецизност у препознавању паса и као и да су све фотографије сликане напољу, онда је то заиста „најбољи“ сигнал на који машине могу да се ослоне. Међутим, у том случају неизбежно ће направити грешку ако им се покажу фотографије које приказују велике мачке, као што су лавови.

Због тога је изузетно важно да се машинама, док уче, приказују разноврсни подаци да би виделе различите контра-примере који би онемогућили стварање привидних узорака. То, у ствари, значи да би при премештању намештаја у соби, слепи алгоритам морао да пронађе пут до излазних врата, уместо да му се омогући да види којим ће путем доћи до њих.
Нажалост, сваки стручњак који се бави дубоким учењем свестан је да врло мали број скупова података има такву разноликост која би онемогућила стварање привидних сигнала. Стварање разноврсног скупа података за обуку машина такође захтева креативност која би могла да предвиди сваки могући узорак на који би се машина ослонила и ручно га унапред отклонила и уместо њега поставила контра-пример. Међутим, способност алгоритама машинског учења да продре дубоко у најфиније узорке скупа података значи да је скоро немогуће супротставити се сваком могућем привидном сигналу који би машина могла да пронађе.

Данашњи рачунарски алгоритми визије су све бољи јер почињу да деле фотографије у објекте и врше препознавање на нивоу предмета, што „лечи“ само одређене симптоме проблема, али га не решава у потпуности. Алгоритмима машинског учења и даље у великој мери недостаје способност да расуђују о међусобним везама предмета на фотографији. Што је још значајније, њихово ослањање на једноставне узорке, а не на семантичке апстракције, значи да им недостаје наше познавање спољашњег света да би решиле недоумице користећи информације које се не налазе на фотографији.

Машина која је обучавана на фотографијама које приказују псе напољу и мачке унутра вероватно неће успети да препозна лава у мачки која се налази напољу јер не може да раздвоји објекте од њиховог контекста. С друге стране, контекст је од пресудног значаја у процесу препознавања. Узмимо, на пример, фотографију главног борбеног тенка. Већина људи би га означила као тенк ако би га на фотографији видели да се налази на песку. Ако би се камера удаљила и приказала ширу слику, видели бисмо да није у питању песак у пустињи већ на игралишту и да га држи дете које се њиме игра. Људи су способни да искористе контекст да би препознали објекат у њему као играчку.

Иако данас машине можемо брзо научити тој разлици приказујући им мноштво примера у којима деца држе играчку борбеног тенка, кончани резултат би био много непоузданији у поређењу са нашим расуђивањем. Машина може научити основни контекст ако јој дамо довољно примера, а то је да узорци и текстуре повезане са децом на слици мењају ознаку објекта – то није више прави тенк него играчка. Међутим, ако бисмо машини приказали исту ту играчку на прилазу испред куће, али не и људе, машина би је вероватно видела као прави борбени тенк.

Укратко, узорци које машине науче представљају врло крхке, површинске визуелне карактеристике улазних података, а не апстракције вишег реда које би им омогућиле да повежу оно што су виделе са спољашњим знањем и исправно расуђују о ономе што гледају. У суштини, тај процес је врло сличан оном кад се човеку прикажу узорци у гомили бројева и од њега се тражи да означи који бројеви треба даље да се појаве, а да при том не схвата шта ти бојеви представљају и шта та одлука обухвата.

Због тога су, између осталог, садашњи системи дубоког учења толико крхки и наивни без обзира на невероватну моћ. Они траже везе између података, уместо значења.
Ту је и највећа контрадикција дубоког учења: машине које обављају задатке у већини случајева на нивоу супер-људи, да би спектакуларно погрешиле на најнеочекиванији начин и контра-интуитивно.  Апликације машинског учења које одлучују о питањима „живота и смрти“, као што су аутономна возила, изузетно нас плаше јер не знамо какав најједноставнији случај их може натерати да изненада погреше, што може довести до фаталних последица.

Како бисмо могли то да поправимо?

Могли бисмо да направимо системе машинског учења који ће моћи брзо да опишу узорке које су научили да би стручњак могао да их прегледа и одобри. Такав тимски приступ би обухватио изузетан процес машинског препознавања узорака са људским познавањем области. С друге стране, машинско учење је успешно упоређено са људским у многим областима, између осталог и због своје способности да уоче фине или неочекиване узорке које људи не би ни приметили, али који представљају исправне сигнале које људи једноставно нису открили.

Такав случај се јавља посебно у теоријским областима као што је људско понашање на нивоу популације где су подаци добијени посматрањем малобројни или потпуно недоступни и доводе до теорија којима су промакли сви сигнали за које смо касније утврдили да су имали највећу моћ предвиђања. У таквим ситуацијама, направили бисмо највећу грешку кад бисмо људима дали да прегледају узорке до којих су дошле машине јер би сви узорци били одбачени пошто се не би уклапали у људске (и погрешне) теорије. Узимајући све у обзир, током последњих пет година, машинско учење је доживело препород у коме су приступи дубоког учења успели да реше најтеже задатке као што је рачунарска визија или да покажу изузетну прецизност у великом броју области. Ипак, велика крхкост тих решења и немогућност да се утврди где би могле да погреше представљају изазове док дубоко учење налази своју примену у областима у којима се решавају питања живота и смрти као што су аутономна возила и медицина. Највећи проблем се састоји у томе што алгоритми машинског учења само слепо уче статистичке узорке не схватајући да ли се ти узорци правилно односе на задатак који им је поверен. Тек онда кад системи дубоког учења буду могли да расуђују о свету у смислу семантике, а не статистике, и кад буду могли да повежу сазнања о спољашњем свету и контекст са процесом доношења одлука, имаћемо машине које ће моћи да смање крхкост и број грешака које има и прави данашња генерација вештачке интелигенције.

Рачунарски факултет Рачунарски факултет 011-33-48-079