Najveću glavobolju u mašinskom učenju zadaje prečišćavanje podataka

Verovatno mislite da je život stručnjaka koji se bavi mašinskim učenjem izuzetno privlačan. Programira autonomne automobile, radi za najpoznatije stručnjake za savremene tehnologije, a može, čak, i da dovedete do propasti čovečanstva. Ludo! Međutim, najnovija istraživanja stručnjaka koji se bave podacima i mašinskim učenjem pokazuju da je stvarnost mnogo drugačija jer najveći izazov je, u stvari, obavljanje prilično dosadnog zadatka, odnosno, prečišćavanja prljavih podataka. Istraživanje je sprovela naučna zajednica Kaggle (koju je kupila kompanija Google početkom ove godine). Od 1.3 miliona članova, 16.700 je popunilo upitnik. Kad su ih pitali da navedu najveće prepreke sa kojima se suočavaju na poslu, većina je odgovorila da su to prljavi podaci, a zatim nedostatak poznavanja oblasti.

Šta su prljavi podaci i zbog čega predstavljaju toliki problem?

Već odavno slušamo da su podaci „nova nafta“ za digitalnu privredu, što je posebno tačno u oblasti mašinskog učenja. Savremeni sistemi veštačke inteligencije uče na primerima, dakle, ako sistemu pokažete veliki broj fotografija mačke, tokom vremena će početi da prepoznaje osobenosti koje čine mačku. Kompanije, recimo, Google ili Amazon, uspele su da naprave efikasne platforme za prepoznavanje lica i glasa jer raspolažu tonama podataka svojih korisnika.

Ipak, sistemi veštačke inteligencije su i dalje samo računarski programi, što znači da mogu da „polude“ ako pritisnete pogrešno dugme u pogrešno vreme. Podaci od kojih sistemi uče su, takođe, vrlo nefleksibilni. Programi su slični razmaženom detetu koje neće da pojede bananu ako nije isitnjena na određeni način. Stručnjaci u ovoj oblasti ne treba da spremaju banane, ali treba da pročešljaju skupove podataka koji se sastoje od stotina hiljada unosa da bi pronašli vrednosti koje nedostaju i uklone greške formatiranja.

Već je dobro poznata šala da stručnjaci koji se bave podacima 80% vremena provedu u prečišćavanju podataka, a preostalih 20% potroše žaleći se na posao prečišćavanja. Osnivač i direktor Kaggle-a Entoni Goldblum potvrđuje da prečišćavanje podataka, ipak, oduzima mnogo više vremena nego što to izgleda nekom sa strane. Obučavanje modela, zapravo, oduzima prilično malo vremena (manje od 10%) svakom stručnjaku koji se bavi podacima ili mašinskim učenjem.

Kaggle je spremna da pomogne. Sajt zajednice je poznat po takmičenjima. Naime, kompanije objavljuju izazove u vezi sa specifičnim podacima i novčano nagrađuju pobednika koji pronađe najbolje rešenje. (Novčana nagrada nije velika, ali pobednik dobija priliku da ga uoče potencijalni poslodavci.) Zbog toga je Kaggle postala spremište zanimljivih skupova podataka kojima korisnici mogu da se poigravaju. Recimo, u skladištu postoji, između ostalog, 22.000 ocenjenih školskih eseja, snimci raka pluća dobijeni kompjuterizovanom tomografijom kao i mnogo slika riba, koje je donirala Američka mornarica nadajući se da će uloviti bolje ribe pomoću veštačke inteligencije.

Istraživanje je otkrilo još neke pojedinosti. Upitnik su najviše popunjavali ljudi koji imaju zvanje mastera, a pajton je bio najčešće korišćeni programski jezik i najčešće preporučivan onima koji žele da se posvete ovoj oblasti. Zanimljivo je napomenuti da i pored toga što je pažnja usredsređena na nove metode za obradu podataka, kao što su neuronske mreže, većina se češće oslanja na starije i manje zvučne statističke metode. Na primer, tip analize koji je poznat kao „logistička regresija“ je najzastupljeniji (63,5% ispitanika odgovorilo je da koristi ovaj metod), dok su neuronske mreže zauzele četvrto mesto (37,6% ispitanika). Goldblum objašnjava popularnost metoda navodeći da je u centru univerzitetskih predavanja i da se može koristiti u raznovrsnim naučnim oblastima. Sa linearnom i logističkom regresijom upoznaje se svaki student koji sluša bilo koji predmet koji je povezan sa statistikom u oblastima kao što su mašinsko učenje, ekonometrija, psihologija, bioinformatika i mnogim drugim. Iako je kao matematičko sredstvo prilično krhka i ne naročito moćna, ostaće zauvek živa jer su i univerziteti i privreda prilično inertni.

Neuronske mreže, u međuvremenu, dobijaju svu pažnju pošto su najprimerenije za zadatke koji se bave video, audio i slikovnim podacima. Za tekstualne i numeričke informacije primereniji su stariji metodi.

4613-xa-najvecu-glavobolju-u-masinskom-ucenju-zadaje-preciscavanje-podataka-xa