Mašinsko obučavanje: Kada koristiti koji metod i tehniku - Рачунарски факултет

Šta tačno možete uraditi sa mašinskim obučavanjem? Objašnjavamo različite metode i tehnike koje su vam na raspolaganju. Verovatno sve više čujete o mašinskom obučavanju, podskupu veštačke inteligencije. Ali šta tačno možete uraditi sa mašinskim obučavanjem? Ova tehnologija obuhvata niz metoda i tehnika, a svaka od njih ima skup potencijalnih slučajeva korišćenja. Bilo bi dobro da ih preduzeće ispita pre nego što zaroni u planove za ulaganje u alate i infrastrukturu za mašinsko obučavanje.

Metodi mašinskog obučavanja

Nadgledano obučavanje

Nadgledano obučavanje je idealno ako znate šta želite da mašina uči. Možete je izložiti ogromnom skupu podataka za obuku, pregledati izlaz i podesiti parametre dok ne dobijete rezultate koje očekujete. Kasnije možete videti šta je mašina naučila tako što će predvideti rezultate za skup kontrolnih podataka koje nije ranije videla. Najčešći zadaci nadgledanog obučavanja uključuju klasifikaciju i predviđanje ili regresiju.

Metodi nadgledanog obučavanja mogu se koristiti za primene kao što su određivanje finansijskog rizika pojedinaca i organizacija, na osnovu prethodnih informacija o finansijskim učincima. Takođe mogu pružiti dobar uvid u to kako će klijenti postupiti ili kakve su njihove preferencije, na osnovu prethodnih obrazaca ponašanja.

Na primer, онлајн tržište za kreditne pozajmice Lending Tree koristi automatizovanu platformu za obučavanje računara od DataRobot-a kako bi prilagodila iskustva svojih kupaca i predviđala njihove namere na osnovu onoga što su radili u prošlosti, kaže Akshai Tandon, potpredsednik i šef strategije i analitike.

Predviđanjem namera kupaca – prvenstveno preko bodovanja veza – Lending Tree može da prepozna ljude koji samo pregledaju cene nasuprot onih koji zaista traže kredit i spremni su da podnesu zahtev. Koristeći tehnike nadgledanog obučavanja, napravljen je klasifikacioni model za definisanje verovatnoće sklapanja posla.

Nenadgledano obučavanje

Nenadgledano obučavanje omogućava mašini da istražuje skup podataka i identifikuje skrivene obrasce koji povezuju različite promenljive. Ovaj metod se može koristiti za grupisanje podataka u klastere samo na osnovu njihovih statističkih svojstava. Dobra primena nenadgledanog obučavanja je algoritam grupisanja koji se koristi za vršenje probabilističkog povezivanja zapisa, tehnike koja izvlači veze među elementima podataka i gradi na njima kako bi identifikovala pojedince i organizacije i njihove veze u fizičkom ili virtuelnom svetu.

Ovo je naročito korisno za preduzeća koja moraju, na primer, da integrišu podatke iz različitih izvora i/ili različitih poslovnih jedinica kako bi izgradili konzistentan i sveobuhvatan uvid u svoje kupce, kaže Flavio Villanustre, potpredsjednik tehnologije firme LexisNexis Risk Solutions, kompanije koja koristi analitiku kako bi pomogla korisnicima da predvide i upravljaju rizikom.

Nenadgledano obučavanje može se koristiti za analizu osećanja, koja identifikuje emocionalno stanje pojedinaca na osnovu njihovih postova na društvenim medijima, e-pošti ili drugim pisanim povratnim informacijama, kaže Salli Epstein, inženjer specijalista za mašinsko obučavanje konsultantske firme Cambridge Consultants. Ova firma uviđa da sve veći broj kompanija u finansijskim uslugama koristi nenadgledano obučavanje da bi stekle uvid u zadovoljstvo kupaca.

Delimično nadgledano obučavanje

Delimično nadgledano obučavanje je hibrid nadgledanog i nenadgledanog obučavanja. Označavanjem malog podskupa podataka, trener može mašini da da smernice kako trebalo da grupiše ostatak skupa podataka. Delimično nadgledano obučavanje može se koristiti za otkrivanje krađe identiteta, između ostalog. Na sreću, prevare nisu toliko česte kao zakonite aktivnosti, napominje Villanustre, pa se kao takve nepoštena aktivnost može smatrati „anomalijom“ u svetu legitimnih aktivnosti. Ipak, prevare postoje, a metodi delimično nadgledanog obučavanje za detekciju anomalija mogu se koristiti za modelovanje rešavanja ove vrste problema. Ova vrsta obučavanja se postavlja kako bi se identifikovale prevare u онлајн transakcijama.

Delimično nadgledano obučavanje može se koristiti i kada postoji mešavina označenih i neoznačenih podataka, što se često vidi u postavkama velikih preduzeća, kaže Epstein. Amazon je uspeo da poboljša ponudu razumevanje prirodnog jezika u svojoj Alexi obučavanjem algoritmima veštačke inteligencije na mešavini označenih i neoznačenih podataka, kaže ona. To je pomoglo da se poveća tačnost Alexinog reagovanja, kaže ona.

Obučavanje pojačavanjem

Za obučavanje pojačavanjem, puštate mašinu u interakciju sa svojim okruženjem (na primer, guranje oštećenih proizvoda sa transportera u kantu) i obezbeđujete nagradu kada uradi to što želite. Automatizovanjem obračuna nagrade, možete ostaviti mašinu da uči sama. Jedan primer obučavanja pojačavanjem je sortiranje odeće i drugih predmeta u maloprodajnom objektu. Neki trgovci opreme eksperimentišu sa novim tipovima tehnologija, kao što je robotika, za razvrstavanje stvari poput odeće, obuće i dodatne opreme, kaže David Schatski, analitičar konsultantske firme Deloitte koja se fokusira na nove tehnologije i poslovne trendove.

Roboti koriste obučavanje pojačavanjem (kao i duboko obučavanje) kako bi saznali koliko pritiska treba koristiti prilikom hvatanja predmeta i kako najbolje hvatati ove stvari kod inventarisanja, kaže Schatski.

Varijacija obučavanja pojačavanjem je duboko obučavanje pojačavanjem, što je pogodno za autonomno donošenje odluka u kojem nadgledano obučavanje ili nenadgledane tehnike obučavanja ne mogu same da obave posao.

Duboko obučavanje

Duboko obučavanje vrši tipove učenja, kao što je nenadgledano obučavanje ili obučavanje pojačavanjem. Uopšteno gledano, duboko obučavanje podseća na neke aspekte načina na koji ljudi uče, uglavnom koristeći neuronske mreže da bi se sve detaljnije identifikovale karakteristike skupa podataka.

Duboko obučavanje, u obliku dubokih neuronskih mreža (DNN), korišćeno je za ubrzavanje skeniranja velikih sadržaja za otkrivanja lekova, kaže Šatski. To podrazumeva primenu DNN tehnika ubrzanja da bi se obradilo više slika u znatno kraćem vremenu, pri čemu se dobija veći uvid u karakteristike slika koje model na kraju nauči.

Ovaj metod mašinskog obučavanja takođe omogućava mnogim kompanijama da se bore protiv prevara, poboljšavajući stepen otkrivanja koristeći automatizaciju za otkrivanje nepravilnosti.

Duboko učenje se takođe može koristiti u automobilskoj industriji. Jedna kompanija je razvila sistem zasnovan na neuronskim mrežama koji omogućava rano otkrivanje problema sa automobilima, kaže Schatski. Ovaj sistem prepoznaje buku i vibracije, i koristi odstupanja od norme za tumačenje prirode nedostatka. On može da postane deo prediktivnog održavanja, jer utvrđuje vibracije svih pokretnih delova automobila i može da primeti čak i manje promene u njihovim performansama.

Tehnike mašinskog obučavanja

Neuronske mreže

Neuronske mreže su dizajnirane da imitiraju strukturu neurona u ljudskom mozgu, pri čemu se svaki veštački neuron povezuje sa drugim neuronima unutar sistema. Neuronske mreže su raspoređene u slojeve, sa neuronima iz jednog sloja koji prenose podatke u više neurona u sledećem sloju i tako dalje. Na kraju oni stižu u izlazni sloj, gde mreža predstavlja svoje najbolje pretpostavke za rešavanje problema, identifikuje objekat i tako dalje.

Primeri korišćenja neuronskih mreža nalaze se u nizu industrijskih grana:

U nauci o životu i zdravstvenoj zaštiti, one se mogu koristiti za analizu medicinskih slika kako bi se ubrzali dijagnostički procesi i za otkrivanja droga, kaže Schatski.
U telekomunikacijama i medijima, neuronske mreže mogu se koristiti za prevode jezika, otkrivanje prevara i usluge virtuelnih pomoćnika.
U finansijskim uslugama, one se mogu koristiti za otkrivanje prevara, upravljanje portfeljima i za analizu rizika.
U maloprodaji se mogu koristiti za eliminisanje redova za naplatu i personalizovanje iskustva korisnika.

Stabla odlučivanja

Algoritam stabla odlučivanja ima za cilj da klasifikuje stavke tako što identifikuje pitanja o njihovim atributima koja će pomoći u odlučivanju u koju klasu da se stave. Svaki čvor u stablu je pitanje, sa granama koje dovode do dodatnih pitanja o stavkama, dok listovi predstavljaju poslednju klasifikaciju.

Primeri korišćenja stabla odlučivanja mogu da budu izgradnja platformi za upravljanje znanjem za usluge klijentima, predviđanja cena i planiranje proizvoda.

Kompanija za osiguranje može koristiti stablo odlučivanja kada zahteva uvid u vrstu osiguranja i prilagođavanje premije na osnovu potencijalnog rizika, kaže Rai Johnson, glavni naučni savetnik u poslovno tehnološkoj konsultantskoj firmi SPR. Koristeći podatke o lokaciji ukrštene sa podacima o gubicima vezanim za vremenske prilike, mogu se praviti kategorije rizika na osnovu podnetih potraživanja i iznosa rashoda. Onda se mogu proceniti nove primene za osigurane svote prema modelima kako bi se utvrdila kategorija rizika i potencijalni finansijski rezultat, kaže on.

Nasumične šume

Iako se jedno stablo odlučivanja mora obučiti da bi pružalo tačne rezultate, algoritam nasumične šume uzima grupu slučajno kreiranih stabala odlučivanja koja baziraju svoje odluke na različitim skupovima atributa i pušta ih da glasaju o najpopularnijoj klasi. Nasumične šume su svestrani alati za pronalaženje odnosa u skupovima podataka i brzo se obučavaju, kaže Epštajn. Na primer, neželjena elektronska pošta već dugo predstavlja problem, ne samo za korisnike, već i za dobavljače internet usluga koji moraju da upravljaju povećanim opterećenjem na serverima. Kao odgovor na ovaj problem, razvijene su automatizovane metode za filtriranje neželjene pošte od normalne e-pošte, koristeći slučajne šume da brzo i tačno identifikuju neželjenu e-poštu, kaže ona.

Druge upotrebe nasumičnih šuma uključuju identifikovanje bolesti analizom medicinske dokumentacije pacijenta, otkrivanje prevara u bankarstvu, predviđanje obima poziva u pozivnim centrima i prognoziranje dobiti ili gubitaka od kupovine određene akcije.

Grupisanje

Algoritmi grupisanja koriste tehnike kao što su K-sredine, pomeranja sredina ili maksimizacija očekivanja za grupisanje tačaka podataka na osnovu zajedničkih ili sličnih karakteristika. Ovo je nenadgledana tehnika obučavanja koja se može primeniti na probleme klasifikacije. Tehnika grupisanja je naročito korisna kada treba da se segmentira ili kategorizuje, kaže Schatski. Primeri uključuju segmentiranje kupaca po različitim karakteristikama da bi se bolje odredile marketinške kampanje, preporučivali članci vesti za određene čitaoce i za efikasno nametanje politika.

Grupisanje je takođe efikasno da bi se u kompleksnim skupovima podataka otkrivale grupe koje možda nisu očigledne ljudskom oku. Primeri variraju od kategorizacije sličnih dokumenata u bazi podataka, pa do identifikacije lokacija sa velikom verovatnoćom kriminala iz kriminalnih izvještaja, kaže Epstein.

Učenje pravila pridruživanja

Učenje pravila pridruživanja je nenadgledana tehnika koja se koristi u motorima preporuka, za traženje odnosa među promenljivima. Ovo je tehnika koja stoji iza preporuka u stilu „ljudi koji su kupili X su takođe kupili Y“ na mnogim sajtovima e-trgovine, a primeri korišćenja su česti. Konkretan slučaj upotrebe može biti specijalizovana maloprodajna trgovina hranom koja želi da podstakne dodatnu prodaju, kaže Johnson.

Koristila bi ovu tehniku da ispita ponašanje kupaca i obezbedi posebne limenke i pakovanja za proizvode koji slave događaje, sportske timove i tako dalje. Tehnika pravila pridruživanja daje uvide koji mogu da otkriju kada i gde su kupci kupovali omiljenu kombinaciju proizvoda. Upotreba informacija o prošlim kupovinama i vremenskim okvirima omogućava kompaniji proaktivno kreiranje programa nagrađivanja, kaže Johnson, i davanje posebno prilagođenih ponuda za podsticanje buduće prodaje.

Izvor: InfoWorld