Šta je to rudarenje podataka? Pronalaženje obrazaca i trendova u podacima

Rudarenje podataka, koje se ponekad naziva i otkrivanje znanja, je proces probiranja velikih količina podataka radi izolovanja korelacija, obrazaca i trendova.

Definicija rudarenja podataka

Rudarenje podataka (engl. Data mining), koje se ponekad koristi kao sinonim za „otkrivanje znanja“, je proces probiranja velike količine podataka radi pronalaženja korelacija, obrazaca i trendova. To je podskup nauke o podacima koji koristi statističke i matematičke tehnike zajedno sa mašinskim učenjem i sistemima baza podataka. Posebna interesna grupa Asocijacije za računarske mašine za otkrivanje znanja i rudarstvo podataka (SigKDD – Special Interest Group on Knowledge Discovery and Data Mining) definiše je kao nauku o izvlačenju korisnog znanja iz ogromnih skladišta digitalnih podataka stvorenih računarskim tehnologijama.

Zamisao izdvajanja obrazaca iz podataka nije nova, ali savremeni koncept rudarenja podataka počeo je da se oblikuje 1980-ih i 1990-ih godina kada su upravljanje bazama podataka i tehnike mašinskog učenja počeli da se koriste za proširivanje ručnih procesa.

Rudarenje podataka i analitika podataka

Pojmovi analitika podataka i rudarenje podataka se često spajaju, ali se analiza podataka može shvatiti kao podskup rudarenja podataka. Rudarenje podataka se fokusira na čišćenje sirovih podataka, pronalaženje obrazaca, kreiranje modela, a zatim testiranje tih modela, kako kaže prodavac analitike Tableau. S druge strane, analitika podataka je deo rudarenja podataka usredsređen na izvlačenje uvida iz podataka. Njen cilj je da se na podatke primene statističke analize i tehnologije kako bi se pronašli trendovi i rešavali problemi.

Poslovna vrednost rudarenja podataka

Rudarenje podataka se koristi u kompanijama u širokom spektru industrija za pregledanje njihovih podataka radi uočavanja trendova i donošenja boljih poslovnih odluka. Medijske i telekomunikacione kompanije koriste svoje podatke o klijentima kako bi bolje shvatile ponašanje kupaca. Osiguravajuća društva koriste rudarenje podataka za efikasnije određivanje cena svojih proizvoda i za stvaranje novih proizvoda. Pedagozi sada koriste podatke iz rudarenja kako bi otkrili obrasce u uspehu učenika i identifikovali problematična područja na kojima bi im mogla biti potrebna posebna pažnja. Prodavci na malo koriste rudarenje podataka kako bi bolje razumeli svoje klijente i pravili visoko ciljane kampanje.
Slučajevi korišćenja rudarenja podataka uključuju sledeće:

  • Katolička služba za pomoć (CRS) koristi prikupljanje podataka i mašinsko učenje kao pomoć u pružanju humanitarne pomoći širom sveta. Razvili su merne pokazatelje za analizu otpornosti (MIRA), protokol za visokofrekventno prikupljanje podataka koji prikuplja informacije o meteorološki izazvanim „šokovima“ u zajednicama u jugoistočnoj Africi. On šalje podatke u algoritme za mašinsko učenje kako bi se utvrdilo koja će domaćinstva biti izložena riziku od nestašice hrane zbog tih šokova.
  • Bank of America koristi rudarenje podataka, mašinsko učenje i veštačku inteligenciju da preciznije identifikuje početne investitore za javne ponude (IPO). Oni su stvorili mašinu PRIAM (Predictive Intelligence Analitics Machine), sistem veštačke inteligencije za predviđanje transakcija koji koristi mrežu nadziranih algoritama za mašinsko učenje da bi otkrio trendove u odnosima između bankara i investitora bankarskog tržišta kapitala (ECM).
  • Hipotekarni procesor kompanije Ellie Mae koristi rudarenje podataka o napadima softverom za iznudu otkupa da bi se identifikovali pokazatelji kompromisa (IOC – indicators of compromise). Ti IOC pokazatelji se kombinuju sa obaveštajnim podacima o pretnjama, prediktivnom analitikom i veštačkom inteligencijom u projektu Autonomous Threat Hunting for Advanced Persistent Threats ove kompanije .

Tehnike rudarenja podataka

Rudarenje podataka koristi niz alata i tehnika. Prema stručnjaku za integraciju i integritet podataka Talendu, najčešće korišćene funkcije uključuju:

  • Čišćenje i priprema podataka. Da bi podaci mogli da se analiziraju i obrade, morate da identifikujete i uklonite greške, kao i da utvrdite koji podaci nedostaju.
  • Rudarenje podataka često koristi veštačku inteligenciju u zadacima vezanim za planiranje, učenje, zaključivanje i rešavanje problema.
  • Učenje pravila asocijacija. Poznati i kao analiza tržišne korpe, ovi alati se koriste za traženje odnosa između promenljivih u skupu podataka. Prodavac ih može koristiti za utvrđivanje koji se proizvodi obično kupuju zajedno.
  • Grupisanje se koristi za podelu skupa podataka na smislene potklase radi razumevanja strukture podataka.
  • Analitika podataka. Analitika podataka je proces izvlačenja uvida iz podataka.
  • Skladištenje podataka. Skladište podataka je zbirka poslovnih podataka. To je temelj za većinu rudarenja podataka.
  • Mašinsko učenje. Mašinsko učenje pomaže u automatizaciji procesa pronalaženja obrazaca u vašim podacima.
  • Ova tehnika se koristi sa konkretnim skupom podataka za predviđanje vrednosti kao što su prodaja, temperature ili cene akcija.

Proces rudarenja podataka

Standardni industrijski proces za rudarenje podataka (CRISP-DM) je procesni model u šest koraka koji je objavljen 1999. godine radi standardizacije procesa rudarenja podataka u svim industrijama. Šest faza u okviru CRISP-DM su: razumevanje poslovanja, razumevanje podataka, priprema podataka, modeliranje, procenjivanje i implementacija.

Razumevanje poslovanja

Ova faza se odnosi na razumevanje ciljeva, zahteva i opsega projekta. Sastoji se od četiri zadatka: utvrđivanje poslovnih ciljeva razumevanjem onoga što poslovni akteri žele da postignu; procena situacije radi utvrđivanja dostupnosti resursa, zahteva projekta, rizika i nepredviđenih okolnosti; utvrđivanje kako uspeh izgleda iz tehničke perspektive; i definisanje detaljnih planova za svaki projektni alat zajedno sa odabirom tehnologija i alata.

Razumevanje podataka

Sledeća faza uključuje identifikovanje, prikupljanje i analizu skupova podataka neophodnih za postizanje ciljeva projekta. Takođe sadrži četiri zadatka: prikupljanje početnih podataka, opisivanje podataka, istraživanje podataka i proveru kvaliteta podataka.

Priprema podataka

Ovo je često najveći deo svakog projekta i sastoji se od pet zadataka: odabir skupova podataka i dokumentovanje razloga za uključivanje/isključivanje, čišćenje podataka, konstruisanje podataka izvođenjem novih atributa iz postojećih podataka, integracija podataka iz više izvora i formatiranje podataka.

Modeliranje

Izgradnja modela na osnovu podataka ima četiri zadatka: odabir tehnika modeliranja, generisanje testova, izgradnju modela i procenu modela.

Procenjivanje

Dok faza modeliranja uključuje procenu tehničkog modela, ova faza se odnosi na utvrđivanje koji model najbolje zadovoljava poslovne potrebe. Uključuje tri zadatka: procenu rezultata, pregled procesa i utvrđivanje sledećih koraka.
Implementacija

Završna faza je stavljanje modela u rad. Uključuje četiri zadatka: razvoj i dokumentovanje plana za implementaciju modela, razvoj plana praćenja i održavanja, izradu konačnog izveštaja i pregled projekta.

ASUM-DM

2015. godine IBM je objavio proširenje za CRISP-DM pod nazivom Analitics Solutions Unified Method for Data Mining (ASUM-DM). On uzima CRISP-DM kao osnovu, ali gradi fazu implementacije tako da uključuje saradnju, kontrolu verzija, bezbednost i usklađenost.

Softver i alati za rudarenje podataka

Za podršku svojih napora kompanije koriste različite softvere i alate za rudarenje podataka. Neki od popularnijih softvera i alata uključuju:

  • Apache Spark. Ova platforma za mašinsko učenje sa otvorenim kodom može se integrisati putem API-ja i koristi distribuirano računarstvo u memoriji za analizu masovnih skupova podataka.
  • IBM SPSS Modeler. IBM -ovo rešenje za nauku o vizuelnim podacima i mašinsko učenje može se koristiti za pripremu podataka, otkrivanje, prediktivnu analitiku, upravljanje modelima i primenu.
  • Platforma otvorenog koda Knime namenjena je analizi podataka, izveštavanju i integraciji.
  • Oracle Data Mining (ODM). ODM je deo Oracle Database Enterprise Edition i nudi algoritme za rudarenje podataka i analizu podataka za klasifikaciju, predviđanje, regresiju, asocijacije, izbor funkcija, otkrivanje anomalija, izdvajanje funkcija i specijalizovanu analitiku.
  • Orange Data Mining. Orange je alat za vizuelizaciju podataka otvorenog koda, mašinsko učenje i rudarenje podataka.
  • Ovaj programski jezik otvorenog koda i okruženje slobodnog softvera naširoko koriste rudari podataka. Osnovan od strane Revolution Analitics, R takođe ima komercijalnu podršku i proširenja. Microsoft je kupio Revolution Analitics 2015. godine i integrisao je R sa svojim ponudama SQL Servera, Power BI, Azure SQL Managed Instance, Azure Cortana Intelligence, Microsoft ML Server i Visual Studio 2017. Oracle, IBM i Tibco takođe podržavaju R u svojoj ponudi .
  • Namenjena timovima, platforma za nauku o podacima RapidMiner podržava pripremu podataka, mašinsko učenje i primenu modela predviđanja.
  • SAS Enterprise Miner. SAS Enterprise Miner ima za cilj stvaranje prediktivnih i opisnih modela na velikim količinama podataka iz izvora u celoj organizaciji.
  • Sisense -ov BI stek pokriva sve, od baze podataka preko ETL -a i analitike do vizualizacije.

Poslovi rudarenja podataka

Rudarenje podataka najčešće vrše naučnici ili analitičari podataka. Evo nekih od najpopularnijih naziva poslova koji se odnose na rudarenje podataka i prosečne plate za svaku poziciju, prema podacima PayScale -a:

  • Analitičar poslovnih informacija: $52.000-$90.000
  • Arhitekta poslovnih informacija: $72.000-$140.000
  • Programer poslovnih informacija: $62.000-$109.000
  • Analitičar podataka: $43.000-90.000
  • Inženjer podataka: $44.000-$141.000
  • Naučnik podataka: $66.000-$130.000
  • Viši analitičar podataka: $63.000-$108.000
  • Statističar: $44.000-$159.000

Izvor: CIO

6500-xa-sta-je-to-rudarenje-podataka-pronalazenje-obrazaca-i-trendova-u-podacima-xa