Cilj i ishod predmeta
Upoznavanje sa savremenim principima upravljanja informacijama u sistemima koji se zasnivaju na velikim podacima.
Ovladavanje osnovnim znanjima neophodnim za prepoznavanje i rešavanje problema vezanih za upravljanje podacima, informacijama i razvoj informacionih sistema u okruženju velikih podataka.
Teorijska nastava
Vrste podataka. Entiteti. Relacije. Atributi entiteta i relacija. Dimenzionalnost podataka. Struktuirani, polustruktuirani i nestruktuirani podaci. Skladišta podataka. Metapodaci. Vremenski promenljivi podaci. Uzorak podataka, kroling, skrejping. Primena statistike i mašinskog učenja u analitici velikih podataka. Kvalitet podataka. Nepotpuni podaci, prljavi podaci i autlajeri. Kauzalnost, korektna i nekorektna interpretacija rezultata, problematika rangiranja i ponderisanje parametara. Analitika velikog teksta, analiza grafa društvene mreže, klasifikacija profila na društvenim mrežama, preporučivanje sadržaja, predviđanje osipanja klijenata, praćenje epidemijskih podataka zaraznih bolesti. Studenti se upućuju kako da se snađu u mnoštvu tehnoloških, metodoloških i domenskih alternativa analize velikih podataka.
Praktična nastava
Praktična nastava prati sadržaje iz teorijske nastave i implementira ih na otvorenim platformama Hadoop, Knime i Gephi, uz upotrebu programskih jezika Python i R. Vrši se integracija Hadoop u Dell EMC Isilon OneFS arhitekturu. Konfigurišu se rešenja za Hadoop Distributed File System, priprema server Ambari i pokazuje upotreba platforme Hortonworks Data. Izučavanje praktičnih primera različitih obrada velikih podataka korišćenjem Google Health COVID-19 Open Data Repository.
1 thought on “Obrada velike količine podataka”
Comments are closed.