Arhitektura podataka

Cilj i ishod predmeta

Upoznavanje sa različitim arhitekturama podataka, kao i nekim od tehologija za njihovu implementaciju. Student razume osnovne principe i metode implementacije, kao i orkestracije najvažnijih arhitektura podataka u rešavanju realnih problema.

Teorijska nastava

Prikupljanje, validacija, organizovanje i skladštenje podataka. Repetitivni i nerepetitivni podaci. Struktuirani i nestruktuirani podaci. Kontekstualizacija repetitivnih nestruktuiranih podataka. Životni ciklus podataka. Tranformacija podataka. Generičko modelovanje podataka. Agregacione strukture. Strukture generalizacije i specijalizacije. Strukture asocijacije. Integracija podataka. Integracija podataka bez ETL – virtuelizacija. Kontinualna integracija podataka (Stream Data Integration – SDI). Podaci u silosu. Model trezora podataka. Jezera (Data Lake) i jezerca (Data Pond) podataka. Mešavina skladišta i jezera podataka (Lakehouse). Upotreba osnovnih arhitektnonskih šablona. Radni tokovi i odnosi između podataka. Arhitektura radnog toka za paketnu (batch) obradu i obradu u realnom vremenu (data stream). Kombinovana obrada – Lambda arhitektura. Kappa arhitektura. Delta arhitektura i Delta jezera podataka. Arhitektura podataka pridruženih mikroservisima – Data Mesh. Podaci i metapodaci kao proizvodegled postojećih okruženja za šel programiranje. Tipovi podataka u šel programiranju. Naredbe u šel programiranju. Interne i eksterne UNIX komande. Kontrola toka programa – uslovi, petlje i funkcije. Evaluacija izraza i S-izrazi. Redirekcija ulaza i izlaza. Šel proširenja – proširenja preko zagrada, tilda proširenja, parametarsko proširenje, komandna zamena, aritmetičko proširenje, proširenje imena datoteke. Osobine jezika za šel programiranje. Pregled različitih primena šel programiranja u automatizaciji softverskih procesa.

Praktična nastava

Na vežbama se prolazi kroz cikluse projektovanja, izrade i adaptiranja radnih tokova za batch i stream slojeve kombinovanih arhitektura (lambda, kappa i delta). Za batch sloj koristi se Apache Hadoop, a za stream se koristi Apache Storm. Magistrala poruka Kafka vrši distribuciju inforamcija u HDFS (Hadoop File System) i tačaka pristupa podataka Storm-a. Za svako rešenje mere se perfomanse i objavljuju benčmark rezultati.

1 thought on “Arhitektura podataka”

Comments are closed.