Архитектура података

Циљ и исход предмета

Упознавање са различитим архитектурама података, као и неким од техологија за њихову имплементацију. Студент разуме основне принципе и методе имплементације, као и оркестрације најважнијих архитектура података у решавању реалних проблема.

Теоријска настава

Прикупљање, валидација, организовање и складштење података. Репетитивни и нерепетитивни подаци. Структуирани и неструктуирани подаци. Контекстуализација репетитивних неструктуираних података. Животни циклус података. Транформација података. Генеричко моделовање података. Агрегационе структуре. Структуре генерализације и специјализације. Структуре асоцијације. Интеграција података. Интеграција података без ETL – виртуелизација. Континуална интеграција података (Stream Data Integration – SDI). Подаци у силосу. Модел трезора података. Језера (Data Lake) и језерца (Data Pond) података. Мешавина складишта и језера података (Lakehouse). Употреба основних архитектнонских шаблона. Радни токови и односи између података. Архитектура радног тока за пакетну (batch) обраду и обраду у реалном времену (data stream). Комбинована обрада – Lambda архитектура. Kappa архитектура. Delta архитектура и Delta језера података. Архитектура података придружених микросервисима – Data Mesh. Подаци и метаподаци као производеглед постојећих окружења за шел програмирање. Типови података у шел програмирању. Наредбе у шел програмирању. Интерне и екстерне UNIX команде. Контрола тока програма – услови, петље и функције. Евалуација израза и С-изрази. Редирекција улаза и излаза. Шел проширења – проширења преко заграда, тилда проширења, параметарско проширење, командна замена, аритметичко проширење, проширење имена датотеке. Особине језика за шел програмирање. Преглед различитих примена шел програмирања у аутоматизацији софтверских процеса.

Практична настава

На вежбама се пролази кроз циклусе пројектовања, израде и адаптирања радних токова за batch и stream слојеве комбинованих архитектура (lambda, kappa и delta). За batch слој користи се Apache Hadoop, а за stream се користи Apache Storm. Магистрала порука Kafka врши дистрибуцију инфорамција у HDFS (Hadoop File System) и тачака приступа података Storm-а. За свако решење мере се перфомансе и објављују бенчмарк резултати.

1 thought on “Архитектура података”

Comments are closed.