Обрада велике количине података

Циљ и исход предмета

Упознавање са савременим принципима управљања информацијама у системима који се заснивају на великим подацима.

Овладавање основним знањима неопходним за препознавање и решавање проблема везаних за управљање подацима, информацијама и развој информационих система у окружењу великих података.

Теоријска настава

Врсте података. Ентитети. Релације. Атрибути ентитета и релација. Димензионалност података. Структуирани, полуструктуирани и неструктуирани подаци. Складишта података. Метаподаци. Временски променљиви подаци. Узорак података, кролинг, скрејпинг. Примена статистике и машинског учења у аналитици великих података. Квалитет података. Непотпуни подаци, прљави подаци и аутлајери. Каузалност, коректна и некоректна интерпретација резултата, проблематика рангирања и пондерисање параметара. Аналитика великог текста, анализа графа друштвене мреже, класификација профила на друштвеним мрежама, препоручивање садржаја, предвиђање осипања клијената, праћење епидемијских података заразних болести. Студенти се упућују како да се снађу у мноштву технолошких, методолошких и доменских алтернатива анализе великих података.

Практична настава

Практична настава прати садржаје из теоријске наставе и имплементира их на отвореним платформама Hadoop, Knime и Gephi, уз употребу програмских језика Python и R. Врши се интеграција Hadoop у Dell EMC Isilon OneFS архитектуру. Конфигуришу се решења за Hadoop Distributed File System, припрема сервер Ambari и показује употреба платформе Hortonworks Data. Изучавање практичних примера различитих обрада великих података коришћењем Google Health COVID-19 Open Data Repository.

1 thought on “Обрада велике количине података”

Comments are closed.