Велики подаци

На првом делу предавања приказују се конкретни примери аналитике података. Кроз примере студенти се упознају са отвореним платформама Најм (Knime) и Гефи (Gephi) и сусрећу с концептима: узорак података, кролинг, скрејпинг, примена статистике и машинског учења у аналитици великих података, непотпуни подаци, прљави подаци, аутлајери, каузалност, коректна и некоректна интерпретација резултата, проблематика рангирања, пондерисање параметара, аналитика великог текста, анализа графа друштвене мреже, класификација профила на друштвеним мрежама, препоручивање садржаја, те предвиђање осипања клијената. Студенти се упућују како да се снађу у мноштву технолошких, методолошких и доменских алтернатива коришћења науке о подацима. Задатак студената је да, користећи алате и технике са којима су се упознали, самостално изврше аналитичку обраду података по избору.

На другом делу предавања предочава се разноврсност могућих очекивања од великих података и приказује се шта је то „испод хаубе“, што омогућава брз одговор на та очекивања. Студенти се упућују у основе инфраструктуре која се користи у раду са великим подацима. Приказује се покрет Не само Ес-Ку-Ел (NoSQL), те основни концепти, технике и обрасци потребни за дистрибуирани рад база података. Кроз анализу решења попут Амазон Дајнама (Amazon Dynamo) уводи се концепт база података кључ-вредност. Представљају се документ-оријентисане базе података, са фокусом на Монгу (MongoDB). Кроз осврт на имплементацију Гугл Бигтејбла и кратак преглед технологије GFS/HDFS објашњава се функсионисање колонских база података.

На вежбама се доминантно користе технологије Дел И-Ем-Сија (Dell EMC). Одговара се на питање када у обради великих података користити релационе, а када нерелационе базе података. Дефинише се шта подразумева решење на платформи Хадуп (Hadoop) и разрађује се архитектура Ха-Де-Еф-Ес (HDFS). Пореде се софтверски базирана решења и наменска решења. Студенти на примерима у брижљиво осмишљеној лабораторијској вежби уче како да концепт архитектуре Dell EMC Isilon OneFS искористе за обраду великих података. При томе се упућују како да поставе и скалирају решење, како да управљају сториџима, те како да обезбеде поузданост. На још једној лабораторијској вежби студенти уче како да изврше интеграцију Хадупа и решења у претходно уведеној архитектури, при чему се, поред осталог, ради конфигурисање решења за Ха-Де-Еф-Ес, припрема се сервер Амбари и примењује се платформа Хортонворкс Дејта.