Студент Вања Матовић одбранио је дипломски рад на тему „Препознавање позе објекта помоћу модела дубоког учења за рачунарску визију“

Студент Рачунарског факултета Вања Матовић је у уторак, 25. октобра 2022. године одбранио дипломски рад на тему Препознавање позе објекта помоћу модела дубоког учења за рачунарску визију пред комисијом коју су чинили ментор др Немања Илић и члан др Јелена Васиљевић.

У уводу свог рада Вања је истакао следеће:

Ми прилично потцењујемо колико смо добри у интерпретирању визуелних информација. У тренутку можемо да препознамо објекат или специфичну особу, можемо да закључимо како се осећају на основу израза лица, и можемо свашта да закључимо о објекту на основу осенчења, светлости, волумена, удаљености… Ако је то веома лак задатак за људе зашто не би био и за компјутере? Некада су научници сматрали да би компјутери имали више потешкоћа са логичким закључивањем него са сликама. Испоставило се да то није тачно и да чак компјутерима лакше иде логика него интерпретација слика. Видећемо зашто тај проблем није тривијалан.


У овом раду је укратко представљена област компјутерске визије. Чак и кроз релативно једноставан алгоритам најближих суседа смо описали концепте попут тренирања, поделе слика на обучавајуће и тестне скупове, хиперпараметре, крос валидације… Затим смо са линеарним класификаторима били корак ближе оптималном решењу где смо могли да визуелизујемо параметре, опишемо појмове оптимизације итд.

Композиција линеарних функција са активационим функцијама представља дубоку неуралну мрежу. Варијанта те мреже која се углавном бави сликама је конволуциона неурална мрежа. Ефикаснија је, а и хвата информације на сличан начин као што би мозак то урадио. AlexNet је први успешан CNN, и сви његови следбеници су доградње тога.

Кроз апликацију смо видели примену CNN-а у виду детекције објеката и препознавања позе. Област детекције је изузетно развијена и примењује се у детектовању маске, детектовању пешака ако се возило само креће и чак у детектовању тумора. Овде смо само загребали површину компјутерске визије, пошто могу на пример да се користе рекурентне неуралне мреже за избацивање дескрипције слике или генеративни модели за генерисање слика људи који не постоје или уметничких слика засновани на упиту. – закључио је Вања.

Фотографије са одбране доступне су у галерији.