Проналажење информација

Циљ и исход предмета

Разумевање основних аспеката пројектовања и имплементације система за прикупљање, индексирање и претраживање докумената. Студент разуме теоријске основе индексирања и претраживања података и уме да их примени у имплементицији конкретног система за проналажење информација.

Теоријска настава

Претрага текста. Претпроцесирање текста. Булов модел претраживања - инвертовани индекс, процеирање упита, поинтери за прескакање, упити фразе. Векторски модел претраживања - оцена релевантности, фреквенција терма, фреквенција документа, фреквенција колекције, TF-IDF, тежина матрица. Пробабилистички модели претраживања. Фази модел и проширени Булов модел претраживања. Претрага структурираног текста. Претрага веба. Веб претраживачи и веб crawling. Анализа линкова. SEO - Search Engine Optimization. Претрага мултимедијалног садржаја - слике, звука, видеа. Перформансе претраживања. Релевантност. Евалуација перформанси. Унапређење система претраживања - приказ резулата претраге, класификација, кластеровање резултата претраге, relevance feedback, глобално проширење упита.

Практична настава

Преглед доступних алата и библиотека за индексирање и претраживање података. Претраживање релационих и нералицоних база података. Креирање индекса за дати корпус података. Имплементација различитих техника претраживања над креираним индексом и поређење квалитета резултата. Поређење перформанси претраживања. Примена техника за унапређење система претраживања. Аутоматско преузимање података са веба техникама data scraping и data crawling. Индексирање преузетих података. Претраживање преузетих података. Имплементација претраживања мултимедијалног садржаја.