Obrada prirodnog jezika

Cilj i ishod predmeta

Upoznavanje studenata sa naprednim tehnikama obrade prirodnog jezika i ekstrakcije korisnog znanja iz nestruktuiranog teksta. Student je osposobljen da izabere i primeni odgovarajuću tehniku obrade prirodnog jezika u specifičnom domenu i da implementira aplikacije koje mogu da interpretiraju jezik čoveka, kao i da generišu tekst na prirodnom jeziku.

Teorijska nastava

Osnovi lingvistike. Oblasti obrade prirodnog jezika: preopoznavanje govora, razumevanje prirodnog jezika i generisanje prirodnog jezika. Segmentacija teksta. Prepoznavanje reči i prepoznavanje rečenica. Dvosmislenost jezika. Struktura i morfologija jezika. Struktura izraza. Reči. Kolokacije. Statistička obrada jezika. Statistički estimatori. Kombinovanje estimatora. Određivanje smisla reči. Nadzirano određivanje smisla. Određivanje smisla pomoću rečnika. Određivanje smisla bez nadzora. Leksička akvizicija. Potkategorizacija reči. Selekcijske preference. Semantička sličnost. Markovljevi modeli gramatike. Označavanje delova govora. Probabilistička beskontekstna gramatika. Verovatnoća stringa. Probabilističko parsiranje. Statističko uređivanje i mašinsko prevođenje. Model vektorskog prostora. Model raspodele terma. Latentno semantičko indeksiranje. Segmentacija diskursa. Kategorizacija teksta. Stabla odlučivanja.

Praktična nastava

Pregled jezika i alata za obradu prirodnog jezika. Praktične vežbe sa parsiranjem, tokenizacijom, stemingom, semantičkim rezonovanjem u izabranom alatu (primer Python NLTK) i nad određenim korpusom teksta. Imlepementacija tagovanja elemenata jezika, ekstrakcije entiteta i klasifikacije teksta. Eksperimantalna vežba generisanja teksta na prirodnom jeziku.

5732-obrada-prirodnog-jezika-2