Obrada prirodnog jezika (MSS)

Cilj predmeta

Upoznavanje sa tehinkama obrade prirodnog jezika i ekstrakcije korisnog znanja iz nestruktuiranog teksta.

Ishod predmeta

Student je osposobljen da izabere i primeni odgovarajuću tehniku obrade prirodnog jezika u specifičnom domenu i da implementira aplikacije koje mogu da interpretiraju jezik čoveka, kao i da generišu tekst na prirodnom jeziku.

Sadržaj predmeta

Teorijska nastava
Osnovi lingvistike. Oblasti obrade prirodnog jezika: preopoznavanje govora, razumevanje prirodnog jezika i generisanje prirodnog jezika. Segmentacija teksta. Prepoznavanje reči i prepoznavanje rečenica. Dvosmislenost jezika. Struktura i morfologija jezika. Struktura izraza. Reči. Kolokacije. Određivanje smisla reči. Nadzirano određivanje smisla. Određivanje smisla pomoću rečnika. Određivanje smisla bez nadzora. Leksička akvizicija. Semantička sličnost. Tagovanje delova teksta. Kategorizacija teksta. Beskontekstna gramatika. N-gram jezički modeli. Verovatnoća stringa. Probabilističko parsiranje. Statističko uređivanje i mašinsko prevođenje. Mašinsko učenje i upotreba dubokih neuronskih mreža. Mašinsko prevođenje upotrebom transformera. Analiza velikih jezičkih modela (Google LaMDA, Meta LlaMA, OpenAI GPT).

Praktična nastava
Pregled jezika i alata za obradu prirodnog jezika. Tokenizacija i detekcija granica rečenice: Punkt i iSentenizer. Morfološka analiza i POS (Part-of-Speech) tagovanje: Stanford POS Tagger, SVMTool, TreeTagger. Sintaksično parsiranje: Epic, StanfordParser, MaltParser, TurboParser. Imenovani entiteti. Programski paketi: Stanford NLP, Natural Language Toolkit (NLTK), GATE. Ekstrakcija relevantnih informacija upotrebom zadate semantike. Eksperimantalna vežba generisanja teksta na prirodnom jeziku.