Циљ предмета
Упознавање са техинкама обраде природног језика и екстракције корисног знања из неструктуираног текста.
Исход предмета
Студент је оспособљен да изабере и примени одговарајућу технику обраде природног језика у специфичном домену и да имплементира апликације које могу да интерпретирају језик човека, као и да генеришу текст на природном језику.
Садржај предмета
Теоријска настава
Основи лингвистике. Области обраде природног језика: преопознавање говора, разумевање природног језика и генерисање природног језика. Сегментација текста. Препознавање речи и препознавање реченица. Двосмисленост језика. Структура и морфологија језика. Структура израза. Речи. Колокације. Одређивање смисла речи. Надзирано одређивање смисла. Одређивање смисла помоћу речника. Одређивање смисла без надзора. Лексичка аквизиција. Семантичка сличност. Таговање делова текста. Категоризација текста. Бесконтекстна граматика. N-gram језички модели. Вероватноћа стринга. Пробабилистичко парсирање. Статистичко уређивање и машинско превођење. Машинско учење и употреба дубоких неуронских мрежа. Машинско превођење употребом трансформера. Анализа великих језичких модела (Google LaMDA, Meta LlaMA, OpenAI GPT).
Практична настава
Преглед језика и алата за обраду природног језика. Токенизација и детекција граница реченице: Punkt и iSentenizer. Морфолошка анализа и POS (Part-of-Speech) таговање: Stanford POS Tagger, SVMTool, TreeTagger. Синтаксично парсирање: Epic, StanfordParser, MaltParser, TurboParser. Именовани ентитети. Програмски пакети: Stanford NLP, Natural Language Toolkit (NLTK), GATE. Екстракција релевантних информација употребом задате семантике. Експеримантална вежба генерисања текста на природном језику.