Циљ и исход предмета
Разумевање принципа и алгоритама рачунарског препознавања говора. Имплементација решења за препознавање говора на различитим платформама. На крају курса, студенти ће моћи да дефинишу различита својства говорног сигнала, да употребе добијена својства за тренирање одговарајућег модела и да употребе тренирани модел за препознавање говора. Моћи ће да имплементирају софтвер за препознавање говора у различитим системским окружењима (персонални рачунари, наменски рачунарски системи и сл.).
Теоријска настава
Моделовање говора. Обрада акустичког сигнала. Одабирање, A/D конверзија и уоквиравање. Филтрирање и употреба прозорске функције. Фуријеова трансформација и спектар снаге улазног сигнала. Промена фреквентне осе и филтрирање по мел скали. Прелаз у логаритамски домен. Инверзна косинусна трансформација, кепстрални коефицијенти и њихови временски параметри. Вектори својстава акустичког сигнала. Марковљеви модели. Скривени Марковљеви модели (HMM). Мешавине Гаусових расподела. Акустички модели. Фонетско моделовање. Робусност у односу на околину (бука, шум, ехо). Полуконтинуални HMM, везивање стања и кластеровање. Тренирање HMM-а. Baum-Welch и Forward- Backward алгоритми. Нормализација говора. Језички модели. N-грам усредњавање. Основна претраживања. Временски синхроно Viterbi Beam претраживање. Stack и А* претраживање. Рад са великим речником. Претраживање по стаблу са језичким моделима. Претраживање на основу граматике. N-multipass претраживачке стратегије. Употреба неуралних мрежа и дубоких неуралних мрежа. Хибридни системи дубоких неуралних мрежа и HMM.
Практична настава
Анализа спектрограма помоћу софтвера за рад са звучним сигналом. Имплементација софтвера који може да снима говор. Алгоритми компресије звучног сигнала. Обрада добијеног сигнала, одсецање, филтрирање и сл. Имплементација и примена (брзе) Фуријеове трансформације. Имплементација система за препознавање говора који јесте / није везан за говорника и формирање тестова за показивање коректности рада система. Имплементација и тестирање HMM система, као и претраживачких алгоритама. Рад са дубоким неуралним мрежама и њихово комбиновање са класичним системима за препознавање говора.