Студент Рачунарског факултета Давид Илић је у четвртак, 15. јануара 2026. године одбранио дипломски рад на тему Имплементација напада закључивања о чланству на језичке моделе усклађене методом директне оптимизације преференција пред комисијом коју су чинили ментор др Немања Илић и члан др Јелена Васиљевић.
У уводу свог рада Давид је истакао:
Овај рад представља имплементацију и евалуацију напада закључивања о чланству (Membership Inference Attacks, MIA) на језичке моделе усклађене методом директне оптимизације преференција (Direct Preference Optimization, DPO). Имплементација је реализована у програмском језику Python уз библиотеке Transformers и PyTorch. Имплементиране су две методе напада: PREMIA [1], која је специфично дизајнирана за DPO моделе, и SPV-MIA [2], која је оригинално развијена за стандардне језичке моделе и у оквиру овог рада је адаптирана за DPO контекст.
Велики језички модели данас чине основу многих система вештачке интелигенције. Након иницијалног тренирања на корпусима текста, ови модели пролазе кроз фазу усклађивања са људским преференцијама како би генерисали одговоре који су корисни и безбедни. DPO алгоритам [3] представља једну од популарних метода усклађивања која директно оптимизује модел на паровима преферираних и непреферираних одговора, без потребе за засебним моделом награде.
…
Напади закључивања о чланству на DPO моделе представљају растућу област истраживања са значајним импликацијама за приватност. Овај рад доприноси разумевању ове области демонстрирајући важност коришћења метода специфичних за циљну парадигму тренирања и пружајући емпиријску евиденцију о границама преносивости постојећих техника.
Како језички модели постају све присутнији у свакодневним апликацијама, разумевање и смањење ризика по приватност постаје све важније. Овај рад у том смислу може послужити као корисна референца за истраживаче и практичаре који раде на безбедности и приватности система машинског учења. – закључио је Давид.