Student Računarskog fakulteta Vanja Kovinić je u sredu, 4. septembra 2024. godine odbranio diplomski rad na temu Slika je vredna 16×16 reči: Vision Transformeri pred komisijom koju su činili mentor dr Nemanja Ilić i član dr Nevena Marić.
U uvodu svog rada Vanja je istakao sledeće:
Ovaj diplomski rad istraouje Vision Tranformere (ViT), nov pristup u oblasti računarskog vida koji koristi arhitekturu transformera prvobitno razvijenu za obradu prirodnog jezika. Prvi deo rada pruža detaljan pregled arhitekture transformera, uključujući ključne komponente kao što su self-attention mehanizam i poziciono enkodovanje, i diskutuje njihove svrhe i funkcionalnosti. Nakon toga, fokus se prebacuje na Vision Transformere, objašnjavajući kako se slike transformišu u tokene i obrađuju kroz enkoder transformera kako bi se primenili na rešavanje vizuelnih zadataka.
Rad zatim ulazi u praktične aspekte implementacije Vision Transformera, uključujući izbor i podešavanje hiperparametara za poboljšanje performansi. Izvršeno je i poređenje sa referentnim implementacijama, i predložen pristup za poboljšanje performansi. Prikazani su različiti eksperimenti, zajedno sa diskusijom njihovih rezultata, pružajući uvid u ekasnost i izazove povezane sa Vision Transformerima.
…
Kroz implementaciju i eksperimentalne rezultate, pokazano je da ViT modeli mogu uspešno da obrade slike i postignu konkurentne rezultate. Eksperimenti su obuhvatili upotrebu fiksnih nasuprot pozicionim vektorima koji se uče, uticaj uklanjanja [CLS] tokena na performanse modela, i analizu uticaja veličine patch-eva na vreme obuke i preciznost modela. Rezultati su pokazali da fiksni i pozicioni vektori koji se uče imaju slične
performanse, dok je uklanjanje [CLS] tokena imalo minimalan uticaj na performanse, ali je značajno smanjilo vreme obuke. Takođe, veličina patcheva ima uticaj na vreme obuke, s manjim patchevima koji mogu da unaprede ekasnost modela. – zaključio je Vanja.
Fotografije sa odbrane nalaze se u galeriji.