Студент Рачунарског факултета Вања Ковинић је у среду, 4. септембра 2024. године одбранио дипломски рад на тему Слика је вредна 16×16 речи: Vision Трансформери пред комисијом коју су чинили ментор др Немања Илић и члан др Невена Марић.
У уводу свог рада Вања је истакао следеће:
Овај дипломски рад истраоује Vision Tranformere (ViТ), нов приступ у области рачунарског вида који користи архитектуру трансформера првобитно развијену за обраду природног језика. Први део рада пружа детаљан преглед архитектуре трансформера, укључујући кључне компоненте као што су self-attention механизам и позиционо енкодовање, и дискутује њихове сврхе и функционалности. Након тога, фокус се пребацује на Vision Трансформере, објашњавајући како се слике трансформишу у токене и обрађују кроз енкодер трансформера како би се применили на решавање визуелних задатака.
Рад затим улази у практичне аспекте имплементације Vision Трансформера, укључујући избор и подешавање хиперпараметара за побољшање перформанси. Извршено је и поређење са референтним имплементацијама, и предложен приступ за побољшање перформанси. Приказани су различити експерименти, заједно са дискусијом њихових резултата, пружајући увид у екасност и изазове повезане са Vision Трансформерима.
…
Кроз имплементацију и експерименталне резултате, показано је да ViT модели могу успешно да обраде слике и постигну конкурентне резултате. Експерименти су обухватили употребу фиксних насупрот позиционим векторима који се уче, утицај уклањања [CLS] токена на перформансе модела, и анализу утицаја величине patch-eвa на време обуке и прецизност модела. Резултати су показали да фиксни и позициони вектори који се уче имају сличне
перформансе, док је уклањање [CLS] токена имало минималан утицај на перформансе, али је значајно смањило време обуке. Такође, величина patcheva има утицај на време обуке, с мањим patchevima који могу да унапреде екасност модела. – закључио је Вања.
Фотографије са одбране налазе се у галерији.