Obuka tokom testiranja mogla bi dovesti do LLM-a efikasnijih za složeno rezonovanje

Autor: Adam Zewe

Primer ARC i BBH zadataka koje model uspešno rešava tek nakon primene obuke tokom testiranja. Izvor: arXiv (2024). DOI: 10.48550/arxiv.2411.07279

Uprkos svim svojim impresivnim mogućnostima, veliki jezički modeli (LLM) često zakažu kada im se zadaju izazovni novi zadaci koji zahtevaju složene veštine rezonovanja.

Dok LLM računovodstvene firme može biti odličan u sumiranju finansijskih izveštaja, isti taj model može neočekivano da zakaže ako mu je zadatak predviđanje tržišnih trendova ili identifikovanje prevarnih transakcija.

Da bi LLM-ovi bili prilagodljiviji, istraživači MIT-a su razmatrali kako bi određena tehnika obuke mogla strateški primeniti da bi se poboljšale performanse modela na nepoznatim, teškim problemima.

Oni dokazuju da obuka tokom testiranja, metod koji uključuje privremeno ažuriranje nekih od unutrašnjih mehanizama modela tokom primene, može dovesti do šestostrukog poboljšanja tačnosti. Istraživači su razvili okvir za implementaciju strategije obuke tokom testiranja koja koristi primere novog zadatka za maksimiziranje ovih dobitaka.

Njihov rad bi mogao da poboljša fleksibilnost modela, omogućavajući gotovom LLM-u da se prilagodi složenim zadacima koji zahtevaju planiranje ili apstrakciju. Ovo bi moglo da dovede do LLM-ova koji bi bili precizniji u mnogim primenama koje zahtevaju logičko zaključivanje, od medicinske dijagnostike do upravljanja lancem snabdevanja.

„Pravo učenje – ono što smo ovde uradili sa obukom tokom testiranja – je nešto što ovi modeli ne mogu sami da urade čim se isporuče. Ne mogu da steknu nove veštine ili da se poboljšaju za neki zadatak. Ali pokazali smo da ako malo pogurate model da bi se obavilo stvarno učenje, vidite da se mogu dogoditi ogromna poboljšanja u performansama“, kaže Ekin Akyürek, doktor nauka ’25, glavni autor studije.

Akyüreku se na radu pridružuju postdiplomci Mehul Damani, Linlu Qiu, Han Guo i Jyotish Pari; student osnovnih studija Adam Zweiger; i viši autori Yoon Kim, vanredni profesor elektrotehnike i računarstva (EECS) i član Laboratorije za računarstvo i veštačku inteligenciju (CSAIL); i Jacob Andreas, vanredni profesor na EECS-u i član CSAIL-a.

Istraživanje će biti predstavljeno na Međunarodnoj konferenciji o mašinskom učenju (ICML 2025), koja se održava u Vankuveru od 13. do 19. jula. Rad je sada dostupan na arXiv preprint serveru.

Rešavanje teških domena

Korisnici LLM-a često pokušavaju da poboljšaju performanse svog modela na novom zadatku koristeći tehniku koja se zove učenje u kontekstu. Oni modelu dostavljaju nekoliko primera novog zadatka kao tekstualne podsticaje koji usmeravaju izlaze modela.

Ali učenje u kontekstu ne zadovoljava uvek za probleme koji zahtevaju logiku i rasuđivanje.

Istraživači MIT-a su razmatrali kako se obuka tokom testiranja može upotrebiti u kombinaciji sa učenjem u kontekstu da bi se poboljšale performanse na ovim izazovnim zadacima. Obuka tokom testiranja uključuje ažuriranje nekih parametara modela – internih promenljivih koje model koristi za vršenje predviđanja – koristeći malu količinu novih podataka specifičnih za konkretan zadatak.

Istraživači su razmatrali kako se obuka tokom testiranja usklađuje sa učenjem u kontekstu. Proučavali su izbore dizajna koji maksimiziraju poboljšanja performansi koje je moguće izvući iz LLM-a opšte namene.

„Otkrili smo da je obuka tokom testiranja mnogo jači oblik učenja. Mada jednostavno davanje primera može umereno povećati tačnost, stvarno ažuriranje modela tim primerima može dovesti do značajno boljih performansi, posebno u zahtevnim oblastima“, kaže Damani.

Učenje u kontekstu zahteva mali skup primera zadataka, sa problemima i njihovim rešenjima. Istraživači koriste ove primere i prave skup podataka specifičan za konkretan zadatak, potreban za obuku tokom testiranja.

Da bi proširili taj skup podataka, oni kreiraju nove ulaze tako što malo menjaju probleme i rešenja u primerima, kao što je horizontalno okretanje nekih ulaznih podataka. Otkrili su da obuka modela na izlazima ovog novog skupa podataka dovodi do najboljih performansi.

Pored toga, istraživači ažuriraju samo mali broj parametara modela koristeći tehniku koja se zove adaptacija niskog ranga, što poboljšava efikasnost procesa obuke tokom testiranja.

„Ovo je važno jer da bi se primenio u stvarnom svetu naš metod mora biti efikasan. Otkrili smo da možete dobiti ogromna poboljšanja u tačnosti sa veoma malom količinom obuke parametara“, kaže Akyürek.

Razvijanje novih veština

Pojednostavljivanje procesa je ključno, jer se obuka tokom testiranja primenjuje na osnovu svake instance, što znači da bi korisnik morao to da uradi za svaki pojedinačni zadatak. Ažuriranja modela su samo privremena, a model se vraća u prvobitni oblik nakon što napravi predviđanje.

Modelu kojem je obično potrebno manje od jednog minuta da odgovori na upit, može biti potrebno pet ili deset minuta da pruži odgovor uz obuku tokom testiranja, dodaje Akyürek.

„Nema potrebe da se ovo radi za sve korisničke upite, ali je korisno ako imate veoma težak zadatak koji želite da ga model dobro reši. Takođe mogu postojati zadaci koji su previše izazovni da bi ih LLM rešio bez ovog metoda“, kaže on.

Istraživači su testirali svoj pristup na dva referentna skupa podataka o izuzetno složenim problemima, kao što su zagonetke za testiranje inteligencije. Povećao je tačnost čak šest puta u odnosu na tehnike koje koriste samo učenje u kontekstu.

Zadaci koji su uključivali strukturirane obrasce ili oni koji su koristili potpuno nepoznate tipove podataka pokazali su najveća poboljšanja performansi.

„Za jednostavnije zadatke, učenje u kontekstu može biti dovoljno. Ali ažuriranje samih parametara može razviti novu veštinu u modelu“, kaže Damani.

U budućnosti, istraživači žele da iskoriste ova saznanja za razvoj modela koji kontinuirano uče.

Dugoročni cilj je LLM koji, nakon zadatog upita, može automatski da utvrdi da li treba da koristi obuku tokom testiranja za ažuriranje parametara, ili može da reši zadatak koristeći učenje u kontekstu, a zatim da implementira najbolju strategiju obuke tokom testiranja bez potrebe za ljudskom intervencijom.

Izvor: TechXplore

Obuka tokom testiranja mogla bi dovesti do LLM-a efikasnijih za složeno rezonovanje

Важни датуми

ШКОЛСКА 2025/2026.

БЕСПЛАТНЕ МАСТЕР И ДОКТОРСКЕ АКАДЕМСКЕ СТУДИЈЕ

Мастер академске студије

Докторске академске студије

Пријемни испит

септембар 2025.

Мастер струковне студије

Припремна настава

Мастер струковне студије

ШКОЛСКА 2026/2027.

Пријемни испит

септембар 2026.

Основне студије

Струковне студије

Припремна настава

Академске студије

Струковне студије

Пријемни испит

јун 2026.

Основне академске студије

Припремна настава

Стипендије на Рачунарском факултету