Šta su veliki jezički modeli i kako funkcionišu?

Pošto je generativna veštačka inteligencija u modi, razmotrićemo kako funkcioniše veliki jezički model.

Veliki jezički modeli (Large language model – LLM) su osnovna tehnologija koja je pokrenula neverovatan uspon chat robota opremljenih generativnom veštačkom inteligencijom. Alati kao što su ChatGPT, Google Bard i Bing Chat se oslanjaju na velike jezičke modele za generisanje odgovora, koji zvuče kao ljudski, na upite i pitanja koje ste im postavili.

Šta su veliki jezički modeli i kako funkcionišu? Ovde ćemo to pokušati da objasnimo.

Šta je veliki jezički model?

Najjednostavnije rečeno, veliki jezički model je ogromna baza tekstualnih podataka na koju se može referencirati za generisanje ljudskih odgovora na vaše upite. Tekst odgovora potiče iz niza izvora i može sadržati milijarde reči.

Među uobičajenim izvorima tekstualnih podataka koji se koriste su:

Literatura. Veliki jezički modeli često sadrže ogromne količine savremene i klasične literature. U ovom izvoru se nalaze knjige, poezija i drame.

Onlajn sadržaj. Veliki jezički model najčešće sadrži veliki repozitorijum onlajn sadržaja, uključujući blogove, sadržaj sa veba, pitanja i odgovore na forumu i druge tekstove na mreži.

Vesti i aktuelni događaji: Neki veliki jezički modeli, ali ne svi, mogu da pristupe aktuelnim vestima. Određeni veliki jezički modeli, kao što je GPT-3.5, ograničeni su u ovom smislu.

Društvene mreže i platforme: Društvene mreže predstavljaju ogroman resurs prirodnog jezika. Veliki jezički modeli koriste tekst sa glavnih platformi kao što su Facebook, Twitter i Instagram.

Naravno, posedovanje ogromne baze tekstualnih podataka je jedna stvar, ali veliki jezički modeli moraju da budu obučeni da sve to razumeju da bi generisali odgovore koji zvuče kao ljudski. Kako to uspevaju da postignu?

Kako rade veliki jezički modeli?

Kako veliki jezički modeli koriste te repozitorijume da bi kreirali svoje odgovore? Prvi korak je analiza podataka pomoću procesa koji se zove duboko učenje.

Duboko učenje se koristi za identifikaciju obrazaca i nijansi ljudskog jezika. To obuhvata sticanje sposobnosti za razumevanje gramatike i sintakse. Što je još važnije, ta sposobnost uključuje i razumevanje konteksta, a to je najvažniji deo velikog jezičkog modela.

Da bismo pokazali koliko je važan kontekst, prosledili smo upit koji ima veze sa slepim miševima koje smo videli prethodne noći (engl. bat – slepi miš; palica za bejzbol). Iz toga je ChatGPT shvatio da govorimo o životinji, a ne o bejzbol palici. Naravno, drugi chatbotovi kao što su Bing Chat ili Google Bard, na to mogu da odgovore potpuno drugačije.

Međutim, veštačke inteligencije nisu nepogrešive. U slučaju koji smo spomenuli (slepi miševi i bejzbol palice), može nam se dogoditi da ne dobijemo željeni odgovor ako ne pružimo neke dodatne informacije. U spomenutom slučaju, pokušali smo da prevarimo inteligentne programe i pitali smo ih od čega su napravljeni (slepi miševi/palice). Jedan od njih je pogrešno shvatio kontekst pitanja, ali kad smo malo bolje precizirali upit, dobili smo željeni odgovor. Ipak, i ljudi mogu pogrešno da shvate kontekst pitanja, i potrebna im je samo dodatna poruka da se dobije pravi odgovor.

Da bi generisali te odgovore, veliki jezički modeli koriste tehniku koja se zove generisanje prirodnog jezika (natural language generation – NLG). Taj proces obuhvata ispitivanje unosa i korišćenje obrazaca naučenih iz repozitorijuma podataka da bi se generisao kontekstualno ispravan i relevantan odgovor.

Međutim, veliki jezički modeli idu dublje u tom procesu. Oni mogu da prilagode odgovore tako da odgovaraju emocionalnom tonu unosa. Kada se ta sposobnost kombinuje sa razumevanjem konteksta, onda možemo da kažemo da su te dve odlike glavni pokretači koji omogućavaju velikim jezičkim modelima da kreiraju odgovore koji liče na ljudske.

Ukratko, veliki jezički modeli koriste ogromnu bazu tekstualnih podataka sa kombinacijom dubokog učenja i tehnika generisanja prirodnih jezika za kreiranje odgovora, koji liče na ljudske, na vaše upite. Međutim, postoje i određena ograničenja.

Ograničenja velikih jezičkih modela

Veliki jezički modeli predstavljaju impresivno tehnološko dostignuće. Ipak, tehnologija je daleko od savršenstva i još uvek postoji mnogo ograničenja u pogledu onoga što mogu da postignu. Navešćemo neka od najznačajnijih.

 Razumevanje konteksta. Ovo smo spomenuli kao sposobnost velikih jezičkih modela, koja je obuhvaćena njihovim odgovorima. Međutim, oni ne shvataju kontekst uvek onako kako treba i često nisu u stanju da ga razumeju, što dovodi do neprikladnih ili jednostavno pogrešnih odgovora.

 Pristrasnost: Bilo koja pristrasnost prisutna u podacima za obuku često može biti prisutna i u odgovorima. To obuhvata predrasude prema polu, rasi, geografskom položaju i kulturi.

 Zdrav razum: Zdrav razum je teško izmeriti, ali ljudi ga stiču od ranog detinjstva jednostavno posmatrajući svet oko sebe. Veliki jezički modeli nemaju to unutrašnje i stečeno iskustvo na koje bi mogli da se oslone. Oni razumeju samo ono što im je dato kroz podatke za obuku, a to im ne pruža istinsko razumevanje sveta u kome postoje.

 Veliki jezički model je kvalitetan onoliko koliko su kvalitetni podaci na kojima se obučava. Tačnost i preciznost nikada nisu zagarantovane. Dobro nam je poznat stav, koji ne važi samo u računarskoj nauci, već i u svim sferama života, da od onoga što ste uneli, recimo, u računar, zavisiće i rezultati koje ćete konačno dobiti. Veliki jezički modeli su dobri onoliko koliko im kvalitet i kvantitet podataka na kojima su obučavani to dozvoljavaju.

Postoji i stav da se etički problemi mogu smatrati ograničenjem velikih jezičkih modela, ali ovom temom se za sada nećemo baviti.

Tri primera popularnih velikih jezičkih modela

Veliki jezički modeli sada u velikoj meri podržavaju kontinuirani napredak veštačke inteligencije. Dakle, iako nisu baš nova tehnologija, oni su sigurno dostigli tačku kritičnog razvoja. Navešćemo neke od najčešće korišćenih velikih jezičkih modela.

1. GPT

GPT (Generative Pre-trained Transformer) ili generativni unapred obučeni transformator, možda je najpoznatiji veliki jezički model. GPT-3.5 pokreće ChatGPT platformu, koju smo koristili za primere u ovom članku, dok je najnovija verzija, GPT-4, dostupna preko ChatGPT Plus pretplate. Microsoft takođe koristi najnoviju verziju u svojoj Bing Chat platformi.

2. LaMDA

Google Bard, veštački inteligentan pričljivi bot, je u početku koristio ovaj veliki jezički model, koji je opisan kao laka verzija velikog jezičkog modela. Kasnije je zamenjen moćnijim modelom PaLM.

3. BERT

BERT je skraćenica od Bi-directional Encoder Representation from Transformers. BERT se zbog dvosmernih karakteristike modela razlikuje od drugih velikih jezičkih modela kao što je GPT.

Do sada je razvijeno mnogo velikih jezičkih modela, a sasvim je uobičajeno da se iz njih razvijaju manji. Kako se budu razvijali, postajaće složeniji, precizniji i tačniji. Kakva se budućnost predviđa za velike jezičke modele?

Budućnost velikih jezičkih modela

Oni će nesumnjivo oblikovati proces naše saradnje sa tehnologijom u budućnosti. Brzo usvajanje modela kao što su ChatGPT i Bing Chat svedoči o tome. Što se kratkoročnih predviđanja tiče, malo je verovatno da će vas veštačka inteligencija zameniti na poslu. Ipak, još postoji neizvesnost o tome koliko će veliku ulogu imati u našem životu u budućnosti.

Etički argumenti još mogu da utiču na to kako integrišemo te alate u društvo. Međutim, ako to stavimo na stranu, neki od očekivanih smerova razvoja velikih jezičkih modela obuhvataju:

 Poboljšana efikasnost. Pošto veliki jezički modeli sadrže stotine miliona parametara, stalno su im potrebni novi resursi. Uz poboljšanja hardvera i algoritama, verovatno će postati energetski efikasniji, a to će skratiti vreme generisanja odgovora.

 Poboljšana svest o kontekstu. Veliki jezički modeli se samoobučavaju, odnosno, što se više koriste i što više povratnih informacija dobiju, postaju bolji. Ovde je važno napomenuti da u daljem procesu njihovog razvoja nije potrebna velika angažovanost inženjera. Kako tehnologija bude napredovala, doći će do poboljšanja jezičkih sposobnosti i svesti o kontekstu.

 Obučavanje za specifične zadatke. Univerzalni alati velikih jezičkih modela koji su javno dostupni skloni su greškama. Međutim, kako se razvijaju i dok ih korisnici obučavaju za specifične potrebe, veliki jezički modeli mogu da igraju veliku ulogu u oblastima, kao što su medicina, pravo, finansije i obrazovanje.

 Šira integracija. Veliki jezički modeli bi mogli da postanu lični digitalni asistenti. Pomislite na Siri na steroidima i shvatićete. Veliki jezički modeli bi mogli da postanu virtuelni asistenti koji vam pomažu u svemu, od predlaganja obroka do bavljenja prepiskom.

Naveli smo samo neke od oblasti u kojima će veliki jezički modeli zauzimati veliki deo našeg života.

Veliki jezički modeli nas menjaju i podučavaju

Veliki jezički modeli nas uvode u uzbudljiv svet raznovrsnih mogućnosti. Brz razvoj pričljivih botova kao što su ChatGPT, Bing Chat i Google Bard dokaz je da postoje ogromni resursi koje treba iskoristiti.

Zbog takvog umnožavanja resursa, alati postaju moćniji, svestraniji i tačniji. Potencijalne primene takvih alata su ogromne, a trenutno smo samo zagrebali površinu neverovatnog novog resursa.