Alatima veštačke inteligencije ponestaje podataka za obuku, ali rešenja postoje

Najvažnije ukratko

Veštačka inteligencija bi mogla da ostane bez visokokvalitetnih podataka do 2026. godine, ali sve veći broj podataka koji se svake godine dodaju na internet nudi potencijalna rešenja.
Veštačka inteligencija bi mogla da se podstakne da zaboravi podatke niskog kvaliteta, što bi dovelo do razvoja metoda za selektivno „odučavanje“ od nekih podataka.
Tehnologija prepoznavanja govora pružila bi podatke iz video-zapisa i sa potkasta za obuku veštačke inteligencije, dok sintetički podaci nude buduće rešenje za razvoj veštačke inteligencije.

Podaci koji su potrebni za obuku veštačke inteligencije su ograničeni. Dakle, kako bismo još mogli da obučavamo veštačku inteligenciju da bi nastavila da se razvija i da bi nam bila korisna?

Iako mnogi misle da su internet i podaci koji se pojavljuju neiscrpni resursi, alatima veštačke inteligencije ponestaje podataka na kojima bi mogli da se obučavaju. Naravno, ne treba da nas brine da će takve okolnosti zaustaviti razvoj veštačke inteligencije, jer još ima dovoljno podataka na kojima bi mogli da se obučavaju sistemi veštački inteligencije.

1 Novi podaci se neprestano dodaju

Ukratko, istraživački institut Epoch koji se bavi veštačkom inteligencijom kaže da bi visokokvalitetni podaci na kojima se obučava veštačka inteligencija mogli da nestanu do 2026. godine.

Ključne reči su „bi mogli“. Količina podataka koja se dodaje na internet svake godine se povećava, tako da se nešto drastično može promeniti pre 2026. Ipak, procena je sasvim ispravna, jer će sistemi veštačke inteligencije, u svakom slučaju, u nekom trenutku ostati bez dobrih podataka.

Samo da napomenemo da se svake godine mreži dodaje oko 147 zetabajta podataka (prema agenciji Exploding Topics). Jedan zetabajt jednak je 1.000.000.000.000.000.000.000 bajtova podataka. Da biste dobili predstavu o tome koliko je to podataka, reći ćemo vam da je to više od 30 milijardi 4K filmova (stvarnih, ali nedokučivih). To je zapanjujuća količina informacija koju veštačka inteligencija treba da pregleda.

Bez obzira na to, ona upija podatke brže nego što čovečanstvo može da ih stvori…

2 Veštačka inteligencija bi mogla da zaboravi podatke niskog kvaliteta

Naravno, nije svih tih 147 zetabajta podataka visokog kvaliteta. Ipak, procenjuje se da će veštačka inteligencija potrošiti i jezičke podatke lošeg kvaliteta do 2050. godine.

Novinska agencija Rojters je izvestila da je Photobucket, nekada jedno od najvećih svetskih skladišta slika, u pregovorima da licencira svoju obimnu biblioteku firmama za obuku veštačke inteligencije. Podacima sa slika obučavaju se sistemi, kao što su DALL-E i Midjourney, ali čak bi i oni mogli da nestanu do 2060. Tu se javlja veći problem. Photobucket je zadržao slike sa platformi društvenih mreža iz 2000-ih, kao što je Myspace, što znači da nisu tako visokog kvaliteta kao sadašnje fotografije. Dakle, govorimo o podacima niskog kvaliteta.

Pored Photobucket skladišta postoje i drugi slučajevi. U februaru 2024. godine, kompanija Google je sklopila dogovor sa platformom Reddit, koja je dozvolila gigantu u pretraživanju da koristi korisničke podatke platforme u obuci veštačke inteligencije. Druge platforme društvenih mreža takođe daju korisničke podatke da bi se obučavala veštačka inteligencija. Neki ih koriste za obuku internih modela, kao što je Llama kompanije Meta.

Međutim, dok neke informacije mogu da se prikupe iz podataka niskog kvaliteta, Microsoft, navodno, razvija metod koji će omogućiti da se veštačka inteligencija selektivno „oduči“ od takvih podataka. Prvenstveno, to bi se koristilo za pitanja intelektualne svojine, ali to takođe može da znači da alati mogu da zaborave ono što su naučili iz skupova podataka niskog kvaliteta.

Mogli bismo da unesemo više podataka u veštačku inteligenciju, a da ne budemo suviše selektivni. Takvi sistemi veštačke inteligencije bi tada mogli da izaberu šta je najkorisnije za učenje.

3 Prepoznavanje govora pružilo bi podatke iz video-zapisa i sa potkasta

Podaci koji se unose u alate veštačke inteligencije do sada su se uglavnom sastojali od teksta i, u manjoj meri, slika. To će se nesumnjivo promeniti, i verovatno već jeste, jer će softver za prepoznavanje govora pružiti bogatstvo dostupnih video-zapisa i potkasta na kojima može da se obučava veštačka inteligencije.

Treba napomenuti da je kompanija OpenAI razvila neuronsku mrežu otvorenog koda Whisper za automatsko prepoznavanje govora (automatic speech recognition – ASR), pri čemu je koristila 680.000 sati višejezičnih podataka. OpenAI je zatim unela preko milion sati informacija iz video-zapisa na platformi YouTube u svoj veliki jezički model GPT-4.

To je idealan šablon za druge sisteme veštačke inteligencije, koji koriste prepoznavanje govora za transkripciju video-zapisa i zvuka iz brojnih izvora i pokreću te podatke kroz svoje modele veštačke inteligencije.

Prema istraživanjima platforme Statista, preko 500 sati video-zapisa se otpremi na YouTube svakog minuta, što je broj koji je ostao prilično dosledan od 2019. Ovde nismo obuhvatili druge video i audio platforme, kao što su Dailymotion i Podbean. Ako veštačka inteligencija može da usmeri svoju pažnju na nove skupove podataka kao što su ovi koje smo naveli, još postoji ogromna količina informacija koje treba izvući.

4 Modeli veštačke inteligencije su se uglavnom zadržali na engleskom jeziku

To nije sve što možemo da naučimo od neuronske mreže Whisper. OpenAI je obučila model koristeći 117.000 sati audio-podataka koji nisu na engleskom. To je posebno zanimljivo, jer su mnogi sistemi veštačke inteligencije obučeni prvenstveno uz pomoć engleskog jezika ili tako što su posmatrali druge kulture sa stanovišta zapadnjačkih društava.

U suštini, većina alata je ograničena kulturom njihovih stvaralaca.

Kao primer ćemo uzeti ChatGPT. Ubrzo nakon što se model pojavio 2022. godine, Džil Voker Retberg, profesorka digitalne kulture na Univerzitetu u Bergenu u Norveškoj, isprobala je ChatGPT i zaključila:

ChatGPT ne zna mnogo o norveškoj kulturi ili bolje rečeno, ono što zna o norveškoj kulturi verovatno je uglavnom naučeno iz izvora na engleskom jeziku… ChatGPT je eksplicitno usklađen sa američkim vrednostima i zakonima. U mnogim slučajevima to je blisko norveškim i evropskim vrednostima, ali verovatno to neće uvek biti slučaj.

Dakle, za razvoj modela veštačke inteligencije potrebno je da što više ljudi različitih nacionalnosti komunicira sa njima ili da se koristi što više različitih jezika i kultura za obuku takvih sistema. Upravo sada, mnoge veštačke inteligencije su ograničene na jednu biblioteku. One mogu da se razvijaju samo ako dobiju ključeve biblioteka širom sveta.

5 Izdavačke kuće bi mogle da pomognu u razvoju veštačke inteligencije

Zaštita intelektualne svojine je očigledno ogroman problem, ali neki izdavači bi mogli da pomognu u razvoju veštačke inteligencije sklapanjem ugovora o licenciranju. To bi značilo da se alatima daju visokokvalitetni, odnosno pouzdani podaci iz knjiga, a ne potencijalno niskokvalitetne informacije prikupljene iz onlajn izvora.

U stvari, kompanija Meta, koja je vlasnik platformi Facebook, Instagram i WhatsApp, navodno je razmišljala o kupovini izdavačke kuće Simon & Schuster, koja pripada grupi Big Five izdavačkih kuća. Kompanija je htela da koristi literaturu koju je kuća objavila da bi obučavala sopstvene modele veštačke inteligencije. Dogovor je na kraju propao, možda zbog etičke sive zone kompanije koja obrađuje intelektualnu svojinu autora bez njihove prethodne saglasnosti.

Druga opcija koja je očigledno razmatrana bila je kupovina pojedinačnih licenciranih prava na nove naslove. To bi trebalo da izazove veliku zabrinutost za autore, ali će i dalje biti zanimljiv način za razvoj alata veštačke inteligencije ako su upotrebljivi podaci iskorišćeni.

6 Sintetički podaci su budućnost

Sva rešenja koja smo naveli su ograničena, ali postoji još jedno koje bi moglo da obezbedi napredak veštačke inteligencije u budućnosti, a to su sintetički podaci koji se već istražuju kao realna mogućnost.

Šta su sintetički podaci? Naime, to su podaci koje je kreirala veštačka inteligencija. Kao što ljudi stvaraju podatke, tako bi i veštačka inteligencija generisala podatke za potrebe obuke.

U stvari, veštačka inteligencija bi mogla da napravi ubedljiv deepfake video. Takav video-zapis bi mogao da se vrati u veštačku inteligenciju tako da bi mogla da uči iz onoga što je u suštini imaginarni scenario. To je, konačno, jedan od glavnih procesa učenja kod ljudi. Dakle, čitamo ili gledamo nešto da bismo razumeli svet oko nas.

Veštačka inteligencija je verovatno već prihvatila sintetičke informacije. Deepfake video-zapisi su već proširili onlajn dezinformacije, tako da, dok sistemi veštačke inteligencije skeniraju internet, logično je da će neki video-zapisi imati lažni sadržaj.

Naravno, tu postoji i loša strana. U tom procesu, veštačka inteligencija može da se pokvari ili ograniči, što može da poveća i proširi greške koje prave ti alati. Kompanije se trude da iskorene taj problem. Međutim, poenta zapleta mnogih scenarija iz naučno-fantastične noćne more je „da veštačke inteligencije uče jedne od drugih i prave greške“.

7 Veštačka inteligencija je kontroverzna pojava. Ima dosta nedostataka, ali protivnici zanemaruju njene prednosti. Na primer, revizorska i savetodavna mreža PwC nagoveštava da bi veštačka inteligencija mogla da doprinese do 15,7 biliona dolara svetskoj privredi do 2030.

Štaviše, veštačka inteligencija se već koristi širom sveta. Verovatno ste je danas koristili u nekom obliku, možda čak toga niste bili ni svesni. Pošto su okolnosti takve, treba je obučavati na pouzdanim i kvalitetnim podacima da bismo mogli da je iskoristimo na najbolji način.

Veštačka inteligencija ima svoje pozitivne i negativne strane. Zadatak nam je da uspostavimo ravnotežu.