Kako najnovije slušalice obavljaju jezičko prevođenje

U kultnom delu Daglasa Adamsa „Autostoperski vodič kroz galaksiju“ (prvo je napravljena serija 1978. godine u produkciji britanske nacionalne televizije BBC , za kojom je sledila knjiga i konačno film) pored mnogih predviđanja tehničkih dostignuća i inovacija možemo da pronađemo vavilonsku ribicu, malog žutog stvora koji se ubacuje u ljudsko uho, hrani se moždanom energijom i može da prevodi sa svih na sve jezike. Izgleda da je kompanija Google napravila svoju verziju vavilonske ribice i nazvala je Pixel Buds . U stvari, to su bežične slušalice koje koriste pametnu aplikaciju koja može da razgovara sa korisnikom, da ga razume i da mu pomogne, dakle, koriste program Google Assistant . Jedna od glavnih karakteristika je podrška za Google Translate (prevodioca) koji može da prevodi oko 40 različitih jezika. Impresivna tehnologija za manje od 200 dolara.

Dakle, kako slušalice rade?

Govor u realnom vremenu sastoji se od niza nekoliko različitih tehnologija – svaka od njih je doživela napredak u poslednjih nekoliko godina. Taj niz, od ulaza do izlaza, izgleda ovako: Uslovljavanje ulaza: slušalice prikupljaju pozadinsku buku i smetnje i beleže mešavinu korisničkih glasova i drugih zvukova. Pročišćavanjem buke uklanjaju se svi pozadinski zvukovi, a uređaj za prepoznavanje glasa uključuje sistem samo kad govori određena osoba (neće se uključiti ako neko ko stoji u redu iza vas glasno kaže „OK, Gugl!“. Kontrole osetljive na dodir koriste se da bi poboljšale preciznost uređaja za prepoznavanje glasa.

Prepoznavanje jezika: ovaj sistem koristi mašinsko učenje da bi za 2-3 sekunde identifikovao jezik koji se govori. To je veoma važno pošto sve što za tim sledi ima jezička obeležja. Pošto za prepoznavanje i razlikovanje jezika nisu dovoljne samo njihove fonetske karakteristike (parovi jezika, kao što su ukrajinski i ruski или urdu i hindi potpuno su identični sa stanovišta glasovnih jedinica, odnosno fonema), bilo je potrebno razviti potpuno nove akustičke opise.

Automatsko prepoznavanje govora: ova tehnologija koristi akustički model da bi snimljeni govor pretvorila u niz fonema, da bi se pomoću jezičkog modelovanja fonetske informacije pretvorile u reči. Korišćenjem gramatike govora, konteksta, verovatnoće i rečnika izgovora, sistem za automatsko prepoznavanje govora popunjava praznine, odnosno, dodaje informacije koje nedostaju i ispravlja foneme koje su pogrešno identifikovane da bi stvorio tekstualni prikaz onoga što je govornik izgovorio.

Obrada prirodnog jezika: ovaj sistem obavlja mašinsko prevođenje sa jednog jezika na drugi. Proces nije jednostavno zamenjivanje imenica i glagola, već obuhvata dešifrovanje značenja ulaznog jezika, da bi, zatim, ponovo šifrovao isto značenje kao izlazni govor na drugom jeziku – sa svim mukama i problemima sa kojima se susrećemo kad pokušavamo da naučimo strani jezik.

Sinteza govora или pretvaranje teksta u govor: proces ide u suprotnom smeru od automatskog prepoznavanja govora, i od niza reči (ili fonetskih informacija) u procesu sinteze stvara govor koji zvuči prirodno. Stariji sistemi koristili su aditivnu sintezu zvuka koja je spajala mnogo kratkih zvučnih zapisa izgovaranja različitih fonema u pravilnom nizu. Savremeniji sistemi koriste kompleksnije statističke modele govora da bi stvorile glas koji zvuči prirodnije.

Naravno, uz sve to nam je potrebna i bluetooth veza sa pametnim mobilnim telefonom kao i bežična или 3G , odnosno 4G veza sa govornim serverima kompanije Google koji u ovom slučaju preuzimaju funkciju oblaka gde se obavljaju sve procedure prevođenja i slanja izlaznih podataka.

Dakle, iako u slušalicama postoji procesor on nije dovoljno jak da bi vršio prevođenje, a skladište memorije nije dovoljno veliko da bi moglo da prihvati jezičke i akustičke modele. Čak i kad bi procesor bio odgovarajući i memorija dovoljno velika, proces bi za nekoliko sekundi ispraznio baterije.
Pored toga, kompanije koje koriste takve proizvode ( Google, iFlytek i IBM ) oslanjaju se na stalni napredak pravilnih, tačnih i poboljšanih modela prevođenja. Ažuriranje modela mnogo je lakše obaviti na serveru u oblaku nego na pojedinačnim slušalicama.

Pokojni Daglas Adams bi sigurno bio oduševljen ovakvom tehnologijom koja se koristi za prevođenje u realnom vremenu, ali naučnici i inženjeri se sigurno neće tu zaustaviti. Možda će sledeći napredak na ovom polju biti inspirisan nekim drugim izmišljenim uređajem kao što je J.A.R.V.I.S (Just Another Rather Very Intelligent System), super pametni računar Ajron Mena iz Marvelove serije. Njegov sistem prevazilazi sposobnosti prevođenja i može da razgovara sa nama, razume šta osećamo, zna o čemu mislimo i predviđa naše potrebe.

4630-kako-najnovije-slusalice-obavljaju-jezicko-prevodenje