Novi poliglota kompanije „Fejsbuk“ može da prevede sto jezika

Model koji se koristi za prevođenje, vrhunac različitih automatizovanih tehnika i tehnika mašinskog učenja, otvoren je za istraživačku zajednicu. Kompanija „Fejsbuk“ je svoj novi jezički model, zasnovan na veštačkoj inteligenciji, nazvan M2M-100, ponudila stručnoj zajednici kao program otvorenog koda. Novi model može da prevede bilo koji par jezika u skupu od sto jezika koje je kompanija prikupila. Od 4.450 mogućih jezičkih kombinacija koliko u tom slučaju postoji, model može da prevede 1.100. Za razliku od prethodnih višejezičnih modela, koji se u velikoj meri oslanjaju na engleski kao jezik posredovanja, to nije slučaj kod kompanijinog modela. Na primer, prevod sa kineskog na francuski obično se prvo obavlja tako što se kineski prevede na engleski, a zatim se sa engleskog prevodi na francuski, što povećava šansu za pojavu grešaka.

Prikupljanje neophodnih podataka: Model je bio obučavan na 7,5 milijardi parova rečenica. Da bi sastavili tako veliki skup podataka, istraživači su se u velikoj meri oslanjali na automatizovano prikupljanje. Koristili su veb-pretraživače da bi sa interneta izvukli milijarde rečenica, a drugi jezički model pod nazivom FastText imao je zadatak da identifikuje jezik. Kompanija tvrdi da nije koristila podatke sa svoje društvene mreže. U celom procesu korišćen je još jedan program koji se naziva LASER 2.0, koji je prethodno razvila istraživačka laboratorija za veštačku inteligenciju u samoj kompaniji, a koji koristi nenadgledano učenje – mašinsko učenje koje ne zahteva ručno označene podatke – za pronalaženje podudarnih rečenica na različitim jezicima prema njihovom značenju.

Iz velikih, nestrukturiranih skupova podataka, odnosno, rečenica, LASER 2.0 stvara ono što je poznato kao „ugrađivanje“. Obučava se na dostupnim primerima rečenica u svakom jeziku i mapira njihove međusobne odnose na osnovu toga koliko se često i koliko se zajedno koriste. Ta ugrađivanja pomažu modelu mašinskog učenja da odredi približno značenje svake rečenice, što programu LASER 2.0 omogućava automatsko uparivanje rečenica na različitim jezicima koje imaju isto značenje. Uparivanje jezika: Istraživači su se usredsredili na jezičke kombinacije za koje su verovali da će biti najviše tražene. Grupisali su jezike prema lingvističkim, geografskim i kulturnim sličnostima, uz pretpostavku da će ljudi koji žive u istoj oblasti češće doći u priliku da razgovaraju. Na primer, jedna jezička grupa obuhvatala je najčešće jezike koji se govore u Indiji, uključujući bengalski, hindi, tamilski i urdu. LASER 2.0 je, zatim, svoje pretraživanje parova rečenica usmerio na sve moguće jezičke parove unutar svake grupe.

Prisutni izazovi: Jezici koji se govore u oblastima, kao što su Afrika i jugoistočna Azija i dalje se suočavaju sa problemima nekvalitetnih prevoda, jer ne postoji dovoljno podataka o jeziku koji bi bili dostupnih na internetu i koji bi mogli sa njega da se prikupe. S obzirom na to da se ceo projekat oslanja na podatke koji se nalaze na mreži, stručnjaci su, takođe, morali da pronađu tehnike za identifikovanje i iskorenjivanje bilo kog ugrađenog seksizma, rasizma i drugih elemenata diskriminacije i pristrasnosti. Trenutno, stručnjaci koriste filter za eliminisanje psovki da bi očistili neke jezike koji su posebno „bogati“ u toj oblasti, ali uglavnom je ceo postupak ograničen na engleski. Istraživanje je jedini cilj: Kompanija „Fejsbuk“ trenutno ne planira da koristi model u svojim proizvodima. M2M -100 je namenjen samo u istraživačke svrhe, kažu njeni stručnjaci. Ipak, konačni cilj celog projekta je da iskoristi model da bi poboljšala i proširila postojeće mogućnosti prevođenja na svojoj društvenoj mreži. Aplikacije mogu da uključuju korisničku komunikaciju (na primer, funkcija koja omogućava ljudima da prevedu objave na svoj maternji jezik) i možda moderaciju sadržaja.

6005-novi-poliglota-kompanije-fejsbuk-moze-da-prevede-sto-jezika