Нови полиглота компаније „Фејсбук“ може да преведе сто језика

Модел који се користи за превођење, врхунац различитих аутоматизованих техника и техника машинског учења, отворен је за истраживачку заједницу. Компанија „Фејсбук“ је свој нови језички модел, заснован на вештачкој интелигенцији, назван M2M-100, понудила стручној заједници као програм отвореног кода. Нови модел може да преведе било који пар језика у скупу од сто језика које је компанија прикупила. Од 4.450 могућих језичких комбинација колико у том случају постоји, модел може да преведе 1.100. За разлику од претходних вишејезичних модела, који се у великој мери ослањају на енглески као језик посредовања, то није случај код компанијиног модела. На пример, превод са кинеског на француски обично се прво обавља тако што се кинески преведе на енглески, а затим се са енглеског преводи на француски, што повећава шансу за појаву грешака.

Прикупљање неопходних података: Модел је био обучаван на 7,5 милијарди парова реченица. Да би саставили тако велики скуп података, истраживачи су се у великој мери ослањали на аутоматизовано прикупљање. Користили су веб-претраживаче да би са интернета извукли милијарде реченица, а други језички модел под називом ФастТеxт имао је задатак да идентификује језик. Компанија тврди да није користила податке са своје друштвене мреже. У целом процесу коришћен је још један програм који се назива LASER 2.0, који је претходно развила истраживачка лабораторија за вештачку интелигенцију у самој компанији, а који користи ненадгледано учење – машинско учење које не захтева ручно означене податке – за проналажење подударних реченица на различитим језицима према њиховом значењу.

Из великих, неструктурираних скупова података, односно, реченица, LASER 2.0 ствара оно што је познато као „уграђивање“. Обучава се на доступним примерима реченица у сваком језику и мапира њихове међусобне односе на основу тога колико се често и колико се заједно користе. Та уграђивања помажу моделу машинског учења да одреди приближно значење сваке реченице, што програму LASER 2.0 омогућава аутоматско упаривање реченица на различитим језицима које имају исто значење. Упаривање језика: Истраживачи су се усредсредили на језичке комбинације за које су веровали да ће бити највише тражене. Груписали су језике према лингвистичким, географским и културним сличностима, уз претпоставку да ће људи који живе у истој области чешће доћи у прилику да разговарају. На пример, једна језичка група обухватала је најчешће језике који се говоре у Индији, укључујући бенгалски, хинди, тамилски и урду. LASER 2.0 је, затим, своје претраживање парова реченица усмерио на све могуће језичке парове унутар сваке групе.

Присутни изазови: Језици који се говоре у областима, као што су Африка и југоисточна Азија и даље се суочавају са проблемима неквалитетних превода, јер не постоји довољно података о језику који би били доступних на интернету и који би могли са њега да се прикупе. С обзиром на то да се цео пројекат ослања на податке који се налазе на мрежи, стручњаци су, такође, морали да пронађу технике за идентификовање и искорењивање било ког уграђеног сексизма, расизма и других елемената дискриминације и пристрасности. Тренутно, стручњаци користе филтер за елиминисање псовки да би очистили неке језике који су посебно „богати“ у тој области, али углавном је цео поступак ограничен на енглески. Истраживање је једини циљ: Компанија „Фејсбук“ тренутно не планира да користи модел у својим производима. M2M-100 је намењен само у истраживачке сврхе, кажу њени стручњаци. Ипак, коначни циљ целог пројекта је да искористи модел да би побољшала и проширила постојеће могућности превођења на својој друштвеној мрежи. Апликације могу да укључују корисничку комуникацију (на пример, функција која омогућава људима да преведу објаве на свој матерњи језик) и можда модерацију садржаја.