Никсонов говор после катастрофе на Месецу – будућност уз деепфаке технологију

Један награђивани студио користи вештачку интелигенцију да генерише лажне гласове за индустрију у Холивуду да би показао како деепфаке технологија поставља бројна етичка питања. Награда Еми за интерактивни документарац додељена је 29. септембра, филму Ин Евент оф Моон Дисастер (прим прев. У случају катастрофе на Месецу), у коме је коришћена вештачка интелигенција за креирање лажног видеа са бившим америчким председником Ричардом Никсоном. Филм приказује како држи говор који је припремљен у случају да мисија Аполо 11 не успе, при чему би астронаути Нил Армстронг и Баз Олдрин били остављени да вечно почивају на Месецу. Мултимедијални пројекат је направљен у сарадњи Центра за напредну виртуелност Института за технологију Масачусетског института, уз малу помоћ украјинске компаније Respeecher, која се бави клонирањем гласа, и која је радила на Никсоновом гласу.

Алекс Сердјук, извршни директор компаније Респеецхер, каже да је идеја овог седмоминутног филма била да покаже како ће дезинформације на мрежи изгледати у будућности. „Пројекат није био само прилика да се покаже шта све добро може да донесе наша технологија, већ и да се покаже за шта су ове технологије способне“, рекао је он. У годинама које су пред нама, деепфаке видео-снимци би могли да постану чешћи на друштвеним мрежама, али и теже уочљиви, са ужасним последицама на друштвеном нивоу. Већ је познато да лажне вести путују брже. Студија МИТ-а показала је, на пример, да је 70% већа вероватноћа да ће лажне тврдње бити подељене него истина.

Због те опасности Сердјук каже да је његова дужност да помогне у подизању свести о злоупотреби деепфаке технологије, што је изузетно важан део посла којим се бави његова компанија.

Како се прави deepfake снимак

Филм Ин Евент оф Моон Дисастер је био амбициозан мултимедијални пројекат на којем су радили стручњаци из различитих области. Филм су заједно режирали Франческа Панета и Халси Бургунд у МИТ Центру за напредну виртуелност и блиско су сарађивали са две иновативне компаније које су се бавиле техничким делом пројекта. Измењену слику Ричарда Никсона креирала је фирма Цаннy АИ из Тел Авива, док су глас председника генерисали инжењери компанија Респеецхер у својим малим канцеларијама у Кијеву. Освајање награде Еми било је изненађење за компанију Respeecher, која је основана пре мање од четири године. Тада су Сердјук и његов пријатељ Дмитро Белевтсов учествовали у хакатону покушавајући да да ураде нешто занимљиво с обзиром на то да су се бавили досадном анализом података за банке и осигуравајуће компаније.

На том хакатону већина тимова се фокусирала на коришћење вештачке интелигенције за обраду слике, па су Сердјук и Белевтсов одлучили да ураде нешто другачије и фокусирали се на звук. Почели су да праве софтвер који је омогућавао човеку да говори гласом друге особе – укратко, омогућавао је конверзију говора у говор. Пројекат им се допао и одлучили су да наставе да га развијају. Убрзо су упознали Гранта Рабера, бившег студента Универзитета „Карнеги Мелон“ који је био заинтересован за конверзију акцената, што је прилично слично. Њих тројица су одлучила да оснују компанију и тако је настала Respeecher.

Када им је МИТ покуцао на врата, технологија за конверзију гласа је још била у процесу стварања, али мислили су да су на висини задатка. Биле су им потребне две ствари: стари снимци Ричарда Никсона и снимак говора који председник никада није одржао. МИТ је ангажовао глумца да имитира Никсонов стил говора, који је морао да продужи изговор одређених речи и да прави паузе како би се стекао утисак забринутости и жалости. Затим су инжењери из компаније уз помоћ дубоке неуронске мреже додали Никсонов глас глумачком наступу и на тај начин створили деепфаке аудио-снимак. Свакоме ко слуша, синтетички глас звучи природно и не разликује се од оригинала. Да би постигли тај ниво квалитета, Сердјуковом тиму је било потребно неколико сати како Никсонових, тако и глумчевих снимака. У међувремену су унапредили своју технологију, тако да је процес једноставнији.

Углавном им је потребно око 60 минута снимака циљних и изворних гласова. У многим пројектима су имали мање података или су подаци били мање квалитетни, тако да су стекли сјајно искуство у раду са различитим врстама података.
За разлику од претварања текста у говор, које често звучи извештачено или вештачки, технологија компаније се труди да очува емоције, што је потпуно очекивано с обзиром на то да су морали да достигну високе стандарде које су поставили стручњаци за звук у Холивуду.

Компанија Respeecher тренутно запошљава око 20 стручњака и има клијенте високог профила. Рецимо, компанија је радила на неколико најсавременијих пројеката у последњих неколико година. На пример, поново је створила глас Мајкла Јорка и тако му омогућила да говори о својој реткој болести амилоидози. Сердјуков тим је вратио још један култни глас, глас покојног тренера америчког фудбала Винса Ломбардија, који је током финала послао охрабрујућу поруку онима који се боре са пандемијом. Уз то, компанија је такође синтетизовала глас младог Лука Скајвокера за последњу епизоду друге сезоне Мандалоријанца.

Сердјук је оптимиста и каже да ће његов мали студио са седиштем у Кијеву наставити да доприноси блокбастерима. Добро је познато да је потребно време да се изгради кредибилитет и репутација у Холивуду, али исто тако знамо да се добар глас далеко чује и због тога се Сердјукова технологија често користи у Холивуду. Конверзије говора у говор могу бити корисне у широком спектру пројеката, од видео-игара до филмова, од аудио-књига до асистената у корисничком центру. Компанија може да обави конверзије мушког гласа у женски и обрнуто, а у будућности би чак могла да обави синхронизацију гласа на страним језицима.

Етичка питања

Клонирање гласа поставља бројна етичка питања, а неки сматрају да је технологија узнемирујућа. Документарац Roadrunner: A Film About Anthony Bourdain, који се појавио у биоскопима током лета наишао је на критике кад је откривено да је део гласа покојног кувара креиран помоћу технологије клонирања гласа. Бордејн је заиста написао те реченице, али не постоји снимак у коме их он чита. Публика није била упозната да је у филму коришћена вештачка интелигенција. То је откривено касније. Такође, није назначено да ли је филмска екипа добила дозволу од Бордејнове породице да синтетички креира његов глас.

Сердјук каже да су он и друга два суоснивача створили скуп правила које треба да поштују и они и њихови клијенти. Компанија не даје јавни API, а кад год клонира глас, додаје му аудио водени жиг који омогућава специјализованом софтверу да открије да је коришћена деепфаке технологија. Исто тако, када клијент жели да клонира нечији глас, потребна му је писмена сагласност те особе или њене породице. Сердјук сматра да у његовој технологији нема ништа ново што наше друштво никада раније није видело и да се не разликује од фотошопа.

Индустрија забаве тек треба да регулише деепфаке, али Сердјук верује да би скуп правила које је развио његов тим требало да буде обавезан, с обзиром на то да би дезинформације на мрежи могле да постану све чешће. Награда коју је његов тим добио могла би да буде мали корак у подизању свести о опасностима деепфаке технологије. Веза до седмоминутног филма: https://www.youtube.com/watch?v=LWLadJFI8Pk&t=313s

ПРОРАЧУН ИЗНОСА ЗА ПЛАЋАЊЕ