Da li nam veliki podaci mogu otkriti cenzurisane delove vladinih dokumenata?

Objavljivanje Milerovog izveštaja prošle nedelje ponovo je u žižu interesovanja postavio cenzurisanje dokumenata, odnosno, postupak pri kome vlada „zacrni“ delove zvanično objavljenih dokumenata da bi od očiju javnosti sakrila poverljive informacije. Tema je dobila više medijske pažnje u protekloj nedelji nego u poslednjih deset godina, dok se na globalnom nivou oko 2% vesti na internetu bavilo tom temom. Interesovanje je bilo posebno istaknuto u četvrtak. Ipak, sve veća centralizovana arhiva Zakona o slobodi informisanja, digitalizovana arhiva vesti kao i malo statističke analize omogućili su stručnjacima da zavire ispod tih „zacrnjenih“ polja. Jedna od osnovnih slabosti vladinog procesa cenzurisanja dokumenata je nedostatak centralizovane koordinacije između vladinih agencija po pitanju kriterijuma prema kome bi se određivalo šta su osetljivi podaci koji ne bi trebalo da budu dostupni javnosti. Naime, dok su prema kriterijumima jedne vladine agencije neke informacije osetljive, druga ih smatra potpuno dostupnim javnosti.

To dovodi do situacije u kome više vladinih agencija može da objavi isti poverljivi dokument, a da pri tome, svaka od njih cenzuriše različite delove. Jedna agencija može da pokrije ceo prvi pasus, a ostatak teksta u potpunost učini dostupnim javnosti, dok bi druga mogla da ostavi celu prvu stranu netaknutu, a da cenzuriše ostatak dokumenta. U prošlosti su takve razlike otežavale istoričarima i široj javnosti istraživanje takvih tekstova jer nije postojala otvorena i centralizovana baza podataka objavljenih poverljivih dokumenata, niti kolekcija koja je prikupljena na osnovu Zakona o slobodi informisanja.

Pošto su se neprofitne i privatne kompanije, kao i naučne institucije, usredsredile na prikupljanje ogromnog broja arhiviranih vladinih dokumenata tokom nekoliko proteklih decenija, mnogo je lakše ostvariti uvid u sve dokumente koje je objavila vlada da bi se otkrio obrazac. Jednostavna klaster analiza sličnosti dokumenata može odmah grupisati sve verzije određenog dokumenta koje su tokom godina objavile različite vladine agencija. Korišćenjem jednostavne alatke „diff“ koja omogućava poređenje dva teksta da bi se utvrdile razlike između, u ovom slučaju, svake grupe dokumenata, pomaže nam u popunjavanju „zacrnjenih“ delova, a u nekim, mada retkim slučajevima, može dovesti do otkrivanja celog dokumenta. Pri tom, ceo proces je olakšan pomanjkanjem usklađenosti kriterijuma poverljivosti između različitih agencija.

Kada postoje malobrojni cenzurisani delovi, moguće je otkriti informacije koje nedostaju jednostavnim uvidom u javne izvore informacija obavljanjem klaster analize или analize grupisanja na nivou teme или entiteta. Pretpostavimo da imamo dokument koji je vlada objavila, a u kome se spominje da je jedan američki zvaničnik putovao u neku zemlju određenog datuma da bi prisustvovao sastanku na visokom nivou na kome se raspravljalo o uvođenju sankcija Rusiji. Naziv države je zacrnjen, ali ime zvaničnika i datum putovanja su poznati. Jednostavnim unosom pojma pretrage u novinske izveštaje u toj nedelji, lako ćemo otkriti da je zvaničnik bio u Nemačkoj na sastanku na viskom nivou, ali novine neće spomenuti Rusiju. Detaljno ispitivanje javno objavljenog rasporeda tog zvaničnika или njegovog nemačkog kolege može nam preciznije odrediti vreme, mesto i osnovne detalje sastanka. Izjave koje su dale obe strane mogu se iskoristiti za rekonstruisanje šireg obima sastanka i njegovih rezultata.

Čak i kad nema dovoljno podataka kojima bismo mogli konkretno da popunimo cenzurisane delove, analiza grupisanja prema sličnosti može da ponudi opseg potencijalnih opcija koje mogu uputiti istraživača ka drugim izvorima informacija koji bi popunili praznine. Ukratko, proces mozaičkog uređivanja podataka koji je doprineo razvoju savremene trgovine podacima može vrlo lako da pretvori gomile nepovezanog sadržaja u međusobno isprepletane dokumente koji pomažu u međusobnom popunjavanju praznina.

Naravno, istorijsko mozaičko sklapanje sadržaja je daleko od napretka koji je donelo digitalno doba. Stvaranje uvida u ogromne gomile dostupnih informacija da bi se popunile praznine nalazi se u samoj osnovi sprovođenja procesa istorijskog istraživanja. Stručnjaci koji se bave diplomatijom, istoričari i obaveštajni analitičari koristili su takve pristupe da bi otkrili šta je napisano u cenzurisanim tekstovima mnogo pre pojave velikih podataka. Razlika je u tome što se kompjuterizovano popunjavanje „zacrnjenih“ delova može obaviti u realnom vremenu, može se steći uvid u sveukupnost dostupnih informacija iz svih izvora i pronaći čak i najfinije veze između njih.

U slučaju samostalnog teksta kao što je Milerov izveštaj, toliko je delova sakriveno da je ceo tekst lišen osnovnog značenja i pošto je ostalo nedovoljno detalja, ne može se čak ni naslutiti šta se nalazi ispod „crnila“. Neki cenzurisani detalji su toliko specifični da ne ostavljaju dovoljno traga u otvorenom svetu pomoću kojih bi se mogli otkriti. Ipak, analitičari su pokazali da se sadržaj nekih od tih cenzurisanih delova može lako naslutiti.
Uzimajući sve do sada rečeno u obzir, proširenje otvorene centralizovane arhive vladinih dokumenata otvara brojne mogućnosti za mozaičko uklapanje podataka, što nam omogućava bolje razumevanje i potencijalno uspešniju borbu protiv vladine tajnovitosti. I na kraju, kao i svi ostali oblici privatnosti, izgleda da je i privatnost vlade uništena u poplavi podataka.

5329-da-li-nam-veliki-podaci-mogu-otkriti-cenzurisane-delove-vladinih-dokumenata