Kompanija „Gugl“ pokrenula novu mašinu za pretraživanje da bi pomogla naučnicima da pronađu baze podataka koje su im potrebne. Naučnicima bi Dataset Search mogao da bude najbolji saradnik. Cilj kompanije je oduvek bio da organizuje što više podataka prikupljenih širom sveta i iskoristi ih u komercijalne svrhe. Sada namerava da prikupi podatke da bi pomogla naučnoj zajednici i zbog toga je stvorila novu mašinu za pretraživanje baza podataka. Servis koji su nazvali Dataset Search i predstavili ga danas, pomoći će, na neki način, popularnoj mašini za pretraživanje Gugl Scholar koja se koristi za akademske studije i izveštaje. Institucije koje svoje podatke objavljuju na mreži, kao što su univerziteti i državne vlade, trebalo bi svojim veb stranicama da obuhvate i oznake metapodataka koje bi opisivale podatke, navodile ko ih je kreirao, kada su objavljeni, kako su prikupljeni i slično. Posle toga, „Guglova“ mašina za pretraživanje će sve te informacije indeksirati i kombinovati sa informacijama iz „Guglovog“ Grafikona znanja ( Knowledge Graph ). Dakle, ako je bazu podataka X objavio CERN, nekoliko informacija o Institutu biće obuhvaćeno pretragom.
Naučnica u kompanijinom Odseku za veštačku inteligenciju Nataša Noj koja je sarađivala u stvaranju novog servisa rekla je da je tim imao cilj da ujedini desetine hiljada različitih repozitorijuma baza podataka na mreži, odnosno, da baze podataka učini dostupnim, ali da ih ostavi tamo gde jesu. U ovom trenutku, objavljivanje baza podataka je prilično neorganizovano. Različite naučne oblasti imaju svoje omiljene repozitorijume, što važi i za različite nacionalne vlade i lokalne uprave. Naučnici obično kažu da znaju gde treba da traže podatke koji su im potrebni, ali tamo ne nalaze uvek sve što im je potrebno. Najteže im je kad treba da istupe iz svoje jedinstvene zajednice.
Noj je navela primer naučnice koja se bavi klimatskim promenama. Naime, kad je nedavno razgovarala sa njom, saznala je da piše naučni rad i da su joj bili potrebni podaci o temperaturama okeana. Međutim, kad je pokušala da pronađe bazu podataka koja bi joj bila od pomoći, suočila se sa neuspehom. Ipak, dok je učestvovala na konferenciji, sasvim slučajno je srela kolegu koji je odmah prepoznao bazu podataka koju je njegova koleginica tražila i rekao joj je gde se nalazi. Srećom, uspela je da nastavi pisanje rada. Iako su traženi repozitorijum, kao i baza podataka, bili sasvim dobro opisani i nalazili su se na istaknutom mestu, bilo ih je teško pronaći.
Na samom početku servis će pokriti ekološke i društvene nauke, podatke nacionalnih vlada i baze podataka iz novinskih kuća kao što je „ ProPublica“. Međutim, ako servis postane popularan, količina indeksiranih podataka brzo će se povećavati kad institucije i naučnici pohrle da objave svoje informacije učine ih dostupnim na mreži. Nedavna sve snažnija inicijativa koja se zalaže za otvorenost i dostupnost podataka trebalo bi da pomogne ovom servisu. Nataša Noj je izjavila da je u poslednjih nekoliko godina broj repozitorijuma naglo porastao. Veruje da su podaci u naučnoj literaturi izuzetno važni – zbog čega bi inače časopisi podsticali naučnike da objavljuju svoje baze podataka – i podseća na vladine uredbe u Sjedinjenim Državama i Evropi kao i na opšte jačanje pokreta za javno dostupne podatke.
Pošto se kompanija „Gugl“ u sve to umešala, trebalo bi očekivati da projekat uspe. Potragu za bazom podataka oduvek je bilo teško podržavati i unapređivati , ali svi se nadaju da će kompanija u tome mnogo pomoći. Da biste napravili pristojnu mašinu za pretraživanje, treba da znate kako da napravite intuitivne sisteme i shvatite na šta ljudi misle kad unose određenje izraze. Kompanija „Gugl“ očigledno zna šta radi u oba navedena slučaja. U stvari, najbolje bi bilo kad bi kompanija objavila svoju bazu podataka koja bi sadržavala informacije o tome kako se servis koristi. Iako su oznake metapodataka koje kompanija koristi da bi učinila metapodatke vidljivim za veb indeksere takođe otvoren standard, što znači da bilo koji konkurent, recimo „Bing“ или „Jandeks“ može da ih preuzme i tako stvori konkurentni servis, mašine za pretraživanje najbrže napreduju kad postoji kritična masa korisnika koji obezbeđuju podatke o tome šta rade.
Veoma je važno da shvatimo kako ljudi pretražuju, koje termine koriste i kako ih izražavaju. Ako želimo da da naučimo kako ljudi traže podatke i kako da ih učinimo dostupnijim, bilo bi dobro kad bi kompanija otvorila svoju bazu podataka o tome. Drugim rečima „Gugl“ bi trebalo da objavi svoju bazu podataka o pretraživanju baza podataka koju bi indeksirao servis Dataset Search . Šta bi moglo biti umesnije od toga?