Језера података иду ка визуелном радном листу?

Ако волите да користите радне листове и имате тону података који седе у језеру података, нова Датамеерова алатка за визуелна истраживања може бити права ствар за вас. Самоуслужна аналитика постоји у различитим облицима и величинама, па тако и језера података. Обоје су популарни концепти који обликују свет Big Дата, тако да није чудно што постоји маса приступа и алата. Такође постоји и доста преклапања између њих. Језера података заснована на Hadoop-у су прилично честа ових дана, али то не олакшава рад са типовима ван науке о подацима. Значи, самоуслужне алатке за аналитику покушавају да их подрже као изворе података са којима корисници могу да се повежу.

Ovo se dešava kroz sloj medijacije, obično zasnovan na SQL-u. Postoje različiti SQL-on-Hadoop motori, u rasponu od vlasničkih do otvorenog koda, a svaka distribucija ima svoj. Dakle, u zavisnosti od toga kolika je brzina vašeg SQL-on-Hadoop motora i koliko je veliko vaše jezero podataka, vaši troškovi na strani samouslužnog alata će se razlikovati. Tipično, takvi alati takođe pokušavaju da olakšaju stvari sa svoje strane, podržavaju što više raznih motora, primenjuju pametne tehnike povezivanja i tako dalje.

U svakom slučaju, čitava suština samouslužne analitike, za razliku od tradicionalnih skladišta podataka, je preskakanje procesa posredovanja podataka. To zahteva stvari kao što su definicije dimenzija i priprema kocke podataka, a samim tim i tima ljudi čiji je posao da rade na tome.

Devijantni Datameer

Zamisao samouslužne analitike je da korisnici sami istražuju izvore podataka, usput koristeći vizuelne paradigme. Postoji širok spektar alata u toj kategoriji, svaki sa sopstvenim pristupom i prednostima, a zatim postoje i neki devijantni. Datameer je jedan od tih devijantnih. Njegova paradigma za istraživanje je radni list. Može se tvrditi da je svrha upotrebe vizuelnih alata da se izbegne prolaženje kroz beskonačne redove i kolone, što bi bilo još strašnije kada je reč o tolikoj količini podataka.

Međutim, očigledno je da postoji segment tržišta za koji je ova paradigma korisna. Radni listovi postoje već jako dugo, pa mnogi ljudi umeju da rade sa njima. U suštini, platforma Datameer-a daje im mogućnost da se ne udalje previše od svoje zone komfora, a nudi im alternativu za SQL-on-Hadoop. Datameer omogućava korisnicima da se povezuju sa različitim distribucijama Hadoop-a u vlastitim prostorijama или u oblaku, i obezbeđuje mehanizam za unos deklarativnih formula za radne listove koje se prevode u potpuno optimizovane Hadoop poslove. Datameer takođe podržava ETL i funkcije za vizuelizaciju, a svoje radne listove za Datameer možete da izvezete da biste radili sa formatima CSV, Apache AVRO, Parquet i Tableau. Sada Datameer u svoj arsenal dodaje još jednu funkciju po imenu vizuelno istraživanje.

Vizuelna istraživanja – sve je u brzom indeksiranju

Ovo je zanimljiv potez u skladu sa vremenom. Ne odustaje od paradigme radnog lista, ali korisnicima daje mogućnost da vizuelno pregledaju grafikone koji sumiraju njihove beskrajne redove i kolone. Korisnici mogu da biraju polja iz njihovih skupova podataka za koje su zainteresovani, a Visual Explorer će ih sažeti u grafikone, pružajući i mogućnost udubljivanja. Tada korisnici mogu da odluče da li je to zanimljiv deo njihovih podataka za dalju analizu. Način na koji to funkcioniše je izgradnja indeksa usput, a oni se zatim koriste za izračunavanje distribucije podataka i za njihovo prikazivanje. Ovo je tehnologija za koju Datameer očekuje patent, ali mada specifičnosti nisu opisane, mogu se napraviti neke opservacije.

Datameer naglašava težak rad koji je uložen u to indeksiranje usput i sa dobrim razlogom. Zaista, indeksiranje je ključna tehnika za toliko efikasno pristupanje podacima. Indeksiranje takođe troši mnogo računanja i memorije, a računati unapred indekse za sva moguća istraživanja a priori nije moguće.

Datameer je objavio neke rezultate poređenja njihovog pristupa sa pristupima putem Hive, Spark SQL, Presto i Amazon Spectrum, koji pokazuju da Datameer ima bolje performanse i da se bolje skalira. Rezultate dobavljača treba obično uzeti sa malo rezerve, pa ovo nije izuzetak. Osim toga, ova najava je za beta verziju koja podržava samo nekoliko tipova grafikona.

Prihvatate vizuelni radni list?

Datameer kaže da će dodati još više pre nego što postane dostupan negde početkom 2018. godine. Kada je razgovarao sa Datameer podpredsednikom proizvodnje Raghu Thiagarajanom, on je istakao da Datameer ne zadržava potreba za preciznim indeksiranjem или razvijanjem novih indeksnih tipova za nove grafikone , već vizuelni deo predstavljanja.
Zaista, razvijanje grafikona koji se sami podešavaju za milione или milijarde podataka mora da je teško. Ali, pod pretpostavkom da će na kraju biti više grafikona, a dobitak performansi će zaista biti značajan, ovo predstavlja zanimljivo pitanje.

Ako ste klijent Datameera, jasno ćete imati koristi od nove funkcije. Ko ne bi voleo nov, jasno intuitivniji i izgleda brži način pristupa svojim podacima u okruženju i paradigmi koje već koristite? Pitanje je: Ako niste klijent Datameer-a, da li je ovo dovoljno važno da biste prešli kod njega? Verovatno, ako imate Hadoop jezero podataka, takođe imate neki način da analitičarima ponudite poznati interfejs za rad sa tim podacima.

Da li je to bilo kakva vrsta SQL-on-Hadoop-a, или možda ponovo izmenjene vaše stare kocke podataka, da li biste od toga odustali kako biste prešli na vizuelne radne listove? Povećanje performansi i jednostavnost korišćenja prelaskom na vizuelnu paradigmu zvuči privlačno. Ali da li je dovoljno privlačno da bi ljudi odustali od SQL-a? Da li bi oni radije zadržali oba zajedno, или bi možda samo sačekali i nadali se da njihov SQL-on-Hadoop uhvati korak?

Odgovor će biti različit u zavisnosti od toga da li počinju od nule или su postojeći korisnici, koliko je žestoka njihova potreba za brzinom, koliko su postojeće veštine, infrastruktura, ugovori, budžet, strategija itd. Potpuno izbacivanje SQL-a u korist vizuelne paradigme može izgledati zanimljivo, ali da li će to biti dovoljno dobro da bi se uticalo na čitavu zajednicu?

Da li će sve postojeće znanje o SQL indeksiranju i tona kombinovanih resursa na kraju omogućiti da vizuelne paradigme preko SQL-a uhvate korak? Biće zanimljivo videti koliko dobro ovo ide za Datameer i da li devijantni i dalje izaziva uhodane.

Izvor: ZD Net

4579-jezera-podataka-idu-ka-vizuelnom-radnom-listu