Језера података иду ка визуелном радном листу?

Ако волите да користите радне листове и имате тону података који седе у језеру података, нова Датамеерова алатка за визуелна истраживања може бити права ствар за вас. Самоуслужна аналитика постоји у различитим облицима и величинама, па тако и језера података. Обоје су популарни концепти који обликују свет Big Дата, тако да није чудно што постоји маса приступа и алата. Такође постоји и доста преклапања између њих. Језера података заснована на Hadoop-у су прилично честа ових дана, али то не олакшава рад са типовима ван науке о подацима. Значи, самоуслужне алатке за аналитику покушавају да их подрже као изворе података са којима корисници могу да се повежу.

Ovo se dešava kroz sloj medijacije, obično zasnovan na SQL-u. Postoje različiti SQL-on-Hadoop motori, u rasponu od vlasničkih do otvorenog koda, a svaka distribucija ima svoj. Dakle, u zavisnosti od toga kolika je brzina vašeg SQL-on-Hadoop motora i koliko je veliko vaše jezero podataka, vaši troškovi na strani samouslužnog alata će se razlikovati. Tipično, takvi alati takođe pokušavaju da olakšaju stvari sa svoje strane, podržavaju što više raznih motora, primenjuju pametne tehnike povezivanja i tako dalje.

U svakom slučaju, čitava suština samouslužne analitike, za razliku od tradicionalnih skladišta podataka, je preskakanje procesa posredovanja podataka. To zahteva stvari kao što su definicije dimenzija i priprema kocke podataka, a samim tim i tima ljudi čiji je posao da rade na tome.

Devijantni Datameer

Zamisao samouslužne analitike je da korisnici sami istražuju izvore podataka, usput koristeći vizuelne paradigme. Postoji širok spektar alata u toj kategoriji, svaki sa sopstvenim pristupom i prednostima, a zatim postoje i neki devijantni. Datameer je jedan od tih devijantnih. Njegova paradigma za istraživanje je radni list. Može se tvrditi da je svrha upotrebe vizuelnih alata da se izbegne prolaženje kroz beskonačne redove i kolone, što bi bilo još strašnije kada je reč o tolikoj količini podataka.

Međutim, očigledno je da postoji segment tržišta za koji je ova paradigma korisna. Radni listovi postoje već jako dugo, pa mnogi ljudi umeju da rade sa njima. U suštini, platforma Datameer-a daje im mogućnost da se ne udalje previše od svoje zone komfora, a nudi im alternativu za SQL-on-Hadoop. Datameer omogućava korisnicima da se povezuju sa različitim distribucijama Hadoop-a u vlastitim prostorijama или u oblaku, i obezbeđuje mehanizam za unos deklarativnih formula za radne listove koje se prevode u potpuno optimizovane Hadoop poslove. Datameer takođe podržava ETL i funkcije za vizuelizaciju, a svoje radne listove za Datameer možete da izvezete da biste radili sa formatima CSV, Apache AVRO, Parquet i Tableau. Sada Datameer u svoj arsenal dodaje još jednu funkciju po imenu vizuelno istraživanje.

Vizuelna istraživanja – sve je u brzom indeksiranju

Ovo je zanimljiv potez u skladu sa vremenom. Ne odustaje od paradigme radnog lista, ali korisnicima daje mogućnost da vizuelno pregledaju grafikone koji sumiraju njihove beskrajne redove i kolone. Korisnici mogu da biraju polja iz njihovih skupova podataka za koje su zainteresovani, a Visual Explorer će ih sažeti u grafikone, pružajući i mogućnost udubljivanja. Tada korisnici mogu da odluče da li je to zanimljiv deo njihovih podataka za dalju analizu. Način na koji to funkcioniše je izgradnja indeksa usput, a oni se zatim koriste za izračunavanje distribucije podataka i za njihovo prikazivanje. Ovo je tehnologija za koju Datameer očekuje patent, ali mada specifičnosti nisu opisane, mogu se napraviti neke opservacije.

Datameer naglašava težak rad koji je uložen u to indeksiranje usput i sa dobrim razlogom. Zaista, indeksiranje je ključna tehnika za toliko efikasno pristupanje podacima. Indeksiranje takođe troši mnogo računanja i memorije, a računati unapred indekse za sva moguća istraživanja a priori nije moguće.

Datameer je objavio neke rezultate poređenja njihovog pristupa sa pristupima putem Hive, Spark SQL, Presto i Amazon Spectrum, koji pokazuju da Datameer ima bolje performanse i da se bolje skalira. Rezultate dobavljača treba obično uzeti sa malo rezerve, pa ovo nije izuzetak. Osim toga, ova najava je za beta verziju koja podržava samo nekoliko tipova grafikona.

Prihvatate vizuelni radni list?

Datameer kaže da će dodati još više pre nego što postane dostupan negde početkom 2018. godine. Kada je razgovarao sa Datameer podpredsednikom proizvodnje Raghu Thiagarajanom, on je istakao da Datameer ne zadržava potreba za preciznim indeksiranjem или razvijanjem novih indeksnih tipova za nove grafikone , već vizuelni deo predstavljanja.
Zaista, razvijanje grafikona koji se sami podešavaju za milione или milijarde podataka mora da je teško. Ali, pod pretpostavkom da će na kraju biti više grafikona, a dobitak performansi će zaista biti značajan, ovo predstavlja zanimljivo pitanje.

Ako ste klijent Datameera, jasno ćete imati koristi od nove funkcije. Ko ne bi voleo nov, jasno intuitivniji i izgleda brži način pristupa svojim podacima u okruženju i paradigmi koje već koristite? Pitanje je: Ako niste klijent Datameer-a, da li je ovo dovoljno važno da biste prešli kod njega? Verovatno, ako imate Hadoop jezero podataka, takođe imate neki način da analitičarima ponudite poznati interfejs za rad sa tim podacima.

Da li je to bilo kakva vrsta SQL-on-Hadoop-a, или možda ponovo izmenjene vaše stare kocke podataka, da li biste od toga odustali kako biste prešli na vizuelne radne listove? Povećanje performansi i jednostavnost korišćenja prelaskom na vizuelnu paradigmu zvuči privlačno. Ali da li je dovoljno privlačno da bi ljudi odustali od SQL-a? Da li bi oni radije zadržali oba zajedno, или bi možda samo sačekali i nadali se da njihov SQL-on-Hadoop uhvati korak?

Odgovor će biti različit u zavisnosti od toga da li počinju od nule или su postojeći korisnici, koliko je žestoka njihova potreba za brzinom, koliko su postojeće veštine, infrastruktura, ugovori, budžet, strategija itd. Potpuno izbacivanje SQL-a u korist vizuelne paradigme može izgledati zanimljivo, ali da li će to biti dovoljno dobro da bi se uticalo na čitavu zajednicu?

Da li će sve postojeće znanje o SQL indeksiranju i tona kombinovanih resursa na kraju omogućiti da vizuelne paradigme preko SQL-a uhvate korak? Biće zanimljivo videti koliko dobro ovo ide za Datameer i da li devijantni i dalje izaziva uhodane.

Izvor: ZD Net

Језера података иду ка визуелном радном листу?

Devijantni Datameer

Vizuelna istraživanja – sve je u brzom indeksiranju

Prihvatate vizuelni radni list?

Важни датуми

ШКОЛСКА 2025/2026.

БЕСПЛАТНЕ МАСТЕР И ДОКТОРСКЕ АКАДЕМСКЕ СТУДИЈЕ

Мастер академске студије

Докторске академске студије

Пријемни испит

септембар 2025.

Мастер струковне студије

Припремна настава

Мастер струковне студије

ШКОЛСКА 2026/2027.

Пријемни испит

септембар 2026.

Основне студије

Струковне студије

Припремна настава

Академске студије

Струковне студије

Пријемни испит

јун 2026.

Основне академске студије

Припремна настава

Стипендије на Рачунарском факултету