Из техничких разлога садржај читалишта можете пратити искључиво на латиници.

Tri načina za eksperimentisanje sa analitikom teksta

Pregledajte svoj nestrukturisani tekst pomoću proizvoda u oblaku, alata za mašinsko učenje ili specijalizovanih programa za analizu teksta. Analitika teksta, koja se ponekad naziva prekopavanje podataka, je proces otkrivanja korisnih informacija, trendova ili obrazaca iz teksta. Izdvojeni i strukturisani podaci su mnogo praktičniji od originalnog teksta, što olakšava utvrđivanje kvaliteta i korisnosti podataka. Programeri i naučnici podataka tada mogu da koriste izvučene podatke u vizuelizacijama podataka, analizama, mašinskom učenju i aplikacijama. Analitika teksta ima za cilj da identifikuje činjenice, veze, osećanja ili druge kontekstualne informacije. Vrste izvučenih informacija često počinju od oznaka entiteta kao što su imena ljudi, mesta i proizvoda. Može napredovati na dodeljivanje tema, određivanje kategorija i otkrivanje osećanja. Kada se izdvajaju mere kao što su valute, datumi ili količine, uspostavljanje njihovog odnosa sa drugim entitetima (i kvalifikatorima, ako postoje) je ključna sposobnost analitike teksta.

Izdvajanje podataka iz dokumenata u odnosu na polja obrasca

Najteži izazovi u analitici teksta su obrada spremišta preduzeća i velikih dokumenata kao što su objedinjene vesti sa veb lokacija, korporativni finansijski podnesci, elektronski zdravstveni kartoni i drugi nestrukturisani ili polustrukturisani dokumenti. Raščlanjivanje dokumenata ima neke jedinstvene izazove, jer veličina i struktura dokumenta često nalažu pravila pretprocesiranja specifična za domen i NLP (obrada prirodnog jezika) algoritme. Na primer, kategorizacija objave na blogu od 1.000 reči mnogo je jednostavnija od rangiranja svih tema koje se nalaze u zbirci knjiga. Takođe, veći dokumenti često zahtevaju proveravanje izvučenih informacija na osnovu konteksta; na primer, zdravstveno stanje pacijenta treba kategorizovati nezavisno od stanja navedenih u njihovoj porodičnoj istoriji.

Ali šta ako želite da izvršite potencijalno jednostavniji zadatak izdvajanja informacija iz polja obrasca ili drugog kratkog tekstualnog isečka? Razmotrite ove moguće scenarije:

· Kvantifikovanje povratnih informacija iz opisnih odgovora iz ankete zaposlenih

· Obrada objava na društvenim mrežama gde se izražava mišljenje o brendovima ili proizvodima

· Kategoriziacija različitih vrsta interakcija među četbotovima

· Dodela teme korisničkim pričama u agilnoj evidenciji

· Usmeravanje zahteva servisnim službama na osnovu detalja problema

· Analiza informacija dostavljenih marketingu na vašoj veb lokaciji

Ovi problemi zahtevaju jednostavnije algoritme od raščlanjivanja dokumenata, jer su tekstualna polja prepoznatljiva, kratka i često sadrže određenu vrstu informacija.

Recimo da u aplikaciji treba da iskoristite nestrukturisane podatke iz polja, ili se od vas traži da u vizualizaciju podataka uključite korisne informacije izvučene iz teksta. Analitika teksta je važan prvi korak, a agilni timovi za obradu podataka često koriste vrhove za obavljanje poslova otkrivanja. Timu su potrebni alati, veštine i metodologije za izvođenje analitike teksta. Evo tri različita pristupa.

1. Koristite NLP i kognitivne usluge javnog oblaka

Glavni javni oblaci nude obradu prirodnog jezika i druge kognitivne usluge, tako da timovi koji već rade u tim okruženjima i vešti su u korišćenju tih algoritama treba da istraže sledeće opcije.

  • Azure Cognitive Services nudi nekoliko srodnih usluga. Form Recognizer može da izvadi parove ključ / vrednost iz tekstualnih polja i dokumenata, a Text Anslytics može da identifikuje entitete, osećanja i ključne fraze. Naprednija sposobnost Language Understanding može se koristiti za razvoj NLP modela u chatbot, mobilnim i IoT aplikacijama.
  • Google Cloud Platform ima dve odvojene ponude na prirodnom jeziku. Programeri mogu API za prirodni jezik da koriste za analizu osnovnih entiteta, izdvajanje osećanja i kategorizaciju sadržaja u 700 unapred definisanih kategorija. Napredniji AutoML NaturalLanguage stvara prilagođene modele kategorizacije i raspoloženja.
  • AVS Comprehend ima sličnu analitiku teksta i NLP funkcije sa API-jima za otkrivanje entiteta, događaja, ključnih fraza, tema, osećanja i informacija koje mogu da identifikuju ličnost. Programeri i naučnici za podatke takođe mogu da koriste Amazon SageMaker za testiranje, obuku i primenu NLP modela kao što su BlazingText, BERT (Bidirectional Encoder Representations from Transformers) ili SpaCy.
  • Watson Natural Language Understanding IBM-a može da izdvaja entitete, osećanja, kategorije i koncepte, ali takođe ima i sofisticiranije karakteristike za identifikovanje odnosa, osećanja i semantičkih uloga.

2. Koristite alate za analitiku teksta iz platformi za integraciju podataka i za mašinsko učenje

Ako je vaša organizacija investirala u integraciju podataka, mašinsko učenje ili analitičke platforme, onda u njima verovatno postoji neka analitika teksta i NLP mogućnosti. Korišćenje ovih platformi može biti lakši i brži način izvođenja lagane analitike teksta, umesto kodiranja u API-je ili u beležnice nauke o podacima. Evo nekoliko primera:

· Alteryx Designer ima funkcije rukovanja tekstom za predobradu, modeliranje tema i analizu raspoloženja.

· IBM SPSS Modeler Text Analytics može se koristiti za kategorizaciju i uobičajen je alat u istraživanju tržišta, za obradu odgovora na ankete.

· SAS Visual Text Analytics je vizuelni alat i otvorena platforma za raščlanjivanje, izdvajanje informacija, NLP modeliranje, analizu raspoloženja i analizu trendova.

Druge platforme za nauku o podacima, kao što su RapidMiner, Knime i Dataiku, izvorno nude funkcije rukovanja tekstom, putem dodataka i integracija sa javnim uslugama u oblaku.

3. Koristite specijalizovane alate za analitiku teksta

Ako je kodiranje na javnim platformama oblaka suviše složeno i ako vaša organizacija još nema analitiku, nauku o podacima ili platformu za mašinsko učenje sa mogućnostima za rukovanje tekstom, onda verovatno tražite treću opciju. Odgovor mogu biti specijalizovani alati za analitiku teksta. Pogledajte KeatText, Lexalytics, MeaningCloud, MonkeyLearn, NetOwl, Provalis Research, Rosette Text Analytics i druge platforme koje nude mogućnosti analitike teksta.

Analitika teksta se takođe često koristi u korisničkom iskustvu, automatizaciji marketinga, istraživanju tržišta, socijalnom slušanju, chatbotu i drugim platformama koje prikupljaju kvalitativne informacije o kupcima i izgledima prodaje.

Ne iznenađuje što mnogi alati imaju mogućnosti analitike teksta. Neki nude jednostavne pristupe sa unapred izgrađenim modelima zasnovanim na standardizovanim entitetima, kategorijama i temama, dok drugi omogućavaju izradu robustnih modela. Platforme se takođe razlikuju prema ciljanim slučajevima upotrebe, s tim da se neke fokusiraju na određene industrije, vrste dokumenata, zahteve za integraciju ili slučajeve upotrebe u tehnologiji.

Ako tek započinjete sa analitikom teksta, postoji nekoliko najboljih praksi. Počnite svaku vežbu otkrivanja podataka i analitike tako da definišete pitanja i ciljane ishode koji potencijalno donose poslovnu vrednost. Zatim razmotrite ukupnu složenost dokumenta, sadržaja i tekstualnih polja za koje se traži obrada i ispitajte detalje ciljanih entiteta, tema i semantike. Razumevanje složenosti problema pomoći će vam da utvrdite da li je održiv agilan skok ka laganom pristupu, ili je potreban opsežniji agilan dokaz koncepta u saradnji sa stručnjacima za rukovanje tekstom.

Što je najvažnije, shvatite da je analitika teksta i obrada prirodnog jezika oblik mašinskog učenja. Za dobijanje robusnih rešenja potrebno je eksperimentisanje sa različitim algoritmima, poboljšanje modela, dodavanje novih izvora podataka i provera kvaliteta rezultata. Za organizacije koje pokušavaju da poboljšaju korisničko iskustvo, analitika teksta je važna sposobnost za razvoj.

Izvor: InfoWorld