Data management

Rychle a zběsile? Real-time analytika versus tradiční datová analytika

Real-time analytika už dávno není přeludem, nýbrž vcelku reálnou úlohou datové analytiky, která doplňuje běžně známou dávkovou datovou analytiku o zcela nový rozměr okamžitého využití dat i nad rámec tradičního byznys procesu.


Právě stále se měnící data nás všechny propojují v současném rychle se vyvíjejícím globálním světě. Získání konkurenční výhody vyžaduje nutnou adaptaci na rapidně se zvyšující požadavky na okamžitý přístup k datům. Namísto reaktivního řízení je vyžadováno proaktivní řízení. Data se stala cennou komoditou a real-time analytika nástrojem, jak si udržet či zvýšit svou pozici na trhu.

Real-time analytika nabízí možnost zcela nové výzvy, kdy rychlá adaptace na měnící se situaci je naprosto klíčová. Právě zrychlování operativních procesů je velmi aktuálním tématem pro firmy, pro které dostupnost dat s minimálním zpožděním představuje podstatnou konkurenční výhodu.

Díky tomu si real-time analytika zaslouženě získává stále větší pozornost v řadě úspěšných společností, se kterými spolupracujeme (např. fintechu, společnosti provozující sociální sítě, společnosti zabývající se sdílenou ekonomikou atd.). 

Porovnání

Real-time analytika obvykle není pouze „nadopovanou“ tradiční analytikou bez původního, někdy nežádoucího časového zpoždění. Fakticky se jedná o sadu nástrojů a postupů, které pouze při správném použití přinesou požadovaný výsledek. 

Jestliže bychom chtěli jednoduše definovat datovou analytiku v reálném čase, setkáme se s několika možnými definicemi. Tou nejsprávnější je pravděpodobně i ta nejjednodušší definice, a tedy: real-time analytika je datová analytika, při které dochází k minimálnímu zpoždění mezi pořízením dat, integrací dat a analýzou dat včetně následného využití (zpětné vazby).

I přes vágní vymezení není real-time analytika úplnou novinkou a existuje v různých podobách již dlouhou dobu v mnoha odvětvích. 

Z historického hlediska hovoříme o malých omezených ostrůvcích analytiky v reálném čase integrované přímo do aplikací. Díky rozvoji potřebných generičtějších technologií a novým nápadům lze dnes nicméně stavět mnohem složitější a zajímavější řešení, než bylo možné před deseti lety.

Těmi nejstaršími jsou různé analýzy logů. Poslední generace nicméně přichází s plnohodnotnými řešeními v mnohem větším rozsahu. Přibližují se tradiční analytice, která dokáže mnohem víc než analýzu nad jedním datovým souborem s omezeným rozsahem dat a informací. 

Výhody i nevýhody real-time analytiky

Její výhodou je především okamžité a transparentní sdílení dat a informací, monitorování chování zákazníka, efektivnější procesy rozhodování a možnost okamžitých změn a úprav. Právě posledně uvedená výhoda je považována za velký benefit. Okamžitá možnost reagovat zmírňuje negativní dopady operačních problémů, tj. zabraňuje například tomu, aby zákazník produkt přestal používat. 

Mezi další výhody patří sledování změny strategie konkurentů a možné přetahování klientů ke konkurenci. Není žádným tajemstvím, že finanční sektor velmi láká k různým typům podvodů a krádeží. S real-time bezpečnostním systémem typu IDS je možné detekovat pokusy o nabourávání se do finančních systémů téměř okamžitě, a vyhnout se tak případným ztrátám finančním a reputačním.

Důvěra je v současné době opravdu hodnotným artiklem, se kterým není dobré nakládat lehkovážně. 

Slabší stránkou real-time analytiky může jednoznačně být nutnost neustálého online spojení všech real-time komponent proto, aby celý real-time proces správně fungoval. Tato skutečnost může být pro některé společnosti, jež by tento způsob datové analytiky uvítaly, finančně a technicky velmi náročná. 

Rovněž pro správné fungování a využití analytiky v reálném čase je potřeba implementovat nové a výkonné procesy schopné využívat zpětné vazby. Dále je potřeba počítat s tím, že jakékoliv updaty a změny budou dostupné ihned, tj. organizace společnosti se bude muset jistým způsobem této situaci přizpůsobit, což někdy nemusí být jednoduchý úkol… 

Kategorie datové analytiky

Datovou analytiku v reálném čase lze z hlediska zpoždění zpracování dat poměrně logicky vymezit samostatnou kategorií. V rámci následujících kategorií figuruje real-time analytika jako samostatná disciplína. 

1. On-demand datová analytika, fungující jen na základě vyžádání, často pouze jednorázově. 

2. Pravidelná dávková datová analytika, probíhající v pravidelných časových intervalech, jako jsou dny, týdny, měsíce, čtvrtletí, nebo dokonce roky. 

3. Intradenní datová analytika, která se realizuje několikrát denně v mini- nebo mikrodávkách. Fakticky je to rozšíření předchozí kategorie s dořešenými problémy souvisejícími s potenciálními datovými nekonzistencemi. 

4. Real-time datová analytika s mi nimálním zpožděním oproti vzniku dat. Datovým nekonzistencím je nutné se obvykle přizpůsobit. 

Okamžitá dostupnost dat (respektive dostupnost s minimálním zpožděním) je tedy klíčovou charakteristikou pro real-time analytiku, terá ji odlišuje od ostatních.  V pří padě dalších kategorií datové analytiky se vždy již bavíme o určitém významném zpoždění dostupnosti dat a větším či menším čekání na data s následnou reakcí. Takové zrychlení procesu dostupnosti dat pochopitelně klade zvýšenou náročnost na korektní technické provedení řešení, protože i menší dočasné zpoždění je zde zásadně znatelné oproti ostatním tradičnějším řešením. 

Využití datové analytiky podle datových zdrojů

Možné příklady využití real-time datové analytiky z pohledu kombinace datových zdrojů: 

1. Analýza exportu jedné datové množiny (např. souboru) při využití technik typu Change Data Capture nebo Log Mining/Log Shipping 

2. Analýza jednoho datového toku (např. tok událostí integrovaných do jedné komponenty typu Event Hub) 

3. Analýza více datových zdrojů současně, které mohou publikovat data v reálném čase nebo dávkově či různě kombinovaně 

Předpoklady správně nastavené real-time analytiky

Elementárním předpokladem správně fungujícího řešení real-time analytiky je datový zdroj, který dokáže publikovat nebo exportovat data s minimálním zpožděním. Jedná se buď o speciální funkcionalitu zdroje v podobě integrované analytiky, zasílání zpráv, datových toků nebo prostě aktivní komunikaci s analytickou částí, alternativně se využívají technologie, které data aktivně extrahují; ať už z různých logů nebo přímo z datových struktur pomocí technologií Change Data Capture. 

Kvalitní real-time datová integrace je další zásadní podmínkou k úspěchu. Na jedné straně potřebujeme mít úložiště schopné zapisovat rychle (v reálném čase) při souběhu více datových toků a na druhé nástroje pro datovou integraci a transformaci, které opět integrují velmi rychle. Zároveň veškeré operace se musí zvládnout vypořádat se specifiky toho typu datového toku, který z podstaty věci nemusí být zcela konzistentní ani datově dostatečně kvalitní pro okamžitou analýzu. 

Tato datová úložiště bývají často pojmenována jako Operational Data Store (ODS), což není ustálené označení a můžeme se setkat i s jinými názvy. Největší odlišností od klasické dávkové integrace, kde se zpracování řídí cílem transformace, je definice transformace na základě zdroje. Jedině tímto přístupem můžeme minimalizzovat zpoždění při zpracování dat. 

Třetím předpokladem je pak analytická vrstva, která opět dokáže pracovat velmi rychle a nedělá jí problém stát nad neustále se měnícími, někdy dokonce nekonzistentními daty. 

Čvrtým volitelným předpokladem mohou být nástroje, které dokážou analytické výstupy využívat a přímo ovlivňovat operativní procesy. Alternativně může jít o reportovací nástroje, které výstup zpřístupňují koncovým uživatelům, kteří sami přímo reagují. Případně může jít o kombinaci automatických a manuálních procesů. 

Úspěšná implementace real-time analytiky

Diskuze nad implementací by měla začít dvěma základními otázkami: 

1. Co chceme analyzovat v reálném čase (co)? 

2. Jaký bude přínos (proč)? 

Většinou není takový problém odpovědět na první otázku, tedy „co“, jako spíše vědět „proč“. Řada úloh se prostě ekonomicky nevyplatí v sebedelším časovém horizontu, protože real-time analytika je obvykle výrazně dražší než tradiční analytika, a to prakticky ve všech aspektech. Navíc zde platí, že rychlá zpětná vazba nemusí být příliš efektivní. Pokud je ale odpověď na otázku „proč“ uspokojivá, tzn. že aplikace má své ekonomické opodstatnění, můžeme začít řešit otázku „jak“. 

S ohledem na složitost a náročnost real-time datové analytiky není smysluplné implementovat veškerou datovou analytiku tímto způsobem a je potřeba volit vhodné úlohy a zbytečně neopakovat obecně známé chyby. Při vhodné volbě úloh je real-time datová analytika opravdu vynikajícím nástrojem pro zvýšení výkonnosti společnosti s velmi rychlou návratností.