8 tipů pro budování vyspělých platforem big data

Společnosti, které svůj byznys opírají o data, generují vyšší příjmy než ty, které se rozhodují na základě intuice nebo jiného přístupu. Neriskujte, že začnete zaostávat…


Postavit big data platformu jde za pár měsíců. Ale aby plnila svoji roli a vyspěla, to chce svůj čas. Několikrát jsme si to ověřili na reálných realizacích v bankách, telekomunikacích i ve výrobních společnostech. Přestože jsme datovou platformu v jedné bance postavili už v roce 2015, stále ještě na svou maturitu čeká. Pořád je totiž co vylepšovat a rozvíjet. A stále přibývají další a další data.

Projekty na big data bývají komplexní a dají se realizovat pomocí několika různých technologických a architekturních řešení. Jak postupovat, abyste ve svém snažení uspěli?

 

1. Odbourejte datová sila

Často se setkáváme s malou ochotou sdílet v rámci organizace data s někým jiným. Ve velkých organizacích stále přetrvává majetnický vztah a udržování datových sil. Lidé si sice uvědomují, že data potřebují, ale nechtějí se o ně dělit.

Byznysový tip: Transformace na datovou společnost se odehrává v hlavách uživatelů. Bez jejich motivace, ideálně i od vedení společnosti, a jasně deklarovaných benefitů toho nelze dosáhnout. Díky zainteresovanému Chief Data Officerovi se v jedné české bance povedlo sila odbourat. Neváhejte si naklonit management na svoji stranu!

Technologický tip: Díky datovým platformám (ať už on-premise nebo na cloudu) můžete data sdílet a odbourat tak datová sila. Můžete na ně automatizovaně přenést data jednotlivých oddělení (např. je zreplikovat pomocí Adoki). Vaše původní data zůstanou nedotčená, nikde nemizí a zároveň s nimi ostatní oddělení pracují dle svých potřeb. Nic vám ani nesmažou, ani nepokazí.

 

2. Postavte datové jezero

Mnoho našich zákazníků buduje data lake nebo big data platformu, aby odstranili tradiční přístup, tj. rozptýlená data ve velkém množství sil: databází, souborových systémů, aplikací a dalších míst. Datová jezera mají jednu nespornou výhodu: pojmou ohromné objemy dat, strukturovaných i nestrukturovaných. Můžete si na ně ukládat nejen data, ale i obrázky, zvuky, videa a realizovat nad nimi zajímavé analytické úlohy.

Datová jezera, jako Hadoop nebo obdobné systémy provozované v cloudu, pomohou vyřešit problém s oddělenými daty a umožní kooperaci. Bohužel ale vzniknou tím problémy nové…

Byznysový tip: Zamyslete se vážně nad tím, jaká data opravdu můžete potřebovat a za jakým účelem. Neváhejte se kvůli tomu spojit i s dalšími odděleními a probrat jejich potřeby, plány a vize. Ne všichni to mohou vidět stejně jako vy. V jezeru by mělo být to, co je reálně potřeba. Nedostatečná komunikace a ochota sdílet brzdí schopnost organizace získat z dat skutečnou hodnotu.

 

3. Myslete na data governance

Už od samého začátku je vhodné se zaměřit na klasická datová témata s nimiž se pojí obtíže se zajištěním datové konzistence, datové čistoty, dohledatelnost, srozumitelnost, jaké informace data obsahují a jak vznikla. Často pracujeme v prostředí, kde chybí datové katalogy a byznysové glosáře. Centralizovaný datový katalog by měl poskytovat přehled o datovém portfoliu a současně by měl podporovat zajištění přístupových práv a jejich správu. Jde o to, aby i byznysoví uživatelé viděli, co je ve firmě za data, a věděli, jak získat přístup k tomu, co potřebují. Aby se mohli správně rozhodovat a měli podklady pro inovace.

Byznysový tip: Jednou z nejlépe hodnocených platforem data governance je podle Gartneru česká Ataccama. Využívá automatizace i inovativního přístupu k data managementu – tzv. Data Quality Fabric, které Gartner zařadil mezi “Top 10 trendů v datech a analytice v roce 2021

 

4. Umožněte datovou demokratizaci

Ačkoli se zákazníci v našich projektech velmi snaží demokratizovat přístup uživatelů v rámci celkové modernizace datového ekosystému, stále se vyskytuje dost bariér, které to limitují – především z oblasti bezpečnosti dat a GDPR. Různé skupiny uživatelů, jako datoví analytici, datoví inženýři, datoví vědci, mohou pracovat s větším rozsahem dat a mají celou řadu možností, jak je využít.

Technologický tip: Data mohou být dostupná, ale nikoli všechna všem. Správu a přístup k datům můžete řídit na různých úrovních. Jednak přímo na datové platformě, ale také v rámci uživatelského rozhraní např. v rámci Power BI nebo Tableau.

 

5. Promyslete i anonymizaci

Z důvodu ochrany soukromí zákazníků je nutné dbát na korektní práci s daty v anonymním módu. A tak je na místě vypracovat postup, jak to zajistit – bezpečně, automatizovaně a spolehlivě. Vytvoření sekundárního datového prostředí, kde budou výhradně anonymizovaná data, je dnes nutností.

Byznysový tip: Pro Data Scientisty často vytváříme datové prostředí, v němž lze pokročilé statistické a machine learningové modely vyrábět čistě nad anonymizovanými daty. Pro toto prostředí je možné použít různé anonymizační frameworky a scénáře. Důležité ale je, abyste v tomto prostředí měli data vždy čerstvá.

 

6. Využívejte různé datové zdroje a integrujte je

Při zajišťování dat na datovou platformu si dejte pozor na to, abyste nevybudovali datovou bažinu. Integrace dat, pro něž není v řádu několika měsíců konkrétní analytické nebo byznysové využití, zakládá na tvorbu datové bažiny. Proto doporučujeme budovat data lake postupně, podle byznysových zadání. Primárně by měl poskytnout výsledky v jedné konkrétní oblasti. Teprve potom začněte postupně přidávat další a další zdroje dle případů použití.

Byznysový tip: Při zajišťování datových zdrojů na jedno centrální úložiště se často setkáváme s tím, že ve společnosti existují dva druhy dat – vlastní data a data z externích zdrojů. Máte-li datové jezero (data lake), můžete si tato „cizí“ data pořídit jen jednou a poskytnout je pro další zpracování ostatním týmům.

 

7. Od začátku počítejte s velkou datovou platformou

Projekt na big data nemusí být hned od začátku obrovský. Nicméně je vhodné, aby architektura řešení byla navržena tak, aby se dala snadno škálovat a v budoucnu rozšířit. Mějte také na paměti výhody a nevýhody on-premového řešení a cloudu. A nezapomínejte pravidelně vyhodnocovat svoje potřeby. Např. jak rychle jste schopni zareagovat na stoupající množství dat vaší společnosti a rostoucí počet uživatelů? Díky cloudu, který eliminuje investice do hardwaru, mohou organizace navyšovat výpočetní výkon ze dne na den. Na druhou stranu protlačit přes internetovou linku vaší společnosti petabyty dat nemusí být vždy úplně jednoduché.

Byznysový tip: Je lepší začít menším projektem, u kterého je vyšší pravděpodobnost úspěchu, a na něm pak v průběhu času stavět.

Technologický tip: Myslete dopředu, na škálovatelnost, rozšiřitelnost, kapacity i náklady.

 

8. Strategií se vyhnete spoustě problémů

Rozhodně se vyplatí mít pro budování datového ekosystému strategický záměr, který podporuje silný enterprise architekt a který je pokrytý i z finančního hlediska. Vyhnete se tak mnoha nepříjemnostem a problémům. Ale překážky na cestě budou neustále. S funkční strategií jsme v celé řadě našich projektů na big data odstranili bariéry, které by bránily byznysovým uživatelům v přístupu k datům. Ačkoli se pohybujeme v agilním světě, bez strategie a fázování vývoje se neobejdeme.

Byznysový tip: Propracovaná reálná strategie eliminuje nemilá překvapení na vaší cestě k vysněné datové společnosti.

 

 

Autorka: Dagmar Bínová se celou svou profesní dráhu věnuje datům, jejich analýze a byznysovému využití. Ve společnosti Adastra vede tým Big Data a Data Science.

Zdroj: článek vyšel v časopisu IT Systems 9/2022, přečíst si ho můžete i na serveru SystemOnline.cz.