Master data management je všude kolem nás

Master data management neřeší jen velké organizace, které zpracovávají mnoho dat, řeší jej každý člověk ve svém běžném životě. Nechte se přesvědčit.


Existuje řada definic master data managementu (MDM). Jedna z nich říká, že se jedná o snahu organizace vytvořit jediný a hlavní referenční zdroj pro veškerá důležitá obchodní data. Výsledkem je méně chyb a méně redundancí v obchodních procesech. Zajímavou otázkou však je, co to znamená v praxi. 

Fungování MDM lze přiblížit na příkladu z více oblastí – například z našeho osobního života, kdy v rámci našeho mobilu můžeme řešit některé problémy pomocí MDM v kapse. Anebo z oblasti byznysu, kde si ukážeme, co dokáže například MDM v bance. Na základě získaných informací se pobavíme obecně o MDM oblastech a na závěr si trochu zaspekulujeme o tom, jak by mohlo vypadat MDM v budoucnosti.

MDM v kapse

Odpovězte si každý sám: jaká data máte ve svém mobilním telefonu? Anebo možná jednodušeji: jaká data tam ještě nemáme? Pojďme se tedy podívat na úplný základ. Telefon má plnit především funkci telefonování – zaměřme se tedy jen na telefonní čísla a informace s nimi spojené.

Telefonní kontakt se vyvíjel. V době, kdy existovaly jen pevné telefony, jste potřebovali „externí kartotéku,“ v níž byly podle abecedy seřazeni vlastníci čísla a samotné číslo. Časy se ale změnily, papírový bloček u telefonu a telefonní seznam v telefonní budce si pamatuje čím dál méně z nás.

S nástupem mobilních telefonů se tyto informace začaly uchovávat přímo v přístroji, a tím se začala psát historie elektronické správy dat. Nejprve byl prostor pro popis telefonního čísla výrazně omezen pouze pár znaky. Neexistovalo ani rozlišování jednotlivých atributů, jako jsou jména, příjmení, adresy, e-maily a jiné. Data byla uložena na telefonní kartě (SIM) a kontaktů mohlo být jen omezené množství – řádově stovky.

Později novější zařízení umožňovala kontakty uchovávat přímo v paměti telefonu, tudíž dokázal zobrazit kontakty ze dvou zdrojů dat zároveň. Původní kontakt na svého dědečka jste v telefonu rozšířili o jméno, příjmení a datum narození. Někdo si původní kontakt na SIM kartě ponechal, někdo ne. Dědeček zavolal a na některých telefonech se objevilo, že volá dědeček, na jiných že volá Novák František. To, že se dědeček tak jmenuje, jste bohužel věděli jen vy, přístroj ne.

Později váš dědeček přešel k jinému telekomunikačnímu operátorovi, a změnil si tím také své telefonní číslo. Zapomněl vám to říct, ale naštěstí jeho nové číslo znala vaše žena a zaslala vám jej vizitkou pod názvem: Děda Franta. Vy jste si ji rychle naimportoval a volal dědovi. Konsolidaci kontaktů jste si nechali na později.

Jak šel čas, Android vám nabídl efektivně zálohovat svoje kontakty do cloud úložiště, což jste přivítali a pravidelně zálohovali. Jako praktické se ukázalo také použít stejné centrální úložiště, když jste si pořídili další SIM do automobilu.

Jednoho dne vám telefon spadl na zem a už nenaběhl. Nejspíše jste v tu chvíli byli šťastni, že máte kontakty uložené v cloudu, ale už méně, když jste zjistili, že po každé obnově z úložiště se vám telefonní záznamy duplikují.

Na malý moment jste si říkali, že byste telefonní seznam opravili ručně, avšak více času jste strávili hledáním vhodné aplikace na deduplikaci kontaktů a zjistili jste, že v zásadě existují dva typy aplikací. Jedna na jednorázovou opravu dat a druhá nabízející online deduplikovaný seznam. První je nutné spouštět v pravidelných intervalech. Většinou až míra anarchie přeroste únosnou hranici.

Druhá vyřeší vše online za vás, ale je pomalejší a hlavně jiná. Automatika na deduplikaci zafungovala dobře u 90 % záznamů, u zbylých 10 % záznamů byste rádi sloučení zrušili nebo provedli jinak.

Stárnutí a obohacování kontaktů

Čím déle telefon a kontakty v něm máte, tím více vás postupem času trápí stárnutí dat. Některé kontakty jsou aktivní, jiné méně a další už jsou dávno mrtvé. Bylo by fajn, aby telefonní seznam vedl statistiku o volání pro daný kontakt a sám indikoval stárnutí kontaktů.

Stejně tak zajímavou funkcí by byla také preference určitého kontaktu podle doby, kdy byla daná osoba dostupná. Firemní telefonní číslo by se automaticky volilo podle běžné pracovní doby, číslo na pevnou linku vaší babičky by se zase nevybíralo ve čtvrtek odpoledne, kdy chodí na kávu s kamarádkou. 


Totéž platí o automatickém obohacování kontaktů o nové atributy, jako je například LinkedIn, Slack, E-mail, WhatsApp, Otevírací doba nebo Adresa a jiné. To je dnes však bohužel spíše hudba budoucnosti. Funkce na automatickou synchronizaci telefonního seznamu mezi přáteli a rodinnou si dokáži již nyní představit. Jde jen o rozšíření služeb pro cloudové úložiště.

Otázkou u externích služeb je však bezpečnost a také to, jak je a hlavně bude možné s daty nakládat.

MDM v bance

Zatímco se MDM problémy běžného smrtelníka dají snadno strčit do kapsy u kalhot, velké organizace musí řešit podobné problémy ve zcela jiném rozměru. Namísto stovek kontaktů zpracovávají desítky milionů kontaktů z desítek interních systémů a musí se věnovat bezpečnosti jak směrem ven, tak dovnitř organizace.

Směrem ven se řeší samotný přístup k datům. Směrem dovnitř zase způsob nakládání s daty. MDM problematika se často řeší na úrovni mateřské společnosti a jednotlivých dceřiných společností. Stejná data se tak nacházejí v mnoha systémech a v mnoha podobách, a pak se stává, že takto redundantní data nejsou konzistentní z hlediska obsahu nebo času.

Oblasti Master Data Managementu

Pojďme se nyní podívat, jakých oblastí MDM jsme se dotkli a jak je lze řešit. Problematiku můžeme rozdělit do čtyř základních oblastí (mastering, quality, integration a data discovery). Každá z nich se dá popsat několika způsoby užití. My se budeme vracet konkrétně k předchozímu příkladu s telefonním seznamem.

Aby bylo možné nasadit MDM řešení, musíme nejprve zjistit, která data a v jakých systémech vlastně máme k dispozici. Tomu se věnuje data discovery. Jakmile to víme, chceme data dostat na jedno společné místo, kde je můžeme analyzovat. Jedná se tedy o datovou integraci. Poté se začínáme zajímat o kvalitu dat.

Tu nejdříve monitorujeme podle určitých kritérií, následně se ji snažíme buď manuálními nebo automatizovanými úpravami zvýšit. Nyní máme splněny všechny předpoklady pro to, abychom se mohli věnovat maste ringudat, který bez kvalitních dat na centrálním místě nemá šanci na úspěch. Masterovaná data slouží jako referenční zdroj pro ostatní systémy.

K masterovaným datům je možné přidat další data, tzv. metadata, která říkají, jak s těmito daty nakládat.

Discovery

Data discovery umožní více poznat data, nad kterými chceme MDM provádět. Úkolem této disciplíny je také určit, v jakých systémech se která data nacházejí. Dalo by se říct, že každý svá data dobře zná. Ale opak je pravdou. Automatická data discovery umožňuje určit nejen základní datové typy (string, číslo, boolean, datum, čas), ale i datové typy o úroveň vyšší, například: jméno, ulice, telefon, PSČ, druhý telefon, e-mail.

Pomocí datového profilingu, založeného na frekvenční analýze a histogramech, je možné získat různé informace o hodnotách.

Integration

Zavedení procesů MDM vyžaduje centrální uložení všech dat. Discovery tedy v první fázi poskytne informace o tom, v jakých systémech data jsou, a tato data se poté „dopraví“ pomocí integrace na jedno místo pro další využití. Dochází k integraci vstupních dat z různých systémů, které využívají různé platformy (Windows, Linux, iOS, Android) poskytované různými technologiemi (webové služby, REST API, SQL, CSV, MS Excel) v různých fragmentech (přírůstek, plný snímek).

Celý proces přesunu dat je nutné řídit, neboť se data poskytují v různých intervalech a jsou na sobě závislá. Proces řízení musí být monitorován a výsledky auditovány.

Quality

Kvalita je klíčová pro následující mastering dat a nekvalitní data mohou jeho výsledky značně zhoršit. Úroveň kvality je nutné vyhodnocovat podle pravidel, následně ji vylepšovat, a to buď manuálně, nebo automatizovaně:

  • Překlepy – zcela běžně lze identifikovat překlepy pomocí slovníků.
  • Diakritika – patří mezi elementární problémy datové kvality.
  • Čísla – špatně zapsané číselné kódy lze kontrolovat podle matematických vzorců.
  • Datum a čas – datumové a časové položky lze vyhodnocovat a následně korigovat dle obsahu (24:15) nebo formy (23_15).
  • Výčet – výčtové hodnoty můžeme vyhodnocovat pomocí číselníků.
  • Adresa – komplexní datové struktury, jako je adresní bod, lze vyhodnotit vůči externím datovým zdrojům, které představuje datový registr.

Každé vyhodnocení kvality představuje hodnotu, která říká, jak je daný záznam kvalitní a jak je možné s tímto záznamem nakládat v následných procesech. Velmi nekvalitní záznam může úplně změnit pohled například na výsledný mastering.

Mastering

Mastering dat řeší, jak data z různých zdrojů, jako je SIM karta, paměť telefonu, firemní telefonní seznam, SMS vizitky, záloha a jiné, konsolidovat, aby ve výsledku poskytl jednotný pohled na záznamy pro okolní systémy. Konsolidace dat se týká vždy konkrétní domény (telefon, kontakt, adresa, firma…). 

V masteringu se vytvářejí skupiny jednotlivých záznamů, které si jsou velmi blízké. Blízkost záznamů je určována pomocí atributů definovaných nad danou doménou. Například pro naši doménu telefonní kontakt jde o atributy telefonní číslo, jméno, příjmení, titul, rodné číslo, případně IČO.

Tyto jednotlivé atributy nesou informace s určitou kvalitou a podle vyhodnocení jejich kvality se vytváří reprezentant pro danou doménu, který ale může pro danou skupinu existovat více.

Nejlepší reprezentant se často označuje jako zlatý záznam neboli ideální záznam, který se použije pro propagaci do dalších systémů nebo zpracování. Uživatel mobilního telefonu by tedy měl pracovat jen se zlatými záznamy.

U zlatých záznamů se vždy usiluje o to, aby byly jednoduše vyhledatelné a editovatelné. Uživatel by měl být schopen upravit nejen definici pravidel vytváření domén, ale i definici pro tvorbu zlatého záznamu. Zlaté záznamy se dají organizovat v různých hierarchiích a sdílet s ostatními uživateli.

MDM v budoucnosti

Nahlédněme nyní do budoucnosti, respektive do doby, kdy bude automatizace a poskytování služeb na denním pořádku a přitom budou programy vytvářet stále lidé. Jednoduše někam mezi současnost a éru Skynetu. Jak by MDM mohl fungovat?

Dodavatel k zákazníkovi fyzicky přinese MDM zařízení a položí jej doprostřed místnosti. Místní IT povolí zařízení přistoupit do interní sítě, které začne fungovat jako men-in-the-middle. Zařízení bude na síťové vrstvě naslouchat firemnímu provozu a identifikovat další zařízení fyzické infrastruktury, jako jsou jednotlivé servery, tiskárny atd.

Později začne na základě protokolů určovat jednotlivé aplikace a jejich verze. Na závěr systém aplikace zjistí strukturu a obsah posílaných dat, která proudí mezi jednotlivými aplikacemi.

Systém automaticky vytvoří data lake a business glossary, která mohou využívat další systémy, jako je například GDPR nebo anonymizace dat. Navíc umí třeba monitorovat datovou kvalitu jednotlivých dat a dávat doporučení na její zvýšení. Respektive doporučení by dával modul realizovaný umělou inteligencí. 

Následná konsolidace dat a mastering je pak vcelku snadná úloha. Systém připraví návrhy na sloučení instancí, poté je jen třešničkou na dortu úprava výstupního toku dle udělených souhlasů. Mezi zdroj a cíl by se vložil prvek, který automaticky upravuje jak datovou kvalitu, tak mastering, aniž by bylo nutné upravovat data ve zdrojovém systému, tudíž odpadá nutnost upravovat primární a cílový systém.

Automatická integrace na síťové vrstvě umožní systém, jak jednoduše přidat, tak odebrat. Podobná implementace MDM do IT ekosystému organizace by umožnila nenásilnou dodávku v podobě služby. 

Pokud se vám tento případ zdá jako příliš daleká budoucnost, věřte, že už takto fungují IT útočníci i antivirové systémy. Obě skupiny ale využívají „poslouchání“ provozu na síti jako prostředku k dosažení jiných cílů, ne k získání metadat a data exploration.