.

Integrace dat

Integrujeme data z mnoha typů datových zdrojů se zohledněním Data Governance

Integrujeme data z různých datových zdrojů za účelem jejich sjednocení, propojení, zprostředkování a reportingu. Při integracích dbáme na Data Governance a anonymizaci dat, na která se vztahuje např. GDPR nebo interní politika organizace.

Nejčastěji zajišťujeme data z následujících zdrojů

None

Veřejné zdroje

None

Databázové systémy

None

File-based

None

Cloud storage

Benefity datových integrací

Oblast

Jak pracujeme/co umožňujeme

Benefity pro zákazníky

Pokročilá datová analytika

Datové integrace umožňují propojení relevantních dat, jejich transformaci a lepší náhled na data jako celek

Neomezené možnosti pro pokročilou datovou analytiku

Datová kvalita

Datové integrace přinášejí standardizaci, čistění, obohacování a validaci

Zlepšujeme datovou kvalitu a dodáváme spolehlivé a přehledné reporty pro koncové uživatele

Data Governance

V rámci datových integrací standardizujeme i metadata, centralizujeme je na jednom místě

Zajišťujeme ucelenou Data Governance

Anonymizace dat

Díky pokročilým nástrojům umíme integrovaná data maskovat

Anonymizace podle potřeb organizace/oddělení. Anonymizaci dat umíme řešit již při samotném přenosu integrovaných dat a zároveň i v kterékoliv vrstvě cílového uložiště

Bezpečnost

Dbáme na bezpečnost již při ukládání dat (aby nedošlo k přístupu k datům neautorizované osoby) i při jejich zprostředkování v rámci platformy

Zajistíme bezpečnost ve všech prostředích, vrstvách, pro všechny uživatelské role dle firemní Data Governance

Klasifikace dat

U každého datového zdroje řešíme klasifikaci dat, již od nejnižší úrovně, což v praxi znamená, že různé datasety z jednoho datového zdroje mohou mít různou klasifikaci

Vytváříme různá prostředí, na která mají přístup pouze oprávnění uživatelé

Automatizovaná orchestrace dat

Pro pravidelný a plynulý provoz aplikujeme automatizovanou orchestraci

Integrační workflows zůstávají stále stejná dle definovaných pravidel. Získáváme přehled nad všemi procesy a výkonem (performance) z administrátorského pohledu

Průběh datových integrací

V rámci datových integrací analyzujeme zdrojová data a požadovaný výstup. Zároveň zpracováváme a doplňujeme metadata, s jejichž pomocí se následně provádí samotná datová integrace.

Integrovaná data obvykle putují do několika vrstev, přičemž v každé vrstvě mohou plnit jiný účel a mít jinou podobu.

None

Finální vrstva - Data mart
• data jsou připravena a očištěna k datovým analýzám, reportingu a strojovému učení
• umožňuje propojení více data setů do jednoho data martu dle uživatelských potřeb
• před touto vrstvou se může navíc nacházet jedna či několik vrstev, ve kterých probíhají například agregace a deduplikace dat, pokud to daná úloha vyžaduje
• oprávnění: další uživatelé, kteří chtějí odebírat a reportovat finální data

Speciální prostředí - Group & Personal workspace
• jedná se o testovací/osobní prostředí pro jednotlivce anebo pro konkrétní tým/projekt
• kompletně oddělené od standardních prostředí vzhledem k oprávnění a vývojové podpoře

2. vrstva - Optimized
• probíhají zde úvodní transformace dat a jejich přetypování na cílové datové typy dle metadat
• oprávnění: kromě administrátorů a vývojářů integrace také vybraní koncoví uživatelé, aby mohli ověřovat správnost dat již na druhé vrstvě

1. vrstva - Landing
• data se zde uchovávají ve stejném formátu, ve kterém přišla
• slouží pro kontrolu, zda při přenosu dat nedošlo k poškození
• oprávnění: pouze administrátoři a vývojář integrace

Technologie pro integrace dat

None

pořízení dat

  • přenášíme data ze zdrojového do cílového uložiště např. prostřednictvím Adoki, Spark, Kafka…
  • data umíme pořizovat pomocí batch/micro batch/real-time přístupů
None

zpracování dat

  • zpracování dat obstarávají tzv. integrační workflows
  • ta automatizujeme pomocí orchestračních nástrojů, např. Airflow

Správa metadat

Metadata ke každému integrovanému zdroji uchováváme

None

na sdíleném úložišti organizace

(GitHub, GitLab, Azure DevOps...)

None

v metadatových databázích

(SQL databáze, NoSQL databáze)

Metadata obsahují

None

obecný popis dat

klasifikaci dat
  • interní, veřejná, důvěrná, tajná
vlastníka a technické kontakty
  • vývojáře integrace, popř. datového analytika
None

popis datasetů

názvy a komentáře tabulek a sloupců,
datové typy a
další technické závislosti jako:
  • názvy datových zdrojů a
  • jejich propojení s cílovým uložištěm apod.
None

navazující CI/CD pipeliny

automatizovaně vytvářejí datová workflows. Po vytvoření workflow je celý proces automatizovaný a akvizice dat probíhá
  • automaticky v definovaný čas
  • při indikaci nových dat

Reference

Automotive: integrace 8 IoT a 1 meta databáze pro snížení zátěže a úsporu místa ve zdrojovém systému

None

Velká automobilce jsme umožnili efektivně pracovat se senzorickými (IoT) daty z výroby. Současně jsme odlehčili zátěž a zavedli retenci dat ve zdrojovém systému.

  • Nastavili jsme a spravujeme replikace 8 databází a jedné meta databáze s kompletní historií, což vedlo ke značené úspoře místa ve zdrojovém systému
  • Využíváme k tomu replikační nástroj Adoki, který
    • spolehlivě a rychle replikuje veškeré databáze
    • při replikační fázi očišťuje data od nepřesných dat
    • zpracovává data do správného formátu

Automobilka dosáhla požadované úspory místa/kapacity ve zdrojovém výrobním systému, snížila se zátěž na systém a byla zavedena retence dat na 12 měsíců.

Automotive: Integrace CRM systému pro komplexnější reporty, důraz na anonymizaci citlivých dat

Ve velké společnosti působící v automobilovém průmyslu jsme zlepšili datovou kvalitu zákaznických dat, integrovali jsme jednotlivé CRM moduly do jednotného datového řešení a navíc jsme ho obohatili o data z veřejných rejstříků.

  • vytvořili jsme data marty ve Sparku, které využívají byznysoví uživatelé prostřednictvím Power BI
  • jsme schopni zpracovat více zákaznických dat a tvořit komplexnější reporty
  • pokročilá datová analýza díky tomu probíhá jak nad základními, tak nad agregovanými daty napříč všemi doménami CRM

V celém řešení jsme kladli důraz na anonymizaci citlivých dat, přičemž některá data se anonymizují již při samotném pořízení dat.

None

Automotive: Integrace dat ze systému JIRA pro identifikaci rizik

None

Díky integraci dat přímo ze zdrojového systému JIRA připravujeme pro velkou automobilku podrobný přehled o stavu projektů, veškerých jejich podúloh a timesheetů.

  • vyvinuli jsme aplikaci, která dennodenně prostřednictvím Adoki stahuje data z JIRA, transformuje je do korektních formátů a nahrává do cílového uložiště
  • integrovaná data dále analyzujeme a vizualizujeme v reportech, které zákazníkovi umožňují
    • sledovat stav projektů souhrnně i v detailu
    • monitorovat průběh jejich podúloh
    • odhalovat rizikové oblasti až na úroveň timesheetů nebo financování projektů

S přestihem varujeme odpovědné osoby u zákazníka na nadcházející rizika a potenciální komplikace, protože dokážeme rizikové oblasti odhalovat včas.

Výroba: Integrace veřejných rejstříků pro zlepšení datové kvality

Díky automatizovanému nahrávání dat z veřejných rejstříků jsme u velké výrobní společnosti odstranili chybovost, kterou způsobovalo volné, manuální zadávaní dat o adresách firem a jejich vedoucích pracovnících.

  • zvolili jsme automatizované nahrávání dat z veřejných rejstříků
  • nastavili jsme pravidelné integrace – denní nahrávání dat a denní kontrolu
  • kontinuálně tak ověřujeme správnost a aktuálnost zákaznických vstupních dat
None

Nemělo by vám uniknout

Blog

Máte zájem o řešení přímo na míru vašim potřebám? Kontaktujte nás ještě dnes.

Děkujeme

V co nejbližší době se vám ozveme.

Dagmar Bínová

Big Data & Data Science Team Lead

Tomáš Plánička

Big Data Solution Architect