Použít virtualizaci nebo replikaci dat? Tři klíčové faktory z praxe pro správné rozhodnutí

Potřeba mít stejná data v různých systémech roste. Často se v této souvislosti skloňuje virtualizace dat. V posledních dvou letech se s ní setkáváme i ve výběrových řízeních. Tento způsob se nám nicméně neosvědčuje ve všech úlohách, na něž je poptáván. Z našich zkušeností může být vhodnou alternativou k virtualizaci dat jejich replikace. Na první pohled se nemusí jevit jako výhodná, ale má celou řadu pozitiv…


Společnost Varada zveřejnila v  roce 2021 průzkum o stavu virtualizace dat mezi 130 datovými experty v  USA:  

  • 63 % expertů uvedlo, že virtualizace jsou moc drahé  
  • 33 % expertů říká, že pro virtualizaci vlastně není žádný byznysový důvod  
  • 47 % expertů si myslí, že virtualizace nemá dostatečný výkon 

Jak to tedy je?

V jakých případech použít virtualizaci a kdy replikaci dat?  

Oba přístupy řeší stejný problém: jak zajistit, aby uživatel nebo aplikace měli přístup k datům, která se nacházejí na několika různých systémech.  

Virtualizace dat představuje rychlé řešení, jak prohledávat a spojovat data z několika systémů současně. Její hlavní výhodou je možnost dotazovat se do několika různých systému přímo, bez prostředníka. Další výhodou také může být, že se můžete dotazovat na cokoli vás napadne. Všechna data jsou k dispozici. Můžete hledat nové informace a vytěžovat poznatky z různých oblastí.  

Replikace dat představuje efektivní řešení, jak jedna data poskytovat na několika systémech současně. Replikace dat je výhodná všude tam, kde není potřeba mít k dispozici úplně všechna data, ale jen ta, která mají potenciál dalšího využití, především v analytice a reportingu.  

Hlavní výhodou datové replikace je její spolehlivost a dostupnost replikovaných dat. 


Virtualizace vs. Replikace 

Virtualizace Replikace 
chci pracovat rychle chci pracovat efektivně 
chci se na data jen podívat chci znát historii dat 
nevím, s jakými daty chci pracovat  vím, s jakými daty chci pracovat 
pro výstup stačí data ve struktuře ze zdrojů pro výstup musím zdrojová data nějak upravovat/transformovat 
data/pohled mám jednorázově data/pohled je opakovaně dostupný  

Zaměřme se na tři hlavní kritéria, která prozradí, kdy je lepší virtualizovat a kdy replikovat. 
 

Kritérium č. 1 – Objem/velikost dat 

Virtualizace dat primárně představuje zátěž pro zdrojové systémy, v nichž jsou data uložena. Pokud se rozhodneme virtualizovat velké objemy dat, musíme mít k dispozici dostatek výpočetních prostředků. A to se v praxi ukazuje jako problém. 

Oproti tomu replikace dat je na výpočetní prostředky úsporná, neboť dokáže pracovat v inkrementálním režimu. Tzn. že u ní dochází ke sběru pouze nových a změněných dat.  

Příklad z  praxe:  
Jakmile přenášíte například více než 1 TB dat, virtualizace „přestane fungovat“. Ne, že by to nezvládla, ale… Velké objemy dat se při virtualizaci obvykle „nevejdou“ do paměti RAM, je problematické je všechna načíst a uživatelům ukázat.    

Řešením je zvýšení paměti. S tím ale roste i cena za virtualizaci. Právě ceny pamětí RAM dnes blokují vývoj a tím omezují uživatelský komfort.  

Replikace na rozdíl od virtualizace nejvíce využívá úložného prostoru na discích nebo v cloudu. Tam se data uloží do datového úložiště/platformy. Navíc cena za ukládání dat se v posledních letech dramaticky snížila.  

Kritérium č. 2 – Složitost transformací dat 

Virtualizace dat naráží na problémy, pokud potřebujeme data v jiné podobě, než v jaké jsou na zdrojových systémech a snažíme se jejich datové struktury složitě transformovat. Čím více transformací použijeme, tím více omezujeme zdrojové systémy. 

V případě replikace dat, ale tento problém neřešíme, protože nejprve přenášíme zdrojová data bez úprav a vlastní transformace realizujeme až na cílovém systému. Ten navrhujeme tak, aby složité transformace zvládal. 

Příklad z  praxe:  
Jakmile potřebujete některé informace anonymizovat, tzn. zamaskovat původní hodnoty a nahradit je jinými, pak se jedná o poměrně složitou výpočetní operaci, která při virtualizaci paměť RAM vytíží. A pokud anonymizujeme citlivé údaje, pak se tak děje nepoměrně často. Proto se pro tvorbu analytického prostředí volí princip replikace.  

Kritérium č. 3 – Počet uživatelů 

Virtualizace dat není nejvhodnější volbou také v případě, kdy se systémem či aplikací současně pracuje velký počet uživatelů. Když se všichni najednou „zeptají“ na virtualizovaná data z několika systémů, lehce vytvoří na zdrojových systémech výraznou zátěž. A to i v případě, že se jedná o malá data s minimem transformací. 

Použijeme-li replikaci dat, počet dotazů na zdrojové systémy se minimalizuje. Uživatelé s daty totiž opět pracují na cílových systémech, obvykle velmi výkonných a rychlých. A to může být třeba i tím, že byly navrženy později než zdrojové systémy a bývají postaveny na modernějších a výkonnějších technologiích. 

Příklad z  praxe:  
Zpřístupnění všech zákaznických operací všem pracovníkům bankovních poboček jedné z největších českých bank by při virtualizaci bylo pro zdrojové systémy takovou zátěží, že bez jejich replikace do centrálního datového úložiště by to prostě nešlo. 
 

Virtualizace nebo replikace očima datového specialisty  

Co získají dva datoví specialisté pomocí virtualizace a co pomocí replikace, když jejich náplní práce je častá příprava nových pohledů na data?  

1. Specialista na reporting potřebuje připravit nový reportingový dashboard, který kombinuje data z několika systémů. 

Reportingový specialista ví, jaká potřebuje data, a tak mu:  

  • Pro jednorázový report zprostředkujeme pomocí virtualizace dat zdrojová data, na která si napojí finální report. 
  • Pro opakovanou reportingovou sestavu přesuneme zdrojová data pomocí replikace dat na reportingovou platformu, na níž si připraví finální report, který je možné pravidelně doplňovat o nově vzniklé události. 

2. Datový vědec potřebuje připravit data pro tvorbu nového analytického modelu

Datový vědec tvoří model  

  • poprvé – většinou neví, jaká data budou pro model podstatná, nebo nezná všechny datové zdroje, a tak je musí prozkoumat a posoudit. Proto se rozhodneme pro virtualizaci dat. Díky ní bude mít data pro modelování k dispozici hned a v plném rozsahu. Může si tedy mezi daty vybírat, může si různě upravovat své požadavky a specifikovat potřeby na datové transformace.  
  • opakovaně – upravuje ho nebo vylepšuje, a tak ví, jaká data pro modelování potřebuje. Doporučíme mu data replikovat na analytickou platformu. Na ní si potom sám podle libosti data transformuje, upravuje, analyzuje a také připraví finální model. 



Závěr: Kdy použít virtualizaci nebo replikaci dat? 

Virtualizace dat je vhodná v případech, kdy potřebujeme rychle získat přístupy k datům a při tom pořádně nevíme, jaká data budeme potřebovat, kolik by jich mělo být a jak by vlastně měla vypadat. V tomto případě představuje virtualizace dokonalý nástroj, který umožní najít to správné řešení. Virtualizace dat je nevhodná, pokud chceme pracovat s celou historií dat, pokud chceme načítat obrovské sady dat nebo pokud chceme provádět velký počet transformací a úprav dat. 

Replikaci dat doporučujeme, pokud musíme mít k dispozici „důležitá data“ dostupná pro velký počet uživatelů nebo aplikací současně, potřebujeme s daty pracovat opakovaně nebo je složitě transformovat. Replikace dat je nevhodná, pokud se chceme na data pouze podívat.