Technologická evoluce úložišť datových skladů

Úložiště datových skladů se s nástupem Big Data technologií neoprávněně ocitla mimo zájem odborné veřejnosti i přesto, že v posledních letech dosáhla výrazných pokroků v cenových i výkonových parametrech.


Minulost

Tradiční datové sklady v minulosti zakládaly svůj výkon na velmi drahých klasických magnetických discích. Ty sice dosahovaly úžasných parametrů, jako jsou vyhledávací čas v řádu milisekund nebo 15 000 otáček za minutu, avšak na úkor relativně malých kapacit a krátké životnosti.

Pro získání vysokého čtecího a zápisového výkonu bylo nutné vyřešit, kam umístit a jak propojit velké množství disků tak, aby dohromady nabídli smysluplný výkon pro komplexní analytické úlohy datových skladů. Operační paměti byly nicméně drahé, alternativní technologie úložišť stále nepřipravené a nové softwarové architektury se teprve rodily.

Kvalitní datový sklad bez velmi výkonného a drahého „rotujícího“ úložiště zkrátka neexistoval, problém spočíval ve výkonu disků, a tak nezbývalo než nakupovat a instalovat další a další magnetické disky. Naštěstí toto přešlapování ve slepé uličce díky řadě faktorů poměrně brzy skončilo.

Odlehčení datových skladů – Big Data

Konkurenční Big Data technologie byly do jisté míry jedním z prvních inovačních impulzů, které se ve svých prvních generacích zaměřovaly na sdružování relativně levného hardwaru do softwarových clusterů (např. Hadoop stack). Často se místo nového hardwaru používal i starší vyřazený, ale stále funkční.

Tato řešení inspirovala datové sklady k několika věcem:

  • Datové sklady mohly nově začít efektivně archivovat nebo off-loadovat data mimo svá relativně drahá disková řešení.
  • Ubyly díky tomu starosti s dokupováním dalších high-end magnetických disků bez ohledu na to, že jejich kapacita časem stále rostla a dodnes roste až do řádu desítek terabytů na kus.

Ačkoliv už dříve existovala teoretická „brzdná“ varianta typu cold backup na pásky, využitelnost dat uložených na tomto typu médií se zcela upřímně z pohledu datové analýzy limitně blížila nule. To už dnes neplatí a existují technologie umožňující načítání dat z pásek transparentně rovnou do datového skladu. Je potřeba pouze počítat s relativně velkou časovou latencí analytických dotazů.

Evoluce v podobě nemagnetických disků

SSD (Solid State Disk) nahrazují rotující magnetické plotny integrovanými obvody a fungují jako vysoce paralelizované úložiště s okamžitým přístupem kamkoliv, zatímco klasický magnetický disk funguje nejlépe v sekvenčních operacích, kdy magnetické hlavičky systematicky pročesávají povrchy rotujících magnetických ploten.

Je potřeba zmínit, že první generace SSD s sebou přinášela provozní problémy. Díky technologickým inovacím a kvalitnějším postupům výroby, zajišťujících primárně větší množství přepisů, SSD postupně nahradily klasické magnetické disky.

Magnetické disky zatím stále vedou v absolutních kapacitách. Ve srovnání s SSD ani výrazně neztrácejí při sekvenčních operacích.
SSD se nejprve využívaly jako cache pro magnetické disky:

  • Zlomková latence SSD ve srovnání s klasickým magnetickým diskem.
  • Výkonnější zápis a čtení SSD, které zatím nenaráží na fyzikální limity točících se magnetických ploten.

Nasazení SSD v hybridních diskových polích jako doplněk klasických magnetických disků vedlo k razantnímu nárůstů počtu čtecích a zápisových operací o několik řádů! A to celé fakticky za zlomkovou cenu ve srovnání s řešením postaveným na hrubé síle hromad spřažených magnetických disků.

Nevýhodou SSD byla limitovaná kapacita, často nižší životnost a vyšší cena za uloženou jednotku. Problémy při nasazení SSD v hybridních polích způsobovaly i různé „inteligentní“ algoritmy řídící kešování SSD. Občas se tedy kešovalo něco jiného, než bylo potřeba (například aktuální backup místo kritických dat). Bez problémů se neobešly ani databáze datových skladů, které se musely nejprve naučit pracovat s SSD a být „SSD aware“.

Fiber Channel sklady

Výše nastíněné problémy se naštěstí postupem času podařilo odstranit a dnes se můžete setkat i s diskovými poli složenými pouze z SSD. Ty navíc postupně ukázaly výkonové nedostatky rozhraní typu SCSI (do této kategorie patří i rozhraní typu fiber channel), které bylo prapůvodně koncipováno pro klasické rotující magnetické disky a páskové jednotky.

Fiber channel se někdy nahrazuje výrazně modernějším a univerzálnějším rozhraním InfiniBand.

Další evoluci SSD vyvolaly stále větší nároky na výkon, které se přesunuly v podobě flash karet blíže procesorům přímo do datových sběrnic typu PCI Express. Vedlejším efektem tohoto přímého přístupu, který je příhodné zmínit, je pokles zátěže procesoru, a to díky menší režii diskových operací.

Dnes se flash karty využívají jako cache pro jiná pomalejší zařízení nebo jako primární úložiště. Důležitým závěrem je, že klasický koncept sdíleného diskového pole v prostředí datového skladu je přežitkem a standardem jsou úložiště částečně nebo plně postavená na SSD a flash kartách, které jsou vyhrazeny pro servery datového skladu.

Appliance pro datové sklady

Appliance pro datové sklady v sobě integrují výpočetní sílu i datové úložiště, které je optimalizované pro provoz datového skladu a zároveň je pro datový sklad plně dedikované. Z toho důvodu nemůže docházet k degradaci výkonu kvůli konkurenci jiných aplikací.

Diskové pole zkrátka nejde optimalizovat na všechny typy operací. Proto je vhodné používat jednu sadu disků pro primární systémy a druhou pro analytiku.

Dále integrace úložiště a výpočetní síly umožňuje celou řadu architektonických a softwarových optimalizací, které u obecně postavených řešení nelze zrealizovat. Jedná se o správné vyvážení výpočetní síly a rychlosti datového úložiště, aby se vzájemně zbytečně „nepředbíhaly“, podporu pro různé typy horizontální a vertikální škálovatelnosti a mimo jiné také sjednocení managementu celého řešení.

Appliance zároveň mohou přirozeně využívat flash karty, které tím ve výsledku povýšily appliance do zcela nové výkonové třídy a přinesly vysoký výkon, který bychom ještě před pár lety považovali za nemyslitelný.

Datové úložiště pro každého

Dalším krokem v evoluce je permanentní zlevňování operačních pamětí v kombinaci s jasně definovanou paměťovou hierarchií. Databáze datových skladů tak mohou zpracovávat více dat v paměti a nečekat na pomalejší trvalá datová úložiště (ačkoliv díky flash kartám už vůbec nemusí být pomalá). Softwarové inovace umožňují používat operační paměť pro větší množství dat díky sloupcovým uložením a datové kompresi.

Hierarchie paměti datového skladu ukládá data do operační paměti a dále je kopíruje do méně výkonných úložišť pro zajištění trvanlivosti. Další klíčová data tak mohou být dostupná na velmi rychlých flash kartách nebo SSD a méně důležitá data na klasických pomalých magnetických discích.

Data nevyužívaná v datovém skladu lze uložit na páskách v moderních páskových knihovnách, které tato data dokážou na vyžádání zpřístupnit bez zásahu administrátora. Pásky mohou být alternativně nahrazeny konceptem „rozmrazených pásek“ pomocí Big Data technologií.

Konec klasické architektury počítačů

Aktuální inovací jsou opravdu použitelné paměti typu NVRAM, které kombinují rychlost operační paměti s perzistencí a kapacitou vlastní například flash kartám.V blízké době se NVRAM budou nasazovat jako specializované cache mezi operační paměť a datové úložiště.

Udává se, že NVRAM má až dvacetkrát nižší latenci oproti už tak velmi rychlé flash kartě. Opět se tedy těšíme na nárůst výkonu datových skladů.

V blízké budoucnosti nástup NVRAM naruší tradiční von neumannovskou architekturu počítačů, kterou používáme prakticky od konce druhé světové války. Je pouze otázkou času, kdy dojde k poklesu ceny NVRAM na takovou úroveň, aby došlo k opravdové revoluci nejen na poli úložišť datových skladů.

Princip NVRAM boří některá základní paradigmata ve tvorbě současného softwaru. Zdá se, že datové sklady budou jedna z prvních oblastí, kde se NVRAM skutečně prakticky prosadí.

Dočkáme se živých pamětí?

NVRAM evoluce nekončí. Vzdálenější budoucnost nám přinese paměti na principu DNA, jejichž současná udávaná kapacita hovoří o stovkách petabytů(!) na gram při ceně jednotek tisíc dolarů za megabyt. I přes obrovský potenciál, jsou prozatím tyto vysokokapacitní paměti velkým otazníkem a jejich komerční využití není aktuální.