Hlavní navigace

Datový sklad v cloudu

.. aneb IBM databázová platforma pro analytické i transakční úlohy as a service
22. 11. 2016

Sdílet

Cloudová analytická databáze IBM dashDB je in-memory relační DB s automatickým laděním výkonu, ideální pro datamarty i celé datové sklady. Její předností je velmi vysoké zabezpečení a škálovatelnost. Mimo jiné podporuje vysokorychlostní nahrávání dat po sítí, díky technologii Aspera a prostřednictvím služby DataWorks také load z více než 20 dalších datových zdrojů.

Potřeba analytické databáze v cloudu?

Nejeden analytik se během svojí práce setká se situací, jejíž vyřešení závisí na zpracování takových dat, které v daném okamžiku nejsou k dispozici. V takových situacích jsou často potřeba tisíce až miliardy záznamů, které je zapotřebí dohledat a korelovat se současnými poznatky. To vše v co nejkratším čase, neboť ověření jedné hypotézy může vést k desítkám dalších, které je zapotřebí otestovat.

Zde nastupuje známé dilema: Zažádat o nová data IT oddělení, které je následně připraví ke zpracování, zoptimalizuje dle předpokládaných dotazů a zpřístupní analytikovi? To vše navíc po několika měsících čekání a iterací. NEBO Připravit dočasné řešení na vlastním počítači, který zpracuje pouze zlomek z plánovaného objemu dat?

Existuje ale i další, doposud relativně opomíjená varianta: použití vhodné databáze v cloudu. Databáze, která může pojmout vše od megabajtů (prostý import CSV souboru) až po stovky terabajtů a nevyžaduje žádnou administrátorskou obsluhu. Taková cloudová databáze by analytikovi umožnila otestování hypotéz bez větších prostojů. Na druhou stranu však použití dat mimo firemní infrastrukturu vyvolává otázku bezpečnosti, která je pro mnoho firem klíčová.

Jak bezpečně zacházet s daty v cloudu?

Logickým řešením je zajištění zabezpečení dat na všech úrovních během jejich zpracování tak, aby bylo možné využít výhod cloudové databáze při současném zachování jednoduchosti a bezpečí dat. To platí u všech řešených oblastí:

1. Rychlý a bezpečný přenos dat ze zdrojového systému do cloudu.

2. Příprava dat (transformace, čištění).

3. Uložení a zpřístupnění dat pro koncového uživatele/aplikaci.

Nová cloudová databáze IBM dashDB pokrývá všechny zmíněné oblasti:

  • Přenos dat do cloudu

Data lze nahrávat prostřednictvím webového rozhraní, SQL, REST API či vysokorychlostního protokolu Aspera – bez ohledu na způsob nahrání jsou data šifrována již během přenosu od uživatele.

Dalším způsobem je nahrání dat přímo ze zdrojového systému skrze nástroj DataWorks. Do podnikové sítě je nasazen klient na platformě Docker, který zajistí bezpečné spojení mezi IBM Cloudem a zdrojovými databázemi. 

V současnosti je podporováno více jak 20 datových zdrojů včetně databází Oracle, Microsoft SQL server, Sybase, PostgreSQL, Salesforce.com a dalších.

Databázová instance běží na vyhrazeném stroji v datovém centru IBM dle výběru klienta. To umožňuje zcela eliminovat vliv případného vytěžování prostředků ostatními uživateli. Nezanedbatelným aspektem je i maximalizace bezpečnosti. Firemní data tak neskončí v anonymním distribuovaném cloudu, ale na konkrétním stoji, který je vyhrazen pouze pro jednoho zákazníka.

 

  • Příprava dat

Během migrace dat ze zdrojových systémů do dashDB skrze DataWorks lze data velmi intuitivně transformovat. Od základních úprav, spojování tabulek, odstranění duplicit, až po filtrování – to vše v přehledném webovém rozhraní, které nevyžaduje databázové znalosti.

 

  • Uložení a zpřístupnění dat

Díky standardizaci databázových ovladačů je možné dashDB okamžitě propojit s jakoukoliv aplikací podporující databázi IBM DB2 – data uložená v dashDB tak lze okamžitě zpracovat v nástroji Cognos, Tableau, SPSS, SAS, či jakémkoliv jiném. Díky tomu lze vyžít stávající aplikace bez nutnosti jakkoliv měnit i prezentační vrstvu celého řešení. Veškerá komunikace může být šifrována SSL protokolem.

Přístup k datům lze řídit dle uživatelských rolí až na úroveň jednotlivých řádků. Pro skrytí citlivých informací pro nepovolané uživatele je standardní součástí maskování dat. Data lze tak zpřístupnit i dalším stranám, které obdrží náležitě pozměněné informace tak, aby nemohlo dojít k jejich zneužití.

V okamžiku uložení na disk jsou data automaticky zašifrována 256 bitovým klíčem, který je pravidelně obměňován. Databáze jsou denně zálohovány a ukládány na samostatné úložiště, kde jsou opět zašifrovány a připraveny pro případnou obnovu.

Uložením dat to ale nekončí!

DashDB díky svojí architektuře poskytuje široké možnosti pro oblast následné datové analytiky. Data jsou uložena v operační paměti a veškerá výkonová optimalizace probíhá automaticky. Uživatel pouze nahraje data a okamžitě může využít maximální výkon databáze. Pro velké objemy dat či vysokou zátěž lze dashDB spustit ve vícero instancích, které tvoří MPP cluster.

Samotná dashDB mimo standardní JDBC/ODBC ovladače a webové rozhraní obsahuje i analytické balíčky a prostředí pro statistický jazyk R (RStudio server). Mimo to může být propojena s velkým množstvím dalších analytických nástrojů jako jsou Watson Analytics, SPSS, Spark, Tableau, Esri ArcGIS atd.

Ukázka importu dat z DashDB do Watson Analytics. V administraci Watson Analytics vložíme přistupové údaje k DashDB instanci.

Přípravu analýzy zahájíme připojením k instanci DashDB

Po připojení Watson Analytics k DashDB si analytik vybere tabulky a sloupce, které bude chtít do Watson Analytics importovat k analýze.

Užitečné odkazy:

Představení IBM dashDB vč. příkladů použití: https://developer.ibm.com/clou­ddataservices/docs/dashdb/

Možnost vyzkoušení dashDB na platformě IBM Bluemix – do 20GB zdarma: https://www.ibm.com/analy­tics/cz/cs/technology/cloud-data-services/dashdb/index.html

Další informace o zabezpečení dashDB: http://www.ibm.com/develo­perworks/data/library/techar­ticle/dm-1408datasecuritycloud/index.html

Kde data z DashDB analyzovat? Vyzkoušejte IBM Watson Analytics! https://watson.analytics.ibmcloud.com