Hlavní navigace

Big data a jejich zpracování

Michal Černý 18. 2. 2013

Big data dnes představují jeden z největších obchodních artiklů v oblasti ICT a jejich význam neustále poroste. Jde o taková data, která jsou již mimo možnosti běžného zpracování či zachycení. Jaké možnosti se objevují s jejich zpracováním? A je v současném světě ještě prostor pro inovace v této oblasti?

Definic toho, co vlastně již jsou nebo nejsou Big data (překlad „Velká data“ se téměř nepoužívá), je celá řada. Například Gartner uvádí, že jde o takové soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném čase. Pro každého samozřejmě může být onen rozumný čas něco jiného. Zcela jiné požadavky budeme mít na výpočty srážek dvou galaxií a na rychlou lékařskou nebo ekonomickou analýzu, kde jde o vteřiny.

Podle stejné společnosti se nyní Big data nacházejí na vrcholku hype cyklu – všichni o nich mluví, píší, ale jen velice málo se skutečně zpracovávají a používají. V tomto ohledu jde tak zřejmě o oblast, která na nějaké větší zpracování a uchopení do velké míry ještě čeká. Obecně je možné říci, že problém Big data může být ve třech základních rovinách – objemu, který je třeba zpracovat, problematické struktuře dat nebo v nárocích na rychlost.

Podle toho, o jakou z těchto tří oblastí nám jde primárně, se pak liší jednotlivé přístupy. Na tomto místě je nutné zdůraznit, že nejde jen o problém softwarový, ale silně zasahuje také do hardwaru. Pro vědu jsou důležité nejen nové databázové přístupy, ale také vhodná infrastruktura v oblasti rozmístění a kooperace jednotlivých jader. Můžeme tak vidět cestu superpočítačových center (které u nás nejsou a asi ani nikdy pořádně nebudou, i když jedno takto jmenující se se staví v Ostravě) a pak distribuované výpočty v gridových sítích jako je WLCG z CERN či evropská EGI.

Aktuální mapa WLCG

V předchozím článku jsme se věnovali internetu věcí, který je spojen s obrovským nárůstem datového provozu na sítí. Pěkným příkladem jsou stále větší a robustnější senzorické sítě, jejichž data je třeba nějakým efektivním způsobem vyhodnocovat a zpracovávat. Jiným příkladem mohou být analýzy sociálních sítí, které se dnes silně rozvíjí, které jsou specifické svojí nestrukturovaností a dynamikou. V dnešní době je velký vliv také vědeckých experimentů, které generují obrovské množství dat náročných na výpočty. Díky tomu může být téma Big data široce rozkročené od vědy, přes medicínu až po krajně komerční aplikace.

Jednou z cest jsou databáze

Jednou z cest, jak vyřešit (alespoň částečně) problém s Big data, je užití NoSQL databází. Ty umožňují zpracovávat data bez jasné struktury, řešit závislosti mezi jednotlivými objekty nebo umožňují rychlejší vyhledávání, i když samozřejmě také zde platí, že nic není zadarmo a klasické SQL v řadě případů představuje důležitou součást komplexních řešení.

Jedním z příkladů rychlý databází jsou Key-value databáze, které jsou založeny na myšlence, že ke každému klíči je přiřazena určitá hodnota. Databázový systém umí v zásadě jen na otázku na klíč, vrátit informaci o hodnotě, přidávat a upravovat záznamy atp. Vyhledávání je tedy možné jen pomoci klíče, který není možné v databázi nějak dynamicky měnit. Tyto databáze se používají všude tam, kde je třeba zajistit rychlé odpovědi, i třeba za cenu nižších možností databáze. Časté je řešení, kdy základní dotazy a funkce zajišťuje rychlá key-value databáze a pokročilejší a náročnější operace pomaleji relační databáze. Toto řešení užívají téměř všechny sociální sítě, jako třeba Twitter.

Grafově orientované databáze odstraňují jeden z největších problémů relačních databází, totiž jejich malá škálovatelnost, která je daná pevně nastavenou tabulkou. V řadě případů je ale potřeba mít flexibilnější řešení, které nabízejí právě grafově orientované databáze. Každý uzel má mimo vlastních informací uloženy také odkazy na své kolegy (sousední uzly), což je dobré řešení třeba pro Graph Search, který nedávno představil Facebook.

Jiným příkladem mohou být dokumentově orientované databáze a řada dalších modifikací klasického konceptu. Téměř vždy platí, že problém je principiálně řešitelný v SQL, ale buď velice pomalu, nebo za cenu obrovských redundancí, tedy za velké peníze. Jedním z důležitých parametrů Big data aplikací jsou totiž právě finanční limity. Jakékoli zlepšení v řádu jednotek procent generuje velké úspory.

Co s Big data dělat?

Big data jsou oblastí, která má spojitost snad se všemi trendy, které se v oblasti ICT objevují. Už jsme zmínili jejich možné spojení s internetem věcí, ale obzory jsou mnohem širší. Například Amazon nabízí možnost online převodu videa, neustále se hovoří o možnostech cloudcomputingu v oblasti zpracování velkých objemů dat nebo si lze představit analýzu pohybu osob na letišti pomocí kamer, které budou dodávat data výpočtům, které budou identifikovat potenciální teroristy (podle pohybu, teploty atp.). Pro zpracování velkého objemu dat je možné zmínit open source aplikaci Apache Hadoop, která slouží pro distribuované výpočty.

Logo projektu Apache Hadoop

Mezi další možnosti využití patří podrobné analýzy toho, jak se chovají zákazníci či společnost, jaké výrobky budou kupovat a proč, studium lidského genomu a hledání příčin onemocnění, pátrání po Higgsově bosonu, který je důležitým stavebním kamenem standardního modelu atp.

V tomto kontextu je zajímavý názor IEEE, která uvádí jako jeden z klíčových trendů ve vývoji ICT letos vizualizaci těchto dat. Velké objemy dat jsou často počítačem obtížně zpracovatelné ve smyslu podrobné analýzy a často ani dopředu nevíme, co v datech chceme najít. Přesto potřebujeme jejich pochopení. V tomto kontextu se hovoří o procesu vizualizace dat, tak jak je známe třeba z politických analýz sociálních sítí. Obecně je ale možné říci, že je to právě vizualizace, která může Big data do reálného komerčního využití dostat snad nejrychleji a zásadním způsobem může měnit management či marketing řady společností.

Závěrem

Big data otevírají cestu ke zcela zásadním změnám toho, jakým způsobem jsou řízeny podniky, probíhá vzdělávání či rozhodování vlád. Již dnes víme, že počítačové simulace jsou jakýmsi třetím pilířem vědy. To vše jen podtrhuje jejich význam. Jde o jednu z oblastí, ve které se točí obrovské množství peněz a i účast v relativně okrajových oblastech může být mimořádně zajímavá z hlediska vývoje (především distribuované systémy, cloud či NoSQL), ale také obchodu a komerčního využití. I relativní drobné znalosti mohou mít velkou hodnotu, čehož by byla škoda nevyužít.

Jednoduchý přehled o tom, co jsou big data a jaké jsou jejich světlé, ale také stinné stránky (omezování soukromí, možná ekologická zátěž atp.), je možné najít na infografice napravo.

Našli jste v článku chybu?

18. 2. 2013 15:37

K> (neregistrovaný)

a proto už nenakupuji turistické, ale outdoorové vybavení, lidé už spolu nemluví, ale komunikují a nemáme řízení jakosti ale management kvality, a sice za mého dědy všichni běžně používali kmitočet a kopaná, ale anglická slova frekvence a fotbal přesto zvítězily.

Podivnost slova je dána jenom (ne)používáním. Po rozdělení ČSR hodně lidem přišlo "Česko" jako podivný výraz, ale dneska se už nad tím nikdo ani nepozastaví.

18. 2. 2013 10:20

K> (neregistrovaný)

Nikdo to nepouziva proc? Protoze kazdy novinar byl lenivy to prelozit. Argumentujes kruhem. Obvykle novy termin prinese siroke verejnosti novinar. Pokud to prelozi, bude se pouzivat preklad. Pokud to neprelozi, bude se pouzivat anglicismus. Ses novinar, tak neprzni jazyk.

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Vitalia.cz: Z tohoto konopí dělají léčivé masti

Z tohoto konopí dělají léčivé masti

120na80.cz: Co všechno ovlivňuje ženskou plodnost?

Co všechno ovlivňuje ženskou plodnost?

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

DigiZone.cz: Rádio Šlágr má licenci pro digi vysílání

Rádio Šlágr má licenci pro digi vysílání

Lupa.cz: Insolvenční řízení kvůli cookies? Vítejte v ČR

Insolvenční řízení kvůli cookies? Vítejte v ČR

DigiZone.cz: ČT má dalšího zástupce v EBU

ČT má dalšího zástupce v EBU

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Podnikatel.cz: Babiš: E-shopy z EET možná vyjmeme

Babiš: E-shopy z EET možná vyjmeme

Vitalia.cz: Říká amoleta - a myslí palačinka

Říká amoleta - a myslí palačinka

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Vitalia.cz: 9 největších mýtů o mase

9 největších mýtů o mase

Lupa.cz: Teletext je „internetem hipsterů“

Teletext je „internetem hipsterů“

Vitalia.cz: Paštiky plné masa ho zatím neuživí

Paštiky plné masa ho zatím neuživí

Podnikatel.cz: EET: Totálně nezvládli metodologii projektu

EET: Totálně nezvládli metodologii projektu

Podnikatel.cz: Chaos u EET pokračuje. Jsou tu další návrhy

Chaos u EET pokračuje. Jsou tu další návrhy

Lupa.cz: Babiš: E-shopů se EET možná nebude týkat

Babiš: E-shopů se EET možná nebude týkat

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Vitalia.cz: To není kašel! Správná diagnóza zachrání život

To není kašel! Správná diagnóza zachrání život