Big data a jejich zpracování

18. 2. 2013

Doba čtení: 5 minut

Líbí se vám článek?
Podpořte redakci

Big data dnes představují jeden z největších obchodních artiklů v oblasti ICT a jejich význam neustále poroste. Jde o taková data, která jsou již mimo možnosti běžného zpracování či zachycení. Jaké možnosti se objevují s jejich zpracováním? A je v současném světě ještě prostor pro inovace v této oblasti?

Definic toho, co vlastně již jsou nebo nejsou Big data (překlad „Velká data“ se téměř nepoužívá), je celá řada. Například Gartner uvádí, že jde o takové soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném čase. Pro každého samozřejmě může být onen rozumný čas něco jiného. Zcela jiné požadavky budeme mít na výpočty srážek dvou galaxií a na rychlou lékařskou nebo ekonomickou analýzu, kde jde o vteřiny.

Podle stejné společnosti se nyní Big data nacházejí na vrcholku hype cyklu – všichni o nich mluví, píší, ale jen velice málo se skutečně zpracovávají a používají. V tomto ohledu jde tak zřejmě o oblast, která na nějaké větší zpracování a uchopení do velké míry ještě čeká. Obecně je možné říci, že problém Big data může být ve třech základních rovinách – objemu, který je třeba zpracovat, problematické struktuře dat nebo v nárocích na rychlost.

Podle toho, o jakou z těchto tří oblastí nám jde primárně, se pak liší jednotlivé přístupy. Na tomto místě je nutné zdůraznit, že nejde jen o problém softwarový, ale silně zasahuje také do hardwaru. Pro vědu jsou důležité nejen nové databázové přístupy, ale také vhodná infrastruktura v oblasti rozmístění a kooperace jednotlivých jader. Můžeme tak vidět cestu superpočítačových center (které u nás nejsou a asi ani nikdy pořádně nebudou, i když jedno takto jmenující se se staví v Ostravě) a pak distribuované výpočty v gridových sítích jako je WLCG z CERN či evropská EGI.

Aktuální mapa WLCG

V předchozím článku jsme se věnovali internetu věcí, který je spojen s obrovským nárůstem datového provozu na sítí. Pěkným příkladem jsou stále větší a robustnější senzorické sítě, jejichž data je třeba nějakým efektivním způsobem vyhodnocovat a zpracovávat. Jiným příkladem mohou být analýzy sociálních sítí, které se dnes silně rozvíjí, které jsou specifické svojí nestrukturovaností a dynamikou. V dnešní době je velký vliv také vědeckých experimentů, které generují obrovské množství dat náročných na výpočty. Díky tomu může být téma Big data široce rozkročené od vědy, přes medicínu až po krajně komerční aplikace.

Jednou z cest jsou databáze

Jednou z cest, jak vyřešit (alespoň částečně) problém s Big data, je užití NoSQL databází. Ty umožňují zpracovávat data bez jasné struktury, řešit závislosti mezi jednotlivými objekty nebo umožňují rychlejší vyhledávání, i když samozřejmě také zde platí, že nic není zadarmo a klasické SQL v řadě případů představuje důležitou součást komplexních řešení.

Jedním z příkladů rychlý databází jsou Key-value databáze, které jsou založeny na myšlence, že ke každému klíči je přiřazena určitá hodnota. Databázový systém umí v zásadě jen na otázku na klíč, vrátit informaci o hodnotě, přidávat a upravovat záznamy atp. Vyhledávání je tedy možné jen pomoci klíče, který není možné v databázi nějak dynamicky měnit. Tyto databáze se používají všude tam, kde je třeba zajistit rychlé odpovědi, i třeba za cenu nižších možností databáze. Časté je řešení, kdy základní dotazy a funkce zajišťuje rychlá key-value databáze a pokročilejší a náročnější operace pomaleji relační databáze. Toto řešení užívají téměř všechny sociální sítě, jako třeba Twitter.

Grafově orientované databáze odstraňují jeden z největších problémů relačních databází, totiž jejich malá škálovatelnost, která je daná pevně nastavenou tabulkou. V řadě případů je ale potřeba mít flexibilnější řešení, které nabízejí právě grafově orientované databáze. Každý uzel má mimo vlastních informací uloženy také odkazy na své kolegy (sousední uzly), což je dobré řešení třeba pro Graph Search, který nedávno představil Facebook.

Jiným příkladem mohou být dokumentově orientované databáze a řada dalších modifikací klasického konceptu. Téměř vždy platí, že problém je principiálně řešitelný v SQL, ale buď velice pomalu, nebo za cenu obrovských redundancí, tedy za velké peníze. Jedním z důležitých parametrů Big data aplikací jsou totiž právě finanční limity. Jakékoli zlepšení v řádu jednotek procent generuje velké úspory.

Co s Big data dělat?

Big data jsou oblastí, která má spojitost snad se všemi trendy, které se v oblasti ICT objevují. Už jsme zmínili jejich možné spojení s internetem věcí, ale obzory jsou mnohem širší. Například Amazon nabízí možnost online převodu videa, neustále se hovoří o možnostech cloudcomputingu v oblasti zpracování velkých objemů dat nebo si lze představit analýzu pohybu osob na letišti pomocí kamer, které budou dodávat data výpočtům, které budou identifikovat potenciální teroristy (podle pohybu, teploty atp.). Pro zpracování velkého objemu dat je možné zmínit open source aplikaci Apache Hadoop, která slouží pro distribuované výpočty.

Logo projektu Apache Hadoop

Mezi další možnosti využití patří podrobné analýzy toho, jak se chovají zákazníci či společnost, jaké výrobky budou kupovat a proč, studium lidského genomu a hledání příčin onemocnění, pátrání po Higgsově bosonu, který je důležitým stavebním kamenem standardního modelu atp.

V tomto kontextu je zajímavý názor IEEE, která uvádí jako jeden z klíčových trendů ve vývoji ICT letos vizualizaci těchto dat. Velké objemy dat jsou často počítačem obtížně zpracovatelné ve smyslu podrobné analýzy a často ani dopředu nevíme, co v datech chceme najít. Přesto potřebujeme jejich pochopení. V tomto kontextu se hovoří o procesu vizualizace dat, tak jak je známe třeba z politických analýz sociálních sítí. Obecně je ale možné říci, že je to právě vizualizace, která může Big data do reálného komerčního využití dostat snad nejrychleji a zásadním způsobem může měnit management či marketing řady společností.

Závěrem

Big data otevírají cestu ke zcela zásadním změnám toho, jakým způsobem jsou řízeny podniky, probíhá vzdělávání či rozhodování vlád. Již dnes víme, že počítačové simulace jsou jakýmsi třetím pilířem vědy. To vše jen podtrhuje jejich význam. Jde o jednu z oblastí, ve které se točí obrovské množství peněz a i účast v relativně okrajových oblastech může být mimořádně zajímavá z hlediska vývoje (především distribuované systémy, cloud či NoSQL), ale také obchodu a komerčního využití. I relativní drobné znalosti mohou mít velkou hodnotu, čehož by byla škoda nevyužít.

Jednoduchý přehled o tom, co jsou big data a jaké jsou jejich světlé, ale také stinné stránky (omezování soukromí, možná ekologická zátěž atp.), je možné najít na infografice napravo.

Vstoupit do diskuse (35 názorů)

Líbí

Nelíbí

Michal Černý

Vystudovaný středoškolský učitel fyziky a informatiky, ale dnes vysokoškolský pedagog technologií ve vzdělávání na KISKu na FF MU. Věnuje se především kurátorství digitálního obsahu, online vzdělávání a učící se společnosti.

Veledata. "Velevážený velepane Velespejble, velevaše veledata se nám velenevejdou na veledisk."

xKiv

Sdílet

Jednou z cest jsou databáze

Co s Big data dělat?

Závěrem

Byl pro vás článek přínosný?

Autor článku

Michal Černý

Big data a jejich zpracování

Sdílet

Jednou z cest jsou databáze

Co s Big data dělat?

Závěrem

Byl pro vás článek přínosný?

Autor článku

Michal Černý

Mohlo by vás zajímat

Red Hat končí s CentOS 7, jeho další podporu nabízí SUSE, první rok za 50 Kč měsíčně

Hrátky s barvovou paletou a vykreslení jednotlivých pixelů kartou CGA

Česko samo přechod na IPv6 nezvládne, trh to nevyřeší, říká Ondřej Filip

CrowdStrike poukázal na nedostatek představivosti a problém lidského faktoru

Dále u nás najdete

Vypněte si sledování v novém Firefoxu

Labioplastika neslouží jen vyššímu sebevědomí

Plavání s hlavou nad vodou vám ubližuje

Češi spoluvyvíjí technologii, která může změnit mobilní sítě

Vesna a další, kdo přežili volný pád z několika kilometrů

Výrobce koupelnového vybavení Laufen čeká oživení poptávky

Motání hlavy může být způsobeno problémy s krčními tepnami

Chráníme totožnost podatele podnětu, tvrdil úřad

Jednu vanilkovou, nebo spíš kopeček slaného karamelu?

Proč vystavujeme zápočtový list a proč ho vyžadujeme?

Pořad 168 hodin v České televizi končí

Albert testuje umělou inteligenci, ušetří čas pokladním i zákazníkům

Test Wi-Fi 7 vs. Wi-Fi 6: Další zvýšení rychlostí

Impregnace škodí životnímu prostředí i zdraví

Google už nechce rušit cookies třetích stran v Chromu

Češi stále nejvíc milují kuřecí řízek a smažák

Průjmů z masa je letos víc než jindy, nakazit se lze i z melounů

Výrobci nemusí udávat přesné složení parfémů

Změny v českém maloobchodu, Electro World se mění na Datart

Nevyléčitelně nemocní získají příspěvek automaticky