Pokud si vzpomínám dobře, tak Cisco CognitiveSecurity používají s velikým úspěchem Riak s object storage nástavbou. Dokonce, pokud si dobře vzpomínám, existuje pro Riak i konektor pro Apache Spark.
Riak má ohromnou výhodu oproti vlastnímu řešení hlavně v konfigueovatelnosti vlastností vzhledem k CAP (vážně tam jde nastavit a doladit téměř všechno) + placená varianta umí i geografickou replikaci.
Když byli z CognitiveSecurity přednášet u nás na univerzitě (cca před rokem) byl jejich aktuální stav (tohle je trochu aproximace lovená z paměti) 12 strojů, každý s 6TB úložištěm - a tohle množství dat přepisovali jednou nebo dvakrát do týdne (většinou netflow záznamy) .
V bakalářské práci jsem dělal benchmark distribuovaných db. Riiak sice nebyl pro daný účel nejvhodnější z testovaných, ale určitě můžu s klidným svědomím tvrdit, že je o extrémně solidní db.
Omlouvám se za slohovku ;-)
Riak v tomhle řešení má problém s náhodným přístupem, naopak sekvenční přístup zvládá velice efektně. Data je nutné bulkovat po větších blocích, vytahovat si jednotlivé záznamy z různých bloků je strašně drahé.
Je to krásný článek, kde jasně jde vidět, že big data technologie se nehodí všude a u malých clusterů je člověk neprávem odsoudí. Hadoop na 100 silných strojích je nedosažitelný etalon pro enterprise komerční databáze (cenou i výkonem), tam se již režie rozloží a zužitkuje se využití všech disků. Použití takového clusteru je ale velice úzké a málokterá společnost ho uživí, v ČR jsem viděl pouze jeden takový případ.