Na stredni a malou sit je to velka raketa. Neco mensiho a otevreneho? Testoval jsem pouze nfsen.
Snažíme se, aby jednotlivé nástroje bylo možné použít i pro menší sítě, například IPFIXcol (démon SecurityCloud pro příjem dat ze sond) dokáže ve své funkcionalitě nahradit a troufám si říci, že i významně převýšit nfcapd (démon pro příjem dat výše zmiňovaného kolektoru NfSen). V IPFIXcol je možnost ukládat data nejen ve formátu kompatibilním s NfSen (tj. nfdump), ale i například ve formátu JSON nebo data ukládat do specializovaných DB jako je například FastBit. Tato funkcionalita u nfcapd chybí. Dále u NfSen chybí možnost přijatá data bez dalšího zpoždění průběžně zpracovávat, typicky se u NfSen uloží pětiminutovka a až poté je tato pětiminutovka analyzována, čímž se oddaluje reakce na DDoS útoky. Naopak je ale potřeba říci, že NfSen je hotový balík včetně GUI. Z tohoto ale i dalších důvodu spolupracujeme se společností Flowmon Networks, která bude výsledky projektu integrovat.
Pokud si vzpomínám dobře, tak Cisco CognitiveSecurity používají s velikým úspěchem Riak s object storage nástavbou. Dokonce, pokud si dobře vzpomínám, existuje pro Riak i konektor pro Apache Spark.
Riak má ohromnou výhodu oproti vlastnímu řešení hlavně v konfigueovatelnosti vlastností vzhledem k CAP (vážně tam jde nastavit a doladit téměř všechno) + placená varianta umí i geografickou replikaci.
Když byli z CognitiveSecurity přednášet u nás na univerzitě (cca před rokem) byl jejich aktuální stav (tohle je trochu aproximace lovená z paměti) 12 strojů, každý s 6TB úložištěm - a tohle množství dat přepisovali jednou nebo dvakrát do týdne (většinou netflow záznamy) .
V bakalářské práci jsem dělal benchmark distribuovaných db. Riiak sice nebyl pro daný účel nejvhodnější z testovaných, ale určitě můžu s klidným svědomím tvrdit, že je o extrémně solidní db.
Omlouvám se za slohovku ;-)
Riak v tomhle řešení má problém s náhodným přístupem, naopak sekvenční přístup zvládá velice efektně. Data je nutné bulkovat po větších blocích, vytahovat si jednotlivé záznamy z různých bloků je strašně drahé.
Je to krásný článek, kde jasně jde vidět, že big data technologie se nehodí všude a u malých clusterů je člověk neprávem odsoudí. Hadoop na 100 silných strojích je nedosažitelný etalon pro enterprise komerční databáze (cenou i výkonem), tam se již režie rozloží a zužitkuje se využití všech disků. Použití takového clusteru je ale velice úzké a málokterá společnost ho uživí, v ČR jsem viděl pouze jeden takový případ.