> Nagios vie testovať najrôznejšie sieťové služby
> Samotné jadro Nagiosu nevie testovať žiadne služby.
Toto v praxi znamená, že většinu času strávíte konfigurací v textovém editoru, budete si muset většinu pluginů napsat, nebo alespoň upravit (protože většina těch, co se povaluje po netu je otřesné kvality) a nakonec dostanete jen pohled na aktuální stav sítě.
Oproti tomu při použití Zenossu, Zabbixu, OpenNMS a asi milionu jiných systémů zpravidla dostanete jako bonus grafy zátěže, některé Vám umožní automaticky proscanovat síť a podle nadetekovaných služeb se ihned nastaví jejich sledování, umožňují dělit množinu sledovaných systémů a vytvářet pohledy na aktuální stav části relevantní pro konkrétního uživatele. A, ano, defaultně se počítá s velkým množstvím uživatelů, kteří chtěji znát stav svých strojů.
A také nezapomeňte na pořádnou podporu SNMP, takže žádný agent...
Vic nez pred rokem jsem u nas nasadil OpenNMS. Ma v celku dobrou dokumentaci [v EN]. Ma celkem prehledne nastaveni. Je pravda, ze neco malo je potreba nastavit v XML (ja tam pridaval sluzby, ktere chci sledovat navic, napr. HTTP port 8080, AVGadmin, Lotus Domino server...), ale myslim, ze i bez toho se to da rozbehnout.
Bezi to na Jetty, ktere je soucasti instalacnich balicku, jako databazi pouziva PostgreSQL. Grafy jsou v RRD. Vzhledem k vysoke zatezi MRTG na I/O disku je dobre dat DB na jiny server, ale ve verzi 1.6 bylo pak potreba linkovat port Postgresu pomoci tunelu SSH, jelikoz OpenNMS predpokladalo, ze DB je na localhostu.
Informace o vypadcich lze zasilat na e-mail (sms e-mail) a jabber, v nove verzi dokonce i na mikroblog. Samozrejme si muzete zmenit podobu zprav, popr. i cil oznamovani.
Pokud budete nekdo chtit vice informaci, nebo poradit, klidne se ozvete na muj mail.
Zdravim,
zkousim si ted v siti nastavit nastavit opennms a mam jeden problem. Samo od sebe to prohledava veskere rozsahy IP adres. V discovery - include ranges mam najeke rozsahy, ale prohledava to celou sit i mimo tyto rozsahy. Pripadne tam ma rozsah a ten to vubec neprohledava.
V cem by mohl byt problem?
Ja pouzivam nagios na monitoring sieti ISP providerov , takze vsetko iba active checks . Kedze konfiguracia cez textak je casovo extremne narocna(je to iba moj osobny nazor) pouzivam nadstavbu centreon ktory okrem spravy konfiguracie nagios poskytuje aj monitoring , grafy sluzieb a ako bonus je mozna aj integracia syslog :)
Kazdemu kto chce nagios na sieti vrelo odporucam , iba to chce trochu povrtat sa v tom aby vsetko fungovalo ako ma
Je mozne velice jednoduse vyzkouset pomoci FAN :) http://fannagioscd.sourceforge.net/drupal/
- Mate nekdo zkusenost s Nagiosgraph a pristupem ruznych uzivatelu? Pridam dalsi uzivatele pres "htpasswd /usr/local/nagios/etc/htpasswd.users uzivatel2_firmyXY" a potrebuju, aby se pri vypisu grafu u urcitych uzivatelu nezobrazovaly okolni merene sluzby.
- Monitorujete take pres Nagios nekolik stovek PC? Jak mate resene host a service dependencies tak, aby pri vypadku konektivity do vetve site nedochazelo obcas k posilani falesnych notifikaci? Da se to totiz resit ruznym nastavenim delek period kontroly pro jednotlive brany, ale pri dostatecne mohutnem stromu je to nedostatecne. Pocitam, ze nekde musi existovat nejake snadnejsi reseni, bohuzel jsem ho nenasel na googlu ani v oficialni dokumentaci.
Nagiosgrapher ukazuje okolni sluzby jenom kdyz si prihlaseny jako nagiosadmin.
Podivej se na ngraph.ncfg a volby:
fe_use_browser_all false
fe_use_browser_for nagiosadmin
fe_use_browser_url false
Co se tyka vypadku cele vetve site, je potreba mit spravne nastavene parent_host, a zakazat notifikaci hosta na unreachable. Bohuzel to neni uplne stoprocentni, a hlavne ve chvili kdy se ta vetev probere tak muze prijit smrst SMS ze uz je kazdy host v te vetvi UP.
Taky jsem si hral se service dependencies kdyz monitoruju nejake veci pres ssh (proc, disk, sql), tak je dobre mit dependenci na ssh aby to nehlasilo vsechno spatne. U zavislych sluzeb pak nastavuji retry_check_interval na stejny jako normal_check_interval, aby mel nagios sanci zjistit ze nejede ssh (se zkracenym retry) a prestal kontrolovat sluzby ktere na nem zavisi.
A poznamka pro prekladatele Insist != pripraveny, ale trvat na necem.
Takze NAGIOS nebude trvat na "svatosti" (na tom aby byl svaty).
Diky, ale nepouzivam Nagiosgrapher ale Nagiosgraph 1.4.3. Kdyz se podivam do /etc/nagiosgraph do souboru nagiosgraph.conf atd, tak tam ta volba neni (pouzivam Debian Lenny).
Jinak pokud jde o Dependencies, tak mi presne o toto slo. Myslel jsem, jestli treba nejde nekde nastavit volba, aby si napriklad pri vypadku poslal ping na nadrazeneho hosta a nemusel cekat na interval.
Dobrý deň,
presne ako ste napísali, tak service dependency slúži práve na to, aby keď padne napr. nsca proces (pasívny test) na serveri kde beží Nagios Vám neprišlo xy sms :). Je to vyriešené tak, že service dependency je nastavený na nsca process kedy keď padne, tak pride iba sms, že padol nsca proces.
Ďalej sa dá nastaviť service escalations a tam počet sms, ktoré Vám majú prísť na danú službu. Napr. prvá a druhá a ďalej neposielať, alebo iba prvý email a druhá sms a potom už nič, alebo na warning nech pošle iba email a na critical už sms.
Sú rôzne možnosti nastavenia posielania notofikácií.
Čo sa týka práv nagiosgrah tak tam Vám nepomôžem.
Jeden Nagios udrzuji, ale s Tivoli zalohovanim mame k dispozici pro vlastni TSM servery i velmi omezeny Tivoli dohledovaci system. Dokazal byste z vlastni zkusenosti shrnout pro a proti? Prvni manazersky pohled na Tivoli je totiz takovy, ze si to vse najde a nastavi samo. S druhym pohledem, kdy chci neco konkretniho, co Tivoli samo neudela, zkusenosti nemam a pritom prave toto byva u uzavrenych systemu kamen urazu.
Osobne mi u Nagiosu vadi nedokonalost MS Windows agentu. Pomerne dost dlouho trva jejich vyladeni pro nove MS systemy. Stavajici stav klienta NSCLIENT++ je vcelku uspokojujici. Nezbyva nez doufat, ze to neskonci s dalsim service packem, subrelease.... Na casti Windows pouzivame NRPE napsane v Cygwin. Mame servery, kde nrpe bezi mesice bez problemu a taky servery, kde totez nrpe musim pro jistotu jednou za tri hodiny restartovat.
v praci pouzivam AlienVault.
maximalna spokojnost,siroka paleta nastrojov na monitoring,inventory,bezpecnost etc..
viac tu:
http://www.alienvault.com/community.php?section=Home
A ma nekdo tady prosim zkusenosti s Hypericem? http://www.hyperic.com/products/open-source-systems-monitoring
Ja doporucuji Zenoss, ktery jsem nasadil ca pred rokem v nasi firme. Absolutni spokojenost, monitorujeme asi 250 ruznych zarizeni - linux, windows servery, ethernet ctecky cipovych dochazkovych karet, atd.
+ Existuje spousta plubinu - tzv. zenpacku, ktere monitoruji napr. zatez exchange serveru, mysql serveru, stavu baterii v UPS, atd.
Zabbix pouzivam v siti cca 200 aktivnich prvku, k tomu desitky serveru, vmware, cca 50 upsek a jinych zarizeni k napajeni, desitky aplikaci k monitorovani (dns, dhcp, databaze, webove systemy, mailove systemy, ...). Vse se dohleduje v jednom systemu, neni potreba nic jinyho. Lze tam zapsat i slozitejsi triggery (pokud se mi aktivni prvek vyrestartuje vic nez 4 za mesic). Musim zvlast pochvalit system aktivnich grafu se zoomovanim pozadovaneho casoveho intervalu i dalsi veci, system sablon a jejich dedeni, mapy kde si clovek "namaluje" topologii a muze pak na peknem obrazku sledovat datove toky na spojich.
Ma vsak i svoje nevyhody:
1. zatim neumi nacitat tabulky hodnot (seznam interface, disku) ale pouze atomicke hodnoty (cislo, retezec) primo svazane s konkretni instanci
2. zatim neni uplne dotazene API
3. automaticky proces pro udrzbu databaze (promazavani starych dat) je schopen polozit databazi veklym poctem kratkych dotazu
Uvedene nedostatky by mel resit zabbix ve verzi 2 (pristi rok by mel vyjit)
Vrele doporucuji jeho nasazeni, nikdy jsem nelitoval, prinosy byli vzdy vetsi.
V CERNu monitoruji cca 8000 zarizeni pomoci systemu Lemon (http://lemon.web.cern.ch/lemon/index.shtml). Pokud ale nemate tak 4 lidi, kteri se o to budou starat a psat pluginy, tak nedoporucuji.
UPC je uz velka firma.
Tam bych zvazil neco enterprise, treba Tivoli Netcool Family, co provozujou u T-Mobile a O2.
Obecne problem tech malych udelatek je mizerna podpora skalovatelnosti a HA clusteru. Kdyz udelatko lehne, jsi slepy.
Business zakaznici taky vyzadujou sledovani SLA, coz s udelatky rozumne neudelas.
Na druhou stranu, implementace Netcool vyjde cenove v radech milionu.
ad Business zakaznici a SLA, pouzivame Nagios v kombinaci s Centreonem a pokud mate na mysli sledovani procentualni dostupnosti sluzeb/serveru, tak to Nagios umi.
Stejne tak tato kombinace umi grafy, reporty a tak. Monitorujeme asi 400 serveru, 3000 ukazatelu, stroje s Win/Linux, UPSky atd. V zasade se da monitorovat cokoliv, pluginu existuje hodne, fakt je ten ze vsechny nefunguji idealne, mam pocit ze zrovna pluginy pro cteni WMI a eventlogu na MS strojich.., ale muzeme si je prizpusobit k obrazu svemu (coz snad nekdy i delame:)
Historicky jsme pouzivali jen Nagios, ale jak nekdo zminil, masova konfigurace textovych souboru je pomerne chaoticka, ale Centreon jako nadstavba to hodne usnadnuje, da se pres nej delat snad cokoliv co jde textakama.
V teto kombinaci jdou taky velice slusne nastavit pristupova prava, contact groupy a monitorovane prvky, takze kazdy zamestnanec vidi jen svoje klienty a stroje pokud nema duvod videt vsechno, hodi se to i pro nektere klienty kteri do toho taky chteji videt :-).
Fakt je ten ze prvotni konfigurace neni uplne prehledna, ackoliv je to pres webove rozhrani, tak pokud neco nedelate casto, muzete trochu tapat. Vyvoj je (bohuzel nebo bohudik? :) rychlejsi nez dokumentace, takze ta odkazuje na to jak to fungovalo pred 2 lety ale v aktualni verzi se to nastavuje jinak atd..
Ale kdyz to shrnu, tak to nasazeni melo smysl a v zasade to dela to co od toho chceme
Dělal jsem s Nagios + Centreon na značně rozsáhlých projektech (stovky až tisíce ks sledovaného HW). Zkoušel jsem Zenoss. Pro vlastní potřeby jsem skončil u Zabbixu.
Další hodnocení je ryze subjektivní:
Nagios bez Centreonu je dost o ničem. Spolu je to hrozný moloch, který má obrovskou (!) režii na vlastní provoz. Out-of-the box to nic moc neumí, než se nezkušená obsluha seznámí s ovládáním, dost to trvá. Křivka učení: "dost pomalá", konfigurace docela komplikovaná.
Zenoss jsem nějak nepochopil. Asi problém mezi židlí a klávesnicí: chtěl jsem, aby to dělalo, co řeknu a nedělalo, co neřeknu :-) Místo toho se to pořád snažilo o vlastní život, autodiscovery atd.
Zabbix je snadný na pochopení, instalaci, používání i konfiguraci. Rychlá křivka učení se se systémem. Co by v Nagios+Centreon trvalo dny, dá se tady udělat/pochopit/odhalit v jednotkách hodin. Nesrovnatelně menší nároky na výkon oproti Nagios+Centreon.
Zdravím všechny,
existuje v nějakém systému (nagios, zabbix, atd.) utilita nebo script který o naplní (i zákadními) daty ?
Představa
Nainstaluji a nakonfiguruji systém, připojím ho do sítě v řádech stovek klientů. Spustím tento script a on projde definovanou síť a vytvoří zákadní seznam zařízení která vidí. Nejlépe včetně topologie a služeb.
Něco podobného má mikrotik jmenuje se to Dude.
Děkuji za info.
Petr