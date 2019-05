Byl pozdní večer…

Administrátor Karel sedí na terase při západu slunce a užívá si prvních slunečních paprsků tohoto roku. Říká si, že tuhle idylku snad může zkazit jenom manželka, ale ta teď není doma, a tak má Karel čas jen pro sebe. Jenže jak už to u podobným příběhů bývá, jeho autor si pro čtenáře připravil zvrat. Náhled začne Karlovi zvonit telefon. Koukne, a je to jeden z jeho nejlepších klientů. Volá, aby mu řekl, že jeho služba prý už hodinu nejede, a chce vědět, co se pro nápravu dělá. Teď přichází na řadu fráze, kterou se Karel naučil za těch posledních pár měsíců, kdy začal se správou serverů, „problém hledám, ale zatím se moc nedaří, během pár minut vám zavolám“.'

'Po odložení telefonu vystřídala pocit pohody jemná nervozita. Karel netušil, kde je problém a hned letěl k nejbližšímu počítači, aby zkusil něco najít, ale ejhle, SSH nejede. Cesta do serverovny je dlouhá a jelikož Karel přes hodinu nevěděl, že se vůbec něco děje, určitě se nebude cítit dobře, až klientovi zavolá, že ještě minimálně dvě hodiny to nepůjde.

Zatím co Karel pojede limitně k devadesátikilometrové rychlosti do serverovny, my si povíme, co že se to vlastně stalo. Už před dvěma měsíci se s tímto serverem začalo dít něco divného. Jednou dokonce nepochopitelně stoupl load nad 20 a všechny služby byly neskutečně pomalé. Karel si tenkrát říkal, že to nic nebude a server v klidu restartoval. Po naběhnutí bylo vše v pořádku a server běžel, jak má. Byl to server zákazníka, který se snažil tlačit cenu dolů, takže se v něm krčil jen jeden malý disk. Karla tenkrát nenapadlo, že by mohl být zakopaný pes právě v něm a problému dál nevěnoval pozornost.

Disk si po restartu serveru přemapoval pár sektorů, ke kterým se snažil dostat, seč mu síly stačily. Snaha o takovéto nestandardní chování chce čas, a tak chvilku trvalo, než se operační systém dočkal dat, o která zažádal. I když se disk snažil volat o pomoc pomocí S.M.A.R.T., nebyl nikdo, kdo by ho poslouchal. Po dvou měsících to vzdal a přestal reagovat úplně.

Karel se po hodině a půl dostal do serverovny, kde zjistil přesně to, co je popsáno výše. Deska hlásí, že nemá z čeho bootovat. Karla polije studený pot a začne se modlit, aby nic nebylo se zálohami. Dalších několik hodin nemohl sehnat žádný disk a když už ho měl, trvalo dvě hodiny, než se na něj nahrály zálohy. Celkově byl server nedostupný osm hodin a čtyřicet minut. Karel k ránu volal svému klientovi, že už je vše v pořádku, oznámil mu, že problém dělal disk, a tak obnovil den staré zálohy. Malinko naznačil, že by bylo dobré koupit disk ještě jeden a klient uznal, že to je dobrý nápad a hned zítra to zařídí.

Kde se stala chyba

Dávat jeden disk do serveru není sice nic bezpečného, ale mnoho serverů na tom bez problémů běží, zvlášť když existuje nějaký krizový scénář, jak případný výpadek řešit. V případě Karla a vadného disku byl problém jinde. Karel měl už přes dvěma měsíci běžet do serverovny a disk vyměnit. Se servery pracoval teprve krátce a i když slyšel různé více i méně zábavné příběhy, nevěřil, že by se mu mohlo stát něco podobného. Bohužel Karel si neuvědomil, že problémy se stávají a často velmi nečekaně a nejhorší je, když o nich administrátor neví.

V tomto bodě je nejdůležitější zjistit včas, když se začne něco dít. Disky se umí samy hlídat a dělají to dobře. Navíc se nestává zas tak často, aby odešly z ničeho nic. Administrátor by měl vědět o každém kousku hardwaru, ať už jde o podivné chování disku nebo o nestandardní napětí na jedné z napájecích větví zdroje. Kdyby Karel pravidelně kontroloval povrch disku a hlídal údaje ze S.M.A.R.T.u, vyměnil by disk už dávno a nečekané situaci by nikdy nedošlo.

Icinga

Monitorování je komplexní záležitost a jeho spolehlivost odráží na spolehlivosti zařízení. Navíc na monitoring existuje mnoho skvělých nástrojů, které jsou odzkoušené a používají se i ve velkých firmách. Kdyby vás náhodou napadlo si nějaký takový nástroj napsat, určitě si předtím vyzkoušejte již něco existujícího. Minimálně získáte inspiraci, ale spíše zjistíte, že raději zůstanete u jednoho z existujících řešení.





Tento článek je pojat jako motivační úvod k seriálu k monitorovacímu nástroji Icinga a měl by čtenáři ukázat, že se monitoring vyplatí i u na první pohled nedůležitých parametrů. Icinga je fork Nagiosu, od kterého se odtrhla po vnitřních neshodách s hlavním vývojářem, který nechtěl zařazovat některé užitečné patche. I přes změnu jména je Icinga Nagios jak vyšitý, ale disponuje několika vlastnostmi, které stojí za to umět použít. Jinak jsou Nagios a Icinga kompatibiliní. To znamená, že konfigurační soubory pro vaše servery, stejně jako pluginy, můžete použít u obou.