Hmm. Vzpomněl jsem si na MMonit, také kdysi malý a cool monitorovací nástroj. Jenže měl takovou ... vlastnost. Jel check za checkem, bez jakékoliv paralelizace. Takže stačilo mít třeba 10 strojů vypnutých, na každém třeba 10 služeb a timeout třeba na minutu (ať se to dobře počítá). Tedy v takovém stavu všechny ostatní stroje monitoroval jednou za 100minut.
A na tuto "vlastnost" se pochopitelně přišlo přesně ve chvíli, kdy služby několik hodin nejely, monit byl vesele zelený (krom serverů, které byly a měly být vypnuté) a emailové notifikace zcela prázdné.
Nevím, jestli autorům přišlo příliš necitlivé na monitorujícím stroji spustit třeba 1000 checků současně (typu ping, nebo tcp connect), nebo co je vedlo k tomuto rozhodnutí.
Tohle je příběh cca 10 let starý a dneska už to určitě za ty prachy zvládá ;-)
Nasadit monitoring a neotestovat jak se chová a jestli umí hlídat to, co má, je pěknej fail
Jo, s tímhle souhlasím. My si po všech těch nepříjemných zkušenostech také napsali vlastní monitoring.
Jen tu myšlenku dál rozvinu. Člověk nepředpokládá, že všude propagovaný a všude hypovaný systém (jakýkoliv) je ve skutečnosti tak špatný a že malý tým si dokáže za měsíc napsat něco lepšího. Tady prostě něco nesedí.
Takže ano, psal jsem si všechny testovací požadavky na testovací systém (což je samo o sobě prostě absurdní) až jsem zjistil, že to vlastně zvládnu napsat za víkend sám.
Jenomže, má to tak opravdu být? Má si každá firmička psát všechno od nuly sama pro sebe?
člověk to často testuje v malém měřítku a tam nemusí tuhle maličkost zporozovat.
Mám s Monitem stejnou zkušenost, měl jsem ho rád a nasazoval poměrně často, pak u jednoho projektu byl velký výpadek a on nebyl schopný se tím ani za celý den prokousat. Dobrý fail.
Zrovna synchronnost volání jednotlivých checků je za mě asi nejčatější problém všech monitorovacích služeb a ani dnes to není zřídkaky ošetřené a řešené.
Je těžké simulovat masivní výpadek, někdy to nemusí být jen obyčejný connection refused, ale zákeřné jsou různé poruchy na síti, vysoký jitter, špatné routování, smyčky. To dokáže ledajaký monitoring poslat do kolen.
Nabízet nástroj na monitorování, který selže při výpadku monitorovaných služeb je fail za mě.