Já mám spíš pocti, že je to Kocourkov od sklepa po půdu.
- Juchů, máme monitoring. Tak ho zapneme... Za dva roky: Ono to nic nedělá, kterej jouda tam nedal certifikát?
- Kurňa, zase potřebujem ke správě serveru heslo. Jak to udělat, aby se k tomu dostali <b>všichni</b> admini? Hodíme to tady do veřejnýho adresáře. (jako kdyby si každej admin nemohl vygenerovat RSAčko pro SH se svým heslem a nedalo se to přidat na konkrétní server, záležitost minuty).
- IT to zaktualizuje. IT vezme seznam všech instalací. Hele, ten seznam je pět let starej, novější není? Ne, za to zodpovídá jiný oddělení. Tak fajn, zalepíme aspoň todle...
No já bych řekl, že dívat se, co udělalo nebo neudělalo IT oddělení je dost nepodstatné.
Podstatné je toto:
Because Smith retired instead of getting fired, he is expected to receive $90 million, including performance-based unvested stocks and $18.5 in retirement benefits, according to Fortune. (Zdroj Wiki)
Každý systém se přizpůsobí zpětné vazbě, která je na něj aplikována. On za tento čin dostal obměnu. Tak proč by to kdokoliv v jeho situaci neměl příště udělat stejně?
Prvy bod trochu poopravim:
Juchu mame monitoring, je tam aj certifikat, vsetko funguje ako ma, testnute, porobili sa testovacie incidnety, aha. Zamestnanec dostane odmenu, po pol roku sa z firmy poberie a o dva roky (a to je este konzervativne, kedysi boli certifikaty v pohode na 5 rokov) certifikat vyhnije, monitoring, ktory predtym nehlasil nic, lebo vsetky Struts boli aktualne nadalej nehlasi nic, ticho po pesine. Robim v korporate, je az zarazajuce na kolko cetrifikatov tesne pred vyprsanim sa pride len vdaka mailu od certifikacnej autority. A ak tam clovek dal len svoju osobnu mailovu adresu, alebo timova prestala existovat kvoli restrukturalizacii, nepride ten mail nikomu...
Takhle to v korporátu skutečně chodí. Všechno se udělá naprosto perfektně, špičková kvalita, tři úrovně testů, vystaví se protokoly a oficiálně se to předá. Pokud ten systém často havaruje nebo působí problémy, tak je to dobře a systém žije.
Problém jsou systémy, které nepůsobí problémy ani výpadky. Po pár měsících nebo letech se na ně zapomene. A to ani nemusí dojít k výměně lidí na pozicích.
Existuje několik protiopatření:
1. Mít checklist pravidelně prováděných akcí. A tam ten systém zapsat včetně instrukcí jak a co ověřit. Což obvykle funguje, jen pak bývají infarktové situace, když se o půlnoci v rámci pravidelné čtvrtletní odstávky zjistí, že jeden ze systémů už nejméně dva měsíce neběží jak má. Plus špatně napsané instrukce představují past - to vám IT celé roky bod "ověřit, že RPTDB běží" provádí tak, že se koukne na stav služby. Jenže pak vám jednoho dne dojde k poškození datového souboru a databáze se vám přepne do READ ONLY módu, dovolí přihlášení jen na uživatele SYSDBA a protestuje prakticky proti všemu s tím, že máte s pomocí RMAN opravit soubory. Což nikdo nezjistil, protože se jen dívali, zda služba OracleServiceRPTDB má stav "Running". Jenže ta ho má i poté, co databázi vypnete pomocí SHUTDOWN, takže ze stavu služby vážně nic nezjistíte. Chybama se člověk učí.
2. Koncipovat systém jako vždy reportující. Takže kromě obvyklého "když dojde k chybě tak pošli email" to nastavit ještě jako "když nedojde k chybě tak pošli email, že je to OK". Funguje to výborně až do chvíle, kdy admin dostává takových emailů několik denně a ztrácí tak přehled o tom, co už přišlo a co ne. Pokud ten email je jediný a posílá se před začátkem pracovní doby, tak si toho člověk obvykle všimne. Pokud tedy není zrovna na dovolené, což se jako na potvoru stává. A jak píšete - pokud si tam hodí admin jen svůj email, tak je to taky velký risk. Zažil jsem kluka z IT, co si málem utrhl nohu v koleni a byl s tím měsíc v nemocnici. Jó to bylo legrace. Nakonec nebyla jiná možnost, než aby prostě řekl svoje hesla, protože si pod práškama proti bolesti nedokázal (a asi ani nechtěl) vzpomenout na všechno, co dělá. I tady jedna zkušenost z praxe: ověřit si, že programátor zadání "dotaz nevrátí žádný záznam => je to ok" nepochopí stylem "dotaz nevrátí žádný záznam nebo spadne s ORA chybou => je to ok".
3. Postavit na to ještě "nadsystém", který bude vizualizovat stav všech systémů. V kombinaci s bodem 2 to funguje výborně. Automat zjistí, že nedostal v pravidelném intervalu report a začne blikat červeně. Prakticky neprůstřelné řešení, které funguje, pokud se správně nastaví a používá. Nastavení bývá menší problém (viz bod 2). Větší problém je to používání - pokud je to udělané tak, že na tabuli pořád něco svítí žlutě nebo červeně, tak jí lidé přestanou číst. V duchu "vždycky tam něco bliká, jak jsem měl vědět, že zrovna tohle je důležité?"
Bohužel v klasickém korporátu to většinou skončí jen u bodu 1. Někdy v bodě 2, ale s tím, že je těch notifikací tolik, že je vlastně nikdo aktivně nemonitoruje (v duchu "si říkám, že už jsem pár dní neviděl email od EDI serveru, tak kouknu a fakt jo, naposledy v úterý!"), případně to chodí na tolik lidí, že si všichni myslí, že to kontroluje někdo jiný. Do bodu 3 se dostane jen pár firem a to obvykle jen díky platné legislativě nebo jako nápravné opatření po nějakém průšvihu. Přitom taková informační tabule na stěně kumbálu, kde sedí IT administrátoři, působí tak úžasně geekovsky! A ten pocit, když vám volá mistr z výroby a vy mu hned řeknete "já vím, vám na hale 4 chcíply Zebra tiskárny, už na tom děláme" ? K nezaplacení :-) Jen na to člověk nesmí moc spoléhat a na dotaz ze zákaznického oddělení "nám za včerejšek nedošla žádná nová objednávka, není nějaký problém s EDI?" nereagovat prostým "nám to svítí zeleně".