Bylo to docela blbe. Myslel jsem ze upadla nejdriv jedna vetev ale v jednu chvili byly upadene obe dve coz ve stats nenapsali. A jsem si na stopro jistej ze jsou zapojeny spravne.
Stats:
Obe dve VN vetve upadle, jedna UPSka se podelala na jedne vetvi a pak jeste byl problem se startem generatoru. Jsou to amateri. Sorry hosi. Ale od toho jsou pravidelne testy aby se zavada objevila drive nez kdyz k ni dojde naostro.
Blba nahoda se stat muze to pripoustim ale to neni prvni. Mame v cechistanu nejake servery zrovna tady. Amici blaznili ze rusove utoci nebo co - proste sranda.
I kdyz budete na zkousku startovat dieselagregat kazdy tyden, moznou zavadu to odhalit nemusi (aneb akumulator nutny pro start muze odejit i behem dalsiho pokusu o start). Je to technika, odchazi to... proto se v DC delaji dve vetve, proto by servery i aktivni sitove prvky mely byt skutecne i napajene z obou vetvi - a takovym zpusobem, aby druha vetev v pripade problemu plne prevzala zatez (tzn. tam musi byt dostatecna rezerva). A kazdopadne ty veci, co vypadly uz pred devatou ranou tohle asi meli v nejakem bode ponekud podcenene... a pred jedenactou to mohla byt klidne jen chyba manipulace ve snaze sluzby co nejrychleji zprovoznit (mohla se pripojit moc velka zatez z vypadle vetve naraz a vznikly proudovy raz vyhazi jistice az buhvikam po ceste...).
Mimochodem, zkuste rict zakaznikum, ze jim v DC s A+B vetvi jednu vetev na chvili odpojite na testy... :-) Ono ne vsechno si otestujete, zakaznici vas proste nenechaji...
Vsak o generatorech zadna. To je dost poruchova vec. Porad se neco resi. Nefunguje predehrev, prepinani,ucpane filtry, hnizdo v sani, nekdo zavre privod plynu po vymene plynomeru u kombinovanych generatoru - coz na te zvlastni vetvi nepoznate protoze potrubi drzi tlak a cidla jsou zelena nebo frantici nedolejou diesel a na monitoringu na to buhviproc nikdo nereagoval (asi stavka vsech smen). Pistove motory jsou zlo - jedna z nejnespolehlivejsich veci a malo lidi tomu rozumi.
Ale ze vam odejdou obe vetve naraz a maji blby energoplanning a procedury startu ze tmy je na pest. Chyba manipulace... u takoveho DC s procedurami? Skutecne? Spis bych se tocil na tom planovani. A jako dalsi vec - smrt nejakeho hw tesne po startu ktera mohla vyvolat neocekavane pretizeni.
Kazdopadne jsem zvedavy na postmortem.
Ale ono nevypadly obe vetve zaraz. Status page ma historii, vypadek UPS "A" tam byl uz v 8:59, prvni problem na vetvi "B" az v 10:57 (mj. VPSfree vypadlo az kolem 10:42, vypadek PRE v ~8:40 se neprojevil). Tedy to Vase tvrzeni "obe vetve naraz" je ponekud prekroucene... ono chce to umet pracovat s casovou osou ;-)
Mimochodem, zkuste rict zakaznikum, ze jim v DC s A+B vetvi jednu vetev na chvili odpojite na testy... :-) Ono ne vsechno si otestujete, zakaznici vas proste nenechaji..
No my jim to třeba říkáme dopředu, a kdo s tim má problém, tak má něco někde špatně a je to "jeho problém". Buď nechtějí výpadek a mají mít vše zdvojené a nebo nemají chtít takovou dostupnost. A negativní vysledek testu (něco spadlo) je taky výsledek a může se na jeho základě dělat nějaká náprava.
Tak, já už potkal ledacos:
- během testu UPS a vypnutí jednoho datacentra bagrem překopnutý napájecí kabel do zrcadlového datacentra,
- spuštěný interní test UPS, který vygeneroval proudový impuls a poshazoval jističe skoro až "k elektrárně",
- po několikahodinovém testu běhu na náhradní zdroje nastal dopoledne výpadek a v dieslu nebyla nafta, obsluha zrovna stála ve frontě na benzince,
- při poruše napájecí větve energetici omylem vypnuli tu živou větev......
Inu, stane se.
Jedna věc je mít to dobře navržené. Někdy ve snaze ušetřit, nedejbože z nevědomosti, se to těch systémů detekce/přepínání montujou hrozné věci.
A druhá věc - testy. Troufám si říct, že když se testuje alespoň na sucho/bez zátěže - což zákazníky nemusí znepokojovat, tak je velká šance, že se problém DG vychytá bez újmy.
Dieselový generátor v DC budete testovat v zátěži jako jakýkoliv jiný dieselový generátor, tedy odporníkem. Stejně jako se v dílnách testují třeba diesel-elektrické kolomotivy - tam se taky nikdo nespokojí jen s nastartováním, a na projížďku s nákladním vlakem nepojedete...
Jako kdybych třeba kupoval ojeté auto, taky se nespokojím jen s tím, že nastartuje.
nj. ale to pak testuješ do prvního rozvaděče, netestuješ celou soustavu. Ano, co jsem viděl, testuje se na 20 % zatížení (únik kapalin, těsnost, fungování čidel, vizuální kontrola, snímač paliva atd.), pak se testuje na 50 % a nakonec skokově na 80 %, kouká se na věci jako sled fází, frekvence, teplota, odvod spalin atd. Ten test je tak na hodinu a řekl bych, že snad nikde nebudou testovat tak, že ho zapnou, poslechnou, že běží a zase vypnou. Mám to jen odpozorované.
Pekna teorie. Ale v praxi nesmysl. I v prubehu (planovaneho) testu muze dojit k (neplanovanemu) vypadku rozvodne site. A vy si cele cviceni predstavujete jako blikani s parwattovou zarovickou :-) Ono uz treba ten odpornik je potreba mj. dochladit - kde vezmete energii na toto, kdyz umelou zatez nahle odpojite od zdroje, abyste nakrmil zatez ostrou (a tu umelou zatez neznicil)? V rozvodne soustave to prepinani mezi umelou a ostrou zatezi navic bude znamenat dalsi prepinaci prvky navic a tedy dalsi mozne zdroje poruch.
A o (ne)ekologicnosti takoveho reseni snad ani nema smysl psat... prosimvas, kde ze tohle Vami popsane reseni provozujete? Ja bych se rad na to Vase datove centrum podival... :-)
Myslím si, že jde to říci zákazníkům, že budou tehdy a tehdy na generátoru kvůli testům.
V minulém zaměstnání jsme měli vlastní datacentrum. Primárně bylo pro naše potřeby, ale měli jsme tam i externí zákazníky. Řešení bylo prosté - součástí nájemní smlouvy byla klauzule o testech.
A datacentrum jelo každý měsíc na DG. Test se dělal tak, že někdo fyzicky odpojil DC od sítě, takže reálné podmínky.
Proti výpadku startovací baterie jsme měli pojistku - setrvačníkovou UPS, která byla trvale roztočená a v případě poruchy startování DG natvrdo sepla spojka mezi setrvačníkem a DG - tím se DG roztočil. Něco to stálo, ale zvyšovalo to jistotu napájení. Taky jsme měli nasmlouvané dodávky nafty - DG jel při plné zátěži třeba 3h, tak ve smlouvě bylo, že dodavatel musí naftu dovézt do hodiny od objednání (reálná čísla si nepamatuji). I to se testovalo.
Výpadků el. sítě jsem zažil tehdy docela dost, ale výpadek napájení datacentra jen jeden - byl to testovaný emergency shutdown.
Takže z mého pohledu to jde, jen to něco stojí a zaleží na business rizicích - co vyjde levněji - špatná pověst, nebo dobře stavěná záloha?
tohle ale lze dělat jen se specifickým HW a v provozu, kdy si můžeš dovolit pár hodin výpadek. Tohle fyzické odpojení může generovat poměrně dost výpadků, které naprosto vůbec nesvědčí řadě prvků typu diskové pole, kms, statefull switch a firewally, pak to dáváš hodiny dohromady.
Když už někdo má vlastní DC, je skvělé, když jich má více a tyhle testy je možné dělat na záložní lokalitě a ne jen na produkci, ke které nemáš zálohu.
Samozme, ze kazda deviatka za desatinnou ciarou nieco stoji. Na sukromne pouzitie vezmem to najlacnejsie VPS a pocitam s tym, ze moze den-dva vypadok rocne. Ak sa nieco extra pokasle, tak aj 3-4 a necakam, ze zalohy budu a budu aj funkcne. Radsej si zaplatim 2x to najlacnejsie a som s tym spokojny. Pre small business by som uz chcel nejake tie deviatky za ciarkou a musim si priplatit. Pre kriticke sluzby ale chcete vela deviatok, priplatite si a ocakavate, ze tie generatory tam budu najmenej dva, budu urcite funkcne a otestuju ich za kazdym, co upratovacka odide zo saly :-)