Kuriozni zavady tohoto typu se stavaji. A casto za to muze lidsky faktor a procesni bordel - napr. chybi nasledna kontrola pred uvedenim do provozu. Nebo nekdo neco "opravi" a ve skutecnosti to jeste vic rozrasi. Samozrejme o tom neni zaznam v servisnim logu. Res si to pres pul sveta.
Kdyz vam na monitoringu obe UPS ukazuji naprosto stejnou zatez na obou vetvich tak je neco asi spatne. Neni nad to kdyz pred nadmuteho inda prijde trident a rekne: Jste si jisti ze skutecne monitorujete obe UPS nebo jen jednu? Jinak gratuluji k naprosto preciznimu vybalancovani a k usetreni ip adresy na monitoring upsky.
Nastesti monitoring byl prevelen do US a CZ. My jsme spolehlivejsi a delame za chleb a vodu.
Nevim proc, ale ta aktualizace mi jako sarkasmus neprijde a ani se nesmeju. Asi hodne sedivych vlasu. UPSky a generatory maji firmwary a prednastavene hodnoty. Napr. kratkodobou pretizitelnost. Ale kdyz to nejake jelito vezme jako staly vykon... bojim bojim. Asi uz jsem na tohle moc starej. Mel bych si nagelovat vlasy, vzit si oblek, nalestit boty a resit cloudy nebo zalozit nejakej IoT startup.
Nevim proc, ale ta aktualizace mi jako sarkasmus neprijde a ani se nesmeju.
Jakožto BFU zvyklý na aktualizace MS Windows mi nějaká nefunkčnost systému po aktualizaci už přijde jako normální. V datových centrech bych problémy s aktualizacemi nepředpokládal a pevně věřím, že ostatní poskytovatelé aktualizací to mají vyřešené lépe než je tomu u komerčních produktů pro BFU. Tak se jim tam holt vys..lo něco jiného. Takový je život.
Podle utrzkovitych informaci to na prvni vetvi odnesla primarne spise UPS (ktera ostatne nebezi doted). A ta druha vetev vypadla asi v reakci na pokus o prepojeni zateze z jedne vetve na tu druhou... ale je to jen spekulace.
PRE v okoli melo vypadek nekdy mezi 8:40 - 9:50 (plus minus, zamozrejme ani PRE nepripoji po takovem vypadku veskerou zatez naraz; moje domaci UPS cca 2,5km odtud nabehla treba uz 9:27, jinde to bylo kolem 9:38). Ale ten druhy vypadek prisel ale az po 10:40... kdy v mezicase status ukazoval, ze na VN je vse OK...
Kvalita housingu se pozna az jde do tuheho.. a Master si ted urizl poradny kus ostudy.
(jsem byvaly zakaznik, a odesel jsem pred lety v dobe, kdy jsem uznal za dostacujici kvalitu domaciho pripojeni - dnesek jenom potvrdil, ze bezna komercni nabidka je jenom hodne nalestena bida)
Jinak me prevapilo, ze fungovali weby jako idnes / alza, ale z IT oboru nejelo hodne dlouho napr. diit, a jako posledni se pridal root s hodne pozvolnym rozjezdem, protoze asi pretunena architektura :)
To moc překvapivé není. U Alzy stojí každá minuta výpadku milion(y), takže mají motivaci i peníze to ošéfované.
Naopak Rootu když jeden den nejede, tak si holt lidi přečtou články další den. A taky má poměrně málo peněz, takže jeho možnosti geografické redundance, tréninku recovery scénářů atp. jsou omezené.
Bylo to docela blbe. Myslel jsem ze upadla nejdriv jedna vetev ale v jednu chvili byly upadene obe dve coz ve stats nenapsali. A jsem si na stopro jistej ze jsou zapojeny spravne.
Stats:
Obe dve VN vetve upadle, jedna UPSka se podelala na jedne vetvi a pak jeste byl problem se startem generatoru. Jsou to amateri. Sorry hosi. Ale od toho jsou pravidelne testy aby se zavada objevila drive nez kdyz k ni dojde naostro.
Blba nahoda se stat muze to pripoustim ale to neni prvni. Mame v cechistanu nejake servery zrovna tady. Amici blaznili ze rusove utoci nebo co - proste sranda.
I kdyz budete na zkousku startovat dieselagregat kazdy tyden, moznou zavadu to odhalit nemusi (aneb akumulator nutny pro start muze odejit i behem dalsiho pokusu o start). Je to technika, odchazi to... proto se v DC delaji dve vetve, proto by servery i aktivni sitove prvky mely byt skutecne i napajene z obou vetvi - a takovym zpusobem, aby druha vetev v pripade problemu plne prevzala zatez (tzn. tam musi byt dostatecna rezerva). A kazdopadne ty veci, co vypadly uz pred devatou ranou tohle asi meli v nejakem bode ponekud podcenene... a pred jedenactou to mohla byt klidne jen chyba manipulace ve snaze sluzby co nejrychleji zprovoznit (mohla se pripojit moc velka zatez z vypadle vetve naraz a vznikly proudovy raz vyhazi jistice az buhvikam po ceste...).
Mimochodem, zkuste rict zakaznikum, ze jim v DC s A+B vetvi jednu vetev na chvili odpojite na testy... :-) Ono ne vsechno si otestujete, zakaznici vas proste nenechaji...
Vsak o generatorech zadna. To je dost poruchova vec. Porad se neco resi. Nefunguje predehrev, prepinani,ucpane filtry, hnizdo v sani, nekdo zavre privod plynu po vymene plynomeru u kombinovanych generatoru - coz na te zvlastni vetvi nepoznate protoze potrubi drzi tlak a cidla jsou zelena nebo frantici nedolejou diesel a na monitoringu na to buhviproc nikdo nereagoval (asi stavka vsech smen). Pistove motory jsou zlo - jedna z nejnespolehlivejsich veci a malo lidi tomu rozumi.
Ale ze vam odejdou obe vetve naraz a maji blby energoplanning a procedury startu ze tmy je na pest. Chyba manipulace... u takoveho DC s procedurami? Skutecne? Spis bych se tocil na tom planovani. A jako dalsi vec - smrt nejakeho hw tesne po startu ktera mohla vyvolat neocekavane pretizeni.
Kazdopadne jsem zvedavy na postmortem.
Ale ono nevypadly obe vetve zaraz. Status page ma historii, vypadek UPS "A" tam byl uz v 8:59, prvni problem na vetvi "B" az v 10:57 (mj. VPSfree vypadlo az kolem 10:42, vypadek PRE v ~8:40 se neprojevil). Tedy to Vase tvrzeni "obe vetve naraz" je ponekud prekroucene... ono chce to umet pracovat s casovou osou ;-)
Mimochodem, zkuste rict zakaznikum, ze jim v DC s A+B vetvi jednu vetev na chvili odpojite na testy... :-) Ono ne vsechno si otestujete, zakaznici vas proste nenechaji..
No my jim to třeba říkáme dopředu, a kdo s tim má problém, tak má něco někde špatně a je to "jeho problém". Buď nechtějí výpadek a mají mít vše zdvojené a nebo nemají chtít takovou dostupnost. A negativní vysledek testu (něco spadlo) je taky výsledek a může se na jeho základě dělat nějaká náprava.
Tak, já už potkal ledacos:
- během testu UPS a vypnutí jednoho datacentra bagrem překopnutý napájecí kabel do zrcadlového datacentra,
- spuštěný interní test UPS, který vygeneroval proudový impuls a poshazoval jističe skoro až "k elektrárně",
- po několikahodinovém testu běhu na náhradní zdroje nastal dopoledne výpadek a v dieslu nebyla nafta, obsluha zrovna stála ve frontě na benzince,
- při poruše napájecí větve energetici omylem vypnuli tu živou větev......
Inu, stane se.
Jedna věc je mít to dobře navržené. Někdy ve snaze ušetřit, nedejbože z nevědomosti, se to těch systémů detekce/přepínání montujou hrozné věci.
A druhá věc - testy. Troufám si říct, že když se testuje alespoň na sucho/bez zátěže - což zákazníky nemusí znepokojovat, tak je velká šance, že se problém DG vychytá bez újmy.
Dieselový generátor v DC budete testovat v zátěži jako jakýkoliv jiný dieselový generátor, tedy odporníkem. Stejně jako se v dílnách testují třeba diesel-elektrické kolomotivy - tam se taky nikdo nespokojí jen s nastartováním, a na projížďku s nákladním vlakem nepojedete...
Jako kdybych třeba kupoval ojeté auto, taky se nespokojím jen s tím, že nastartuje.
nj. ale to pak testuješ do prvního rozvaděče, netestuješ celou soustavu. Ano, co jsem viděl, testuje se na 20 % zatížení (únik kapalin, těsnost, fungování čidel, vizuální kontrola, snímač paliva atd.), pak se testuje na 50 % a nakonec skokově na 80 %, kouká se na věci jako sled fází, frekvence, teplota, odvod spalin atd. Ten test je tak na hodinu a řekl bych, že snad nikde nebudou testovat tak, že ho zapnou, poslechnou, že běží a zase vypnou. Mám to jen odpozorované.
Pekna teorie. Ale v praxi nesmysl. I v prubehu (planovaneho) testu muze dojit k (neplanovanemu) vypadku rozvodne site. A vy si cele cviceni predstavujete jako blikani s parwattovou zarovickou :-) Ono uz treba ten odpornik je potreba mj. dochladit - kde vezmete energii na toto, kdyz umelou zatez nahle odpojite od zdroje, abyste nakrmil zatez ostrou (a tu umelou zatez neznicil)? V rozvodne soustave to prepinani mezi umelou a ostrou zatezi navic bude znamenat dalsi prepinaci prvky navic a tedy dalsi mozne zdroje poruch.
A o (ne)ekologicnosti takoveho reseni snad ani nema smysl psat... prosimvas, kde ze tohle Vami popsane reseni provozujete? Ja bych se rad na to Vase datove centrum podival... :-)
Myslím si, že jde to říci zákazníkům, že budou tehdy a tehdy na generátoru kvůli testům.
V minulém zaměstnání jsme měli vlastní datacentrum. Primárně bylo pro naše potřeby, ale měli jsme tam i externí zákazníky. Řešení bylo prosté - součástí nájemní smlouvy byla klauzule o testech.
A datacentrum jelo každý měsíc na DG. Test se dělal tak, že někdo fyzicky odpojil DC od sítě, takže reálné podmínky.
Proti výpadku startovací baterie jsme měli pojistku - setrvačníkovou UPS, která byla trvale roztočená a v případě poruchy startování DG natvrdo sepla spojka mezi setrvačníkem a DG - tím se DG roztočil. Něco to stálo, ale zvyšovalo to jistotu napájení. Taky jsme měli nasmlouvané dodávky nafty - DG jel při plné zátěži třeba 3h, tak ve smlouvě bylo, že dodavatel musí naftu dovézt do hodiny od objednání (reálná čísla si nepamatuji). I to se testovalo.
Výpadků el. sítě jsem zažil tehdy docela dost, ale výpadek napájení datacentra jen jeden - byl to testovaný emergency shutdown.
Takže z mého pohledu to jde, jen to něco stojí a zaleží na business rizicích - co vyjde levněji - špatná pověst, nebo dobře stavěná záloha?
tohle ale lze dělat jen se specifickým HW a v provozu, kdy si můžeš dovolit pár hodin výpadek. Tohle fyzické odpojení může generovat poměrně dost výpadků, které naprosto vůbec nesvědčí řadě prvků typu diskové pole, kms, statefull switch a firewally, pak to dáváš hodiny dohromady.
Když už někdo má vlastní DC, je skvělé, když jich má více a tyhle testy je možné dělat na záložní lokalitě a ne jen na produkci, ke které nemáš zálohu.
Samozme, ze kazda deviatka za desatinnou ciarou nieco stoji. Na sukromne pouzitie vezmem to najlacnejsie VPS a pocitam s tym, ze moze den-dva vypadok rocne. Ak sa nieco extra pokasle, tak aj 3-4 a necakam, ze zalohy budu a budu aj funkcne. Radsej si zaplatim 2x to najlacnejsie a som s tym spokojny. Pre small business by som uz chcel nejake tie deviatky za ciarkou a musim si priplatit. Pre kriticke sluzby ale chcete vela deviatok, priplatite si a ocakavate, ze tie generatory tam budu najmenej dva, budu urcite funkcne a otestuju ich za kazdym, co upratovacka odide zo saly :-)
Máme servery DC Master s duálním napájením ze dvou větví a že si po výpadku jedné větvě nechá přetížit i záložní a posune se do totálního blackoutu, to beru jako fatální profesní chybu. Bohužel se podobné chyby jednou za pár let opakují. Pro srovnání máme i servery v jiných DC po Praze, u jednoho jsme cca 20 let a výpadek podobného rázu za celou dobu nebyl ani jeden (knock knock). Uptime kazí jen obměna HW a aktualizace. Nekorektní shutdown ani jeden.
Ano, vidím to naprosto stejně. Snaha obsluhy ve stresu zachránit padlé 1PSU servery a tím pohřbila i ty 2PSU. Jako platícího zákazníka za duální napájení pro to pochopení nemám, je to spíš o hledání jiného DC i přesto, že je pro nás jen backup a primár máme jinde.
Když si pročítám logy jednotlivých serverů, tak je opravdu dlouhá doba od toho, co padl naposledy jeden zdroj a kdy padl i ten záložní (25min). To vylučuje problém toho, že některé zdroje dělají load balancing přes obě větve a v případě výpadku jednoho PSU vzroste odběr na tom zbylém, aktivním. V naší branži je backup zkrátka více než posvátný. Nesahá se na něj během výpadku nebo kolizí, ať jde o konektivitu, power či data. Nikdy se to nevyplatilo a nevyplatilo se to ani tentokrát.
Zadrhelu tam asi bylo vice... aneb mohla byt za tim snaha obnovit chod i vlastni infrastruktury. Nemusi to byt jen o (zakaznickych) serverech. Tezko rict.
V praxi to bude asi jeste mnohem slozitejsi, dle specifikace nabizi i napajeni jen z jedne vetve... ale i tam se asi uplatnuje nejake SLA... a ono nechat celou tu vetev proste vyplou dle soucasnych info az do zitrka by asi byl taky uz problem vuci te te casti zakazniku, co si plati jen za jeden privod... proste se snazili chod sluzeb obnovit, ale asi se to v nejakem bode asi ve stresu moc uspechalo - pristup jako celek (snaha obnovit chod sluzeb) ale chybny neni.
Mne nevadí, že padne DC, že je výpadek konektivity, chlazení, atp. Mne vadí když mi padnou hypervizory a VM natvrdo bez korektního shutdownu a je jedno, jestli to je poslední záloha zálohy kdesi v rohu. Zkrátka se to musí řešit. Byla by jiná, kdybychom měli celý RACK, pak by se třeba i osadila UPS a byl by klid. Pro pár fyz. serverů se ale UPS v DC nenavrhuje, spoléhá se že záložní napájení je opravdu záložní a že tuto službu pokrývá DC.
Já nevím no, my máme jiné standardy a nespoléháme se na to, že server nikdo nevytáhne ze zásuvky. Jestli nemáte celý rack, tak se kolem toho serveru motají různí lidé. Servery se přidávají a zase vyndávají. Pokud server přežije tak super, pokud nenaběhne, tak se hold služba nasadí jinde. Stejně se na tom musí začít pracovat hned jak se něco stane. Jet do DC, sedět u racku a koukat tam na techniky, jak se snaží nahodit UPSku, to nepomůže nikomu.
Děláme low cost hosting, což znamená cenový rozsah 50-1000 Kč měsíčně. Cokoli v téhle hladině je best effort bez ohledu na to, co je ve smlouvě a co se píše na webu. Občas někdo přijde s tím, že chce podepsat SLAčko, tak mu to spočítáme na 20k měsíčně a vždycky se nakonec ukáže, že řešení, které pokreje cca 2h downtime jednou za rok či dva mu za těch 20k nestojí. Ono to navíc vyžaduje změny v aplikaci a to je mimo možnosti většiny firem. Během těchto dvou hodin jsme schopni nahodit ~80 % webů zpátky i kdyby DC lehlo popelem. Ten zbytek je složitější, protože tam mají docela dost dat, chvíli trvá je zkopírovat a jede se prostě od nejmenších.
moderní disky s ram, různé nvme a ssd trochu podvádí a fsync je nich už jen taková virtuální věc. Zvedni si výrazně zátěž databáze a pak zkus vypnout proud, při malých zátěžích se s problémy nemusíš setkat. Kontrola integrity databáze po tvrdém restartu poté může být také na hodiny.
Když v DC vypadne celá ulička, tak třeba jeden dva servery to odnesou a je potřeba buď nějaké disky vyměnit nebo aspoň doopravit fs/data.
Asi jsme se špatně pochopili, v tomto případě zafungovaly opravy a vše se zaléčilo samo . Tak jako tak se ale musíte na servery přihlásit, projít logy, zkontrolovat sondy nagiosu. Když se vám to stane v jednu chvíli na desítkách serverů, máte celý den co dělat. Z celého pražského Blackoutu to nakonec odnesl jen jeden disk controller a to ještě mimo DC Master. Naštěstí byl server pod zárukou, tak ho Dell v NBD režimu vyměnil a jede se dál. To je tedy ten důvod, proč nemám rád neplánované shutdowny serverů a tvrdé power off zvlášť.Malé serverovničky zákazníků s pár servery to povětšinou přežily díky UPS bateriím online bez restartu. Tam kde bych výpadek naopak nečekal, tam to skončilo totálním blackoutem. Člověk se pořád učí.
4. 6. 2022, 08:36 editováno autorem komentáře
Nejvíc mě nas..lo IDNES s titulkem “ Za výpadek proudu mohl pokles tlaku plynu”
https://www.idnes.cz/zpravy/domaci/praha-vypadek-elektriny-pokles-tlaku-plynu-rozvodna-chodov-miroslav-sula.A220602_135301_domaci_mgn
To hraničí s šířením poplašné zprávy
Proto nemám servery v ČR. Každá z větví by měla unést celý provoz, na každé by měla být UPS a na každé generátor. Od toho je to DC. S Mastrama jsme řešili výpadky sítí (kdy nás jejich switch prostě odpojil z obou linek, nutno z jejich strany nahodit manuálně), přehřívání "studené" uličky, výpadek napájení už byl taky (naštěstí jen jedné větve). Pokud se nepletu, tak "DC" mají v Praze v podzemních garážích, v Brně zase v nějaké bývalé továrně. Casablanca INT to má pro změnu ve sklepě, kde pro jistotu pršelo (asi 2m od našeho stojanu). O dalších DC by se taky dalo vyprávět (Radiokomunikace to mají v nějakém vysílači).
Masteří DC v Brně má, alespoň u serverů, co tam máme, výbornou historii. Od roku 2016 jsme tam prakticky měli jen jediný problém se sítí a ten rychle vyřešili. Pražské na tom je o poznání hůře. Není to poprvé, co bylo bez proudu. V podzemních garážích ale není, je na úrovni přízemí. Mají tam dvě oddělené větve, dva generátory, dvě sady UPSek, tedy to samé, co mají ta tvoje zahraniční DC. Jak se tedy liší od Masteru? Co tě vede k přesvědčení, že se to tam taky nestane? Master aspoň nevyhořel :-)
Fakt nechápu tu naivitu, že když někdo dá do smlouvy všechny ty hezké parametry a SLA 99.99..., tak se to bere jako vytesané do kamene. Čím tam asi ručí, 5 % slevou na další měsíc? Pokud jede služba v jednom DC, tak je úplně jedno co má DC napsané na webu. Podobné věci se tam dřív nebo později stát mohou a je jen na lidech, kteří tu infrastrukturu spravují, zda s tím počítají a nebo ne. Myslet si, že DC pojede spolehlivě jen proto, že je třeba v Německu, je čistá utopie.
Nemci jsou poradni,hodne procesni a poradnost vyzaduji od svych dodavatelu. U DC ocekavam rizeni a hlavne proskoleni na urovni elektrarny. Ne ze obsluha bude zmatene mackat "cudliky". Mel jsem nekolik takovych kolegu a bylo to na prizabiti pak resit prusery. Duvod? Typicky cesko-slovensko-indicke: Tady to mas a plav. Od chvile co tu sedis je vsechno tvoje chyba. Hodne stesti! Nikdo ho nezaskolil, nevysvetlil navaznosti ani probihajici prace.
Cesi vecne spolehaji na sdelovani a reseni per huba a dobrou vuli servisaku. Pak je tezky dohledat co se vlastne stalo. Jenomze jsme levni a poradnejsi nez indove.
Nemecko ma taky jednu nevyhodu a to je spatna propojenost zapadni a vychodni casti a velky podil nestabilnich OZE.
Nemci maji vyssi sanci na blackout nez CR. Jak dlouho se o navyseni prenosovych kapacit zapad-vychod hovori? Uz 30 let? To se ani slunickove Merklove do kramu nehodilo a Olaf tezko rozplanuje tyto dlouhodobe projekty.
Ale ani nemeckym datacentrum se vypadky proste nevyhybaji... moc si to idealizujete :-)
Nemci jsou poradni,hodne procesni a poradnost vyzaduji od svych dodavatelu. U DC ocekavam rizeni a hlavne proskoleni na urovni elektrarny. Ne ze obsluha bude zmatene mackat "cudliky". Mel jsem nekolik takovych kolegu a bylo to na prizabiti pak resit prusery. Duvod? Typicky cesko-slovensko-indicke: Tady to mas a plav. Od chvile co tu sedis je vsechno tvoje chyba. Hodne stesti! Nikdo ho nezaskolil, nevysvetlil navaznosti ani probihajici prace.
Naprostá pravda, pěkně sepsáno.
Náš korporát také používal DC v Německu s nadprůměrnou spolehlivostí. Pak projel před budovou stroj, co sází vzrostlé stromky, a přesekl napájecí 10 kV kabel. Řidič si ničeho nevšiml (skvělá izolace jeho stroje), datacentrum jelo na záložní kabel. Stroj popojel a přesekl i ten druhý, scénka jak pro Mr Beana. Všechna čest, Němci to datacentum zprovoznili asi za 90 min, zřejmě natáhli prodlužovák.
Masteří DC v Brně má, alespoň u serverů, co tam máme, výbornou historii.
Mě se stačilo podívat už jen na umístění našeho racku. Hala po nějakém průmyslu, 2m od našeho stojanu byl schod apod. DC má být velká prostorná hala s plochou podlahou.
Jak se tedy liší od Masteru?
Už jen vzhledem a přístupem k technologiím.
Fakt nechápu tu naivitu
O ničem takovém nemluvím. Proto máme technologie ve třech DC od různých dodavatelů.
Podobné věci se tam dřív nebo později stát mohou a je jen na lidech, kteří tu infrastrukturu spravují, zda s tím počítají a nebo ne.
Více témat. Ano, stát se to může všude. Jen je otázkou, jak často.
Infrastruktura se navrhuje tak, aby to k tomu nemohlo dojít a je třeba to pravidelně testovat. To, že například v té Casablanca INT pršelo, je dejme tomu technologický problém (i když v dedikovaných prostorech skutečného DC by se tohle prostě stát nemohlo, protože by tam žádné vodovodní trubky ve starém stropě nebyly). To, že jim to vyplavilo diskové pole a vmware cluster je dejme tomu smůla. Ale to, že to neměli realtime replikované, což bylo to, co nám slibovali, a několik dnů to obnovovali, je zkrátka neodpustitelné. (Nakonec jsme to k nim do clusteru nedali, měli jsme to ve stojanu o pár metrů vedle.)
Myslet si, že DC pojede spolehlivě jen proto, že je třeba v Německu, je čistá utopie.
Záleží na pravděpodobnosti (tedy jak často) a na přístupu těch lidí k tomu dílu. Tuto důvěru už v česku dávno nemám, na základě zkušeností na prohlídky několika místních DC.
Já jsem si pročetl tvůj blog a asi se tu setkávají dva světy.
https://www.heronovo.cz/muj-pristup-k-administraci-serveru/#more-5215
Jen výběr:
* Firewall by neměl být potřeba.
* Logy nejsou potřeba
* admin přece neví, co je špatně, pokud nemá monitoring a logy“. Moje odpověď je, že by to prostě poznat měl.
My máme infrastrukturu v Terraformu a Ansiblu, nový stroj nekonfigurujeme přes `apt install` a když něco přestane fungovat, tak o tom víme. Logy sbíráme do centrálního místa a máme na nich navěšené i alerty. Sbíráme doslova všechno, protože potřebujeme vědět, co se na stroji dělo, než se objevil problém. Sbíráme i metriky ze status page datacentra, protože nám pak Grafana řekne, že problém není u nás ale tam.
Když se něco stane, tak nejdeme na server, ale do Grafany, kde čeká masivní množství metrik, ze kterých už není tak těžké zjistit, co bylo příčinou. On totiž server třeba ani nemusí reagovat a to pak "prostě poznat měl" nefunguje.
Funkčně nahradíme fyzický server během několika minut. Bohužel kopírování dat trvá déle, ale ani v jednom z našich procesů nefiguruje manuální volání `apt install` nebo `rsync`. Na tohle máme připravené nástroje, protože představa, že někdo bude během krizovky studovat dokumentaci, ve které je napsané co a jak je zkonfigurované a co kde běží, je nesmysl. Když přijde krize, vezme se papír s instrukcema a podle nich se jede. Manuálních kroků je minimum a zvládne to i člověk, co přišel první den.
Naše přístupy jsou úplně jiné. My to riziko přijímáme jako běžnou součást naší práce a jsme na to připraveni. Je to nepříjemné, ale není to nic, s čím bychom si neporadili. Ty to bereš jako něco, co se nesmí stát a posíláš data někam do tramtárie, protože tam mají rovnější podlahy, i když záruky dávají obě lokace na chlup stejné.
My máme infrastrukturu v Terraformu a Ansiblu, nový stroj nekonfigurujeme přes `apt install` a když něco přestane fungovat, tak o tom víme.
Ten článek vůbec nevylučuje použití Ansible. Ansible používám denně a denně udělám tak 20 virtuálek (pravda, aktuálně pracuju jako prog. takže VMka mám pro svůj devel a už nejsem admin - jen soukromých serverů).
Sbíráme doslova všechno, protože potřebujeme vědět, co se na stroji dělo, než se objevil problém.
O tom se můžeme pobavit třeba po emailech, zajímalo by mne, co to je to všechno a proč to potřebuješ. Za, když to zjednoduším, 12 let x stovky vm (tj kumulativně tisíce let běhu provozovaných vm) těch událostí bylo na prstech ruky a jednak nikdy nebyl problém přijít na to, co se stalo a taky to bylo dost často vlastně jedno. Protože jak píšu v jiném článku, zdravé služby prostě nepadají. (pg, apache apod. mě nikdy nezklamal). Takže u nás nebylo zase toho tolik ke zkoumání.
Ty to bereš jako něco, co se nesmí stát a posíláš data někam do tramtárie, protože tam mají rovnější podlahy, i když záruky dávají obě lokace na chlup stejné.
To je asi nepochopení, ale to teď nevyřešíme, když tam mi prosím napiš email. Na produkci jsme měli vždy několik DC a realtime replikace. Opravdu nespoléhám na to, že nějaké DC nikdy nespadne. Ale i přes to mi přijde vhodnější si vybrat spolehlivější DC s profesionálnějším přístupem.
To, že přece o nějaké údolosti nevíš, nemusí znamenat, že žádná nenastala, pokud něco nemonitoruješ a logy podrobně neřeší, netušíš že se tam něco děje. Oni o ty vývojářské stroje začínají být problém, protože se množí útoky přes napadé počítače vývojářů.
Zdravé služby nepadají? Uhf :). Přece problém nemusí vzniknout jen HW/SW chybou, ale může se jednat o útok, tvoje infrastruktura a monitoring by na takovéhle věci měly být připravené. Realtime replikace myslíš sync nebo async? Obě mají obrovské problémy a obě jsou třeba ideální pokud ti někdo začne cíleně mazat/znehodnocovat data.
To, že přece o nějaké údolosti nevíš, nemusí znamenat, že žádná nenastala
Pokud nastala a má dopad na data, tak se to dozvíš z nekonzistence dat.
netušíš že se tam něco děje
Ale já nechci řešit, že se něco děje. Řeším skutečné problémy. Pokud vůbec nastanou.
Oni o ty vývojářské stroje začínají být problém
Jako na mojí workstation?
může se jednat o útok
Záleží jaký. Klasický DDOS stejně položil už rovnou upstream, takže služba byla sice nedostupná, ale z naší strany se s tím stejně nedalo nic dělat (nevlastníme DC). Různé brute force útoky apod. jsou sice pěkné, ale nevím, proč bych je měl logovat, když jsou data stejně šifrovaná klíčem u klienta.
Obě mají obrovské problémy a obě jsou třeba ideální pokud ti někdo začne cíleně mazat/znehodnocovat data.
Od toho jsou snapshoty a zálohy.
no spíše z integrity než konzistence, to bys ale musel kontrolovat integritu dat, což kupodivu ani dnes spousta file systému nedělá, nedělají to ani všechny databáze.
A anomálie v provozu není skutečný problém? S takovým přístupem skončíš jako Master s hodinovými výpadky.
Ano, tvoje workstation, z které máš přístupy na spousty dalších serverů, nedávno to schytalo ŘSD nejspíš přesně takhle, a o útoku nevěděli měsíce, útočníci se dnes snaží schovat, nedávají do motd velký nápis "pawned" jak to bylo za našich začátků.
o DDoS samozřejmě nemluví, to je takový útok neútok. Logovat bys to měl třeba proto, že ti někdo může nepozorovaně změnit aplikaci, která ty klíče od klienta může posílat někam domů a data pak nejsou chráněna. Pokud takový útok je selektivní a krátký, nejsi schopný se o něm rychle dozvědět jinak než podrobným monitoringem.
Nedávno jsme měli problém, kdy load balancer náhodně dropnul spojení. Dělo se to jednou za pár desítek minut, v logu nic nebylo, dokonce monitoring dostupnosti to ignoroval, protože reagoval jen když byla jedna či víc appek dole déle jak minutu. Nakonec to dělala služba, která konfigurovala Nginx. Poslala mu 40 reloadů najednou a projevilo se to jen mírným zvýšením loadu a skokových využitím paměti. Nakonec jsme logy z té služby nasypali do Loki, zapli debug výstup a udělali dashboard, ve kterém jsme vedle sebe dali kolik jakých zpráv se v logu objevovalo v čase a k tomu graf s loadem a naměřenými výpadky. Sedělo to do puntíku. Ukázalo se, že vypadávají všechny weby najednou, dělo se to měsíce a výpadky byly tak malé, že si uživatelé ničeho nevšimli. Zjistili jsme to analýzou nedostupnosti jiného webu, kde s memory leakem (když vyčerpal paměť) korelovala jen část výpadků a pro zbytek jsme neměli vysvětlení. I když šlo vždy jen o jeden či dva requesty. Na alert to bylo málo, tak jsme přidali monitorování počtu změn mezi funguje-nefunguje a spočítali z toho index stability pro celou infrastrukturu, který spouští alert, když moc vyleze. Máme hodně aplikaci a některé z nich mají nějaké výpadky třeba při deployi, takže se nedá běžet hned za prvním škytnutím v grafech. Tohle to to docela elegantně vyřešilo. Nedokážu si představit, že ten problém řešíme bez Loki, Promethea a Grafany. I takhle nám to zabralo několik dní a bez dat bychom mohli jen hádat a dělat změny naslepo. Tedy přesně to co se tu vyčítá Masteru, aniž bychom věděli, že to opravdu dělali. Takhle jsme věděli přesně za čím jít, do kódu přidali 20 řádek a bylo to vyřešené. To jen k tématu "to prostě poznat měl" a "Logy nejsou potřeba".
a co tím změníš? Jak děláš podporu, to si uděláš zahraniční cestu? Nedávno např. OVH ztratilo celou lokalitu, vyhořela. Neznám DC, které by nemohlo/nemělo občas nějaké problémy, je to přirozené, proto by kritické služby měly být na více lokalitách s co nejméně společnými prvky, zahraničím nic nevyřešíš.
Jistě, že může, ale záleží taky na pravděpodobnosti, že jo. A té pravděpodobnosti nehody se dá pomoci přístupem k věci, jak už tu ostatně bylo popsáno. A o více lokalitách taky.
Vůbec celý tento pohled "může se to stát kdekoliv, takže všude je to stejné" je zvláštní. Je dost rozdíl, jestli se něco stane jednou za sto let nebo jednou za dva roky. A rozhodně dám servery raději k Hetznerovi než kamkoliv do Česka už jen na základě toho, jak je to tam čisté a jak to celkově vypadá. U nás je stále takový ten přístup "to je dobrý, to stačí".
ok, takže ty vybíráš spolehlivé DC podle vzhledu a čistoty? V kolika jsi jich byl, když chceš na správu serverů cestovat přes půl evropy, protože tam jsou čisté sály? No, jednou za sto let, v norimberku měl v colocated sále Hertzner výpadek zrovna letos v lednu na několik hodin, slibují multijazyčnou podporu a pak na tebe mluví jen německy, já nevím, nemám s nimi dobré zkušenosti.
Zrovna v ČR je v DC slušný výběr, ale pro mě za mě, jezdi si kam chceš.
Tohle je fakt smutný. Datacentrum nemůže být špinavé z principu, protože tam proudí hromada vzduchu, jako že fakt hodně vzduchu, a každé nezachycené smítko prachu skončí v serverech. Servery, co nám v Masteru běží, rozhodně nevypadají, jako kdyby do nich proudil prach. Stejnou zkušenost máme z Coolhosingu. I tak člověk, co jinak bere logy jako zbytečnost a debuguje problémy podle zvuku ventilátorů, bude bez důkazů očerňovat česká datacentra a glorifikovat ta německá, jen proto, že z fotek to vypadá, že mají bělejší bílou na zdech. A nic se u něj nezmění, protože když už k němu přijde na pohovor někdo, kdo má potenciál to vyřešit, tak ho buď vyhodí a nebo udělá takovej WTF moment, že by tam šel jen blázen.
a každé nezachycené smítko prachu skončí v serverech
Nebo voda rovnou v serverech. Po ukončení životnosti jsme ze zájmu rozebrali servery z Casablanca INT a ano, byly tam stopy vody. Na provoz to nemělo vliv, ale i tak.
I tak člověk, co jinak bere logy jako zbytečnost
Tak si ten článek přečti pořádně a případně se doptej.
bude bez důkazů očerňovat česká datacentra
Bez důkazů? Netvrdím, že znám všechna DC v Česku, ale to co jsem viděl a obecně přístupy spousty lidí mi bohatě stačí.
To nám přistálo do emailu
Oficiální vyjádření ke včerejšímu incidentu v MasterDC Praha
Vážení zákazníci,
zdravím vás den poté, co naše pražské DC zasáhly následky masivního výpadku dodávek elektřiny v části Prahy. Hned v úvodu se jménem MasterDC všem omlouvám za způsobené komplikace a zároveň děkuji, že jste nám dali čas. Jak jsme včera avizovali, byl nezbytně nutný k důkladnému prošetření celého incidentu a sestavení časové osy. Rozhodl jsem se celou situaci transparentně komunikovat.
Níže tedy najdete následující: 1. k čemu došlo, 2. jaká je aktuální situace, 3. co nás v nejbližších dnech čeká a 4. jaké kroky jsme přijali do budoucna.
Ve čtvrtek 2. 6. 2022 v 8:49 ráno zaznamenal náš monitoring výpadek napájení z distribuční sítě dodavatele PRE. Automatický systém zálohovaného napájení okamžitě převzal na větvi B systém UPS v režimu N+1 a následně motorgenerátor na větvi B. Na napájecí větvi A došlo ve stejnou chvíli k selhání soustavy N+1 UPS jednotek z důvodů, které jsou v tuto chvíli stále v šetření (jedním ze scénářů je abnormální přepětí v síti – zcela potvrdit to nyní však nemůžeme). Jeden z motorgenerátorů v soustavě N+1 nastartoval, ale problém na soustavě UPS byl natolik vážný, že neproběhl bypass UPS a napájení větve A selhalo.
V souladu s krizovým plánem pro tyto situace přistoupili pracovníci technického týmu k přesouvání vybraných zařízení větve A na sekundární větev B. Jeden z přepojovaných prvků způsobil zkrat, který vyhodil hlavní jistič (na trase byl i podružný jistič, který však nevybavil). Tím nastal v čase 10:43 výpadek i větve B.
Jednalo se tedy o extrémní případ souběžného selhání několika záložních a jisticích prvků v soustavě. Zde bych rád uvedl, že všechny tyto technologie splňovaly kvalitativní standard datacentra včetně pravidelných revizí a testování, rovněž i postup personálu se po vyšetřování ukázal být v souladu s krizovým plánem.
Včera jsme zmínili, že ke zprovoznění napájení došlo před 13. hodinou. Musíme upřesnit, že v tomto čase jsme již evidovali kompletně obnovený provoz datacentra. Ke zprovoznění napájecí větve A došlo v čase 11:11, napájení na větvi B bylo zprovozněno v 11:16. V průběhu odpoledne jsme se pak věnovali primárně asistenci zákazníkům s obnovou provozu jejich aplikací.
Stav k 3. 6. 2022, 18:10 je následující:
- všechny zákaznické služby v provozu;
- se servisní organizací jsme naplánovali revizní a servisní práce na obou větvích, které proběhnou příští týden v úterý 7. 6. 2022, 19:00 - 21:00 na větvi B a ve středu 8. 6. 2022, 5:00 - 7:00 na větvi A. Středeční ranní zásah na větvi A se neobejde bez servisní odstávky celé větve. Prosím sledujte dál naši komunikaci, o zásazích vás budeme ještě informovat standardní cestou.
Kromě výše zmíněných kroků jsme se rozhodli přistoupit ke kompletní obnově soustavy UPS jednotek pro větev A od nového dodavatele. Další opatření aktuálně nezamýšlíme – konfigurace veškerých prvků (MTG, UPS, klimatizace a další) je v módu minimálně N+1 a příčinou tohoto výpadku tedy nebyla nedostatečná redundance.
Děkujeme za podporu, které se nám od mnohých z vás dostalo i veřejnou cestou.
Za MasterDC
Filip Špaček, provozní ředitel
Nevíte někdo, jak se má správně řešit tohle?
> Jeden z přepojovaných prvků způsobil zkrat, který vyhodil hlavní jistič (na trase byl i podružný jistič, který však nevybavil).
Mně se to totiž děje, jističe nejsou selektivní, a nevím jak tomu pomoct. Napadlo mě, že by to mohlo řešit zařízení s indukčností a rychlým odpínačem, ale nic jsem nenašel. (pozn. nemám serverovnu, stačilo by mi chránit 1-2 zásuvky)