Máme servery DC Master s duálním napájením ze dvou větví a že si po výpadku jedné větvě nechá přetížit i záložní a posune se do totálního blackoutu, to beru jako fatální profesní chybu. Bohužel se podobné chyby jednou za pár let opakují. Pro srovnání máme i servery v jiných DC po Praze, u jednoho jsme cca 20 let a výpadek podobného rázu za celou dobu nebyl ani jeden (knock knock). Uptime kazí jen obměna HW a aktualizace. Nekorektní shutdown ani jeden.
Ano, vidím to naprosto stejně. Snaha obsluhy ve stresu zachránit padlé 1PSU servery a tím pohřbila i ty 2PSU. Jako platícího zákazníka za duální napájení pro to pochopení nemám, je to spíš o hledání jiného DC i přesto, že je pro nás jen backup a primár máme jinde.
Když si pročítám logy jednotlivých serverů, tak je opravdu dlouhá doba od toho, co padl naposledy jeden zdroj a kdy padl i ten záložní (25min). To vylučuje problém toho, že některé zdroje dělají load balancing přes obě větve a v případě výpadku jednoho PSU vzroste odběr na tom zbylém, aktivním. V naší branži je backup zkrátka více než posvátný. Nesahá se na něj během výpadku nebo kolizí, ať jde o konektivitu, power či data. Nikdy se to nevyplatilo a nevyplatilo se to ani tentokrát.
Zadrhelu tam asi bylo vice... aneb mohla byt za tim snaha obnovit chod i vlastni infrastruktury. Nemusi to byt jen o (zakaznickych) serverech. Tezko rict.
V praxi to bude asi jeste mnohem slozitejsi, dle specifikace nabizi i napajeni jen z jedne vetve... ale i tam se asi uplatnuje nejake SLA... a ono nechat celou tu vetev proste vyplou dle soucasnych info az do zitrka by asi byl taky uz problem vuci te te casti zakazniku, co si plati jen za jeden privod... proste se snazili chod sluzeb obnovit, ale asi se to v nejakem bode asi ve stresu moc uspechalo - pristup jako celek (snaha obnovit chod sluzeb) ale chybny neni.
Mne nevadí, že padne DC, že je výpadek konektivity, chlazení, atp. Mne vadí když mi padnou hypervizory a VM natvrdo bez korektního shutdownu a je jedno, jestli to je poslední záloha zálohy kdesi v rohu. Zkrátka se to musí řešit. Byla by jiná, kdybychom měli celý RACK, pak by se třeba i osadila UPS a byl by klid. Pro pár fyz. serverů se ale UPS v DC nenavrhuje, spoléhá se že záložní napájení je opravdu záložní a že tuto službu pokrývá DC.
Já nevím no, my máme jiné standardy a nespoléháme se na to, že server nikdo nevytáhne ze zásuvky. Jestli nemáte celý rack, tak se kolem toho serveru motají různí lidé. Servery se přidávají a zase vyndávají. Pokud server přežije tak super, pokud nenaběhne, tak se hold služba nasadí jinde. Stejně se na tom musí začít pracovat hned jak se něco stane. Jet do DC, sedět u racku a koukat tam na techniky, jak se snaží nahodit UPSku, to nepomůže nikomu.
Děláme low cost hosting, což znamená cenový rozsah 50-1000 Kč měsíčně. Cokoli v téhle hladině je best effort bez ohledu na to, co je ve smlouvě a co se píše na webu. Občas někdo přijde s tím, že chce podepsat SLAčko, tak mu to spočítáme na 20k měsíčně a vždycky se nakonec ukáže, že řešení, které pokreje cca 2h downtime jednou za rok či dva mu za těch 20k nestojí. Ono to navíc vyžaduje změny v aplikaci a to je mimo možnosti většiny firem. Během těchto dvou hodin jsme schopni nahodit ~80 % webů zpátky i kdyby DC lehlo popelem. Ten zbytek je složitější, protože tam mají docela dost dat, chvíli trvá je zkopírovat a jede se prostě od nejmenších.
moderní disky s ram, různé nvme a ssd trochu podvádí a fsync je nich už jen taková virtuální věc. Zvedni si výrazně zátěž databáze a pak zkus vypnout proud, při malých zátěžích se s problémy nemusíš setkat. Kontrola integrity databáze po tvrdém restartu poté může být také na hodiny.
Když v DC vypadne celá ulička, tak třeba jeden dva servery to odnesou a je potřeba buď nějaké disky vyměnit nebo aspoň doopravit fs/data.
Asi jsme se špatně pochopili, v tomto případě zafungovaly opravy a vše se zaléčilo samo . Tak jako tak se ale musíte na servery přihlásit, projít logy, zkontrolovat sondy nagiosu. Když se vám to stane v jednu chvíli na desítkách serverů, máte celý den co dělat. Z celého pražského Blackoutu to nakonec odnesl jen jeden disk controller a to ještě mimo DC Master. Naštěstí byl server pod zárukou, tak ho Dell v NBD režimu vyměnil a jede se dál. To je tedy ten důvod, proč nemám rád neplánované shutdowny serverů a tvrdé power off zvlášť.Malé serverovničky zákazníků s pár servery to povětšinou přežily díky UPS bateriím online bez restartu. Tam kde bych výpadek naopak nečekal, tam to skončilo totálním blackoutem. Člověk se pořád učí.
4. 6. 2022, 08:36 editováno autorem komentáře