Vlákno názorů k článku
Výpadek v datacentru Master Internet vyřadil spoustu služeb včetně Root.cz od Jirasko - Máme servery DC Master s duálním napájením ze...

Článek je starý, nové názory již nelze přidávat.

2. 6. 2022 17:19

Jirasko

Máme servery DC Master s duálním napájením ze dvou větví a že si po výpadku jedné větvě nechá přetížit i záložní a posune se do totálního blackoutu, to beru jako fatální profesní chybu. Bohužel se podobné chyby jednou za pár let opakují. Pro srovnání máme i servery v jiných DC po Praze, u jednoho jsme cca 20 let a výpadek podobného rázu za celou dobu nebyl ani jeden (knock knock). Uptime kazí jen obměna HW a aktualizace. Nekorektní shutdown ani jeden.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:40

Danny

Stříbrný podporovatel

Ja bych to spis videl tak, ze pri snaze (rychle) dostat vetev s vadnou UPSkou pod napeti doslo pri pripojeni te sekce k takovemu proudovemu razu, ze to jistice proste neudrzely. Jo, spinany zdroje jsou v tomhle potvory :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 20:36

Jirasko

Ano, vidím to naprosto stejně. Snaha obsluhy ve stresu zachránit padlé 1PSU servery a tím pohřbila i ty 2PSU. Jako platícího zákazníka za duální napájení pro to pochopení nemám, je to spíš o hledání jiného DC i přesto, že je pro nás jen backup a primár máme jinde.
Když si pročítám logy jednotlivých serverů, tak je opravdu dlouhá doba od toho, co padl naposledy jeden zdroj a kdy padl i ten záložní (25min). To vylučuje problém toho, že některé zdroje dělají load balancing přes obě větve a v případě výpadku jednoho PSU vzroste odběr na tom zbylém, aktivním. V naší branži je backup zkrátka více než posvátný. Nesahá se na něj během výpadku nebo kolizí, ať jde o konektivitu, power či data. Nikdy se to nevyplatilo a nevyplatilo se to ani tentokrát.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 22:21

Danny

Stříbrný podporovatel

Zadrhelu tam asi bylo vice... aneb mohla byt za tim snaha obnovit chod i vlastni infrastruktury. Nemusi to byt jen o (zakaznickych) serverech. Tezko rict.
V praxi to bude asi jeste mnohem slozitejsi, dle specifikace nabizi i napajeni jen z jedne vetve... ale i tam se asi uplatnuje nejake SLA... a ono nechat celou tu vetev proste vyplou dle soucasnych info az do zitrka by asi byl taky uz problem vuci te te casti zakazniku, co si plati jen za jeden privod... proste se snazili chod sluzeb obnovit, ale asi se to v nejakem bode asi ve stresu moc uspechalo - pristup jako celek (snaha obnovit chod sluzeb) ale chybny neni.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 22:38

RDa

Jako muzou byt radi treba ze nedopadli jako kontejnerovi Holandani, s horicima UPS-kama :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 1:13

byCx

Nám by třeba změna DC zabrala týdny, nemluvě o balíku co by to stálo. Do toho bych kvůli jednomu incidentu nešel. Pokud mám infrastrukturu mezi několika DC a vadí mi, že jedno vypadlo, tak mám asi něco špatně. Jsou to jenom stroje a ani svatořečení backupu jim nedají 100% dostupnost.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 8:06

Jirasko

Mne nevadí, že padne DC, že je výpadek konektivity, chlazení, atp. Mne vadí když mi padnou hypervizory a VM natvrdo bez korektního shutdownu a je jedno, jestli to je poslední záloha zálohy kdesi v rohu. Zkrátka se to musí řešit. Byla by jiná, kdybychom měli celý RACK, pak by se třeba i osadila UPS a byl by klid. Pro pár fyz. serverů se ale UPS v DC nenavrhuje, spoléhá se že záložní napájení je opravdu záložní a že tuto službu pokrývá DC.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 12:01

byCx

Já nevím no, my máme jiné standardy a nespoléháme se na to, že server nikdo nevytáhne ze zásuvky. Jestli nemáte celý rack, tak se kolem toho serveru motají různí lidé. Servery se přidávají a zase vyndávají. Pokud server přežije tak super, pokud nenaběhne, tak se hold služba nasadí jinde. Stejně se na tom musí začít pracovat hned jak se něco stane. Jet do DC, sedět u racku a koukat tam na techniky, jak se snaží nahodit UPSku, to nepomůže nikomu.

Děláme low cost hosting, což znamená cenový rozsah 50-1000 Kč měsíčně. Cokoli v téhle hladině je best effort bez ohledu na to, co je ve smlouvě a co se píše na webu. Občas někdo přijde s tím, že chce podepsat SLAčko, tak mu to spočítáme na 20k měsíčně a vždycky se nakonec ukáže, že řešení, které pokreje cca 2h downtime jednou za rok či dva mu za těch 20k nestojí. Ono to navíc vyžaduje změny v aplikaci a to je mimo možnosti většiny firem. Během těchto dvou hodin jsme schopni nahodit ~80 % webů zpátky i kdyby DC lehlo popelem. Ten zbytek je složitější, protože tam mají docela dost dat, chvíli trvá je zkopírovat a jede se prostě od nejmenších.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 22:28

Jan Hrach

Stříbrný podporovatel

Já mám asi nespolehlivý HW a SW, ale občas mi něco umře i na něco jiného než výpadek proudu. Ale zase mám asi štěstí na aplikace, že jim to nevadí. Co provozujete, že tomu nestačí žurnálovací FS, ACID databáze a podobné technologie?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 23:50

Uncaught ReferenceError:

moderní disky s ram, různé nvme a ssd trochu podvádí a fsync je nich už jen taková virtuální věc. Zvedni si výrazně zátěž databáze a pak zkus vypnout proud, při malých zátěžích se s problémy nemusíš setkat. Kontrola integrity databáze po tvrdém restartu poté může být také na hodiny.

Když v DC vypadne celá ulička, tak třeba jeden dva servery to odnesou a je potřeba buď nějaké disky vyměnit nebo aspoň doopravit fs/data.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 8:35

Jirasko

Asi jsme se špatně pochopili, v tomto případě zafungovaly opravy a vše se zaléčilo samo . Tak jako tak se ale musíte na servery přihlásit, projít logy, zkontrolovat sondy nagiosu. Když se vám to stane v jednu chvíli na desítkách serverů, máte celý den co dělat. Z celého pražského Blackoutu to nakonec odnesl jen jeden disk controller a to ještě mimo DC Master. Naštěstí byl server pod zárukou, tak ho Dell v NBD režimu vyměnil a jede se dál. To je tedy ten důvod, proč nemám rád neplánované shutdowny serverů a tvrdé power off zvlášť.Malé serverovničky zákazníků s pár servery to povětšinou přežily díky UPS bateriím online bez restartu. Tam kde bych výpadek naopak nečekal, tam to skončilo totálním blackoutem. Člověk se pořád učí.
4. 6. 2022, 08:36 editováno autorem komentáře
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 13:06

byCx

"Tak jako tak se ale musíte na servery přihlásit, projít logy,"

No nemusíme. Od toho máme monitoring, abychom na jednom místě viděli jestli je služba stabilní, případně kde co nenaběhlo. U desítek serverů je už ten váš přístup vyloženě masochismus.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 16:47

Jirasko

Na incidenty, které se stávají jednou za několik let, si nagios sondy nepíšu, Kor když se nedá nasimulovat alarm. Mrknout do idracu je jistota. Nikomu to ale nenutím,každý má své osvědčené postupy, jak postupovat po výpadku.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 6:29

Trident

Pokud stehujete velkou firmu 1 rok planu+ 1 rok stehovani neni vyjimkou. Plus budget na HW ktery pritom umre a obnovu ze zaloh nebo naklady ma docasny geocluster.

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Výpadek v datacentru Master Internet vyřadil spoustu služeb včetně Root.cz od Jirasko - Máme servery DC Master s duálním napájením ze...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Miliony webů nesplňují zákon o přístupnosti. Jaký hrozí trest?

Začínající podnikatel: Základní termíny a marketing

Bitcoin snadno koupíte i bez záznamu. Poradíme jak

Malware, ransomware a další online hrozby: Jak se liší?

Hledala dokonalý šálek, našla životní vášeň a učí pít kakao

Máme údaje o tom, jak si vaše konkurence vede s ERP

Sailfish OS na Sony Xperia 10 III: seznámení a instalace

Desítky rozšíření pro Chrome kradou uživatelská data

Kdy a jak podat přiznání, aby vám přeplatek vrátili co nejdřív?

Daňové přiznání 2026: Termíny, novinky a změny

Agentické nakupování mění pravidla e-commerce

Strojové učení slibuje rychlejší a levnější vývoj baterií

Sophos kupuje Arco Cyber, zpřístupní CISO organizacím

Analýza rozebrala moderování Jílkové v Máte slovo

Google uvádí Gemini 3.1 Pro a přidává působivé benchmarky

Domén s koncovkou .CZ přibývá, většina je podepsaných

AI se snaží promlouvat i do stavebnictví

Příspěvek na produkty spoření na stáří a daň z příjmů

Nový model OpenAI kóduje 15krát rychleji než jeho předchůdce

V Evropě roste zájem o alternativu k Microsoftu, říká Petra Novotná

Vlákno názorů k článku
Výpadek v datacentru Master Internet vyřadil spoustu služeb včetně Root.cz od Jirasko - Máme servery DC Master s duálním napájením ze...