Názory k článku
Výpadek v datacentru Master Internet vyřadil spoustu služeb včetně Root.cz

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

2. 6. 2022 16:13

Jakub Štech

Vítejte zpět. Z takových událostí mám vždycky strach, protože ač máme plány, procesy, testy... tak stejně nemám 100% jistotu, že se po nečekaném restartu všechno probere.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 17:15

Trident

Tak s umrtnosti technologie by se v planech melo pocitat.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 17:19

Danny

Stříbrný podporovatel

Ale ani to nezabrani poruse "mimo plan". Takove veci se stavaji, ono i nova UPS muze nahle selhat (take uz jsem videl)...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:07

Trident

Kuriozni zavady tohoto typu se stavaji. A casto za to muze lidsky faktor a procesni bordel - napr. chybi nasledna kontrola pred uvedenim do provozu. Nebo nekdo neco "opravi" a ve skutecnosti to jeste vic rozrasi. Samozrejme o tom neni zaznam v servisnim logu. Res si to pres pul sveta.

Kdyz vam na monitoringu obe UPS ukazuji naprosto stejnou zatez na obou vetvich tak je neco asi spatne. Neni nad to kdyz pred nadmuteho inda prijde trident a rekne: Jste si jisti ze skutecne monitorujete obe UPS nebo jen jednu? Jinak gratuluji k naprosto preciznimu vybalancovani a k usetreni ip adresy na monitoring upsky.

Nastesti monitoring byl prevelen do US a CZ. My jsme spolehlivejsi a delame za chleb a vodu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 16:28

Lukas1500

Už jsem měl strach, že to byla nějaká nepodařená aktualizace :-)

Na tom je vidět, že problém často přijde z jiné strany, než ze které ho člověk čeká. Něco jako odražená kulka. Tak se držte!
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 11:02

Trident

Nevim proc, ale ta aktualizace mi jako sarkasmus neprijde a ani se nesmeju. Asi hodne sedivych vlasu. UPSky a generatory maji firmwary a prednastavene hodnoty. Napr. kratkodobou pretizitelnost. Ale kdyz to nejake jelito vezme jako staly vykon... bojim bojim. Asi uz jsem na tohle moc starej. Mel bych si nagelovat vlasy, vzit si oblek, nalestit boty a resit cloudy nebo zalozit nejakej IoT startup.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 12:36

Lukas1500

Nevim proc, ale ta aktualizace mi jako sarkasmus neprijde a ani se nesmeju.
Jakožto BFU zvyklý na aktualizace MS Windows mi nějaká nefunkčnost systému po aktualizaci už přijde jako normální. V datových centrech bych problémy s aktualizacemi nepředpokládal a pevně věřím, že ostatní poskytovatelé aktualizací to mají vyřešené lépe než je tomu u komerčních produktů pro BFU. Tak se jim tam holt vys..lo něco jiného. Takový je život.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 16:33

Mr. McFly

To není zrovna dobrá reklama pro Master Internet...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 16:38

????????????

To DC tedy za moc nestojí, když se při hodinovém výpadku napájení vše kompletně složilo.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 17:16

Danny

Stříbrný podporovatel

Podle utrzkovitych informaci to na prvni vetvi odnesla primarne spise UPS (ktera ostatne nebezi doted). A ta druha vetev vypadla asi v reakci na pokus o prepojeni zateze z jedne vetve na tu druhou... ale je to jen spekulace.
PRE v okoli melo vypadek nekdy mezi 8:40 - 9:50 (plus minus, zamozrejme ani PRE nepripoji po takovem vypadku veskerou zatez naraz; moje domaci UPS cca 2,5km odtud nabehla treba uz 9:27, jinde to bylo kolem 9:38). Ale ten druhy vypadek prisel ale az po 10:40... kdy v mezicase status ukazoval, ze na VN je vse OK...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 16:43

RDa

Kvalita housingu se pozna az jde do tuheho.. a Master si ted urizl poradny kus ostudy.

(jsem byvaly zakaznik, a odesel jsem pred lety v dobe, kdy jsem uznal za dostacujici kvalitu domaciho pripojeni - dnesek jenom potvrdil, ze bezna komercni nabidka je jenom hodne nalestena bida)

Jinak me prevapilo, ze fungovali weby jako idnes / alza, ale z IT oboru nejelo hodne dlouho napr. diit, a jako posledni se pridal root s hodne pozvolnym rozjezdem, protoze asi pretunena architektura :)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 19:17

L.

Stříbrný podporovatel

To moc překvapivé není. U Alzy stojí každá minuta výpadku milion(y), takže mají motivaci i peníze to ošéfované.

Naopak Rootu když jeden den nejede, tak si holt lidi přečtou články další den. A taky má poměrně málo peněz, takže jeho možnosti geografické redundance, tréninku recovery scénářů atp. jsou omezené.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 19:46

Danny

Stříbrný podporovatel

No zrovna Alza dnes nejake problemy mela take :-) (jeden cas tam visel na webu cerveny banner s tim, ze objednavku nepujde dokoncit)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 20:59

Filip Jirsák

Zrovna Alza je známá tím, že IT dlouhodobě podceňuje. Neškálovatelná databáze na tom nejsilnějším železe, co vůbec existuje, není něco, co bych nazýval „mají to ošéfované“.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 10:11

David Ježek

jj, cdr/diit taky nejelo a mám pocit, že odpadlo dřív než root. Ale což, jede se dál.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 16:47

Adam Přibyl

Me by spis zajimal prehled, koho to postihlo a jak se s tim vyporadal.. tady na vesnici jsme si vypadku vsimli az v radiu kdyz to rikali ve zpravach. :)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 8:51

Saljack

U nás ve Vysočanech se taky nic nedělo.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 16:57

k3dAR

Zda se ze db root fora stale nejede
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 17:01

Petr Krčmář

Víme o tom a admini postupně dořešují víc podobných pozůstatků.
2. 6. 2022, 17:02 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:14

Petr Krčmář

Fórum už naběhlo.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 17:11

Trident

Bylo to docela blbe. Myslel jsem ze upadla nejdriv jedna vetev ale v jednu chvili byly upadene obe dve coz ve stats nenapsali. A jsem si na stopro jistej ze jsou zapojeny spravne.

Stats:
Obe dve VN vetve upadle, jedna UPSka se podelala na jedne vetvi a pak jeste byl problem se startem generatoru. Jsou to amateri. Sorry hosi. Ale od toho jsou pravidelne testy aby se zavada objevila drive nez kdyz k ni dojde naostro.

Blba nahoda se stat muze to pripoustim ale to neni prvni. Mame v cechistanu nejake servery zrovna tady. Amici blaznili ze rusove utoci nebo co - proste sranda.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 17:30

Danny

Stříbrný podporovatel

I kdyz budete na zkousku startovat dieselagregat kazdy tyden, moznou zavadu to odhalit nemusi (aneb akumulator nutny pro start muze odejit i behem dalsiho pokusu o start). Je to technika, odchazi to... proto se v DC delaji dve vetve, proto by servery i aktivni sitove prvky mely byt skutecne i napajene z obou vetvi - a takovym zpusobem, aby druha vetev v pripade problemu plne prevzala zatez (tzn. tam musi byt dostatecna rezerva). A kazdopadne ty veci, co vypadly uz pred devatou ranou tohle asi meli v nejakem bode ponekud podcenene... a pred jedenactou to mohla byt klidne jen chyba manipulace ve snaze sluzby co nejrychleji zprovoznit (mohla se pripojit moc velka zatez z vypadle vetve naraz a vznikly proudovy raz vyhazi jistice az buhvikam po ceste...).

Mimochodem, zkuste rict zakaznikum, ze jim v DC s A+B vetvi jednu vetev na chvili odpojite na testy... :-) Ono ne vsechno si otestujete, zakaznici vas proste nenechaji...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 17:56

Trident

Vsak o generatorech zadna. To je dost poruchova vec. Porad se neco resi. Nefunguje predehrev, prepinani,ucpane filtry, hnizdo v sani, nekdo zavre privod plynu po vymene plynomeru u kombinovanych generatoru - coz na te zvlastni vetvi nepoznate protoze potrubi drzi tlak a cidla jsou zelena nebo frantici nedolejou diesel a na monitoringu na to buhviproc nikdo nereagoval (asi stavka vsech smen). Pistove motory jsou zlo - jedna z nejnespolehlivejsich veci a malo lidi tomu rozumi.

Ale ze vam odejdou obe vetve naraz a maji blby energoplanning a procedury startu ze tmy je na pest. Chyba manipulace... u takoveho DC s procedurami? Skutecne? Spis bych se tocil na tom planovani. A jako dalsi vec - smrt nejakeho hw tesne po startu ktera mohla vyvolat neocekavane pretizeni.

Kazdopadne jsem zvedavy na postmortem.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:14

Danny

Stříbrný podporovatel

Ale ono nevypadly obe vetve zaraz. Status page ma historii, vypadek UPS "A" tam byl uz v 8:59, prvni problem na vetvi "B" az v 10:57 (mj. VPSfree vypadlo az kolem 10:42, vypadek PRE v ~8:40 se neprojevil). Tedy to Vase tvrzeni "obe vetve naraz" je ponekud prekroucene... ono chce to umet pracovat s casovou osou ;-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:15

LD

Mimochodem, zkuste rict zakaznikum, ze jim v DC s A+B vetvi jednu vetev na chvili odpojite na testy... :-) Ono ne vsechno si otestujete, zakaznici vas proste nenechaji..
No my jim to třeba říkáme dopředu, a kdo s tim má problém, tak má něco někde špatně a je to "jeho problém". Buď nechtějí výpadek a mají mít vše zdvojené a nebo nemají chtít takovou dostupnost. A negativní vysledek testu (něco spadlo) je taky výsledek a může se na jeho základě dělat nějaká náprava.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:43

Danny

Stříbrný podporovatel

Zijeme v CR... :-) Redundance neco stoji a "usetrit" tady na vecech, ktere nejsou navenek bezne videt je pomerne jednoduchy.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:58

RRŠ

Tak, já už potkal ledacos:
- během testu UPS a vypnutí jednoho datacentra bagrem překopnutý napájecí kabel do zrcadlového datacentra,
- spuštěný interní test UPS, který vygeneroval proudový impuls a poshazoval jističe skoro až "k elektrárně",
- po několikahodinovém testu běhu na náhradní zdroje nastal dopoledne výpadek a v dieslu nebyla nafta, obsluha zrovna stála ve frontě na benzince,
- při poruše napájecí větve energetici omylem vypnuli tu živou větev......
Inu, stane se.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 19:20

L.

Stříbrný podporovatel

To mi připomnělo leteckou havárii, kdy piloti při poruše jednoho motoru omylem vypnuli ten fungující...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 20:16

Trident

Proto neni od veci podivat se ktera vetev je pod loadem. Samozrejme pokud nejsem jelito a monitoruji si kably az k trafacce. Ale srandy se stavaji. Kdyz vam to nekdo pripoji krizem a nikdo to nezkontroluje.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 7:36

looker

Jedna věc je mít to dobře navržené. Někdy ve snaze ušetřit, nedejbože z nevědomosti, se to těch systémů detekce/přepínání montujou hrozné věci.

A druhá věc - testy. Troufám si říct, že když se testuje alespoň na sucho/bez zátěže - což zákazníky nemusí znepokojovat, tak je velká šance, že se problém DG vychytá bez újmy.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 9:59

SPM

Jedna věc je ten generátor nastartovat. Druhá, jestli tu zátěž ustojí (protože je v něm zrovna špatně něco jiného, než startovací baterie). Suchý test odhalí první část, druhá se zjistí při běhu se zátěží :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 15:32

????????????

Jeden by čekal, že se provádí i test generátoru pod zátěží.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 20:28

Uncaught ReferenceError:

ano, simulovat megawattovou zátěž je prostě lahoda. Ono se toho dá testovat spousta, ale udělat ten správný mix pro danou infrastrukturu je pořád věda.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 21:08

Danny

Stříbrný podporovatel

Vsak tyhle testy se ani nedelaji jako nejaky softwarovy testy v labu na nejakem oddelenem prostredi. Proste se na ten generator pripoji zatez ostra... ono smyslem testu neni otestovat jen samotny generator, ale system jako celek...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 22:38

????????????

Dieselový generátor v DC budete testovat v zátěži jako jakýkoliv jiný dieselový generátor, tedy odporníkem. Stejně jako se v dílnách testují třeba diesel-elektrické kolomotivy - tam se taky nikdo nespokojí jen s nastartováním, a na projížďku s nákladním vlakem nepojedete...

Jako kdybych třeba kupoval ojeté auto, taky se nespokojím jen s tím, že nastartuje.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 23:45

Uncaught ReferenceError:

nj. ale to pak testuješ do prvního rozvaděče, netestuješ celou soustavu. Ano, co jsem viděl, testuje se na 20 % zatížení (únik kapalin, těsnost, fungování čidel, vizuální kontrola, snímač paliva atd.), pak se testuje na 50 % a nakonec skokově na 80 %, kouká se na věci jako sled fází, frekvence, teplota, odvod spalin atd. Ten test je tak na hodinu a řekl bych, že snad nikde nebudou testovat tak, že ho zapnou, poslechnou, že běží a zase vypnou. Mám to jen odpozorované.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 6:50

Danny

Stříbrný podporovatel

Pekna teorie. Ale v praxi nesmysl. I v prubehu (planovaneho) testu muze dojit k (neplanovanemu) vypadku rozvodne site. A vy si cele cviceni predstavujete jako blikani s parwattovou zarovickou :-) Ono uz treba ten odpornik je potreba mj. dochladit - kde vezmete energii na toto, kdyz umelou zatez nahle odpojite od zdroje, abyste nakrmil zatez ostrou (a tu umelou zatez neznicil)? V rozvodne soustave to prepinani mezi umelou a ostrou zatezi navic bude znamenat dalsi prepinaci prvky navic a tedy dalsi mozne zdroje poruch.

A o (ne)ekologicnosti takoveho reseni snad ani nema smysl psat... prosimvas, kde ze tohle Vami popsane reseni provozujete? Ja bych se rad na to Vase datove centrum podival... :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 10:23

bez_přezdívky

Myslím si, že jde to říci zákazníkům, že budou tehdy a tehdy na generátoru kvůli testům.

V minulém zaměstnání jsme měli vlastní datacentrum. Primárně bylo pro naše potřeby, ale měli jsme tam i externí zákazníky. Řešení bylo prosté - součástí nájemní smlouvy byla klauzule o testech.

A datacentrum jelo každý měsíc na DG. Test se dělal tak, že někdo fyzicky odpojil DC od sítě, takže reálné podmínky.

Proti výpadku startovací baterie jsme měli pojistku - setrvačníkovou UPS, která byla trvale roztočená a v případě poruchy startování DG natvrdo sepla spojka mezi setrvačníkem a DG - tím se DG roztočil. Něco to stálo, ale zvyšovalo to jistotu napájení. Taky jsme měli nasmlouvané dodávky nafty - DG jel při plné zátěži třeba 3h, tak ve smlouvě bylo, že dodavatel musí naftu dovézt do hodiny od objednání (reálná čísla si nepamatuji). I to se testovalo.

Výpadků el. sítě jsem zažil tehdy docela dost, ale výpadek napájení datacentra jen jeden - byl to testovaný emergency shutdown.

Takže z mého pohledu to jde, jen to něco stojí a zaleží na business rizicích - co vyjde levněji - špatná pověst, nebo dobře stavěná záloha?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 14:01

Uncaught ReferenceError:

tohle ale lze dělat jen se specifickým HW a v provozu, kdy si můžeš dovolit pár hodin výpadek. Tohle fyzické odpojení může generovat poměrně dost výpadků, které naprosto vůbec nesvědčí řadě prvků typu diskové pole, kms, statefull switch a firewally, pak to dáváš hodiny dohromady.

Když už někdo má vlastní DC, je skvělé, když jich má více a tyhle testy je možné dělat na záložní lokalitě a ne jen na produkci, ke které nemáš zálohu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 6. 2022 16:13

Atlasz

Toto nie je test, ktory staci urobit na "zaloznom" DC. Ak sa tie testy robia pravidelne kazdy tyzden alebo kazdy mesiac, tak sa z nich stava rutina, co znizuje riziko fatalneho zlyhania v krizovej situacii. Problemy vybublavaju priebezne, vedia ich prievezne riesit a neskape to cele naraz.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 6. 2022 19:39

Danny

Stříbrný podporovatel

Ty testy ale neco stoji. A muzeme vest dlouhe polemiky o tom, zda-li zakaznici jsou skutecne ochotni nest naklady s tim spojene v cenach poskytovanych sluzeb. Podivejte se na ceny na zapade a na ceny u nas... :-) Ono to, ze to je "levny" se holt nekde projevit musi.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 6. 2022 20:46

Atlasz

Samozme, ze kazda deviatka za desatinnou ciarou nieco stoji. Na sukromne pouzitie vezmem to najlacnejsie VPS a pocitam s tym, ze moze den-dva vypadok rocne. Ak sa nieco extra pokasle, tak aj 3-4 a necakam, ze zalohy budu a budu aj funkcne. Radsej si zaplatim 2x to najlacnejsie a som s tym spokojny. Pre small business by som uz chcel nejake tie deviatky za ciarkou a musim si priplatit. Pre kriticke sluzby ale chcete vela deviatok, priplatite si a ocakavate, ze tie generatory tam budu najmenej dva, budu urcite funkcne a otestuju ich za kazdym, co upratovacka odide zo saly :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 6. 2022 22:24

Danny

Stříbrný podporovatel

No a o tom je rec... zakaznici by radi idealne 100% dostupnost... s cenovkou 90% SLA :-) A cim dale na vychod se posouvame, tim je to v tomto horsi. V diskuzi vedle se tu resilo srovnani s Nemeckem... ale uz se zapomelo zminit, ze tam ty ceny za srovnatelnou sluzbu jsou proste jinde.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 6:26

Trident

Ty kombinovane dieselgenerator-rotacni UPS jsou v Cesku vzacny jev. Ale v zahranici se pouzivaji bezne.
Nevýhodou je velka náročnost na prostor pokud máte velke DC.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 17:19

Jirasko

Máme servery DC Master s duálním napájením ze dvou větví a že si po výpadku jedné větvě nechá přetížit i záložní a posune se do totálního blackoutu, to beru jako fatální profesní chybu. Bohužel se podobné chyby jednou za pár let opakují. Pro srovnání máme i servery v jiných DC po Praze, u jednoho jsme cca 20 let a výpadek podobného rázu za celou dobu nebyl ani jeden (knock knock). Uptime kazí jen obměna HW a aktualizace. Nekorektní shutdown ani jeden.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:40

Danny

Stříbrný podporovatel

Ja bych to spis videl tak, ze pri snaze (rychle) dostat vetev s vadnou UPSkou pod napeti doslo pri pripojeni te sekce k takovemu proudovemu razu, ze to jistice proste neudrzely. Jo, spinany zdroje jsou v tomhle potvory :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 20:36

Jirasko

Ano, vidím to naprosto stejně. Snaha obsluhy ve stresu zachránit padlé 1PSU servery a tím pohřbila i ty 2PSU. Jako platícího zákazníka za duální napájení pro to pochopení nemám, je to spíš o hledání jiného DC i přesto, že je pro nás jen backup a primár máme jinde.
Když si pročítám logy jednotlivých serverů, tak je opravdu dlouhá doba od toho, co padl naposledy jeden zdroj a kdy padl i ten záložní (25min). To vylučuje problém toho, že některé zdroje dělají load balancing přes obě větve a v případě výpadku jednoho PSU vzroste odběr na tom zbylém, aktivním. V naší branži je backup zkrátka více než posvátný. Nesahá se na něj během výpadku nebo kolizí, ať jde o konektivitu, power či data. Nikdy se to nevyplatilo a nevyplatilo se to ani tentokrát.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 22:21

Danny

Stříbrný podporovatel

Zadrhelu tam asi bylo vice... aneb mohla byt za tim snaha obnovit chod i vlastni infrastruktury. Nemusi to byt jen o (zakaznickych) serverech. Tezko rict.
V praxi to bude asi jeste mnohem slozitejsi, dle specifikace nabizi i napajeni jen z jedne vetve... ale i tam se asi uplatnuje nejake SLA... a ono nechat celou tu vetev proste vyplou dle soucasnych info az do zitrka by asi byl taky uz problem vuci te te casti zakazniku, co si plati jen za jeden privod... proste se snazili chod sluzeb obnovit, ale asi se to v nejakem bode asi ve stresu moc uspechalo - pristup jako celek (snaha obnovit chod sluzeb) ale chybny neni.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 22:38

RDa

Jako muzou byt radi treba ze nedopadli jako kontejnerovi Holandani, s horicima UPS-kama :)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 1:13

byCx

Nám by třeba změna DC zabrala týdny, nemluvě o balíku co by to stálo. Do toho bych kvůli jednomu incidentu nešel. Pokud mám infrastrukturu mezi několika DC a vadí mi, že jedno vypadlo, tak mám asi něco špatně. Jsou to jenom stroje a ani svatořečení backupu jim nedají 100% dostupnost.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 8:06

Jirasko

Mne nevadí, že padne DC, že je výpadek konektivity, chlazení, atp. Mne vadí když mi padnou hypervizory a VM natvrdo bez korektního shutdownu a je jedno, jestli to je poslední záloha zálohy kdesi v rohu. Zkrátka se to musí řešit. Byla by jiná, kdybychom měli celý RACK, pak by se třeba i osadila UPS a byl by klid. Pro pár fyz. serverů se ale UPS v DC nenavrhuje, spoléhá se že záložní napájení je opravdu záložní a že tuto službu pokrývá DC.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 12:01

byCx

Já nevím no, my máme jiné standardy a nespoléháme se na to, že server nikdo nevytáhne ze zásuvky. Jestli nemáte celý rack, tak se kolem toho serveru motají různí lidé. Servery se přidávají a zase vyndávají. Pokud server přežije tak super, pokud nenaběhne, tak se hold služba nasadí jinde. Stejně se na tom musí začít pracovat hned jak se něco stane. Jet do DC, sedět u racku a koukat tam na techniky, jak se snaží nahodit UPSku, to nepomůže nikomu.

Děláme low cost hosting, což znamená cenový rozsah 50-1000 Kč měsíčně. Cokoli v téhle hladině je best effort bez ohledu na to, co je ve smlouvě a co se píše na webu. Občas někdo přijde s tím, že chce podepsat SLAčko, tak mu to spočítáme na 20k měsíčně a vždycky se nakonec ukáže, že řešení, které pokreje cca 2h downtime jednou za rok či dva mu za těch 20k nestojí. Ono to navíc vyžaduje změny v aplikaci a to je mimo možnosti většiny firem. Během těchto dvou hodin jsme schopni nahodit ~80 % webů zpátky i kdyby DC lehlo popelem. Ten zbytek je složitější, protože tam mají docela dost dat, chvíli trvá je zkopírovat a jede se prostě od nejmenších.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 22:28

Jan Hrach

Stříbrný podporovatel

Já mám asi nespolehlivý HW a SW, ale občas mi něco umře i na něco jiného než výpadek proudu. Ale zase mám asi štěstí na aplikace, že jim to nevadí. Co provozujete, že tomu nestačí žurnálovací FS, ACID databáze a podobné technologie?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 23:50

Uncaught ReferenceError:

moderní disky s ram, různé nvme a ssd trochu podvádí a fsync je nich už jen taková virtuální věc. Zvedni si výrazně zátěž databáze a pak zkus vypnout proud, při malých zátěžích se s problémy nemusíš setkat. Kontrola integrity databáze po tvrdém restartu poté může být také na hodiny.

Když v DC vypadne celá ulička, tak třeba jeden dva servery to odnesou a je potřeba buď nějaké disky vyměnit nebo aspoň doopravit fs/data.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 8:35

Jirasko

Asi jsme se špatně pochopili, v tomto případě zafungovaly opravy a vše se zaléčilo samo . Tak jako tak se ale musíte na servery přihlásit, projít logy, zkontrolovat sondy nagiosu. Když se vám to stane v jednu chvíli na desítkách serverů, máte celý den co dělat. Z celého pražského Blackoutu to nakonec odnesl jen jeden disk controller a to ještě mimo DC Master. Naštěstí byl server pod zárukou, tak ho Dell v NBD režimu vyměnil a jede se dál. To je tedy ten důvod, proč nemám rád neplánované shutdowny serverů a tvrdé power off zvlášť.Malé serverovničky zákazníků s pár servery to povětšinou přežily díky UPS bateriím online bez restartu. Tam kde bych výpadek naopak nečekal, tam to skončilo totálním blackoutem. Člověk se pořád učí.
4. 6. 2022, 08:36 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 13:06

byCx

"Tak jako tak se ale musíte na servery přihlásit, projít logy,"

No nemusíme. Od toho máme monitoring, abychom na jednom místě viděli jestli je služba stabilní, případně kde co nenaběhlo. U desítek serverů je už ten váš přístup vyloženě masochismus.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 16:47

Jirasko

Na incidenty, které se stávají jednou za několik let, si nagios sondy nepíšu, Kor když se nedá nasimulovat alarm. Mrknout do idracu je jistota. Nikomu to ale nenutím,každý má své osvědčené postupy, jak postupovat po výpadku.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 6:29

Trident

Pokud stehujete velkou firmu 1 rok planu+ 1 rok stehovani neni vyjimkou. Plus budget na HW ktery pritom umre a obnovu ze zaloh nebo naklady ma docasny geocluster.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 17:40

decumanus

ČT24 nebo iRozhlas nejedou doteď...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:19

RDa

Tam jim ve 4 odpo padla.. tak snad zitra :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 18:26

Petr Krčmář

Rozhlas už naskočil.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 20:36

pjnowak

Tenhle výpadek má i možná spojitost z raním vyřazením internetového a mobilního bankovnictví společnosti Equa Bank. Ke zprovoznění služeb došlo až po 10h.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 12:34

Pa??w0rd1

Mobilní aplikace Equa mi nejela už mezi 6:15 a 6:30. Takže tam měli spíš jiný problém.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 12:38

Lukas1500

Takže tam měli spíš jiný problém.
Uklízečka potřebovala někam zapojit vysavač a nebyla tam žádná volná zásuvka :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 22:40

FKoudelka

Nejvíc mě nas..lo IDNES s titulkem “ Za výpadek proudu mohl pokles tlaku plynu”
https://www.idnes.cz/zpravy/domaci/praha-vypadek-elektriny-pokles-tlaku-plynu-rozvodna-chodov-miroslav-sula.A220602_135301_domaci_mgn

To hraničí s šířením poplašné zprávy
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 10:53

Lukas1500

Nojo, to je holt smůla těch, kteří čtou jen titulky :-)
Jako izolant využívá plyn, kontrolní systém hlásil pokles jeho tlaku a rozvodnu odstavil.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 11:03

L.

Stříbrný podporovatel

Jistě, protože "izolačního" by se tam už nevešlo, tak holt museli dát titulek, který je pro 99% procent lidí silně zavádějící ;-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 11:16

Bez Podezdívky

Přesně tak, >99 % lidí nemá o existenci nějakého izolačního plynu v rozvodnách ani ponětí.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 12:15

Lukas1500

Přesně tak, >99 % lidí nemá o existenci nějakého izolačního plynu v rozvodnách ani ponětí.
Po přečtení toho článku je to už jasnější ne? Ale pokud je čas jen na čtení titulků, tak to chce sledovat jiné médium :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 12:17

Zdeno Sekerák

Znam lidi co jdou do diskusie jen si prectou titulek. A rekl bych ze je jich hodne ale hodne.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 13:18

L.

Stříbrný podporovatel

Protože vy samozřejmě čtete komplet všechny články, od kterých si přečtete titulek, i když na vás třeba vyskočí někde u nějakého jiného článku, že? ;-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 13:35

Bez Podezdívky

iDěs rozhodně nepatří k médiím, které bych sledoval.

EDIT: ...což ale nemění nic na tom, že ten titulek je vyloženě tendenční. Nepřekvapivě.
3. 6. 2022, 13:38 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2022 22:52

FKoudelka

Nám klekl jak primární site v Praze na pobočce tak i záložní v DC Masteru.
Není nad to, mít to geograficky oddělené a nejlíp v záloha v hostingu.
2. 6. 2022, 22:52 editováno autorem komentáře
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 11:47

Heron

Proto nemám servery v ČR. Každá z větví by měla unést celý provoz, na každé by měla být UPS a na každé generátor. Od toho je to DC. S Mastrama jsme řešili výpadky sítí (kdy nás jejich switch prostě odpojil z obou linek, nutno z jejich strany nahodit manuálně), přehřívání "studené" uličky, výpadek napájení už byl taky (naštěstí jen jedné větve). Pokud se nepletu, tak "DC" mají v Praze v podzemních garážích, v Brně zase v nějaké bývalé továrně. Casablanca INT to má pro změnu ve sklepě, kde pro jistotu pršelo (asi 2m od našeho stojanu). O dalších DC by se taky dalo vyprávět (Radiokomunikace to mají v nějakém vysílači).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 12:57

byCx

Masteří DC v Brně má, alespoň u serverů, co tam máme, výbornou historii. Od roku 2016 jsme tam prakticky měli jen jediný problém se sítí a ten rychle vyřešili. Pražské na tom je o poznání hůře. Není to poprvé, co bylo bez proudu. V podzemních garážích ale není, je na úrovni přízemí. Mají tam dvě oddělené větve, dva generátory, dvě sady UPSek, tedy to samé, co mají ta tvoje zahraniční DC. Jak se tedy liší od Masteru? Co tě vede k přesvědčení, že se to tam taky nestane? Master aspoň nevyhořel :-)

Fakt nechápu tu naivitu, že když někdo dá do smlouvy všechny ty hezké parametry a SLA 99.99..., tak se to bere jako vytesané do kamene. Čím tam asi ručí, 5 % slevou na další měsíc? Pokud jede služba v jednom DC, tak je úplně jedno co má DC napsané na webu. Podobné věci se tam dřív nebo později stát mohou a je jen na lidech, kteří tu infrastrukturu spravují, zda s tím počítají a nebo ne. Myslet si, že DC pojede spolehlivě jen proto, že je třeba v Německu, je čistá utopie.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 13:32

Trident

Nemci jsou poradni,hodne procesni a poradnost vyzaduji od svych dodavatelu. U DC ocekavam rizeni a hlavne proskoleni na urovni elektrarny. Ne ze obsluha bude zmatene mackat "cudliky". Mel jsem nekolik takovych kolegu a bylo to na prizabiti pak resit prusery. Duvod? Typicky cesko-slovensko-indicke: Tady to mas a plav. Od chvile co tu sedis je vsechno tvoje chyba. Hodne stesti! Nikdo ho nezaskolil, nevysvetlil navaznosti ani probihajici prace.

Cesi vecne spolehaji na sdelovani a reseni per huba a dobrou vuli servisaku. Pak je tezky dohledat co se vlastne stalo. Jenomze jsme levni a poradnejsi nez indove.

Nemecko ma taky jednu nevyhodu a to je spatna propojenost zapadni a vychodni casti a velky podil nestabilnich OZE.
Nemci maji vyssi sanci na blackout nez CR. Jak dlouho se o navyseni prenosovych kapacit zapad-vychod hovori? Uz 30 let? To se ani slunickove Merklove do kramu nehodilo a Olaf tezko rozplanuje tyto dlouhodobe projekty.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 13:43

Danny

Stříbrný podporovatel

Ale ani nemeckym datacentrum se vypadky proste nevyhybaji... moc si to idealizujete :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 14:17

byCx

To sis to hezky zobecnil a podtrhnul nesouvisejícím posledním odstavcem. To je nějaký guideline pro mezinárodní spolupráci ve vašem týmu? Já jen že stojí dost za .. :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 15:05

Heron

Nemci jsou poradni,hodne procesni a poradnost vyzaduji od svych dodavatelu. U DC ocekavam rizeni a hlavne proskoleni na urovni elektrarny. Ne ze obsluha bude zmatene mackat "cudliky". Mel jsem nekolik takovych kolegu a bylo to na prizabiti pak resit prusery. Duvod? Typicky cesko-slovensko-indicke: Tady to mas a plav. Od chvile co tu sedis je vsechno tvoje chyba. Hodne stesti! Nikdo ho nezaskolil, nevysvetlil navaznosti ani probihajici prace.

Naprostá pravda, pěkně sepsáno.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 19:15

Ditys

Náš korporát také používal DC v Německu s nadprůměrnou spolehlivostí. Pak projel před budovou stroj, co sází vzrostlé stromky, a přesekl napájecí 10 kV kabel. Řidič si ničeho nevšiml (skvělá izolace jeho stroje), datacentrum jelo na záložní kabel. Stroj popojel a přesekl i ten druhý, scénka jak pro Mr Beana. Všechna čest, Němci to datacentum zprovoznili asi za 90 min, zřejmě natáhli prodlužovák.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 15:03

Heron

Masteří DC v Brně má, alespoň u serverů, co tam máme, výbornou historii.

Mě se stačilo podívat už jen na umístění našeho racku. Hala po nějakém průmyslu, 2m od našeho stojanu byl schod apod. DC má být velká prostorná hala s plochou podlahou.

Jak se tedy liší od Masteru?

Už jen vzhledem a přístupem k technologiím.

Fakt nechápu tu naivitu

O ničem takovém nemluvím. Proto máme technologie ve třech DC od různých dodavatelů.

Podobné věci se tam dřív nebo později stát mohou a je jen na lidech, kteří tu infrastrukturu spravují, zda s tím počítají a nebo ne.

Více témat. Ano, stát se to může všude. Jen je otázkou, jak často.

Infrastruktura se navrhuje tak, aby to k tomu nemohlo dojít a je třeba to pravidelně testovat. To, že například v té Casablanca INT pršelo, je dejme tomu technologický problém (i když v dedikovaných prostorech skutečného DC by se tohle prostě stát nemohlo, protože by tam žádné vodovodní trubky ve starém stropě nebyly). To, že jim to vyplavilo diskové pole a vmware cluster je dejme tomu smůla. Ale to, že to neměli realtime replikované, což bylo to, co nám slibovali, a několik dnů to obnovovali, je zkrátka neodpustitelné. (Nakonec jsme to k nim do clusteru nedali, měli jsme to ve stojanu o pár metrů vedle.)

Myslet si, že DC pojede spolehlivě jen proto, že je třeba v Německu, je čistá utopie.

Záleží na pravděpodobnosti (tedy jak často) a na přístupu těch lidí k tomu dílu. Tuto důvěru už v česku dávno nemám, na základě zkušeností na prohlídky několika místních DC.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 16:28

byCx

Já jsem si pročetl tvůj blog a asi se tu setkávají dva světy.

https://www.heronovo.cz/muj-pristup-k-administraci-serveru/#more-5215

Jen výběr:

* Firewall by neměl být potřeba.
* Logy nejsou potřeba
* admin přece neví, co je špatně, pokud nemá monitoring a logy“. Moje odpověď je, že by to prostě poznat měl.

My máme infrastrukturu v Terraformu a Ansiblu, nový stroj nekonfigurujeme přes `apt install` a když něco přestane fungovat, tak o tom víme. Logy sbíráme do centrálního místa a máme na nich navěšené i alerty. Sbíráme doslova všechno, protože potřebujeme vědět, co se na stroji dělo, než se objevil problém. Sbíráme i metriky ze status page datacentra, protože nám pak Grafana řekne, že problém není u nás ale tam.

Když se něco stane, tak nejdeme na server, ale do Grafany, kde čeká masivní množství metrik, ze kterých už není tak těžké zjistit, co bylo příčinou. On totiž server třeba ani nemusí reagovat a to pak "prostě poznat měl" nefunguje.

Funkčně nahradíme fyzický server během několika minut. Bohužel kopírování dat trvá déle, ale ani v jednom z našich procesů nefiguruje manuální volání `apt install` nebo `rsync`. Na tohle máme připravené nástroje, protože představa, že někdo bude během krizovky studovat dokumentaci, ve které je napsané co a jak je zkonfigurované a co kde běží, je nesmysl. Když přijde krize, vezme se papír s instrukcema a podle nich se jede. Manuálních kroků je minimum a zvládne to i člověk, co přišel první den.

Naše přístupy jsou úplně jiné. My to riziko přijímáme jako běžnou součást naší práce a jsme na to připraveni. Je to nepříjemné, ale není to nic, s čím bychom si neporadili. Ty to bereš jako něco, co se nesmí stát a posíláš data někam do tramtárie, protože tam mají rovnější podlahy, i když záruky dávají obě lokace na chlup stejné.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 16:45

Heron

My máme infrastrukturu v Terraformu a Ansiblu, nový stroj nekonfigurujeme přes `apt install` a když něco přestane fungovat, tak o tom víme.

Ten článek vůbec nevylučuje použití Ansible. Ansible používám denně a denně udělám tak 20 virtuálek (pravda, aktuálně pracuju jako prog. takže VMka mám pro svůj devel a už nejsem admin - jen soukromých serverů).

Sbíráme doslova všechno, protože potřebujeme vědět, co se na stroji dělo, než se objevil problém.

O tom se můžeme pobavit třeba po emailech, zajímalo by mne, co to je to všechno a proč to potřebuješ. Za, když to zjednoduším, 12 let x stovky vm (tj kumulativně tisíce let běhu provozovaných vm) těch událostí bylo na prstech ruky a jednak nikdy nebyl problém přijít na to, co se stalo a taky to bylo dost často vlastně jedno. Protože jak píšu v jiném článku, zdravé služby prostě nepadají. (pg, apache apod. mě nikdy nezklamal). Takže u nás nebylo zase toho tolik ke zkoumání.

Ty to bereš jako něco, co se nesmí stát a posíláš data někam do tramtárie, protože tam mají rovnější podlahy, i když záruky dávají obě lokace na chlup stejné.

To je asi nepochopení, ale to teď nevyřešíme, když tam mi prosím napiš email. Na produkci jsme měli vždy několik DC a realtime replikace. Opravdu nespoléhám na to, že nějaké DC nikdy nespadne. Ale i přes to mi přijde vhodnější si vybrat spolehlivější DC s profesionálnějším přístupem.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 20:36

Uncaught ReferenceError:

To, že přece o nějaké údolosti nevíš, nemusí znamenat, že žádná nenastala, pokud něco nemonitoruješ a logy podrobně neřeší, netušíš že se tam něco děje. Oni o ty vývojářské stroje začínají být problém, protože se množí útoky přes napadé počítače vývojářů.

Zdravé služby nepadají? Uhf :). Přece problém nemusí vzniknout jen HW/SW chybou, ale může se jednat o útok, tvoje infrastruktura a monitoring by na takovéhle věci měly být připravené. Realtime replikace myslíš sync nebo async? Obě mají obrovské problémy a obě jsou třeba ideální pokud ti někdo začne cíleně mazat/znehodnocovat data.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 21:45

Heron

To, že přece o nějaké údolosti nevíš, nemusí znamenat, že žádná nenastala
Pokud nastala a má dopad na data, tak se to dozvíš z nekonzistence dat.

netušíš že se tam něco děje
Ale já nechci řešit, že se něco děje. Řeším skutečné problémy. Pokud vůbec nastanou.

Oni o ty vývojářské stroje začínají být problém
Jako na mojí workstation?

může se jednat o útok
Záleží jaký. Klasický DDOS stejně položil už rovnou upstream, takže služba byla sice nedostupná, ale z naší strany se s tím stejně nedalo nic dělat (nevlastníme DC). Různé brute force útoky apod. jsou sice pěkné, ale nevím, proč bych je měl logovat, když jsou data stejně šifrovaná klíčem u klienta.

Obě mají obrovské problémy a obě jsou třeba ideální pokud ti někdo začne cíleně mazat/znehodnocovat data.
Od toho jsou snapshoty a zálohy.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 22:05

Uncaught ReferenceError:

no spíše z integrity než konzistence, to bys ale musel kontrolovat integritu dat, což kupodivu ani dnes spousta file systému nedělá, nedělají to ani všechny databáze.

A anomálie v provozu není skutečný problém? S takovým přístupem skončíš jako Master s hodinovými výpadky.

Ano, tvoje workstation, z které máš přístupy na spousty dalších serverů, nedávno to schytalo ŘSD nejspíš přesně takhle, a o útoku nevěděli měsíce, útočníci se dnes snaží schovat, nedávají do motd velký nápis "pawned" jak to bylo za našich začátků.

o DDoS samozřejmě nemluví, to je takový útok neútok. Logovat bys to měl třeba proto, že ti někdo může nepozorovaně změnit aplikaci, která ty klíče od klienta může posílat někam domů a data pak nejsou chráněna. Pokud takový útok je selektivní a krátký, nejsi schopný se o něm rychle dozvědět jinak než podrobným monitoringem.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 6. 2022 2:13

Heron

z které máš přístupy na spousty dalších serverů
Vážně? Že o tom nevím.

Logovat bys to měl třeba proto, že ti někdo může nepozorovaně změnit aplikaci
Jak přesně "nepozorovaně"?

Sorry, přestaňte něco předpokládat a opravdu si nedomýšlejte věci, které nikdo nepsal.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 22:38

byCx

Nedávno jsme měli problém, kdy load balancer náhodně dropnul spojení. Dělo se to jednou za pár desítek minut, v logu nic nebylo, dokonce monitoring dostupnosti to ignoroval, protože reagoval jen když byla jedna či víc appek dole déle jak minutu. Nakonec to dělala služba, která konfigurovala Nginx. Poslala mu 40 reloadů najednou a projevilo se to jen mírným zvýšením loadu a skokových využitím paměti. Nakonec jsme logy z té služby nasypali do Loki, zapli debug výstup a udělali dashboard, ve kterém jsme vedle sebe dali kolik jakých zpráv se v logu objevovalo v čase a k tomu graf s loadem a naměřenými výpadky. Sedělo to do puntíku. Ukázalo se, že vypadávají všechny weby najednou, dělo se to měsíce a výpadky byly tak malé, že si uživatelé ničeho nevšimli. Zjistili jsme to analýzou nedostupnosti jiného webu, kde s memory leakem (když vyčerpal paměť) korelovala jen část výpadků a pro zbytek jsme neměli vysvětlení. I když šlo vždy jen o jeden či dva requesty. Na alert to bylo málo, tak jsme přidali monitorování počtu změn mezi funguje-nefunguje a spočítali z toho index stability pro celou infrastrukturu, který spouští alert, když moc vyleze. Máme hodně aplikaci a některé z nich mají nějaké výpadky třeba při deployi, takže se nedá běžet hned za prvním škytnutím v grafech. Tohle to to docela elegantně vyřešilo. Nedokážu si představit, že ten problém řešíme bez Loki, Promethea a Grafany. I takhle nám to zabralo několik dní a bez dat bychom mohli jen hádat a dělat změny naslepo. Tedy přesně to co se tu vyčítá Masteru, aniž bychom věděli, že to opravdu dělali. Takhle jsme věděli přesně za čím jít, do kódu přidali 20 řádek a bylo to vyřešené. To jen k tématu "to prostě poznat měl" a "Logy nejsou potřeba".
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 13:12

RDa

A ti posledni nejmenovani jsou uprostred lesa a tak hodinu dve jizdy mimo civilizaci :P
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 14:04

Uncaught ReferenceError:

a co tím změníš? Jak děláš podporu, to si uděláš zahraniční cestu? Nedávno např. OVH ztratilo celou lokalitu, vyhořela. Neznám DC, které by nemohlo/nemělo občas nějaké problémy, je to přirozené, proto by kritické služby měly být na více lokalitách s co nejméně společnými prvky, zahraničím nic nevyřešíš.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 15:11

Heron

Jistě, že může, ale záleží taky na pravděpodobnosti, že jo. A té pravděpodobnosti nehody se dá pomoci přístupem k věci, jak už tu ostatně bylo popsáno. A o více lokalitách taky.

Vůbec celý tento pohled "může se to stát kdekoliv, takže všude je to stejné" je zvláštní. Je dost rozdíl, jestli se něco stane jednou za sto let nebo jednou za dva roky. A rozhodně dám servery raději k Hetznerovi než kamkoliv do Česka už jen na základě toho, jak je to tam čisté a jak to celkově vypadá. U nás je stále takový ten přístup "to je dobrý, to stačí".
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 20:49

Uncaught ReferenceError:

ok, takže ty vybíráš spolehlivé DC podle vzhledu a čistoty? V kolika jsi jich byl, když chceš na správu serverů cestovat přes půl evropy, protože tam jsou čisté sály? No, jednou za sto let, v norimberku měl v colocated sále Hertzner výpadek zrovna letos v lednu na několik hodin, slibují multijazyčnou podporu a pak na tebe mluví jen německy, já nevím, nemám s nimi dobré zkušenosti.

Zrovna v ČR je v DC slušný výběr, ale pro mě za mě, jezdi si kam chceš.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 6:42

Trident

Jsem extremne haklivej na frazi "to je dobry", protoze to rikaji lide kteri ten pruser na konci nemusí uklizet.
4. 6. 2022, 06:42 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 13:24

byCx

Tohle je fakt smutný. Datacentrum nemůže být špinavé z principu, protože tam proudí hromada vzduchu, jako že fakt hodně vzduchu, a každé nezachycené smítko prachu skončí v serverech. Servery, co nám v Masteru běží, rozhodně nevypadají, jako kdyby do nich proudil prach. Stejnou zkušenost máme z Coolhosingu. I tak člověk, co jinak bere logy jako zbytečnost a debuguje problémy podle zvuku ventilátorů, bude bez důkazů očerňovat česká datacentra a glorifikovat ta německá, jen proto, že z fotek to vypadá, že mají bělejší bílou na zdech. A nic se u něj nezmění, protože když už k němu přijde na pohovor někdo, kdo má potenciál to vyřešit, tak ho buď vyhodí a nebo udělá takovej WTF moment, že by tam šel jen blázen.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 13:43

RDa

Potvrzuji, muj 1U server po 10 letech nonstop provozu v Brnenskem masteru vypadal jako novej po otevreni. Myslim ze tam maj i pravidla jak se do salu smi vstupovat, aby se zamezilo vnaseni bordelu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 6. 2022 2:09

Heron

a každé nezachycené smítko prachu skončí v serverech
Nebo voda rovnou v serverech. Po ukončení životnosti jsme ze zájmu rozebrali servery z Casablanca INT a ano, byly tam stopy vody. Na provoz to nemělo vliv, ale i tak.

I tak člověk, co jinak bere logy jako zbytečnost
Tak si ten článek přečti pořádně a případně se doptej.

bude bez důkazů očerňovat česká datacentra
Bez důkazů? Netvrdím, že znám všechna DC v Česku, ale to co jsem viděl a obecně přístupy spousty lidí mi bohatě stačí.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 18:41

mac0112

To nám přistálo do emailu
Oficiální vyjádření ke včerejšímu incidentu v MasterDC Praha
Vážení zákazníci,

zdravím vás den poté, co naše pražské DC zasáhly následky masivního výpadku dodávek elektřiny v části Prahy. Hned v úvodu se jménem MasterDC všem omlouvám za způsobené komplikace a zároveň děkuji, že jste nám dali čas. Jak jsme včera avizovali, byl nezbytně nutný k důkladnému prošetření celého incidentu a sestavení časové osy. Rozhodl jsem se celou situaci transparentně komunikovat.

Níže tedy najdete následující: 1. k čemu došlo, 2. jaká je aktuální situace, 3. co nás v nejbližších dnech čeká a 4. jaké kroky jsme přijali do budoucna.

Ve čtvrtek 2. 6. 2022 v 8:49 ráno zaznamenal náš monitoring výpadek napájení z distribuční sítě dodavatele PRE. Automatický systém zálohovaného napájení okamžitě převzal na větvi B systém UPS v režimu N+1 a následně motorgenerátor na větvi B. Na napájecí větvi A došlo ve stejnou chvíli k selhání soustavy N+1 UPS jednotek z důvodů, které jsou v tuto chvíli stále v šetření (jedním ze scénářů je abnormální přepětí v síti – zcela potvrdit to nyní však nemůžeme). Jeden z motorgenerátorů v soustavě N+1 nastartoval, ale problém na soustavě UPS byl natolik vážný, že neproběhl bypass UPS a napájení větve A selhalo.

V souladu s krizovým plánem pro tyto situace přistoupili pracovníci technického týmu k přesouvání vybraných zařízení větve A na sekundární větev B. Jeden z přepojovaných prvků způsobil zkrat, který vyhodil hlavní jistič (na trase byl i podružný jistič, který však nevybavil). Tím nastal v čase 10:43 výpadek i větve B.

Jednalo se tedy o extrémní případ souběžného selhání několika záložních a jisticích prvků v soustavě. Zde bych rád uvedl, že všechny tyto technologie splňovaly kvalitativní standard datacentra včetně pravidelných revizí a testování, rovněž i postup personálu se po vyšetřování ukázal být v souladu s krizovým plánem.

Včera jsme zmínili, že ke zprovoznění napájení došlo před 13. hodinou. Musíme upřesnit, že v tomto čase jsme již evidovali kompletně obnovený provoz datacentra. Ke zprovoznění napájecí větve A došlo v čase 11:11, napájení na větvi B bylo zprovozněno v 11:16. V průběhu odpoledne jsme se pak věnovali primárně asistenci zákazníkům s obnovou provozu jejich aplikací.

Stav k 3. 6. 2022, 18:10 je následující:
- všechny zákaznické služby v provozu;
- se servisní organizací jsme naplánovali revizní a servisní práce na obou větvích, které proběhnou příští týden v úterý 7. 6. 2022, 19:00 - 21:00 na větvi B a ve středu 8. 6. 2022, 5:00 - 7:00 na větvi A. Středeční ranní zásah na větvi A se neobejde bez servisní odstávky celé větve. Prosím sledujte dál naši komunikaci, o zásazích vás budeme ještě informovat standardní cestou.

Kromě výše zmíněných kroků jsme se rozhodli přistoupit ke kompletní obnově soustavy UPS jednotek pro větev A od nového dodavatele. Další opatření aktuálně nezamýšlíme – konfigurace veškerých prvků (MTG, UPS, klimatizace a další) je v módu minimálně N+1 a příčinou tohoto výpadku tedy nebyla nedostatečná redundance.

Děkujeme za podporu, které se nám od mnohých z vás dostalo i veřejnou cestou.

Za MasterDC
Filip Špaček, provozní ředitel
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 22:24

Jan Hrach

Stříbrný podporovatel

Nevíte někdo, jak se má správně řešit tohle?

> Jeden z přepojovaných prvků způsobil zkrat, který vyhodil hlavní jistič (na trase byl i podružný jistič, který však nevybavil).

Mně se to totiž děje, jističe nejsou selektivní, a nevím jak tomu pomoct. Napadlo mě, že by to mohlo řešit zařízení s indukčností a rychlým odpínačem, ale nic jsem nenašel. (pozn. nemám serverovnu, stačilo by mi chránit 1-2 zásuvky)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 23:16

byCx

Podle znalostí, které jsem načerpal z místní diskuse, problém vyřeší německý jistič nainstalovaný západním elektrikářem :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 6. 2022 6:53

PaRi

Soused má na starosti internet a kabelovou televizi v okolních vesnicích. Po každém dlouhodobém výpadku objíždí chalupy s krabicí nových zdroji pro kabelové modemy, protože... vychladlé a vyschlé kondenzátory.
Hlášce: "Do teď to jelo bez problémů" se jenom směje.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
16. 6. 2022 13:58

Bez přezdívky:

A nejlepsi na tom je, ze PRE s tim nemelo nic spolecneho, cely problem nastal u CEPSu, PRE je take jen zakaznik v tomto pripade.