Vlákno názorů k článku
Výpadek v datacentru Master Internet vyřadil spoustu služeb včetně Root.cz od Heron - Proto nemám servery v ČR. Každá z větví...

Článek je starý, nové názory již nelze přidávat.

3. 6. 2022 11:47

Heron

Proto nemám servery v ČR. Každá z větví by měla unést celý provoz, na každé by měla být UPS a na každé generátor. Od toho je to DC. S Mastrama jsme řešili výpadky sítí (kdy nás jejich switch prostě odpojil z obou linek, nutno z jejich strany nahodit manuálně), přehřívání "studené" uličky, výpadek napájení už byl taky (naštěstí jen jedné větve). Pokud se nepletu, tak "DC" mají v Praze v podzemních garážích, v Brně zase v nějaké bývalé továrně. Casablanca INT to má pro změnu ve sklepě, kde pro jistotu pršelo (asi 2m od našeho stojanu). O dalších DC by se taky dalo vyprávět (Radiokomunikace to mají v nějakém vysílači).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 12:57

byCx

Masteří DC v Brně má, alespoň u serverů, co tam máme, výbornou historii. Od roku 2016 jsme tam prakticky měli jen jediný problém se sítí a ten rychle vyřešili. Pražské na tom je o poznání hůře. Není to poprvé, co bylo bez proudu. V podzemních garážích ale není, je na úrovni přízemí. Mají tam dvě oddělené větve, dva generátory, dvě sady UPSek, tedy to samé, co mají ta tvoje zahraniční DC. Jak se tedy liší od Masteru? Co tě vede k přesvědčení, že se to tam taky nestane? Master aspoň nevyhořel :-)

Fakt nechápu tu naivitu, že když někdo dá do smlouvy všechny ty hezké parametry a SLA 99.99..., tak se to bere jako vytesané do kamene. Čím tam asi ručí, 5 % slevou na další měsíc? Pokud jede služba v jednom DC, tak je úplně jedno co má DC napsané na webu. Podobné věci se tam dřív nebo později stát mohou a je jen na lidech, kteří tu infrastrukturu spravují, zda s tím počítají a nebo ne. Myslet si, že DC pojede spolehlivě jen proto, že je třeba v Německu, je čistá utopie.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 13:32

Trident

Nemci jsou poradni,hodne procesni a poradnost vyzaduji od svych dodavatelu. U DC ocekavam rizeni a hlavne proskoleni na urovni elektrarny. Ne ze obsluha bude zmatene mackat "cudliky". Mel jsem nekolik takovych kolegu a bylo to na prizabiti pak resit prusery. Duvod? Typicky cesko-slovensko-indicke: Tady to mas a plav. Od chvile co tu sedis je vsechno tvoje chyba. Hodne stesti! Nikdo ho nezaskolil, nevysvetlil navaznosti ani probihajici prace.

Cesi vecne spolehaji na sdelovani a reseni per huba a dobrou vuli servisaku. Pak je tezky dohledat co se vlastne stalo. Jenomze jsme levni a poradnejsi nez indove.

Nemecko ma taky jednu nevyhodu a to je spatna propojenost zapadni a vychodni casti a velky podil nestabilnich OZE.
Nemci maji vyssi sanci na blackout nez CR. Jak dlouho se o navyseni prenosovych kapacit zapad-vychod hovori? Uz 30 let? To se ani slunickove Merklove do kramu nehodilo a Olaf tezko rozplanuje tyto dlouhodobe projekty.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 13:43

Danny

Stříbrný podporovatel

Ale ani nemeckym datacentrum se vypadky proste nevyhybaji... moc si to idealizujete :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 14:17

byCx

To sis to hezky zobecnil a podtrhnul nesouvisejícím posledním odstavcem. To je nějaký guideline pro mezinárodní spolupráci ve vašem týmu? Já jen že stojí dost za .. :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 15:05

Heron

Nemci jsou poradni,hodne procesni a poradnost vyzaduji od svych dodavatelu. U DC ocekavam rizeni a hlavne proskoleni na urovni elektrarny. Ne ze obsluha bude zmatene mackat "cudliky". Mel jsem nekolik takovych kolegu a bylo to na prizabiti pak resit prusery. Duvod? Typicky cesko-slovensko-indicke: Tady to mas a plav. Od chvile co tu sedis je vsechno tvoje chyba. Hodne stesti! Nikdo ho nezaskolil, nevysvetlil navaznosti ani probihajici prace.

Naprostá pravda, pěkně sepsáno.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 19:15

Ditys

Náš korporát také používal DC v Německu s nadprůměrnou spolehlivostí. Pak projel před budovou stroj, co sází vzrostlé stromky, a přesekl napájecí 10 kV kabel. Řidič si ničeho nevšiml (skvělá izolace jeho stroje), datacentrum jelo na záložní kabel. Stroj popojel a přesekl i ten druhý, scénka jak pro Mr Beana. Všechna čest, Němci to datacentum zprovoznili asi za 90 min, zřejmě natáhli prodlužovák.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 15:03

Heron

Masteří DC v Brně má, alespoň u serverů, co tam máme, výbornou historii.

Mě se stačilo podívat už jen na umístění našeho racku. Hala po nějakém průmyslu, 2m od našeho stojanu byl schod apod. DC má být velká prostorná hala s plochou podlahou.

Jak se tedy liší od Masteru?

Už jen vzhledem a přístupem k technologiím.

Fakt nechápu tu naivitu

O ničem takovém nemluvím. Proto máme technologie ve třech DC od různých dodavatelů.

Podobné věci se tam dřív nebo později stát mohou a je jen na lidech, kteří tu infrastrukturu spravují, zda s tím počítají a nebo ne.

Více témat. Ano, stát se to může všude. Jen je otázkou, jak často.

Infrastruktura se navrhuje tak, aby to k tomu nemohlo dojít a je třeba to pravidelně testovat. To, že například v té Casablanca INT pršelo, je dejme tomu technologický problém (i když v dedikovaných prostorech skutečného DC by se tohle prostě stát nemohlo, protože by tam žádné vodovodní trubky ve starém stropě nebyly). To, že jim to vyplavilo diskové pole a vmware cluster je dejme tomu smůla. Ale to, že to neměli realtime replikované, což bylo to, co nám slibovali, a několik dnů to obnovovali, je zkrátka neodpustitelné. (Nakonec jsme to k nim do clusteru nedali, měli jsme to ve stojanu o pár metrů vedle.)

Myslet si, že DC pojede spolehlivě jen proto, že je třeba v Německu, je čistá utopie.

Záleží na pravděpodobnosti (tedy jak často) a na přístupu těch lidí k tomu dílu. Tuto důvěru už v česku dávno nemám, na základě zkušeností na prohlídky několika místních DC.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 16:28

byCx

Já jsem si pročetl tvůj blog a asi se tu setkávají dva světy.

https://www.heronovo.cz/muj-pristup-k-administraci-serveru/#more-5215

Jen výběr:

* Firewall by neměl být potřeba.
* Logy nejsou potřeba
* admin přece neví, co je špatně, pokud nemá monitoring a logy“. Moje odpověď je, že by to prostě poznat měl.

My máme infrastrukturu v Terraformu a Ansiblu, nový stroj nekonfigurujeme přes `apt install` a když něco přestane fungovat, tak o tom víme. Logy sbíráme do centrálního místa a máme na nich navěšené i alerty. Sbíráme doslova všechno, protože potřebujeme vědět, co se na stroji dělo, než se objevil problém. Sbíráme i metriky ze status page datacentra, protože nám pak Grafana řekne, že problém není u nás ale tam.

Když se něco stane, tak nejdeme na server, ale do Grafany, kde čeká masivní množství metrik, ze kterých už není tak těžké zjistit, co bylo příčinou. On totiž server třeba ani nemusí reagovat a to pak "prostě poznat měl" nefunguje.

Funkčně nahradíme fyzický server během několika minut. Bohužel kopírování dat trvá déle, ale ani v jednom z našich procesů nefiguruje manuální volání `apt install` nebo `rsync`. Na tohle máme připravené nástroje, protože představa, že někdo bude během krizovky studovat dokumentaci, ve které je napsané co a jak je zkonfigurované a co kde běží, je nesmysl. Když přijde krize, vezme se papír s instrukcema a podle nich se jede. Manuálních kroků je minimum a zvládne to i člověk, co přišel první den.

Naše přístupy jsou úplně jiné. My to riziko přijímáme jako běžnou součást naší práce a jsme na to připraveni. Je to nepříjemné, ale není to nic, s čím bychom si neporadili. Ty to bereš jako něco, co se nesmí stát a posíláš data někam do tramtárie, protože tam mají rovnější podlahy, i když záruky dávají obě lokace na chlup stejné.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 16:45

Heron

My máme infrastrukturu v Terraformu a Ansiblu, nový stroj nekonfigurujeme přes `apt install` a když něco přestane fungovat, tak o tom víme.

Ten článek vůbec nevylučuje použití Ansible. Ansible používám denně a denně udělám tak 20 virtuálek (pravda, aktuálně pracuju jako prog. takže VMka mám pro svůj devel a už nejsem admin - jen soukromých serverů).

Sbíráme doslova všechno, protože potřebujeme vědět, co se na stroji dělo, než se objevil problém.

O tom se můžeme pobavit třeba po emailech, zajímalo by mne, co to je to všechno a proč to potřebuješ. Za, když to zjednoduším, 12 let x stovky vm (tj kumulativně tisíce let běhu provozovaných vm) těch událostí bylo na prstech ruky a jednak nikdy nebyl problém přijít na to, co se stalo a taky to bylo dost často vlastně jedno. Protože jak píšu v jiném článku, zdravé služby prostě nepadají. (pg, apache apod. mě nikdy nezklamal). Takže u nás nebylo zase toho tolik ke zkoumání.

Ty to bereš jako něco, co se nesmí stát a posíláš data někam do tramtárie, protože tam mají rovnější podlahy, i když záruky dávají obě lokace na chlup stejné.

To je asi nepochopení, ale to teď nevyřešíme, když tam mi prosím napiš email. Na produkci jsme měli vždy několik DC a realtime replikace. Opravdu nespoléhám na to, že nějaké DC nikdy nespadne. Ale i přes to mi přijde vhodnější si vybrat spolehlivější DC s profesionálnějším přístupem.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 20:36

Uncaught ReferenceError:

To, že přece o nějaké údolosti nevíš, nemusí znamenat, že žádná nenastala, pokud něco nemonitoruješ a logy podrobně neřeší, netušíš že se tam něco děje. Oni o ty vývojářské stroje začínají být problém, protože se množí útoky přes napadé počítače vývojářů.

Zdravé služby nepadají? Uhf :). Přece problém nemusí vzniknout jen HW/SW chybou, ale může se jednat o útok, tvoje infrastruktura a monitoring by na takovéhle věci měly být připravené. Realtime replikace myslíš sync nebo async? Obě mají obrovské problémy a obě jsou třeba ideální pokud ti někdo začne cíleně mazat/znehodnocovat data.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 21:45

Heron

To, že přece o nějaké údolosti nevíš, nemusí znamenat, že žádná nenastala
Pokud nastala a má dopad na data, tak se to dozvíš z nekonzistence dat.

netušíš že se tam něco děje
Ale já nechci řešit, že se něco děje. Řeším skutečné problémy. Pokud vůbec nastanou.

Oni o ty vývojářské stroje začínají být problém
Jako na mojí workstation?

může se jednat o útok
Záleží jaký. Klasický DDOS stejně položil už rovnou upstream, takže služba byla sice nedostupná, ale z naší strany se s tím stejně nedalo nic dělat (nevlastníme DC). Různé brute force útoky apod. jsou sice pěkné, ale nevím, proč bych je měl logovat, když jsou data stejně šifrovaná klíčem u klienta.

Obě mají obrovské problémy a obě jsou třeba ideální pokud ti někdo začne cíleně mazat/znehodnocovat data.
Od toho jsou snapshoty a zálohy.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 22:05

Uncaught ReferenceError:

no spíše z integrity než konzistence, to bys ale musel kontrolovat integritu dat, což kupodivu ani dnes spousta file systému nedělá, nedělají to ani všechny databáze.

A anomálie v provozu není skutečný problém? S takovým přístupem skončíš jako Master s hodinovými výpadky.

Ano, tvoje workstation, z které máš přístupy na spousty dalších serverů, nedávno to schytalo ŘSD nejspíš přesně takhle, a o útoku nevěděli měsíce, útočníci se dnes snaží schovat, nedávají do motd velký nápis "pawned" jak to bylo za našich začátků.

o DDoS samozřejmě nemluví, to je takový útok neútok. Logovat bys to měl třeba proto, že ti někdo může nepozorovaně změnit aplikaci, která ty klíče od klienta může posílat někam domů a data pak nejsou chráněna. Pokud takový útok je selektivní a krátký, nejsi schopný se o něm rychle dozvědět jinak než podrobným monitoringem.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 6. 2022 2:13

Heron

z které máš přístupy na spousty dalších serverů
Vážně? Že o tom nevím.

Logovat bys to měl třeba proto, že ti někdo může nepozorovaně změnit aplikaci
Jak přesně "nepozorovaně"?

Sorry, přestaňte něco předpokládat a opravdu si nedomýšlejte věci, které nikdo nepsal.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 22:38

byCx

Nedávno jsme měli problém, kdy load balancer náhodně dropnul spojení. Dělo se to jednou za pár desítek minut, v logu nic nebylo, dokonce monitoring dostupnosti to ignoroval, protože reagoval jen když byla jedna či víc appek dole déle jak minutu. Nakonec to dělala služba, která konfigurovala Nginx. Poslala mu 40 reloadů najednou a projevilo se to jen mírným zvýšením loadu a skokových využitím paměti. Nakonec jsme logy z té služby nasypali do Loki, zapli debug výstup a udělali dashboard, ve kterém jsme vedle sebe dali kolik jakých zpráv se v logu objevovalo v čase a k tomu graf s loadem a naměřenými výpadky. Sedělo to do puntíku. Ukázalo se, že vypadávají všechny weby najednou, dělo se to měsíce a výpadky byly tak malé, že si uživatelé ničeho nevšimli. Zjistili jsme to analýzou nedostupnosti jiného webu, kde s memory leakem (když vyčerpal paměť) korelovala jen část výpadků a pro zbytek jsme neměli vysvětlení. I když šlo vždy jen o jeden či dva requesty. Na alert to bylo málo, tak jsme přidali monitorování počtu změn mezi funguje-nefunguje a spočítali z toho index stability pro celou infrastrukturu, který spouští alert, když moc vyleze. Máme hodně aplikaci a některé z nich mají nějaké výpadky třeba při deployi, takže se nedá běžet hned za prvním škytnutím v grafech. Tohle to to docela elegantně vyřešilo. Nedokážu si představit, že ten problém řešíme bez Loki, Promethea a Grafany. I takhle nám to zabralo několik dní a bez dat bychom mohli jen hádat a dělat změny naslepo. Tedy přesně to co se tu vyčítá Masteru, aniž bychom věděli, že to opravdu dělali. Takhle jsme věděli přesně za čím jít, do kódu přidali 20 řádek a bylo to vyřešené. To jen k tématu "to prostě poznat měl" a "Logy nejsou potřeba".
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 13:12

RDa

A ti posledni nejmenovani jsou uprostred lesa a tak hodinu dve jizdy mimo civilizaci :P
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 14:04

Uncaught ReferenceError:

a co tím změníš? Jak děláš podporu, to si uděláš zahraniční cestu? Nedávno např. OVH ztratilo celou lokalitu, vyhořela. Neznám DC, které by nemohlo/nemělo občas nějaké problémy, je to přirozené, proto by kritické služby měly být na více lokalitách s co nejméně společnými prvky, zahraničím nic nevyřešíš.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 15:11

Heron

Jistě, že může, ale záleží taky na pravděpodobnosti, že jo. A té pravděpodobnosti nehody se dá pomoci přístupem k věci, jak už tu ostatně bylo popsáno. A o více lokalitách taky.

Vůbec celý tento pohled "může se to stát kdekoliv, takže všude je to stejné" je zvláštní. Je dost rozdíl, jestli se něco stane jednou za sto let nebo jednou za dva roky. A rozhodně dám servery raději k Hetznerovi než kamkoliv do Česka už jen na základě toho, jak je to tam čisté a jak to celkově vypadá. U nás je stále takový ten přístup "to je dobrý, to stačí".
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2022 20:49

Uncaught ReferenceError:

ok, takže ty vybíráš spolehlivé DC podle vzhledu a čistoty? V kolika jsi jich byl, když chceš na správu serverů cestovat přes půl evropy, protože tam jsou čisté sály? No, jednou za sto let, v norimberku měl v colocated sále Hertzner výpadek zrovna letos v lednu na několik hodin, slibují multijazyčnou podporu a pak na tebe mluví jen německy, já nevím, nemám s nimi dobré zkušenosti.

Zrovna v ČR je v DC slušný výběr, ale pro mě za mě, jezdi si kam chceš.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 6:42

Trident

Jsem extremne haklivej na frazi "to je dobry", protoze to rikaji lide kteri ten pruser na konci nemusí uklizet.
4. 6. 2022, 06:42 editováno autorem komentáře
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 13:24

byCx

Tohle je fakt smutný. Datacentrum nemůže být špinavé z principu, protože tam proudí hromada vzduchu, jako že fakt hodně vzduchu, a každé nezachycené smítko prachu skončí v serverech. Servery, co nám v Masteru běží, rozhodně nevypadají, jako kdyby do nich proudil prach. Stejnou zkušenost máme z Coolhosingu. I tak člověk, co jinak bere logy jako zbytečnost a debuguje problémy podle zvuku ventilátorů, bude bez důkazů očerňovat česká datacentra a glorifikovat ta německá, jen proto, že z fotek to vypadá, že mají bělejší bílou na zdech. A nic se u něj nezmění, protože když už k němu přijde na pohovor někdo, kdo má potenciál to vyřešit, tak ho buď vyhodí a nebo udělá takovej WTF moment, že by tam šel jen blázen.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2022 13:43

RDa

Potvrzuji, muj 1U server po 10 letech nonstop provozu v Brnenskem masteru vypadal jako novej po otevreni. Myslim ze tam maj i pravidla jak se do salu smi vstupovat, aby se zamezilo vnaseni bordelu.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 6. 2022 2:09

Heron

a každé nezachycené smítko prachu skončí v serverech
Nebo voda rovnou v serverech. Po ukončení životnosti jsme ze zájmu rozebrali servery z Casablanca INT a ano, byly tam stopy vody. Na provoz to nemělo vliv, ale i tak.

I tak člověk, co jinak bere logy jako zbytečnost
Tak si ten článek přečti pořádně a případně se doptej.

bude bez důkazů očerňovat česká datacentra
Bez důkazů? Netvrdím, že znám všechna DC v Česku, ale to co jsem viděl a obecně přístupy spousty lidí mi bohatě stačí.

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Výpadek v datacentru Master Internet vyřadil spoustu služeb včetně Root.cz od Heron - Proto nemám servery v ČR. Každá z větví...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Hackeři útočí přes e-mail, prahnou po přihlašovacích údajích

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Prima v tichosti zpřísnila podmínky přetáčení reklam

30 % nákladů díky AI dolů, ale nuda v práci jde nahoru

Malware, ransomware a další online hrozby: Jak se liší?

Bitcoinová burza omylem rozdala 40 miliard dolarů

Apple opravil bezpečnostní chybu, která byla v iOS od verze 1.0

Sophos kupuje Arco Cyber, zpřístupní CISO organizacím

Z evropského koláče chytrých telefonů ukusují Apple a Honor

Stát dá svobodu důchodcům, které držel ve III. pilíři

Plánované změny v penzích: Zjistili jsme další podrobnosti

V čem se EET 2.0 liší od EET 1.0? Přinášíme velké srovnání

Notepad++ opravil chybu zneužívanou k šíření malware

AI se snaží promlouvat i do stavebnictví

AI jako soudce – zákon na prvním místě

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

V Evropě roste zájem o alternativu k Microsoftu, říká Petra Novotná

Google uvádí Gemini 3.1 Pro a přidává působivé benchmarky

Handicap proměnila v úspěšný byznys, učí ženy nosit paruky

Analýza rozebrala moderování Jílkové v Máte slovo

Vlákno názorů k článku
Výpadek v datacentru Master Internet vyřadil spoustu služeb včetně Root.cz od Heron - Proto nemám servery v ČR. Každá z větví...