Proto nemám servery v ČR. Každá z větví by měla unést celý provoz, na každé by měla být UPS a na každé generátor. Od toho je to DC. S Mastrama jsme řešili výpadky sítí (kdy nás jejich switch prostě odpojil z obou linek, nutno z jejich strany nahodit manuálně), přehřívání "studené" uličky, výpadek napájení už byl taky (naštěstí jen jedné větve). Pokud se nepletu, tak "DC" mají v Praze v podzemních garážích, v Brně zase v nějaké bývalé továrně. Casablanca INT to má pro změnu ve sklepě, kde pro jistotu pršelo (asi 2m od našeho stojanu). O dalších DC by se taky dalo vyprávět (Radiokomunikace to mají v nějakém vysílači).
Masteří DC v Brně má, alespoň u serverů, co tam máme, výbornou historii. Od roku 2016 jsme tam prakticky měli jen jediný problém se sítí a ten rychle vyřešili. Pražské na tom je o poznání hůře. Není to poprvé, co bylo bez proudu. V podzemních garážích ale není, je na úrovni přízemí. Mají tam dvě oddělené větve, dva generátory, dvě sady UPSek, tedy to samé, co mají ta tvoje zahraniční DC. Jak se tedy liší od Masteru? Co tě vede k přesvědčení, že se to tam taky nestane? Master aspoň nevyhořel :-)
Fakt nechápu tu naivitu, že když někdo dá do smlouvy všechny ty hezké parametry a SLA 99.99..., tak se to bere jako vytesané do kamene. Čím tam asi ručí, 5 % slevou na další měsíc? Pokud jede služba v jednom DC, tak je úplně jedno co má DC napsané na webu. Podobné věci se tam dřív nebo později stát mohou a je jen na lidech, kteří tu infrastrukturu spravují, zda s tím počítají a nebo ne. Myslet si, že DC pojede spolehlivě jen proto, že je třeba v Německu, je čistá utopie.
Nemci jsou poradni,hodne procesni a poradnost vyzaduji od svych dodavatelu. U DC ocekavam rizeni a hlavne proskoleni na urovni elektrarny. Ne ze obsluha bude zmatene mackat "cudliky". Mel jsem nekolik takovych kolegu a bylo to na prizabiti pak resit prusery. Duvod? Typicky cesko-slovensko-indicke: Tady to mas a plav. Od chvile co tu sedis je vsechno tvoje chyba. Hodne stesti! Nikdo ho nezaskolil, nevysvetlil navaznosti ani probihajici prace.
Cesi vecne spolehaji na sdelovani a reseni per huba a dobrou vuli servisaku. Pak je tezky dohledat co se vlastne stalo. Jenomze jsme levni a poradnejsi nez indove.
Nemecko ma taky jednu nevyhodu a to je spatna propojenost zapadni a vychodni casti a velky podil nestabilnich OZE.
Nemci maji vyssi sanci na blackout nez CR. Jak dlouho se o navyseni prenosovych kapacit zapad-vychod hovori? Uz 30 let? To se ani slunickove Merklove do kramu nehodilo a Olaf tezko rozplanuje tyto dlouhodobe projekty.
Ale ani nemeckym datacentrum se vypadky proste nevyhybaji... moc si to idealizujete :-)
Nemci jsou poradni,hodne procesni a poradnost vyzaduji od svych dodavatelu. U DC ocekavam rizeni a hlavne proskoleni na urovni elektrarny. Ne ze obsluha bude zmatene mackat "cudliky". Mel jsem nekolik takovych kolegu a bylo to na prizabiti pak resit prusery. Duvod? Typicky cesko-slovensko-indicke: Tady to mas a plav. Od chvile co tu sedis je vsechno tvoje chyba. Hodne stesti! Nikdo ho nezaskolil, nevysvetlil navaznosti ani probihajici prace.
Naprostá pravda, pěkně sepsáno.
Náš korporát také používal DC v Německu s nadprůměrnou spolehlivostí. Pak projel před budovou stroj, co sází vzrostlé stromky, a přesekl napájecí 10 kV kabel. Řidič si ničeho nevšiml (skvělá izolace jeho stroje), datacentrum jelo na záložní kabel. Stroj popojel a přesekl i ten druhý, scénka jak pro Mr Beana. Všechna čest, Němci to datacentum zprovoznili asi za 90 min, zřejmě natáhli prodlužovák.
Masteří DC v Brně má, alespoň u serverů, co tam máme, výbornou historii.
Mě se stačilo podívat už jen na umístění našeho racku. Hala po nějakém průmyslu, 2m od našeho stojanu byl schod apod. DC má být velká prostorná hala s plochou podlahou.
Jak se tedy liší od Masteru?
Už jen vzhledem a přístupem k technologiím.
Fakt nechápu tu naivitu
O ničem takovém nemluvím. Proto máme technologie ve třech DC od různých dodavatelů.
Podobné věci se tam dřív nebo později stát mohou a je jen na lidech, kteří tu infrastrukturu spravují, zda s tím počítají a nebo ne.
Více témat. Ano, stát se to může všude. Jen je otázkou, jak často.
Infrastruktura se navrhuje tak, aby to k tomu nemohlo dojít a je třeba to pravidelně testovat. To, že například v té Casablanca INT pršelo, je dejme tomu technologický problém (i když v dedikovaných prostorech skutečného DC by se tohle prostě stát nemohlo, protože by tam žádné vodovodní trubky ve starém stropě nebyly). To, že jim to vyplavilo diskové pole a vmware cluster je dejme tomu smůla. Ale to, že to neměli realtime replikované, což bylo to, co nám slibovali, a několik dnů to obnovovali, je zkrátka neodpustitelné. (Nakonec jsme to k nim do clusteru nedali, měli jsme to ve stojanu o pár metrů vedle.)
Myslet si, že DC pojede spolehlivě jen proto, že je třeba v Německu, je čistá utopie.
Záleží na pravděpodobnosti (tedy jak často) a na přístupu těch lidí k tomu dílu. Tuto důvěru už v česku dávno nemám, na základě zkušeností na prohlídky několika místních DC.
Já jsem si pročetl tvůj blog a asi se tu setkávají dva světy.
https://www.heronovo.cz/muj-pristup-k-administraci-serveru/#more-5215
Jen výběr:
* Firewall by neměl být potřeba.
* Logy nejsou potřeba
* admin přece neví, co je špatně, pokud nemá monitoring a logy“. Moje odpověď je, že by to prostě poznat měl.
My máme infrastrukturu v Terraformu a Ansiblu, nový stroj nekonfigurujeme přes `apt install` a když něco přestane fungovat, tak o tom víme. Logy sbíráme do centrálního místa a máme na nich navěšené i alerty. Sbíráme doslova všechno, protože potřebujeme vědět, co se na stroji dělo, než se objevil problém. Sbíráme i metriky ze status page datacentra, protože nám pak Grafana řekne, že problém není u nás ale tam.
Když se něco stane, tak nejdeme na server, ale do Grafany, kde čeká masivní množství metrik, ze kterých už není tak těžké zjistit, co bylo příčinou. On totiž server třeba ani nemusí reagovat a to pak "prostě poznat měl" nefunguje.
Funkčně nahradíme fyzický server během několika minut. Bohužel kopírování dat trvá déle, ale ani v jednom z našich procesů nefiguruje manuální volání `apt install` nebo `rsync`. Na tohle máme připravené nástroje, protože představa, že někdo bude během krizovky studovat dokumentaci, ve které je napsané co a jak je zkonfigurované a co kde běží, je nesmysl. Když přijde krize, vezme se papír s instrukcema a podle nich se jede. Manuálních kroků je minimum a zvládne to i člověk, co přišel první den.
Naše přístupy jsou úplně jiné. My to riziko přijímáme jako běžnou součást naší práce a jsme na to připraveni. Je to nepříjemné, ale není to nic, s čím bychom si neporadili. Ty to bereš jako něco, co se nesmí stát a posíláš data někam do tramtárie, protože tam mají rovnější podlahy, i když záruky dávají obě lokace na chlup stejné.
My máme infrastrukturu v Terraformu a Ansiblu, nový stroj nekonfigurujeme přes `apt install` a když něco přestane fungovat, tak o tom víme.
Ten článek vůbec nevylučuje použití Ansible. Ansible používám denně a denně udělám tak 20 virtuálek (pravda, aktuálně pracuju jako prog. takže VMka mám pro svůj devel a už nejsem admin - jen soukromých serverů).
Sbíráme doslova všechno, protože potřebujeme vědět, co se na stroji dělo, než se objevil problém.
O tom se můžeme pobavit třeba po emailech, zajímalo by mne, co to je to všechno a proč to potřebuješ. Za, když to zjednoduším, 12 let x stovky vm (tj kumulativně tisíce let běhu provozovaných vm) těch událostí bylo na prstech ruky a jednak nikdy nebyl problém přijít na to, co se stalo a taky to bylo dost často vlastně jedno. Protože jak píšu v jiném článku, zdravé služby prostě nepadají. (pg, apache apod. mě nikdy nezklamal). Takže u nás nebylo zase toho tolik ke zkoumání.
Ty to bereš jako něco, co se nesmí stát a posíláš data někam do tramtárie, protože tam mají rovnější podlahy, i když záruky dávají obě lokace na chlup stejné.
To je asi nepochopení, ale to teď nevyřešíme, když tam mi prosím napiš email. Na produkci jsme měli vždy několik DC a realtime replikace. Opravdu nespoléhám na to, že nějaké DC nikdy nespadne. Ale i přes to mi přijde vhodnější si vybrat spolehlivější DC s profesionálnějším přístupem.
To, že přece o nějaké údolosti nevíš, nemusí znamenat, že žádná nenastala, pokud něco nemonitoruješ a logy podrobně neřeší, netušíš že se tam něco děje. Oni o ty vývojářské stroje začínají být problém, protože se množí útoky přes napadé počítače vývojářů.
Zdravé služby nepadají? Uhf :). Přece problém nemusí vzniknout jen HW/SW chybou, ale může se jednat o útok, tvoje infrastruktura a monitoring by na takovéhle věci měly být připravené. Realtime replikace myslíš sync nebo async? Obě mají obrovské problémy a obě jsou třeba ideální pokud ti někdo začne cíleně mazat/znehodnocovat data.
To, že přece o nějaké údolosti nevíš, nemusí znamenat, že žádná nenastala
Pokud nastala a má dopad na data, tak se to dozvíš z nekonzistence dat.
netušíš že se tam něco děje
Ale já nechci řešit, že se něco děje. Řeším skutečné problémy. Pokud vůbec nastanou.
Oni o ty vývojářské stroje začínají být problém
Jako na mojí workstation?
může se jednat o útok
Záleží jaký. Klasický DDOS stejně položil už rovnou upstream, takže služba byla sice nedostupná, ale z naší strany se s tím stejně nedalo nic dělat (nevlastníme DC). Různé brute force útoky apod. jsou sice pěkné, ale nevím, proč bych je měl logovat, když jsou data stejně šifrovaná klíčem u klienta.
Obě mají obrovské problémy a obě jsou třeba ideální pokud ti někdo začne cíleně mazat/znehodnocovat data.
Od toho jsou snapshoty a zálohy.
no spíše z integrity než konzistence, to bys ale musel kontrolovat integritu dat, což kupodivu ani dnes spousta file systému nedělá, nedělají to ani všechny databáze.
A anomálie v provozu není skutečný problém? S takovým přístupem skončíš jako Master s hodinovými výpadky.
Ano, tvoje workstation, z které máš přístupy na spousty dalších serverů, nedávno to schytalo ŘSD nejspíš přesně takhle, a o útoku nevěděli měsíce, útočníci se dnes snaží schovat, nedávají do motd velký nápis "pawned" jak to bylo za našich začátků.
o DDoS samozřejmě nemluví, to je takový útok neútok. Logovat bys to měl třeba proto, že ti někdo může nepozorovaně změnit aplikaci, která ty klíče od klienta může posílat někam domů a data pak nejsou chráněna. Pokud takový útok je selektivní a krátký, nejsi schopný se o něm rychle dozvědět jinak než podrobným monitoringem.
Nedávno jsme měli problém, kdy load balancer náhodně dropnul spojení. Dělo se to jednou za pár desítek minut, v logu nic nebylo, dokonce monitoring dostupnosti to ignoroval, protože reagoval jen když byla jedna či víc appek dole déle jak minutu. Nakonec to dělala služba, která konfigurovala Nginx. Poslala mu 40 reloadů najednou a projevilo se to jen mírným zvýšením loadu a skokových využitím paměti. Nakonec jsme logy z té služby nasypali do Loki, zapli debug výstup a udělali dashboard, ve kterém jsme vedle sebe dali kolik jakých zpráv se v logu objevovalo v čase a k tomu graf s loadem a naměřenými výpadky. Sedělo to do puntíku. Ukázalo se, že vypadávají všechny weby najednou, dělo se to měsíce a výpadky byly tak malé, že si uživatelé ničeho nevšimli. Zjistili jsme to analýzou nedostupnosti jiného webu, kde s memory leakem (když vyčerpal paměť) korelovala jen část výpadků a pro zbytek jsme neměli vysvětlení. I když šlo vždy jen o jeden či dva requesty. Na alert to bylo málo, tak jsme přidali monitorování počtu změn mezi funguje-nefunguje a spočítali z toho index stability pro celou infrastrukturu, který spouští alert, když moc vyleze. Máme hodně aplikaci a některé z nich mají nějaké výpadky třeba při deployi, takže se nedá běžet hned za prvním škytnutím v grafech. Tohle to to docela elegantně vyřešilo. Nedokážu si představit, že ten problém řešíme bez Loki, Promethea a Grafany. I takhle nám to zabralo několik dní a bez dat bychom mohli jen hádat a dělat změny naslepo. Tedy přesně to co se tu vyčítá Masteru, aniž bychom věděli, že to opravdu dělali. Takhle jsme věděli přesně za čím jít, do kódu přidali 20 řádek a bylo to vyřešené. To jen k tématu "to prostě poznat měl" a "Logy nejsou potřeba".
a co tím změníš? Jak děláš podporu, to si uděláš zahraniční cestu? Nedávno např. OVH ztratilo celou lokalitu, vyhořela. Neznám DC, které by nemohlo/nemělo občas nějaké problémy, je to přirozené, proto by kritické služby měly být na více lokalitách s co nejméně společnými prvky, zahraničím nic nevyřešíš.
Jistě, že může, ale záleží taky na pravděpodobnosti, že jo. A té pravděpodobnosti nehody se dá pomoci přístupem k věci, jak už tu ostatně bylo popsáno. A o více lokalitách taky.
Vůbec celý tento pohled "může se to stát kdekoliv, takže všude je to stejné" je zvláštní. Je dost rozdíl, jestli se něco stane jednou za sto let nebo jednou za dva roky. A rozhodně dám servery raději k Hetznerovi než kamkoliv do Česka už jen na základě toho, jak je to tam čisté a jak to celkově vypadá. U nás je stále takový ten přístup "to je dobrý, to stačí".
ok, takže ty vybíráš spolehlivé DC podle vzhledu a čistoty? V kolika jsi jich byl, když chceš na správu serverů cestovat přes půl evropy, protože tam jsou čisté sály? No, jednou za sto let, v norimberku měl v colocated sále Hertzner výpadek zrovna letos v lednu na několik hodin, slibují multijazyčnou podporu a pak na tebe mluví jen německy, já nevím, nemám s nimi dobré zkušenosti.
Zrovna v ČR je v DC slušný výběr, ale pro mě za mě, jezdi si kam chceš.
Tohle je fakt smutný. Datacentrum nemůže být špinavé z principu, protože tam proudí hromada vzduchu, jako že fakt hodně vzduchu, a každé nezachycené smítko prachu skončí v serverech. Servery, co nám v Masteru běží, rozhodně nevypadají, jako kdyby do nich proudil prach. Stejnou zkušenost máme z Coolhosingu. I tak člověk, co jinak bere logy jako zbytečnost a debuguje problémy podle zvuku ventilátorů, bude bez důkazů očerňovat česká datacentra a glorifikovat ta německá, jen proto, že z fotek to vypadá, že mají bělejší bílou na zdech. A nic se u něj nezmění, protože když už k němu přijde na pohovor někdo, kdo má potenciál to vyřešit, tak ho buď vyhodí a nebo udělá takovej WTF moment, že by tam šel jen blázen.
a každé nezachycené smítko prachu skončí v serverech
Nebo voda rovnou v serverech. Po ukončení životnosti jsme ze zájmu rozebrali servery z Casablanca INT a ano, byly tam stopy vody. Na provoz to nemělo vliv, ale i tak.
I tak člověk, co jinak bere logy jako zbytečnost
Tak si ten článek přečti pořádně a případně se doptej.
bude bez důkazů očerňovat česká datacentra
Bez důkazů? Netvrdím, že znám všechna DC v Česku, ale to co jsem viděl a obecně přístupy spousty lidí mi bohatě stačí.