Vlákno názorů k článku Odpovědi na nejčastější dotazy k našemu odchodu z předraženého cloudu od Josef Marianek - Jde taky o to na co mate lidi,...

Článek je starý, nové názory již nelze přidávat.

4. 1. 2024 11:21

Josef Marianek

Bronzový podporovatel

Jde taky o to na co mate lidi, HW potrebuje peci spravcu, na SW staci vyvojari.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 11:40

byCx

To je nesmysl. Cloud potřebuje úplně stejnou péči jako ten HW. Jen když se mi kvůli chybě rozmnoží kontejner na mém HW, tak za to nezaplatím $50k.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 12:49

Buldr

Zlatý podporovatel

Jak se spravuje tisíce kusů serverů, switchů, diskových polí si komentovat nedovolím, protože to je mimo můj obor a prakticky o tom nic nevím. Údržbu zázemí (rozvodná síť, požární zabezpečení, záložní zdroje, …) si umím představit více než dobře. Nepřísluší mi diskutovat o něčem, čemu nerozumím a neznám realitu praxe.

Rozumím myšlence, ale přesto formulace působí nešťastně. Přece jen se mi příčí nechat vývojáře SW spravovat i servery např.: Exchange, ADDS, DB … tedy dělit práci mezi lidi s různými znalostmi a to budete dělat tak jako tak, bez ohledu jestli máte HW pod vlastní střechou, v datovém centru, nebo u poskytovatele cloudu.

V malém měřítku si také raději zaplatíte schopného správce (firmu), který se vám o to postará, protože není vždy oboustranně efektivní platit schopného člověka na plný úvazek. Drahé a kousal by se třeba nudou. Stejně tak si můžete zaplatit jednorázovou, nebo paušální službu lidí, kteří se fyzicky o ten HW postarají v případě problémů.

Nabídky „s neskutečnými výhodami“ přejít do cloudu pro malé firmy, nereálně nízkými náklady, přicházejí neustále a když si to spočítám, vždy se dopočítám, dostávám se k trojnásobku. Jednou za 5-6 let koupím potřebný počet fyzických serverů (psal jsem v malém, tak se nesmějte), náklady na správu, licence, úpravy mi zůstanou tak jako tak a nic dalšího kromě energií a připojení neplatím, protože zázemí už mám vybudované. Z cloudu se podle mého názoru stalo módní slovy a při těch nabídkách to budí dojem, že firma, která není v cloudu patří do historie a neexistuje. Nějak mi přijde, že Cloud se bere jako všespásné řešení, přitom to není pravda.
4. 1. 2024, 12:50 editováno autorem komentáře
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 16:28

Uncaught ReferenceError:

kdykoliv necháš dělat někoho, kdo to neumí, koleduješ si o problém.

Nedávno nám v jednom datacentru v asii vyhořely primární UPS, pár zahořelých vedení, nic velkého, ale spustila se tím velká kaskáda problémů, která vedla k odstávce celého DC. A tady se ukázala slabina vlastního HW, obejít tisíce serverů dělalo těch pár lokálních adminů skoro dva týdny. V cloudu tohle jsme schopní naškálovat v podstatě hned.

Znáš to asi sám, jak musíš něco udělat fyzicky, tak se to strašně blbě škáluje a automatizuje, ale zase máš čas u toho přemýšlet a kontrolovat se.

Na druhou stranu to špatné škálování a automatizování má své výhody, pokud udělám botu, chvilku trvá než jí fyzicky udělám všude a je čas si toho všimnout a zachránit to. Pokud při správně cloudu udělám botu, velkou botu, mám minimum času na záchranu a důsledky jsou fatální.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 17:43

byCx

Proč jste ty servery museli obcházet?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 18:05

Buldr

Zlatý podporovatel

Bez důkladné a pečlivé kontroly nikdy nezjistíš, s jakými následky se potýkáš v případě závažné poruchy silových rozvodů. Nakonec ty skříně musíš otevřít a podívat se dovnitř.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 18:27

byCx

Co tam přesně vykoukám?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 19:46

Buldr

Zlatý podporovatel

To netuším, protože nemám sebemenší představu, jak to měli vyřešené, nevíme ani co hořelo. Psal baterie což je stejná informace, jako škrtnul sirkou a ona možná propálila koberec a zhasla, nebo podpálila celý barák. I když tak nějak nepřímo říká, že tam toho bylo více, protože odstavit celé DC bez důvodu? To asi ne, i když se třeba přímo netýká provozovaných serverů. Třeba v drátech lítalo deformované napětí, že to vymlátilo půl serverovny, nebo jen praskla signalizační pojistka vypínače uvnitř skříně, která sice nemá přímý vliv, ale vyměnit se musí. Nevím a domýšlet, nebo si představovat scénáře nebudu, proto mohu poskytnout pouze obecnou odpověď a ta nebude k ničemu, respektive na Tvou otázku neodpoví. Vlastně psal, že hořelo v Asii a v určitých oblastech se hodně používají asynchronní motory i pro menší ventilátory, tedy pokud jsem se trefil do oblasti a použití, tak bych šel asi ihned po kontrole jištění po asynchronních motorech, který bytostně nesnáší i krátkodobé podpětí. Ne všude používají stejné postupy a řešení, jako v našich končinách.

Těžko se odpovídá – zabývám se elektrikou, přirozeně mi projelo hlavou x scénářů s elektrikou. Třeba za prolézáním stoji přepečlivý japonský přístup, indický fištrón, či cokoliv jiného.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 1. 2024 10:53

bez prezdivky ...

"protože odstavit celé DC bez důvodu"

Typnul bych ze to okourilo kabelaz, ktera to asi podle popisu prezila, ale izolace byla nejspis narusena. No a ty privodni kabely se za provozu moc vymenovat nedaji, specielne kdyz nevis, jestli druha vetev pripadne zvysenou zatez prezije, nebo shori uplne.

Ale presne stejnej problem bys mel v cmoudu, pokud by museli odstavit cely DC.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 21:43

Ditys

Příště tedy zajistit redundanci v jiném asijském DC :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 1. 2024 9:15

Uncaught ReferenceError:

ale stejně to musíš opravit a vyřešit, samozřejmě DR lokalita je, přeplo se během pár minut a provoz se přesměroval, proto se to mohlo řešit týdny a v klidu.

Vtipné je, že vlastně v tomhle prostředí (pobřeží Indického oceánu - Srí lanka, Větnam, Thajsko, Kambodža atd.) není záchrana ani cloud, protože těch DC tam je strašně málo, konektivita mezi nimi je žalostná, ceny vysoké a při výpadku nějakého AZ jsi často stejně out, ten provoz z jiné lokality má úzké hrdlo a ucpe se. Tady není ani cloud řešením.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 1. 2024 10:47

bez prezdivky ...

A provozovatel cmoudu by to opravit a vyresit nemusel, takze by vubec zakaznikum jejich veci nemusel odstavit ...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 1. 2024 9:08

Uncaught ReferenceError:

malý požár způsobil zapnutí požárního systému v celém sále, ten způsobil masivní podtlak, spousta serverů a aktivních prvků to neunesla a přestaly reagovat (plotnové disky to nemají rádi), odpadly i věci jako vzdálená správa, musel se každý server obejít, vypnout zapnout, zkontrolovat, vyměnit porouchané disky.

Všechny ty automatizace a monitoring systémy fungují dobře, pokud vypadne jen něco málo, když se ale sesype celá lokalita, bez ruční práce se neobejdeš, zprvu totiž nemáš vůbec informace, co vlastně nefunguje a co se stalo.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 1. 2024 13:57

Buldr

Zlatý podporovatel

Už z původního popisu jsem tak nějak čekal poškození v bateriové místnosti a problém s rozvody, ale nečekal bych, že dojde k aktivaci hasícího systému i v dalších prostorách a už vůbec ne, že aktivace hasícího systému zničí disky. To jsem netušil, řekl bych spíš poškozené/zničené 10-15k rpm fany, které v těch serverech jsou, ale disky ne.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 1. 2024 15:52

Uncaught ReferenceError:

ano, ano, bateriová místnost a zahořelo pár kabelů, bohužel zrovna hned u detektoru kouře, takže vesda nestačila zareagovat včasným varováním a rovnou se spustil alarm na "požár velkého rozsahu", obsluha spustila první úroveň ochrany, budova se evakuovala, uzavřela, klimatizace se vypnula a prostory se začaly plnit inertním plynem (inergen), právě vč. sálu. Tenhle proces ale dočasně způsobil vysoký podklad v sále.

Klasický plotnový disk má propustnou membránu a není hermeticky uzavřený, výrazně změna okolního tlaku může způsobit jeho různé poruchy a nouzové odstavení (to už teď znám na vlastní kůži). Část disků stačilo odpojit a připojit (hard restart serveru nestačil), část ale zůstala nefunkčních a vyměnily se. Heliové disky (zpravidla 8TB+) to přežily bez problémů, kvůli heliu musejí být velice pečlivě uzavřeny.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 1. 2024 1:25

Bez Podezdívky

Opravdu šlo o podtlak? Nebyl to spíš naopak přetlak, když se tam během chvilky vychrlily spousty hasicího plynu?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 1. 2024 18:33

bez prezdivky ...

"Opravdu šlo o podtlak? Ne"

Tak jako tak si nedovedu predstavit, jak bys vygenerovat takovy rozdil tlaku, aby si toho cokoli vubec vsimlo. Na to bys totiz musel mit velice tezka vrata na vstupech, hermiticke uzavery, a predevsim velice vykone kompresory. Rozhodne na to nestaci vypusteni plynu ... plynove haseni je navic vylozene navrzeno tak, aby nic neposkodilo.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 1. 2024 9:13

Uncaught ReferenceError:

ne, šlo o podtlak.

Před vpuštěním plynu (myslím, že tam mají argonit) se vypne klimatizace. Nejprve se vypnulo nasávání na vstupu a vhánění vzduchu a až posléze se vypíná odsávání. Tady nejspíš nastal problém, časová prodleva byla asi příliš velká a klimatizace vytvořila podtlak ještě dříve než se tam začal vhánět plyn. Pokud necháš zapnutou klimatizaci a vženeš tam hasící plyn, klimatizace ti ho zase velice rychle odventiluje.

Problém je, že hodně těch věcí se "testuje" pouze teoreticky, ty nové HDD jsou očividně dost náchylné na vnější tlak, to dřív nebývalo, provozovali jsme dříve HDD vyloženě v podtlaku (to byla velikost ještě v stovkách MB). Nebo kdo kdy v DC testoval end-to-end celý proces řešení požárů? Vidím, že se zkouší agregátory, zkouší se jednotlivé části samostatně, ale že by někdo udělal tenhle proces se zapnutými servery v provozu? To jsem ještě nikdy nezažil, vždy ty testy jsou určitým způsobem umělé a zpřizpůsobené, tady nám během okamžiku lehlo několik stovek serverů, přitom DC TIER 3 (teda marketingově 3.5).

Věnuji se primárně tomu, co se v DC provozuje a nikoliv samotným DC, neznám přesně veškeré detaily.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 1. 2024 11:30

Dan Ohnesorg

Ono je to cele jeste trochu slozitejsi, ten plyn je v tlakovych nadobach = hodne stlaceny. Takze kdyz ho vypustite do datacentra, tak dojde k jeho expanzi a tim prudkemu ochlazeni celeho prostoru a tim zase zpetne k poklesu tlaku, protoze logicky chladnejsi plyn ma pri stejnem objemu mistnosti nizsi tlak. Takze tam dochazi k razovym vlnam. Pripadne muze dojit dokonce k namraze.

Navic ty disky typicky odchazely kvuli vibracim, proto se datacentra predelavala na tzv. tiche trysky. Protoze ty klasicke pro prumysl maji ostre hrany a ten plyn pri tak vysokem tlaku generuje obrovsky hluk na nizkych frekvencich a dokaze rozvibrovat cele racky a hlavicky pak narazi do ploten. I to uvidite v nabidkach, kdyz se datacentrum chce pochvalit, ze uz pro haseni maji tiche trysky.

Ten plyn musi byt vyfouknut behem 10s aby ucinkoval, takze se v trubkach uz pohybuje nadzvukuvou rychlosti.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 1. 2024 13:19

Uncaught ReferenceError:

pokles tlaku kvůli ochlazení je také jedna z hypotéz, kterou tam kluci řeší, ale je to daleko, nemám tam přímý přístup a řeším jen provoz toho HW v pronajatém DC a nikoliv DC samotné.

Tiché trysky snad mají dneska už všude, bez toho to je taková malé zemětřesení.

Ano, těch vysokotlakých lahví tam je celý sklad, jedna dávka výjde asi na 100k EUR a celé se to plynem naplňuje hodně rychle. Ano, tlak se mohl měnit ve vlnách, máme informaci pouze s jednoho barometru a nikoliv nějakou tlakovou mapu v jednotlivých uličkách.

Informace o vypadnutí disků kvůli podtlaku mám od lokálních adminů, kteří servery fyzicky obcházeli a řešili.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 1. 2024 18:22

Filip Jirsák

Nebo kdo kdy v DC testoval end-to-end celý proces řešení požárů?
Před dvěma roky to testovalo OVH ;-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 1. 2024 20:05

Uncaught ReferenceError:

jen škoda, že nám zapomněli dát o tom plánovaném testu dopředu vědět, člověk se takhle skoro lekl, že přišel o data... :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 1. 2024 22:52

Filip Jirsák

Kdyby vám dali vědět dopředu, mohl byste se připravit a nebyl by to dostatečně věrohodný test :-) Ale pokud vím, ještě pořád nikdo nedělá monkey testing na datová centra, že by každý týden zkusili něco náhodně v datacentru podpálit a sledovali by, co se stane…
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 1. 2024 14:37

Lemrouch

Kdezto v Google cloudu jsou data v suchu a bezpeci. Oh wait..
https://www.datacenterdynamics.com/en/news/water-leak-at-paris-global-switch-data-center-causes-fire-leads-to-outages-at-google/
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 12:56

Trident

Jo jasne. Mam zkusenosti ze vyvojari obvykle nerozumi moc sitim a ani tomu jak vystavit vyssi funkcni prvky proti nespolehlivosti infrastruktury. Naproti tomu docela dobre se vedou embedaci a neni treba je az tolik usmernovat. Idealni je proste mezoborova spoluprace s asistenci architektu.

Infrastrukturu postavenou developery jsem takhle do funkcniho udrzovatelne stavu dostaval po kouskach 5 let. Nejhorsi jsou ty diskuse kdy devel si mysli ze si zvoli treba libovolnou ip adresu v libovolne siti a UDP paket vzdy musi pres internet dojit. Idealne do par ms. Nebo ze bude admin na deployment studovat zdrojak aby vedel kde co nastavit. Pripadne ze prenaset data nesifrovane je preci normalni :-/
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 13:51

bez prezdivky ...

A presne toto je nesmysl, ktery vyvraci prave mimo jine tenhle clanecek.

HW zadnou spravu nepotrebuje, tech clovekohodin je naproste minimum a mozna kdyz je toho HW za 600k dolaru, tak to stoji za hovor, ale to uz je opravdu velka hromada HW.

Ten HW musi nekdo nainstalovat a zprovoznit. To je vse. Kdyz strelim ze za 600k to bude rekneme 60ks zeleza, tak to obnasi mozna sakumprask 200 clovekohodin prace. Jednou za 5 let. Radove vic casu bude trvat na tom zprovoznit SW. A ten se musi zprovoznit a udrzovat i na tom cmoudu ze?

"na SW staci vyvojari."
Jiste, a pak to vypada tak, ze vsichni vsude maji roota, a pod rootem i vsechno bezi. Videl sem, a ne jednou.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 21:50

Ditys

Slušný server (zde Dell) by mohl fungovat i 5 let nonstop. Pokud jsou pro provoz slušné podmínky (teplota, vlhkost, napájení, prašnost), pak se vlastně jedná o ideální podmínky pro provozování daného železa. Když DC zajistí tyto podmínky + slušnou konektivitu, je to prakticky ideální stav pro HW.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2024 21:55

Pavel Tavoda

5? Mame tu 12 rocne servre. Uz ich odpajame koli tomu ze zeru vela elektriny. Ked sa server 1-2 roky nepokazi uz sa na nom nema co pokazit.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 1. 2024 10:59

bez prezdivky ...

Dell uz bydefault dava 7 let, a nejspis to i o 2-3 roky prodlouzi, takze 10. Ale v realu, pokud se nebudem bavit o supportu ... mam u nekterych zakazniku stroje co jedou 15+. Umim je snadno nahradit pokud by umrely, ale neni k tomu duvod, typicky na nich neni nic kritickyho a kdyz to funguje ...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Odpovědi na nejčastější dotazy k našemu odchodu z předraženého cloudu od Josef Marianek - Jde taky o to na co mate lidi,...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Příspěvek na produkty spoření na stáří a daň z příjmů

Statistiky o ransomware, které jste asi neznali nebo si neuvědomili

Daňové přiznání 2026: Termíny, novinky a změny

Začínající podnikatel: Základní pojmy z účetnictví

Malware, ransomware a další online hrozby: Jak se liší?

MeshCore je bezdrátová síť nejen pro mimořádné události

OSVČ senioři letos v přehledech uplatní slevu na pojistném

Výjimka z EET je nejmenším OSVČ k ničemu, hodí se ale podvodníkům

Počet nových pracovních míst prudce klesá

Desítky rozšíření pro Chrome kradou uživatelská data

Zahrávají si ČEZ či E.ON s čínským ohněm?

Agentické nakupování mění pravidla e-commerce

Nový model OpenAI kóduje 15krát rychleji než jeho předchůdce

Proč mají vysavače mikrofony? Omylem ovládl tisíce vysavačů DJI

Deset kroků pro maximální zabezpečení Google účtu

AI prolomila celou firemní infrastrukturu za 21 hodin

Z evropského koláče chytrých telefonů ukusují Apple a Honor

Stát dá svobodu důchodcům, které držel ve III. pilíři

České firmy pod náletem kyberútoků. Počet vzrostl o pětinu

AI jako soudce – zákon na prvním místě