Problém spočíva v tom, že toto nebolo zlyhanie hardvéru v jednej zóne (AZ), ale zlyhanie nízkoúrovňovej služby na úrovni celého regiónu US-EAST-1.
Príčina: AWS hlási problém s DNS rozlíšením pre kľúčovú databázu DynamoDB v celom US-EAST-1. DNS je ako telefónny zoznam internetu – ak sa adresa nepreloží, služby sa nemôžu navzájom nájsť, aj keď sú v rôznych, inak funkčných AZs.
Kaskádový Efekt (SPoF): DynamoDB je základ, na ktorom beží obrovské množstvo iných služieb AWS (napr. IAM pre overovanie, CloudTrail). Zlyhanie DNS na regionálnej úrovni v jednom kritickom bode okamžite spustilo kaskádu zlyhaní naprieč celým regiónom.
Globálna Závislosť: US-EAST-1 je historicky prvý a "domovský" región. Riadiace roviny (control planes) pre niektoré globálne služby AWS sú stále naň naviazané, a preto výpadok pocítili aj klienti mimo USA.
Záverečné ponaučenie (najmä pre firmy): Redundancia v rámci jedného regiónu (cez AZs) je dobrá, ale nechráni pred zlyhaním celej riadiacej roviny regiónu. Skutočná odolnosť vyžaduje architektúru naprieč viacerými geografickými regiónmi.
Ano, kvůli DNS jim selhala služba DynamoDB, kvůli tomu byl pak problém mimo jiné s vytvářením EC2 instancí, a kvůli problémům v interní EC2 síti mají teď problémy se síťovou konektivitou. Což zase ovlivňuje mimo jiné i DynamoDB.
Jsem zvědav na post mortem, jestli ho vydají, protože tentokrát to nevypadá na úplné selhání jedné služby, ale spíš že se to kaskádově přelévá z jedné služby na jinou, podle toho, jak jsou na sobě služby závislé.
A bude z toho pokuta pro ně? Nebo jak je známo tak korporátu se nic nestane, protože ugh ugh mně neznámej autismus v špatném slova smyslu, ale kdyby to byla malá firma, tak ji dáme takovou pokutu, že může okamžitě zavřít?
Kde je Evropská unie a všechny úřady? Nikde, ale budeme jebat Apple za USB-C... achjo...
No tak jasne, pokud vlivem chyby v DNS selhaly nejake automaticke deploymenty, ktere se tam za ty tri hodiny nepochybne nahromadily, tak to pak logicky ucpalo trubky :-) To uz je spis jen dusledek. Aneb tezko rict, kolik tech EC2 "jen" spachalo sebevrazdu... protoze kill/redeploy je velmi caste reseni v pripade problemu. Coz je samozrejme na jednu stranu krasny sluha... co ale nekdy muze byt zly pan.
Vidis ... a pritom to ma zcela primitivni reseni. Pouzivat vice (ruznych) dns serveru ze? To treba takhle pred par lety soudruzi v MS patchli widle ... a DNSka prestala prakticky fungovat. Ja si to precet az na webu ... protoze ve vsech infrastrukturach mam i tuxi dns. Teprve pak sem se sel podivat ... a ono to fakt failovalo, ale ty tuxi stroje prekladaly.
Zazracna technologie za miliardy dolaru.