DNS byla jen prvni (kratsi, asi tri hodinova) vlna problemu. Pak nasledovaly dalsi dve, co incident natahly v souctu asi na patnact hodin - a ty byly fatalnejsi. Nejdriv DropletWorkflow Manager starajici se o "pronajmy" pro EC2 umlatil DynamoDB pozadavkama a kdyz se vyhrabali z tohoto, tak si umlatili prozmenu Network Manager starajici se o sitovani EC2 a balancery jako dusledek vyhazovaly instance, ktere kvuli tomu nebyly jeste dostupne. Aneb typicky to cele dopadalo na EC2 s jepicim zivotem.
Realne to ukazalo, ze AWS to nema moc nachystane na nejake disaster-recovery. Automatizace pocitala s beznym cvrkotem, ne s tim ze se to muze vysypat cele.
Snapshot Debugger (open-source nástroje).gcloud (Google Cloud CLI).Google Cloud je na tom lepe, ale AWS ted nepadlo "cele".
Padl jenom region us-east-1, ktere je default v menu, bezi v nem nektere single-homed interni AWS sluzby a AWS tam deployuje jako prvni. A je tam pulka internetu single-homed, takze manazment a zakaznici lepe chapou, kdyz mate vypadek jako vsichni 18h, nez kdyz mate hodinove spomaleni kvuli vypadku availability zony us-east-2a, o kterem nevi nikdo.
I v Googlu treba multiregion, kdyz chcete 5 devitek.