Před týdnem měl AWS masivní výpadek kolem uzlu US‑EAST‑1 v Severní Virgínii. Ten trval přes 15 hodin a postihl mnoho celosvětových služeb jako Snapchat, Roblox, AWS a další. Amazon zveřejnil detailní post-mortem analýzu výpadku.
Problém se vyskytl v systému správy DNS DynamoDB. Šlo o chyby souběhu mezi dvěma procesy DNS Enactor (schvalovač) a DNS Planner (plánovač). Při výpadku se stalo, že Enactor měl velké prodlevy, zatímco Planner dál vytvářel nové plány, které následně spustily další Enactor. Ten smazal staré plány a DNS bylo prázdné. Nakonec byl nutný ruční zásah, který přišel hodinu a půl po incidentu, ale to již následoval domino efekt kvůli vyrovnávačům zátěže. Problému také neprospělo to, že US‑EAST‑1 je jedním z nejstarších uzlů Amazonu a je s ním svázáno velké množství služeb z jiných regionů. Amazon dočasně vypnul Planner a Enactor a prozkoumá chybu souběhu, než je opět nasadí.
(zdroj: bleepingcomputer, arstechnica)