Společnost Cloudflare vydala první analýzu ke včerejšímu velkému výpadku, který postihl řadu velkých služeb po celém světě. Na začátku zdůrazňuje, že nešlo o důsledek kybernetického útoku ani jiného zákeřného chování. Problémy byl způsoben změnou oprávnění v jednom z našich databázových systémů, která vedla k tomu, že databáze vygenerovala více záznamů do konfiguračního souboru používaného naším systémem pro správu botů,
píše se ve zprávě.
Tato změna vedla ke zdvojnásobení zmíněného souboru. Soubor, který byl větší, než se očekávalo, byl poté distribuován do všech počítačů, které tvoří síť služeb Cloudflare. Obsah tohoto souboru se používá ke správě uzlů v síti, ale obslužný software nepočítal s takto velkým souborem a selhal.
Soubor se generuje každých pět minut a jen v případě, že došlo k nějaké změně v rozložení sítě. Problém se navíc komplikoval tím, že některé části clusteru generovaly správnou velikost souboru a jiné špatnou. Síť se tak chovala velmi nestabilně, protože se průběžně šířily vadné i správné verze souboru, které se na serverech přetahovaly. Tato fluktuace způsobila, že nebylo jasné, co se děje, protože celý systém se zotavil a pak znovu selhal, protože do naší sítě byly distribuovány někdy dobré, někdy špatné konfigurační soubory.
Zpočátku to správce vedlo k domněnce, že by takový problém mohl být způsoben rozsáhlým DDoS útokem. Nakonec každý uzel generoval špatný konfigurační soubor a fluktuace se stabilizovala ve stavu selhání.
Následně se správcům podařilo odhalit skutečný zdroj problémů a vrátit do sítě předchozí verzi konfiguračního souboru. Problém jsme vyřešili zastavením generování a šíření chybného souboru a ručním vložením známé správné verze do fronty k distribuci na servery. Poté jsme vynutili restart našeho hlavního proxy serveru.
Poté trvalo ještě asi tři hodiny, než se podařilo vše dostat do původního stavu, protože síť byla zahlcena běžným provozem, jak uživatelé zapínali všechny funkce. V následujících několika hodinách jsme pracovali na zmírnění zvýšeného zatížení různých částí naší sítě, když se provoz vrátil zpět online,
vysvětlují správci.