Hlavní navigace

Spolehlivost SSD v praxi: stáří je důležitější než značka

2. 3. 2016
Doba čtení: 2 minuty

Sdílet

Google zveřejnil informace z výzkumu miliónů SSD, které na svých serverech používal. Spolehlivost se mezi značkami neliší a nevylepšuje ji ani oslavovaná technologie SLC. Problém značí chybné bloky z výroby.

Testovat spolehlivost úložných zařízení není snadné, potřebujete totiž velký statistický vzorek. Tento problém odpadá u Googlu, který za posledních šest let sledoval životnost několika miliónů serverových SSD a rozhodl se data zanalyzovat a podělit se o výsledky. Podrobnosti jsou k dispozici ve zprávě Flash Reliability in Production: The Expected and the Unexpected, v článku si shrneme to nejzajímavější.

Byly použity SSD od čtyř různých nejmenovaných výrobců a data říkají, že jejich spolehlivost se prakticky neliší. To na druhou stranu může být dáno i tím, že se používají už prověřené značky. Co je ještě zajímavější, rozdíl není ani mezi MLC (2 bity na buňku) a SLC (1 bit) paměťmi, přestože druhé jmenované jsou dražší a často propagované jako spolehlivější.

Zajímavé je také to, že na spolehlivost je ovlivněna nejen opotřebením, ale i samotným stářím disku nezávisle na skutečném opotřebení. Obecně lze říct, že přestože jsou SSD méně chybové než klasické plotnové disky, chyby u SSD bývají závažnější a častěji způsobují problémy samotnému uživateli – ztrátu dat atp.

20–63 % disků se během prvních čtyř let v provozu setká alespoň s jednou neopravitelnou chybou, což z těchto chyb dělá nejběžnější netransparentní chyby v těchto discích. Tyto chyby ovlivňují 2–6 z 1000 pracovních dnů disku. S opravitelnými chybami se pak disky setkávají prakticky denně. 

Lze tedy chybovost nějak rozumně predikovat? Standardní ukazatel RBER (raw bit error rate) je nevhodný, protože jeho vyšší hodnota se v realitě neprojevuje vyšším počtem neopravitelných chyb v budoucnu. A o ty nám jde zejména. Také neexistuje vztah mezi velikostí UBER (uncorrectable bit error rate) a počtem čtení, takže tento ukazatel také nelze vhodně použít pro predikci.

Oba ukazatele se zvyšují s počtem cyklů zápisu, ale závislost je lineární. Míra růstu hodnoty ukazatelů se nijak zvlášť nemění ani poté, co disk přesáhne počet cyklů zápisu udávaný výrobcem. V tomto ohledu jsou tedy SSD disky poměrně předvidatelné. S exponenciálním či jinak prudkým nárůstem chyb v souvislosti s opotřebením se nesetkáváme.

CS24_early

Disky mají buď jen pár, nebo hodně chybných bloků. To naznačuje, že blížící se selhání čipu může být predikováno podle dosavadního počtu chybných bloků (a možná i dalších faktorů). Disky s větším množstvím chybných bloků z výroby pak mají větší šanci, že se v nich při provozu objeví větší množství chybných bloků a další chyby, zní asi to nejdůležitější.

Podobně velký výzkum z oblasti pevných disků asi neexistuje, ale slušný náhled poskytují statistiky společnosti Backblaze. Ty např. ukazují, že zdaleka nejvíc problémů mají disky značky Seagate. Chybovost těchto disků nakonec vyústila i v žalobu, která Seagate viní za neschopnost dodat bezproblémové disky.

Byl pro vás článek přínosný?

Autor článku

Bývalý redaktor serveru Root.cz, dnes produktový manažer a konzultant se zaměřením na Bitcoin a kryptoměny.