Vlákno názorů k článku Buďte S.M.A.R.T. a hlídejte si disky od KapitanRUM - Článek je pro začátečníky velmi dobrý, ale pro...

  • Článek je starý, nové názory již nelze přidávat.
  • 28. 6. 2013 11:30

    KapitanRUM (neregistrovaný)

    Článek je pro začátečníky velmi dobrý, ale pro všech ~10 pokročilejších čtenářů by bylo pěkné (třeba v dalším díle) uvést to, jak se tyto hodnoty mají "vyložit", já to třeba vím, ale myslím, že tu jsou ještě tak další 2-3 lidé, kteří to ví také, ostatní na ty čísla koukají jako na hozené runy a odhadují z toho výsledek. Kupodivu SMART je do jisté míry blbuvzdorný, proto prudký nárůst podezřelých atributů často znamená problém.

  • 28. 6. 2013 11:51

    j (neregistrovaný)

    Viz vejs, jak pise Nasir - co znamenaji ty cisla je stejne nanic (protoze si to stejne kazdej vyrobce vyklada trochu jinak ... dokonce klido i model od modelu). Dulezity je sledovat zmeny => kdyz dojde nejaky razntni zmene = je treba zjistit, co se deje, protoze to muze(a nemusi) znamenat problem.

  • 28. 6. 2013 13:09

    KapitanRUM (neregistrovaný)

    Ano, je to tak, hodnoty SMART jsou obvykle stejné pro řady disků, tedy není to tak tragické, ale už jsem si všiml, že jistý výrobce změnil výstup spolu se změnou firmware disku.

    Ale, pokud chci sledovat důležitý disk, měl bych věnovat svůj čas tomu, abych věděl, co se tam děje.

    Například smartctl "vykládá" jednotlivé atributy taky po svém.
    Pokud výstup jednoho atributu obsahuje číslo 8-bitů a číslo 24-bitů (typicky pro 16-ti bitová a 32-bitová data) - tak to kóduje výrobce a smartctl to vezme jako jedno číslo dlouhé 32 bitů (což by to být dejme tomu mělo), je to samozřejmě blbost. Je potřeba se podívat na hodnotu RAW a "ručně" si to rozdělit. To se dá dočíst nejlépe v příslušném datasheetu.

    Některé chyby mohou poukazovat například na chybný kabel, lidé mají pocit, že když jsou kabely SATA, že problémy už skončily, není tomu tak. Jiné hodnoty poukazují na vadný napájecí konektor, tedy za určitých podmínek.

    Pokud do systému přidávám další disk, měl bych si zaznamenat počet startů disků. Pokud na jednom disku narůstají starty například o 1/3 rychleji, je buď vadný kabel, nebo disk má problém. (Při podobném nastavení AAM.)

    Ale jsou tu spousty a spousty chyb, tedy není takový problém data přečíst, ale umět je interpretovat, na což by se hodil článek, byť pochybuji, že by se tu našlo dost lidí, kteří by to ocenili.

  • 28. 6. 2013 13:14

    KapitanRUM (neregistrovaný)

    Kódování dvou výstupů do jedné hodnoty atributu není nijak zvláštní.
    Není to tak dlouho, ještě když jsem tu chodil na fórum, se tu někdo ptal, že mu na smartu prudce narůstají hodnoty jednoho atributu. Několik "chytrolínů" mu poradilo, že disk je v háji, ať ho zahodí.

    Pokud mám 32 bitové číslo a prvních 8 bitů je pro jeden typ chyby a zbylých 24 pro druhý typ chyby, tak po přečtení "jednoho" 32 bitového čísla to vypadá, že se tento atribut mění naprosto dramaticky. Ono zvýšení o 1 v horních 8 bitech z 32-bitového čísla vždy vypadá dramaticky.

    No to je jedno....

  • 28. 6. 2013 13:18

    KapitanRUM (neregistrovaný)

    PS: Aby člověk věděl, jak má nějaká data interpretovat, musí je taky umět přečíst. Prakticky nejlepší možnost je získat data RAW v binárním formátu, a pracovat s tím podle datasheetu. Často opravdu stačí převod bin->dec, často, ne vždy.

  • 29. 6. 2013 21:02

    KapitanRUM (neregistrovaný)

    Udělal jsem si čas a znovu si přečetl studii Google:
    http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/cs//archive/disk_failures.pdf

    Řadě lidí zde doporučuji, aby si to znovu přečetli, až se naučí dobře anglicky.

    • Contrary to previously reported results, we found
    very little correlation between failure rates and either elevated temperature or activity levels.

    To je velmi zajímavé, obecně se uvádí, že se vzrůstající teplotou klesá životnost a vzrůstá poruchovost.

    • Some SMART parameters (scan errors, reallocation counts, offline reallocation counts, and probational counts) have a large impact on failure probability.

    Ano, to je samozřejmé, výše uvedené poruchy signalizují poškození povrchu disku.

    • Given the lack of occurrence of predictive SMART
    signals on a large fraction of failed drives, it is unlikely that an accurate predictive failure model can
    be built based on these signals alone.

    Ano, samozřemě, jen na základě těchto údajů nelze smrt disku předvídat, především se nedá předvídat "náhlé úmrtí", to SMART neumí a nikdy na to nebyl určený. SMART má předpovídat selhání motoru(roztáčení), což u Google asi netestuje a opotřebení povrchu, což Google testuje a odpovídá mu to.

    Pak tu jsou výsledky, první měsíc je obvyklé vyšší selhání, překvapivě to není vůbec dramatické, disky začínají odcházet po druhém roce provozu.
    V domácím prostředí to bude 1) prvních 6 měsíců, 3 roky klid, pak cca 10% šance, že disk tento rok chcípne.

    Tabulka teplotní korelace je také velmi pěkná.
    Obecně by to stálo za to celé to přeložit, aby si to mohli přečíst i ty méně chytří z nás.

  • 29. 6. 2013 0:59

    Trident (neregistrovaný)

    Chyby kabelu a radicu obvykle dobre odhali u SATA logy pokud se nebavime o SCSI.
    Pokud mam "dulezity disk", tak obvykle to mam s nejakym levelem redundance a tam nic jako dulezity disk neni neb tento je pouze logicky. Pokud mam "dulezity disk" tak i jako maly dodavatel vybiram disk ktery ma proverene hodnoty a mohu tyto globalne monitorovat zkrz x zakazniku. Je jasny ze mam-li na starosti 5 masin tak atributy znam z pameti a vim jak se systemy chovaji. Byvaly doby kdy jsem pozval vadny disk podle sluchu. To ale nelze aplikovat ve vetsim meritku.
    I u malych reseni je moznost vyrazne zvetsit spolehlivost pokud mam nakou vuli ovlivnit vyber disku. V pripade sw raidu je pomerne jednoduche zvolit ruzne disky od ruznych vyrobcu. Tedy neco kde proprietarni hw reseni selhavaji na nutnosti mit stejne disky (nekdy i teze serie).

    U velkych systemu kde tech "dulezitych disku" je hodne se vubec nestarate o nejake vadne serie nebo disky. Protoze by se z toho clovek zblaznil a musel by na to byt extra tym.
    Proste to menite ze skladovych zasob kdyz je "cervena" nebo to za vas dela dodavatel reseni.
    Takze jediny co cloveka zajima je co se deje pred polem. Je fakt ze kdyz se sejde serie, tak clovek si pripada jak na cviceni s Powerballem. Nasledny pojeb jde ale systemem volneho padu exkrementu od zakazniku pres dodavatele az na vyrobce disku

  • 29. 6. 2013 10:21

    Honza (neregistrovaný)

    Věřte že takový článek by ocenilo spoustu lidí. I těch co tu vipadají, že tomu docela rozumí

  • 29. 6. 2013 10:18

    Honza (neregistrovaný)

    Souhlasím a také bych ocenil nějaké pokračování