BTRFS používám na mnoha počítačích už mnoho let a asi 3x jsem v rozbitém FS přišel o data, přesto ho preferuji. Jakmile mi totiž FS zahlásí nějakou chybu, následuje důkladná kontrola HW (smartctl, memtest) a světe div se, vždycky tam chyba byla. Nejzáludnější jsou některé poruchy RAM pamětí, PC nemusí přitom padat a mrznout, vše funguje ale protože se nevyužitá paměť používá na disk cache, tak se v ní data zmrší a zapíší se "správně" do FS. BTRFS je první kdo to dík důkladným kontrolám zjistí, ostatní FS (Ext?, NTFS apod.) fungují a vůbec netuší, že mají rozbitá data, ale pokud se to nechà pár týdnů/měs. takhle běžet nevratně se jednou rozbijí také a to bez varování a nic už pak nezachráníte.
To je podle mně špatně. Je hezké že to zahlásí chybu hw, ale software by měl být fault tolerantní. Pokud tedy nejde o nějakou vědeckou workstation nebo superpočítač. Očekávat od průměrného uživatele, že si bude levně udržovat hw na 100% je pitomost. Např. já vím o problémových komponentách v mém pc, ale dokud fatálně neselžou tak je provozuju a očekávám, že sw se s tím vypořádá, minimálně do té doby, než provedu kompletní obměnu hw. Ale to se děje vždy po pár letech, do té doby to musí vydržet. Pokud ne, tak je to špatný sw a je lepší se mu vyhnout.
Je hezké že to zahlásí chybu hw, ale software by měl být fault tolerantní.
Do jisté míry.
Očekávat od průměrného uživatele, že si bude levně udržovat hw na 100% je pitomost. Např. já vím o problémových komponentách v mém pc, ale dokud fatálně neselžou tak je provozuju a očekávám, že sw se s tím vypořádá, minimálně do té doby, než provedu kompletní obměnu hw.
K tomu už fault tolerance neslouží. Slouží k tomu poskytnout bezpečí a přiměřený čas na nápravu stavu. Lze tedy akceptovat, že v takovém stavu software funguje omezeně a s nižší výkonem. Tím se obvykle kompenzuje riziko hlubšího poškození, kdyby se závada prohlubovala.
Každopádně provoz na chybujícím hardwaru už nelze považovat za provozní stav. Lze posuzovat, jestli filesystem vydrží nejčastější typy selhání (to lze i porovnat s konkurencí), ale nelze to a priori povýšit na standard.
Nejzaludnejsi jsou chyby radicu blokových zařízení.
Pokud nemáte ECC paměti a řádně monitorovany system - jako třeba sledování citacu chyb na cpu a sběrnici, tak se radši do uložení důležitých dat bez nějaké vyšší replikace nad více kusy low cost hw nepoustejte.
22. 7. 2020, 15:49 editováno autorem komentáře
Ano to jsem. Většina dobře fungujících věcích se v mých rukou rozbije. Na druhou stranu, už jsem takhle hlásil horlivě chyby na Apache CouchDB, až mně zablokovali přístup na issue tracker a jejich twitter.
On si z toho Apache udělal tech support a neopochopil, že tam nepíšu proto, že já potřebuju pomoc, ale že já chci pomoci jim. Samozřejmě že za drtivou většinu problému mohla nekompetence. Oni jsou přece dokonalí, chyby v produktu nemají, a nějaký Novák jim nebude říkat, že to je jinak. To nesedí do mediálního obrazu. Samozřejmě většina mnou nahlášených chyb je už opravena (tiše) a ten zbytek tam sice je dál, ale dají se workaroundnout.