Bych se skoro i hádal, protože těch různých vláken o reportování ECC chyb je i z dřívějška hodně. Nicméně se to může týkat DDR5 "frikulínská - On-Die - taky jako ECC" na šajzemodulech do počítačů, které mají ECC jen na úrovni čipu, ale nechrání data na sběrnici, takže tam si chyby vesele mohou blbnout ...a hromada nemá ani to... nebo těžko říct. Taky jsem nic moc super nevygooglovoal.
On-Die ECC je lepší než nic, jistě, ale dal bych přednost ochraně dat po celou dobu přenosu, včetně problémů co se objeví na sběrnici.
8. 1. 2024, 15:52 editováno autorem komentáře
No ale nefungovalo to, alespoň ne v memtest86+. V memtest86 ano (má i free verzi, ale není open source).
Viz:
https://github.com/memtest86plus/memtest86plus/discussions/92
Ono to je pořád nejasné.
Jednak, není memtest jako memtest (Grrr) a dále, ECC chyba může vzniknout na úrovni modulu a opraví se na úrovni registru. Tj. i občas vadný modul se pak jeví jako OK, protože ty chyby neprobublají ven. No a pak může chyba vzniknout na úrovni přenosu po sběrnici, nebo to je chyba, kterou interní mechanismy už nedokáží opravit a tak probublá i přes to ECC. Já si "myslím" (myslet = hooo vědět), že minimálně některé chyby ten memtest dokáže označit jako chyby ECC. Každopádně by bylo milé, kdyby to detekovalo chyby až už vzniknou kdekoliv.
Trochu normalni HW ti chyby ECC indikuje (z tech modulu) a memtest na to nepotrebujes. Normalne najdes v logu ze byla detekovana opravitelna chyba. Ta informace je totiz pomerne zasadni, protoze ti typicky zacne chybovat konkretni modul, tak abys vedel, ktery vymenit.
Samozrejme existuji desky, ktery chyby ECC fejkujou, pri nejakym obsazeni modulama. Pamatuju trebas R900 od dellu, kdyz to melo plny sloty ramek.
Ba co hůř, u desktopových Ryzenů často ani není jasné, jestli ECC běží nebo ne.
Záleží na tom, jestli je aktualizovaný BIOS resp. natažená nejnovější Agesa.
Jako...vůbec bych se nezlobil, kdyby to v BIOS měly všechny desky jednak ON/OFF a jednak i nějakou verifikaci.
Jako Intel je samozřejmě fujky, bez debat.
Nicméně AMD to má sice funkční, ale o nějakém komfortu nebo dotaženosti v desktopu nemůže být řeč.
No vím. Jde najít nějaké desky, které se tváří, že ECC podporují. U některých ta podpora vypadá tak, že ignorují bity navíc a RAM funguje jako non-ECC. U některých lze dohledat, že prý to ECC skutečně mají, u některých to tak vypadá i z nastavení BIOSu, ale reálně to ověřit není tak snadné, v domácích podmínkách až nemožné. Našel jsem radu snížit napětí RAM, aby začala generovat chyby, a podívat se, že jsou skutečně reportovány – to se ale dělá blbě, když mi procesor ty chyby nereportuje…
Pokud nejsou chyby/opravy reportovány a jen tiše dojde k opravě, tak je to funkce celkem k ničemu, protože se nedá na ni spolehnout.
Experimentálně by se to dalo zjistit, pokud to lze, přetaktováním a snížením napětí, a k tomu pustit nějaký test náročný na práci s pamětí. A pak už jen čekat na chybu. Případně jsem ještě někde viděl radu zkusit paměti zahřát, čímž se pravděpodobnost vzniku chyby spolu s přetaktováním a snížením napětí zvýší (pochopitelně s rozumem, žádné opalování letlampou).
Mám vyzkoušeno, že to s AMD+desky ASUS 370/470/570 poměrně spolehlivě funguje a to dokonce i když není v BIOSu volba ECC. (Ta jedna Agesa to zapla defaultně.) Ale představoval bych si, místo dementních blikátek, mít v BIOS tabulku o stavu paměti a počtu oprav od posledního zapnutí.
Prostě jak říkáš.
Další oříšek pro mě jsou serverové paměti, protože většina mých strojů začíná na 512 GB RAM a do teď jsem žil ve lži, že to Memtest spolehlivě odhalí.
Coz je ti tak nejak k prdu, protoze prave logovani ECC chyb je indikace k vymene modulu. A kdyz zadny log nemas, tak nevis, ze ti modul umira, dokud neumre a pak uz je ti nejake ECC k prdu.
Nemluve o tom, ze zadny normalni HW v tebou zminovanym stavu nenastartuje. Proste ti nareportuje vadnej pametovej modul a nazdar.