Vlákno názorů k článku
Windows 11 rozbíjejí SSD, nebo je to jinak? od comodoro - Stalo se mi to několikrát taky a taky...

  • Článek je starý, nové názory již nelze přidávat.
  • 31. 8. 2025 9:07

    comodoro

    Stalo se mi to několikrát taky a taky jsem dospěl k závěru, že je to přehříváním. Je to SSD M.2 WD Black a stávalo se to při kopírování velkého množství (~1M) souborů na jdden zátah. Už to nedělám: - )

    Někdy ve správci souborů prostě přestali být viditelné nebo přístupné některé adresáře, někdy celý disk. Po restartu se zase objevil, nicméně k nějakému poškození tam asi došlo, mám tam soubor, po jehož načtení disk spolehlivě zmizí, zase až do restartu. Od té doby zálohuju a trnu, kdy disk selže, ale zatím několik měsíců bez problému. Ve SMART není nic neobvyklého, všechno se tváří OK. Přiznám se, že spojovat to s Windows mě až doteď nenapadlo.

  • 31. 8. 2025 14:57

    Michal Šmucr
    Bronzový podporovatel

    Nezávisle na systému, tohle málokdy probíhá úplně tiše a bez jakékoliv chybové hlášky.
    Ve Windows konkrétně jsou v event logu zdroje jako např..
    disk, storport, stornvme (resp. storahci u SATA), tam to chce sledovat chyby I/O operací, opakování, pokusy o reset sběrnic, když vyprší timeout atp.
    Nad tím je zas filesystém, takže zdroj ntfs.. tam by byly případně vyloženě chyby (číslo. 55) při načítání po nějaké nedokončené operaci, případně by si to před pádem mohlo stěžovat na to, že nemůže zapsat žurnál.
    Finálně u NVMe disků, které jsou přímo na PCIe, stojí za to koukat i po zdroji WHEA-Logger, který pak může produkovat eventy při chybách přenosu na sběrnici.

    Ale jak jste říkal, tak teplota může být často problém, krom toho, že se dá při nějaké větší zátěži logovat, tak když se to začne blížit k nějakému limitu, tak to také koreluje s delší dobou odezvy až to případně začne vypadávat úplně a třeba se resetovat. Spousta SSD začne zjednodušeně řečeno throttlovat velice podobně jako např. CPU.
    Ta informace o maximální délce odezev (Read, Write, Flush) od startu systému je pak dostupná buď přes perfmon nebo třeba v PowerShellu.
    Takhle to třeba spojíte s daty ze SMART atributů, resp. NVMe namespace.

    Get-PhysicalDisk | Get-StorageReliabilityCounter | Ft DeviceId, Wear, Temperature, ReadErrorsTotal, WriteErrorsTotal, MediaErrorsTotal, PowerOnHours, PercentageUsed, *LatencyMax -Auto

    Čísla disků se dají dekódovat, když pustíte jen samotný Get-PhysicalDisk.
    Ale perfmon je asi lepší pro sledování v čase, byť i tady si můžete taky udělat smyčku a přes Export-CSV appendovat např. do souboru na jiném disku.

    Jinak dodatečný chladič, pokud trochu proudí vzduch ve skříni, nemusí být úplně marný.
    Také jsem viděl SSD (nějaký šílený Lexar), kde pomohlo srazit rychlost z PCIe 4 na 3 (deska to uměla z BIOSu per slot). Zmizely CRC chyby a výrazně se snížila teplota..

    Obecně vzato, já bych s tím, že to sem tam nezapíše data (ať už z jakéhokoliv důvodu), asi úplně nedokázal fungovat.. Zkusil bych si udělat zálohu, nebo třeba bitovou kopii disku někam vedle, pak bych udělal secure erase (třeba z nějaké utility od výrobce), abych měl výchozí stav. A pak to zkoušel šikanovat (třeba s větším množství náhodných zápisů přes fio, diskspd, CrystalDisk), dokud případně nedojde k chybě.. a při tom to monitoroval, upravoval chlazení, nastavení atp. Jinak ty SanDisk/WD Blacky by měly mít 5 let záruku, jestli se nepletu.

  • 31. 8. 2025 15:05

    RDa

    A jak ulozi windows ten event log, kdyz mu umre systemovej disk? Tohle je pouzitelne jen pokud mate na OS dedikovany jiny disk, a vady nastavaji na mediu dedikovanem pro data.

  • 31. 8. 2025 15:36

    Michal Šmucr
    Bronzový podporovatel

    Ahoj. Ne nutně, trochu záleží na situaci a konkrétním problému, ale pokud to nesletí hned do bluescreenu, tak je tam krátký buffer v paměti v kterém by těch pár posledních eventů mohlo být vidět (bude to samozřejmě blít spousty chyb okolo tím, že nebude moc sáhnout po těch souborech).
    Navíc pokud se na to zaměříš a budeš třeba zkoušet reprodukovat chybu, tak se ty logy nechají přesměrovat do jiného umístění (to může být kdekoliv, klidně na flešce).
    Mrkni na příkaz: wevtutil
    Např. wevutil sl System /lfn:"E:\System­.evtx"
    nebo jednotlivý kanál:
    wevtutil sl "Microsoft-Windows-Storage-ClassPnP/Opera­tional" /lfn:"E:\Storage-ClassPnP.evtx"
    Pak restartuješ službu EventLog nebo celý systém.
    Dělal jsem to třeba na nějakém video serveru, který měl chytře mrňavý eMMC disk na systém i aplikace a pak velké pole na data, kam jsem pak musel nastavit i ty logy.
    Nakonec to jde posílat i na jiný Windows počítač po síti..
    To se zas nastavuje přes wecutil na straně, co přijímá. Dělal jsem to jednou a jel jsem jen podle kompletního návodu, už si to nepamatuju přesně.

    Ale tady podle předchozího postu, kdy psal o náhodném mizení souborů ve složce a následném restartu, mi úplně nevyplývalo, že by to en-bloc nemohlo od toho momentu vůbec zapisovat na disk.

    31. 8. 2025, 15:37 editováno autorem komentáře

  • 31. 8. 2025 17:21

    RDa

    Dik, tohle je nezname teritorium pro me. Spis me napadlo pouzit sitovej remote kernel debugger, to bylo celkem upovidany co se tyce ruznych eventu (plus pri padu se do toho dalo sahnout a dohledat struktury).

  • 31. 8. 2025 21:26

    Michal Šmucr
    Bronzový podporovatel

    Remote kernel debugger je samozřejmě taky další možnost, akorát v tomhle případě bych řekl, že by to byl trochu kanón na vrabce.. a pokud třeba neladíš nějaký specifický ovladač (tady bude nejspíš standardní stornvme.sys) nebo hodně záludnou chybu, kdy například chceš opravu jít až k jednotlivým requestům (IRP), tak to ukládání standardních eventů, včetně těch nekritckých (operational) na druhý disk nebo forwarding na jiný počítač, může být užitečnější.
    Případně pokud je potřeba dohledat, jestli chyby nastávají jen při nějakých specifických situacích nebo workloadech, tak je k tomu užitečný i třeba Windows Performance Toolkit (wpr, wpa) a tracing do .etl souborů, abys třeba odhalil, co se děje okolo (procesy, DPC fronta, sleepy, detaily o IO requestech). Sondy pro tracing samozřejmě něco sežerou samy o sobě, ale zas it to poskytne možnost zobrazit v čase jako timeline, dát dohromady s eventy atp.

  • 31. 8. 2025 23:16

    Lael Ophir

    Dobře napsáno. Jen bych doplnil, že NVMe SSD by měly ve SMART logu by měly být i události překročení warning a critical temperature, s informací o teplotě na jednotlivých senzorech. Pokud SMART čtete pomocí nějaké utility, tak je potřeba ji spustit v admin módu, jinak nejspíš nepřečte vůbec nic.

    Další možností je slíznout čas od času informaci o teplotě SSD a uložit do logu, třeba přes Get-StorageReliabi­lityCounter, counters Temperature a TemperatureMax. Pokud je v logu vidět postupný nárůst teploty SSD, a pak už nic :), tak asi máte příčinu.

  • 1. 9. 2025 7:43

    Vyšklebená tlama

    Což božuhell v reálu nikdo neudělá, protože na to nemá čas, prasil by si svoje vlastní SSDčko, a ve výsledku by do toho jen v propáleným čase nasypal tak 30 tisíc který mu nikdo nezaplatí.