Nějak si nechci představit rebuild pole po selhání disku, respektive není tak dlouho, co mi odešel na primáru 12TB HC530 (Areca 1883i) a naběl přepočet (2x hot-spare). Rozumím, že HW řadič s vlastní cache, bateriovou zálohou ... používají zejména dinosauři (T2/3) z důvodu spolehlivosti, na které se odlévají zálohy apod.
Mně před mnoha lety přivedl na Arecu Dan Lukeš, dodnes jsem mu za to vděčný, protože konečně jsem našel plně funkční a spolehlivé řešení pro FreeBSD.
Predstavovat si to nemusis, takovyhle disky se do poli vubec nedaji pouzit. Ukaz mi dodavatele, kterej ti doda do pole vetsi nez 4TB mechanickej disk. Disk ti da rekneme (velmi optimistickych) 250MB/s ... To mas rebuild na 4.5 hodiny. I to je pomerne silenej cas a rozhodne dost na to aby ti mezi tim posel dalsi disk.
Vynasob to 10x a ses zhruba na aktualne dostupnych kapacitach. 45 hodin ... 2 dny.
I kdyby ten hypotetickej 140TB disk dal rekneme 1GB/s (tzn 4x vic), tak ses na tydnu.
uz nejake desetileti jede rebuild konstantne do 24 hodin - jak se zvysuje kapacita, tak roste i sekvencni rychlost
Samozrejme nemuzete pole v rebuildu trapit dalsim provoznim zatizenim
Ukaz mi dodavatele, ktery umi trim na SSD v R5/R6 konfiguraci :D na nejake mirrory (R1/R10) s**e pes :D sebelepsi ssd ti v poli bude neskutecne trapeno (ale zas, pokud mate sifrovani, ktere k necemu ma slouzit, tak na trim se muze zapomenou taky).
jak se zvysuje kapacita, tak roste i sekvencni rychlost
Toto platilo dokud se kapacita navyšovala změnou hustoty zápisu a i tehdy se rychlost zvyšovala jen druhou odmocninou nárustu hustoty, tedy celý disk trvalo stále déle a déle přečíst.
Poslední cca desetiletí kdy se kapacita primárně navyšovala přidáním dalších ploten se nárůst rychlosti disků zastavil, respektive roste jen tou změnou hustoty zápisu a ta narůstá hodně pozvolně, zato další plotny se dařilo přidávat docela dobře.
Reálně cca 200 MB/s dávali disky už před cca 10 lety. A dnes jsme na cca 270 MB/s ? Myslím běžné disky s 7200 ot/min.
Ono už je to hodně dlouho kdy jsem četl hezkou hlášku: "Hard drives are new tapes!".
Kdyz chcete rychlost, kupujte vice mensich disku. Nedavno jsem delal image 147GB SAS disku (15K), taky to valilo 200MB/s a za par minut bylo hotovo. Vsechno je otazka priorit - nadavate snad na to, ze cold storage s plackama nebo paskama ma minutove prodlevy?
Terabajtove SSD me popravde desi - jakou zavratnou rychlosti lze prijit o hodne dat naraz. Jednu vterinu jede, druhou nikoliv (at zije 32K hours bug). Porad mam vetsi duveru v rotujici rez, nez ten nestabilni dorticek.
Zalohy je dobre mit.. ale u SSD je to nutnost a nasazovana architektura spis pocita s tim, ze SSD cast je jenom spotrebni material - opotrebitelna cache, ale na primarni ukladani slouzit nebude.
========
Ono už je to hodně dlouho kdy jsem četl hezkou hlášku: "Hard drives are new tapes!".
========
S tím naprosto souhlasím. HDD na offline zálohy, přežijou bez napájení. Na živá data solid-state.
Nejsem odborník na HDD, ale čekal bych, že zápis i čtení budou probíhat paralelně přes všechny plotny. Tedy když chci zapsat jeden blok, rozdělí se tak, aby každá plotna měla stejně velkou část, a pak se paralelně zapíše na všech plotnách. Takto by navyšování počtu ploten zároveň mělo i navýšit sekvenční čtení i zápis. Nebo mi něco uniká?
Zapomel jste sva moudra sdilet treba s NetAppem :-) To nam vysvetlete, proc prodavaji pole s 60x 22TB NL-SAS disky... a to nepocitam externi shelfy :)
Ahoj, ten problém už samozřejmě existuje teď. Nové řady disků mají násobně vyšší nárůst hustoty záznamu (kapacity) a minimální nárůst rychlosti zápisu.
Takže prakticky ke konci jejich životnosti, kdy se obecně zvyšuje riziko závady, jsou při použití v diskových polích problematické dlouhé rebuildy (dlouhodobě se vytíží i všechny ostatní disky, které jsou zhruba stejně staré nebo přímo ze stejné série.. takže je tam i velké riziko nějaké další korelované závady). Tohle to posune jen ještě o krok dál.
Plus samozřejmě dlouhá doba, kdy tě ten rebuild stojí výkon a úložiště běží se sníženou redundancí v nějakém "degraded" režimu.
Tohle úzké hrdlo (rychlost zápisu do vyměněného disku) a vyšší riziko se v tuhle chvíli nedá obejít jinak, než že se použije režim RAIDu, který počítá s tzv. distribuovaných hot-sparem.
Zjednodušeně řečeno, hot-spare pak není celé jedno náhradní zařízení (disk), ale náhradní bloky připravené pro rebuild jsou od začátku umístěné (distribuované) na všech discích v RAID skupině.
Takže pakliže rebuild nastane, zapisuje to násobně rychleji přes víc fyz. zařízení. Byť se samozřejmě ten odešlý disk v nějakou chvíli musí vyměnit, už je to finální balancování (zápis do prázdného zařízení) mnohem bezpečnější a může jet delší dobu.
Už nějakou dobu je tohle ve vyšších modelech diskových polí třeba od IBM (tam tomu říkají De-Clustered RAID) nebo DDN (určitě budou i další, tohle je jen co znám). U softwarových implementací je tohle dostupné například v ZFS (dRAID).
viz https://openzfs.github.io/openzfs-docs/Basic%20Concepts/dRAID%20Howto.html
Takže tohle je cesta do budoucna, dokážu si představit, že s vyššími kapacitami disků tohle může probublat i do nějakých samostatných RAID řadičů (jako tvoje Areca) nebo nějakých entry-level polí, pokud už to nebude všechno softwarové - mimo nějakého mirroru pro boot ;).
A jasně, pokud to někdo bude mít obrovské disky v jednoduchých úrovních RAIDu (1, 10) s malým počtem disků neřeší ho to.
Mně musím zaklepat odcházeli disky hlavně po odstávce Dell PowerEdge, tedy přeznačený Seagate (ES2/ES3 či něco podobného). Vlastně se tomu ani nedivím, když jejich špičková kvalita získaná z kontejneru elektroodpadu, kterým říkají zdroje. Poslední, kterých jsem se zbabil Dell PE220 + PE230 a nikdy více.
Úložiště a zálohování si řeším po svém, složím, trápím, měřím, … a jestli mi za ty roky odešli dva UltraStary, tak je to opravdu hodně. 12TB HC530 mám výhradně na zálohování a archivy (část jde na LTO3), čili k nim přistupuje zejména Bacula (ARC1883i). Spolehlivost. Provozuji 6x 7400 Pro U.3 (PCIe x4), konkrétně 3.84 TB (MTFDKCB3T8TDZ-1AZ1ZABYYR) a 10x 7400 Pro M.2 1.92 TB (MTFDKBA1T9TDZ-1AZ1ZABYYR). Prvním problémem bylo připojení na řadič (Tri-Mode). Kovbojka s Areca 1886-16l 12Gbps PCIe 4.0 x8 (8654-8612), mám nekompatibilní řadič, kabely, disky, … udělal jsem někde botu? Po dlouhém hledání jsem našel hodně stížností a problémů, protože disky odmítají fungovat x1/x2 a to platí i pro 24 Gbps PCIe x16 Broadcom a jsou problémy s kabely (zapůjčený řadič k ověření Broadcom 9560-16i + 05-60005-00 ano, 05-60006-00 si člověk neškrtne). Varianta U3 tak skončila na desce = 16x NVMe x4 = 64 linek 80 Pin OCL (Tyan SX8026) a ZFS, ze kterého radost nemám, je to moc moderní (čti překomplikované) a mohu-li si vybrat, tak volím jednodušší a spolehlivější řešení s řadičem. Se ZFS jsem si už něco užil (Solaris, BSD, Linux) a nikdy mi k srdci nepřirostlo.
Celkem se orientuji, nicméně držím se toho co umím (vyřešit problémy) a spolehlivosti. S Micron jsem zkušenosti neměl, nechal si poradit a natloukl si čumák. Můžeš to nazvad dinosauří modernou, protože mechanické disky už mám opravdu právě jen na odlévání záloh, kde prim hraje kapacita a spolehlivost.
6. 2. 2026, 20:57 editováno autorem komentáře
Jak tyhle víceplotnové disky vevnitř vlastně fungují? Zapisuje se vždy pouze na jeden povrch, nebo řadič dělá interně ekvivalent RAID0 nad všemi povrchy?
Ve většině případů je pro čtení a zápis aktivní pouze jedna hlavička a přepíná se podle mapování LBA. Takže není to jako u SSD (nebo RAID0).
A která je ta menšina případů kdy jede čtení nebo zápis paralelně ?
Vzhledem k šířce stopy a konečné tuhosti a přesnosti mechanizmu čtecích hlav to jinak než po jedné ploše nejde.
Cesta jak to obejít je použít Multi Actuator / Dual Actuator, viz např. :
Ono by to slo, ale nedavalo by to smysl, protoze jedinej okamzik kdy by to fungovalo by byl zapis velkych dat na prazdny disk.
A samozrejme takovej disk by predevsim musel mit perfektne symetricky clustery.
Zajímavé. A může to být proto, že hlavička potřebuje stopu "dolaďovat" svým vystavením a logicky nelze "dolaďovat" více hlaviček současně, když jsou napevno spojené s jedním "vystavovačem"? Díky
" logicky nelze "dolaďovat" více hlaviček současně"
I to jde, ale znamena to narust slozitosti, naroku na vyrobu, presnost a s tim souvisejici vyrazny zhorseni spolehlivosti. Pritom tim nic realnyho neziskas.
Ostatne existujou i magnetoopticky media, kde prave ta opticka cast slouzi k navigaci pro ten magnetickej zapis. Ale opet, cenou je vyrazne slozitejsi konstrukce.
Doba kdy existovala diskretni servo stopa na jednom povrchu je ta tam (slo to poznat podle zalepeneho okenka na spodku disku, ktere slouzilo pro zapis teto referencni informace), dnes se ale kazdy povrch vyuzije pro data. Tusim ze ten prechod nastal kolem obdobi kdy se slo na PMR - tak zda tyhle konstrukce hlav maji nejakou vyhodu v sledovani servo informace.. nevim.
Jak nize nekdo napsal, tak individualni doladovani hlavicek by slo pres multi-stage actuator, kdy to je rameno na rameni - u nekterych modelu dokonce troje dilu. Tohle se ale delalo kvuli hlucnosti - ze pri vystaveni ta nejvetsi hmota nemusi zastavit v momente (coz je silny akusticky raz), ale muze gradualne zpomalit, zatimco druhe mini-raminko provede pohyb v opacnem smeru zatimco se uz data ctou/zapisuji. Druhy duvod je presnost.. pres velikou civku se dost blbe delaji mikropohyby.
Ano, to jsem přesně myslel, ale nikdy jsem se s tím reálně nesetkal. Myslím, že na trhu je právě jen ten Exos x2, byť to předtím asi i víc výrobců zkoušelo nebo ohlásilo (neviděl jsem, že by např. Ultrastar DC HS760 byl někde ke koupi).
Možná v 80. letech byly nějaké IBM disky (ale to si jde spíš představit jako víc disků v jednom).
Jinak ještě jedna drobná věc - dual actuator jsou skutečně dvě vystavovací raménka s nezávislou pozicí, ale dual stage actuator je jedno raménko, ale má na konci ještě mikro vychylování (třeba přes piezo).
On mimochodem WD taky řeší v téhle souvislosti dvě ramena s hlavičkami, každé rameno z jedné strany disku, akorát to zpráva nezmiňuje. Já tenhle koncept nakreslil už v roce 2008 a WD se tomu teď dost blíží (dosavadní dual acutator afaik měl obě ramena na stejném místě, jen se mohla pohybovat každá půlka ramen zvlášť, tohle nové od WD má dvě rovnocenné sady ramen, takže by se mělo dát třeba číst a zapisovat naráz). Nakreslil jsem tehdy i 4, ale nemělo to smysluplné řešení, jak to tam nacpat :).