Samozrejme se hodi, problem je ze takovy disk nemuzete dat do zadneho normalniho raidu, ale musite resit data na aplikacni vrstve. Rebuild raid 5 se 100TB disky bude trvat kolik v pripade vypadku 1 z nich? Uz rozumite v cem vidim problem? Neprovozuji desitky PB, zatim jenom 2x 1neco PB a neumim si dost dobre predstavit 100TB disk nasadit. Uz 12TB disky jsou silene...
To taky potom stavis uloziste s ohledem na kapacitu, ne bezpecnost. Pak ti staci raid10 napriklad a jeho rebuild je rychlejsi. Pokud budes potrebovat bezpecne uloziste, postavis je z mensich disku, kde rebuild bude trvat unosnou dobu. Bude sice mensi, ale muzes dat lepsi zaruky. Od toho mame male, stredni a velke uloziste s ruznou garanci spolehlivosti a kapacity (desitky TB, zalohovane, vysoce dostupne az desitky PB bez zaloh s moznosti vypadku a ztraty dat.).
Ale mas pravdu, ze za dnesnich podminek to bude problem. I mensi objem je v podstate nezalohovatelny, takze mame proste vice ulozist.
Resilver u ZFS t5eba umí kopírovat jen to, co na disku skutečně je... takže pokud na disku bude "jen" 10 TB, tak to půjde o něco rychleji.
Jinak ano, rychlost je problém, ale i dnešní harddisky SATA-3 rozhodně nevytěžují a jsou v nejlepším případě někde na 50 % reálné kapacity rozhraní. V podnicích se používají spíše SAS-3 disky, pokud to někdo myslí s úložištěm vážně a tam je kapacita rozhraní reálně něco na 1 GB/s. Takovou rychlostí jeden kompletní přepis harddisku s 100 TB by trval asi jeden a čtvrt dne. Samozřejmě SAS-4 se zhruba dvojnásobnou kapacitou je na příchodu... teď už jen, aby disky tyto rychlosti v reálu nabídly.
Reálně se dnes ale data stejně rozkládají mezi více uzlů v distribuovaném systému např. za pomocí Ceph nebo VSAN atp. Různé SSD cache a RAID6 nebo třeba RAID51 v rámci uzlu jsou celkem běžnou věcí, a kopii dat má více uzlů hlavně kvůli výkonu (a redundanci). Nevidím to tedy až tak černě.
Nakonec magnetické pásky se taky hojně používají a nikomu to moc nevadí, protože většinu času se pracuje s daty na médiu, které je v součtu rychlejší (nižší latence hlavně).
Nova verze ZFS on Linux bude mit Metadata Allocation Classes, moznost vyhodit metadata a male bloky na patricne otypovany top-level VDEV (SSD-based napr.)
Zaroven ma podporu pro nastavitelne velke (az nekolik MB) bloky, takze na *AMR disky pujde ukladat hlavne obsah velkych souboru.
Kdyz tech disku bude v poli dost, umim si na tom predstavit dost praktickych use-cases, hlavne ruzne live knihovny medialnich dat.
Dluzno podotknout, kdyz uz rozdavam rozumy, ze ja osobne HAMR preskakuju uplne a cekam na MAMR.
Heat assist je dost traparna, vybudit material tim, ze do nej napalim laserem, bude jasne snizovat zivotnost toho materialu. Magnetic assist oproti tomu... Jina liga.
Mi prijde ze ten Seagate je takovy jeste nestastnejsi ekvivalent AMD v HDD svete...
Podobná otázka tu byla už drahně let zpátky:
"S ohledem na to, kolik času trvá rebuild se SAS disky, co mají 72GB, tak kdo by byl tak šílený, aby používal disky s kapacitou 600GB?!" V té době se považovalo 146GB za rozumnou hodnotu a 300GB za reálné maximum, co se jako SAS disk dá ještě snést.
A vidíte, stejně se 600GB disky prodávaly dobře, stejně tak 900GB a dnes i 4TB. Přitom je fakt, že s 36GB diskem byl sync do 15 minut a nikdo nevěřil tomu, že by bylo možné, aby někdo čekal pět hodin. Dnes se prostě akceptuje, že to může trvat 15 hodin a tomu se přizpůsobuje styl práce. I když také mi přijde úsměvné, že bychom jednou měli čekat 15 dní. Ale asi holt jednou budeme muset.
tak u 14TB disku se v idealnim pripade bavime o nejakych 16hodinach zapisu, u 100TB disku se bavime o nejakych 117 hodinach. V idealnim pripade, coz v praxi nenastava. Je vetsi pravdepodobnost, ze dalsi disk z RAIDu odejde v 117 hodinach nez v 16 nasledujicich hodinach? IMHO ano. Jak se k tomu postavime? RAID6? Nebo Raidz3? Nebo vznikne novy druh RAIDu pro velike disky? Nebo budeme akceptovat fakt, ze nam vzroste ztratovost dat?
I šance, že kleknou dva nebo tři disky současně, je nenulová. Zkrácením času se jenom statisticky snižuje šance, ale je to jenom jedna z možností. Další je třeba několik redundantních kopií a offline záloha. A vždycky je to o kompromisu cena/spolehlivost.
Představ si situaci, kdy máš uložit dvě kopie 100TB do R5.
- S 15x10TB/pole krmíš a chladíš 30 disků.
- S 3x50TB/pole chladíš a krmíš šest disků.
- Pokud je teoretická šance na kleknutí obou typů disku stejná, klesne ti počet výměn na 1/5, stejně jako pošet disků.
- Při rebuildu třeba 0,5TB/h v prvním případě máš 5x10 = 50h na rebuildy, ve druhým případě za stejnou dobu 1x50 = 50h na rebuildy, jenom si to vybereš naráz.
- Míň disků (i kdyby měl dvojnásobnou cenu za disk, furt máš 1/3 ceny) se vším, co z toho plyne - možnost mít tam za stejný prachy víc kopií, který jenom softwarově přehodíš a máš to obnoveno za minutu) s tím, že i tak sežereš míň šťávy a můžeš míň chladit.
Tož asi tak.
Proto se prechazi na R6, protoze tam te vypadek jednoho disku jeste porad nijak zvlast nepali.
Sekundarne kazdej disk predikuje svoje selhani (nebo se o to aspon snazi) a kazdy pole dela to, ze ten selhavajici disk zreplikuje (pokud to samo jde) driv, nez pojde uplne => ses omezenej jen linearni rychlosti cteni a "dratama" cestou (ty te ve skutecnosti omezujou vic, protoze SSD narazi prave do nich).
Pokud chces fakt bezpecny uloziste, tak zase v zavislosti na tom jak moc muzes jeste ozrcadlit jednotlivy raid grupy nebo cely pole. Takze to, ze se nejaka grupa bude dalsi tejden rebuildovat je ti tak nejak u rite.
Aktualne to totiz spis vypada tak, ze rotacni disky ceka tak maximalne jeste jeden cyklus (=5-7let), a pak koncej. Protoze uz dneska te vyjde financne lip koupit si dve(nebo tri) velky SSDcka a zrcadlit je, nez kupovat pole s N diskama.