Jsou dva typy lidí... však ten vtip znáte ;).
Nicméně co se týče zálohování - vlastně se jim ani nedivím. Sám jsem hledal zálohovací mechanismus hodně dlouho; tehdy jsem byl ještě na Windows a ačkoliv aplikací k tomu určených byly spousty, měly jeden společný problém: naprosto šílenou obnovu dat. (A některé z nich nedělaly zálohu jedním klikem, což, jak jsem zjistil, je nutná podmínka, aby to lidi používali dlouhodobě.) Většina z nich fungovala na principu zipů, takže chyběly informace o smazaných souborech.
Dnes bych si ale nedovolil tvrdit, že lidi nebudou zálohovat. Z toho, co jsem viděl, mi přijde, že dnes „zálohuje“ hodně velká část populace - tím, že svá cenná data (dnes především fotky, kontakty, maily a záložky) předávají Googlu, Microsoftu, Applu, Facebooku, Dropboxu atd. Videa zálohovat nepotřebují (Netflix, YouTube, ...), hudbu také ne (Spotify), hry už vůbec (Steam). No a vývojáři to vlastně taky nepotřebují.
A pak jsou tu exoti jako já, kteří zažili dobu kamennou, kdy internet byl vzácný zdroj a nedokáží akceptovat myšlenku, že by byl vždy a všude 100% dostupný a jejich zálohovací systém nesmí záviset na internetu. My máme rsync, Unison, atd.
Jestli vono to spis nebude vo tom, ze kdyz chces aby ti tvoje auto vydrzelo aspon par let, tak snim jezdis do servisu kde ten servis zaplatis. Kdyz chce nekdo aby jeho data vydrzela aspon par let, tak by mel svuj pocitac servisovat uplne stejne = zaplatit si nekoho, kdo mu to nastavi, a cas od casu zkontroluje.
Zalohovani se nema na nic ptat, to ma proste zalohovat. A v idealnim pripade ti teda zacne nadavat v okamziku, kdy neco nefunguje (= rozviti se ti oranzova kontrolka na palubce "jedte do servisu").
Jenze kdyz si ta lopata v servisu, co sotva zvlada sroubovak, rekne litr na hodinu svy "odborny" prace, tak to nikomu divny neprijde, kdyz si o totez reknes jako ITk, tak na tebe koukaj jak na zlodeje.
Principiálně a teoreticky souhlasím, praxe se mi ukazuje ale bohužel trochu jiná.
„Jenze kdyz si ta lopata v servisu, co sotva zvlada sroubovak, rekne litr na hodinu svy "odborny" prace...“ - tuto větu chápu tak, že moje zkušenosti s autoservisy jsou více-méně stejné, jako ty vaše. A u PC mám velice podobné zkušenosti - ze tří problémů (myšleno tři různé stroje, každý s jedním problémem) (ano, vím, že to není statisticky významný vzorek) opravili jen jeden - asi tak na týden. (Předáno kámošovi na součástky, už jsme do toho nechtěli nic dalšího vrážet.) Jistě, můžete říct, že jsem si našel špatný servis. Souhlas. V tom případě i úkol „najít dobrý PC servis“ je velice těžký a to je problém.
Zrovna nedávno se mne pár BFU ptalo na nějaký PC servis, ale nepodařilo se mi v jejich okolí vůbec nic najít. V tom zapadákově jsem znal jen jeden, který tam vydržel tak půl roku (vypadalo to jako párek nadšenců).
Takže mne to nakonec vede k tomu, že v případě auta i PC platí DIY.
Pokud to srovnáme s automobilem, tak to spíše je lichá důvěra "proč by se to mělo stát zrovna mě". takže jezdíme auty a věříme, že nebudeme patřit do těch stovek co se ročně zabije nebo zmrzačí. A stejně je to z důvěrou v datová úložiště, prostě dokud to funguje je těžké si představit, že vše půjde ve vtřině do kopru. :-) Každý se musí nejdřívě spálit, aby tomu začal přikládat patřičnou váhu.
Plno lidí dnes zálohuje, ale špatně. Kupříkladu zálohují na SSD disk, na flash disk, na obyčejný HDD. Pak se jim něco pokazí, sáhnou po záloze a... volají "hele, Karle, já tam připojil ten disk se zálohou a ono ho to nenajde!?"
Holt HW, na který je skutečně možno zálohovat, postupně ubývá. HDD jsou levnější než dřív, jenže kolik lidí ví, že ho mají čas od času připojit, aby se chvíli točil? Že "consumer quality" disky mají tak špatná ložiska, že v nich po několika měsících "v šuplíku na chalupě" může ztuhnout to "mazivo" a motorek to už neroztočí? Nebo že SSD disk také musí několikrát do roka připojit a nechat ho chvíli obnovovat data, protože jinak se jim časem ztratí?
Ono se vlastně opakuje to, co v dobách zálohování na CD a DVD. Tolik lidí, co si myslelo, že má v šuplíku zálohu dat. A přitom měli jen nečitelný kus plastu. Přitom tu byla archivní/zlatá CD, případně DVD-RAM.
Kapitola sama pro sebe jsou některé moderní programy, které dělají například sdílené úložiště a z markentigových důvodů tvrdí, že umí i zálohovat. Jenže nezdůrazní, že jako záloha to funguje jen ve chvíli, kdy jim jeden disk umře. To si pak lidé omylem smažou půlku disku, kouknou do zálohy a ejhle, tam jsou data smazaná taky, protože ten úžasný program to synchronizoval.
A ještě jeden nešvar: plno lidí zálohuje na externí disk, který neodpojují. To je pak také občas překvapení, zvláště když potkají nějaký malware.
Má osobní zkušenost proto je, že i když plno lidí "zálohuje", tak ve skutečnosti zálohuje jen pár procent lidí, co nějaká data mají. A tyhle 20TB disky budou přesně ten případ, kdy půjde leda tak o "zálohu".
Tak třeba na smlouvy atd. mám rozkopírování na několik strojů (rozbiju noťas, sednu k desktopu a je to tam), ale tam není ochrana proti zašifrování nebo nechtěnýmu smazání, takže je to ještě jednou na 3x 500GB HDD v R5, který rozešle v noci z neděle na pondělí data, kam patří. No a nový data se "nasávají" selektivně podle data a na tom HDD se nastaví práva RO.
Fotky, těch je hodně a do NTB se nenacpu. Takže zůstává ta druhá linie na NAS.
No a celý ten R5 (kvůli případné živelní katastrofě) jednou za čas překlopím na externí šifrovaný HDD a odvezu jinam...
Má někdo lepší metodu?
Ano, třeba dohodnout se s kamarádem, že si zálohováníhodná data navzájem "vyměníte". Každému pak na disku bude smrdět nějaký objem dat, který není jeho, ale pokud to jsou třeba malé desítky GB na terovém disku, nebolí to. Záloha je tak geograficky oddělená a nehrozí efekt vyndání disku ze skříně, protože se s ním běžně pracuje a porucha je detekovaná hned (ještě lepší, když oba jedou na RAID 1).
Ono je lepsie, ked ten disk bezi stale, je to pre neho mensia namaha ako rozbiehat sa pri zapnuti pocitaca a zastavovat sa pri vypnuti pocitaca.
Teda pokial to nie je WD, oni mali (este stale maju?) nejaku pochybnu detekciu, ci je pocitac zapnuty a ak sa vypol, vypol sa aj disk, aj ked bol externe napajany.
Seagate používá technologii multi-actuator. Mám pocit že pro tyhle nový disky udávali nějaké jednotky IOPS na každej TB kapacity, což pro disky kolem 20-50TB bude znamenat výkon zhruba na úrovni stovek IOPS. Samozřejmě je to řádově méně oproti NVMe SSD, ale může to být dostatečně svižné pro takové to "domácí diskování".
Pokud si dobre pamatuju, tak prave zapis(respektive prepis) je pomerne hodne zasadni problem vsech tehle uzo zuzo technologii. Vsak oni to uz prodavaji, a u 8TB disku to davalo cca 20-30MB/s ... jednoduse proto, ze kdyz si chtel zapsat 1MB, tak disk ve skutecnosti musel zapsat trebas 100MB. Tudiz to bylo pouzitelny maximalne tak, ze na to neco naladujes, a disk hodis do skrine. A za mesic ho celej smazes a znova na nej zapises.
Ten 8TB Seagate Archive se chová lépe i hůře dle typu zátěže. V podstatě tam můžete nasypat 11 GB zcela náhodných zápisů s IOPS 1330 a pak ale musíte cca 15 hodin počkat než to zkusíte znovu ! Tedy dlouhodobě to má asi 3 IOPS. Databázi nad tím asi nepostavíte, ale sklad trvalých dat (filmy, muzika, fotky) z tohu bude zcela bez problémů.
viz https://diit.cz/clanek/recenze-8tb-seagate-archive/zahlceni-disku-do-bezvedomi
Mam jich par a celkove vzato je to sracka. Zapis trva vecnost (a je jedno jestli se rozhodnu zapsat 100gb malych souboru nebo 100gb v jednom videu), cteni je takovy prumer, random read nebo write je pruser. Takze jedine pouziti je pro skladovani neceho co nema cenu. Mit nad tim nejaky "sklad" ve smyslu ze mi odejde 1 disk a ja ho nahradim a dopocitam/dokopiruji data z jineho disku moc nefunguje prave kvuli mizernemu zapisu. Takze ve finale mam x tehle disku pouzitych na porno a jine nesmysly.
Drobná vsuvka: ten konkrétní disk, o kterém je řeč v odkazovaném článku, zatím stále bez problémů dělá svou práci (je připojen pass-through do jedné virtuálky, která hraje roli NASu). Jede v režimu 24/7. Na „domácí zálohování internetu“ je to úplně v pohodě, v reálném domácím prostředí na zahlcení ještě nedošlo.
Samozrejme se hodi, problem je ze takovy disk nemuzete dat do zadneho normalniho raidu, ale musite resit data na aplikacni vrstve. Rebuild raid 5 se 100TB disky bude trvat kolik v pripade vypadku 1 z nich? Uz rozumite v cem vidim problem? Neprovozuji desitky PB, zatim jenom 2x 1neco PB a neumim si dost dobre predstavit 100TB disk nasadit. Uz 12TB disky jsou silene...
To taky potom stavis uloziste s ohledem na kapacitu, ne bezpecnost. Pak ti staci raid10 napriklad a jeho rebuild je rychlejsi. Pokud budes potrebovat bezpecne uloziste, postavis je z mensich disku, kde rebuild bude trvat unosnou dobu. Bude sice mensi, ale muzes dat lepsi zaruky. Od toho mame male, stredni a velke uloziste s ruznou garanci spolehlivosti a kapacity (desitky TB, zalohovane, vysoce dostupne az desitky PB bez zaloh s moznosti vypadku a ztraty dat.).
Ale mas pravdu, ze za dnesnich podminek to bude problem. I mensi objem je v podstate nezalohovatelny, takze mame proste vice ulozist.
Resilver u ZFS t5eba umí kopírovat jen to, co na disku skutečně je... takže pokud na disku bude "jen" 10 TB, tak to půjde o něco rychleji.
Jinak ano, rychlost je problém, ale i dnešní harddisky SATA-3 rozhodně nevytěžují a jsou v nejlepším případě někde na 50 % reálné kapacity rozhraní. V podnicích se používají spíše SAS-3 disky, pokud to někdo myslí s úložištěm vážně a tam je kapacita rozhraní reálně něco na 1 GB/s. Takovou rychlostí jeden kompletní přepis harddisku s 100 TB by trval asi jeden a čtvrt dne. Samozřejmě SAS-4 se zhruba dvojnásobnou kapacitou je na příchodu... teď už jen, aby disky tyto rychlosti v reálu nabídly.
Reálně se dnes ale data stejně rozkládají mezi více uzlů v distribuovaném systému např. za pomocí Ceph nebo VSAN atp. Různé SSD cache a RAID6 nebo třeba RAID51 v rámci uzlu jsou celkem běžnou věcí, a kopii dat má více uzlů hlavně kvůli výkonu (a redundanci). Nevidím to tedy až tak černě.
Nakonec magnetické pásky se taky hojně používají a nikomu to moc nevadí, protože většinu času se pracuje s daty na médiu, které je v součtu rychlejší (nižší latence hlavně).
Nova verze ZFS on Linux bude mit Metadata Allocation Classes, moznost vyhodit metadata a male bloky na patricne otypovany top-level VDEV (SSD-based napr.)
Zaroven ma podporu pro nastavitelne velke (az nekolik MB) bloky, takze na *AMR disky pujde ukladat hlavne obsah velkych souboru.
Kdyz tech disku bude v poli dost, umim si na tom predstavit dost praktickych use-cases, hlavne ruzne live knihovny medialnich dat.
Dluzno podotknout, kdyz uz rozdavam rozumy, ze ja osobne HAMR preskakuju uplne a cekam na MAMR.
Heat assist je dost traparna, vybudit material tim, ze do nej napalim laserem, bude jasne snizovat zivotnost toho materialu. Magnetic assist oproti tomu... Jina liga.
Mi prijde ze ten Seagate je takovy jeste nestastnejsi ekvivalent AMD v HDD svete...
Podobná otázka tu byla už drahně let zpátky:
"S ohledem na to, kolik času trvá rebuild se SAS disky, co mají 72GB, tak kdo by byl tak šílený, aby používal disky s kapacitou 600GB?!" V té době se považovalo 146GB za rozumnou hodnotu a 300GB za reálné maximum, co se jako SAS disk dá ještě snést.
A vidíte, stejně se 600GB disky prodávaly dobře, stejně tak 900GB a dnes i 4TB. Přitom je fakt, že s 36GB diskem byl sync do 15 minut a nikdo nevěřil tomu, že by bylo možné, aby někdo čekal pět hodin. Dnes se prostě akceptuje, že to může trvat 15 hodin a tomu se přizpůsobuje styl práce. I když také mi přijde úsměvné, že bychom jednou měli čekat 15 dní. Ale asi holt jednou budeme muset.
tak u 14TB disku se v idealnim pripade bavime o nejakych 16hodinach zapisu, u 100TB disku se bavime o nejakych 117 hodinach. V idealnim pripade, coz v praxi nenastava. Je vetsi pravdepodobnost, ze dalsi disk z RAIDu odejde v 117 hodinach nez v 16 nasledujicich hodinach? IMHO ano. Jak se k tomu postavime? RAID6? Nebo Raidz3? Nebo vznikne novy druh RAIDu pro velike disky? Nebo budeme akceptovat fakt, ze nam vzroste ztratovost dat?
I šance, že kleknou dva nebo tři disky současně, je nenulová. Zkrácením času se jenom statisticky snižuje šance, ale je to jenom jedna z možností. Další je třeba několik redundantních kopií a offline záloha. A vždycky je to o kompromisu cena/spolehlivost.
Představ si situaci, kdy máš uložit dvě kopie 100TB do R5.
- S 15x10TB/pole krmíš a chladíš 30 disků.
- S 3x50TB/pole chladíš a krmíš šest disků.
- Pokud je teoretická šance na kleknutí obou typů disku stejná, klesne ti počet výměn na 1/5, stejně jako pošet disků.
- Při rebuildu třeba 0,5TB/h v prvním případě máš 5x10 = 50h na rebuildy, ve druhým případě za stejnou dobu 1x50 = 50h na rebuildy, jenom si to vybereš naráz.
- Míň disků (i kdyby měl dvojnásobnou cenu za disk, furt máš 1/3 ceny) se vším, co z toho plyne - možnost mít tam za stejný prachy víc kopií, který jenom softwarově přehodíš a máš to obnoveno za minutu) s tím, že i tak sežereš míň šťávy a můžeš míň chladit.
Tož asi tak.
Proto se prechazi na R6, protoze tam te vypadek jednoho disku jeste porad nijak zvlast nepali.
Sekundarne kazdej disk predikuje svoje selhani (nebo se o to aspon snazi) a kazdy pole dela to, ze ten selhavajici disk zreplikuje (pokud to samo jde) driv, nez pojde uplne => ses omezenej jen linearni rychlosti cteni a "dratama" cestou (ty te ve skutecnosti omezujou vic, protoze SSD narazi prave do nich).
Pokud chces fakt bezpecny uloziste, tak zase v zavislosti na tom jak moc muzes jeste ozrcadlit jednotlivy raid grupy nebo cely pole. Takze to, ze se nejaka grupa bude dalsi tejden rebuildovat je ti tak nejak u rite.
Aktualne to totiz spis vypada tak, ze rotacni disky ceka tak maximalne jeste jeden cyklus (=5-7let), a pak koncej. Protoze uz dneska te vyjde financne lip koupit si dve(nebo tri) velky SSDcka a zrcadlit je, nez kupovat pole s N diskama.
Až po delší době se ukáže spolehlivost takové technologie magnetického zápisu při současném bodovém ohřevu laserem a případné opakované přepisy. To že dnes většině uživatelů dostačují 2TB ještě neznamená,že za pá roků nenajdou využití. Ještě si dokáži vzpomenout jak většině stačilo 80MB.
Ale nepovidej, vis kolik(set) ruznych aplikaci se veslo na moje prvni CD? A to uz sme byli v dobe vyssich stovek MB na disku. Muj, naprosto obri disk o kapacite 1,6GB zel prazdnotou, presto ze sem na nem mel desitky her a dalsich veci. I na jedinou disketu se dala ulozit hromada aplikaci, a to klidne vcetne systemu. 40MB hdd stacil bohate na cele ucetnictvi a mzdovou agendu firmy o trech stovkach zamestnancu, a byl poloprazdny. A ta 386 naprosto vpohode stacila vykonem.
No a pak se stala taková nepříjemnost, zvuková karta + CD-ROM. Najednou mohl kdokoliv přehrávat a editovat zvuky nebo skládat hudbu, ale ony ty PCM data zaberou dost místa. Viděl jsem bedny s SCSI řadičem a sedmi CD-ROMkama (ne vypalovačkama) pro přístup k datům... HDD měl prostě zlomek potřebné kapacity.
A když chtěl člověk vypalovačku, byl problém, kde to bufferovat - měl jsem v té době 2,1GB HD, takže celkově kapacita 3x CD-ROM a konec. Do toho se musel vejít i systém a programy. Víš, jaká byla úleva přidání 20GB HDD (s výměnu procesoru, RAM a MB - BIOS na to nebyl stavěný)? Momentálně mám v desktopu 2TB zaplněný na 73%
Už jsme trochu offtopic, ale já pamatuju vypalování prvních CD s HDD 800MB. To se uklízelo, nahrávalo na desítky disket, aby se udělalo místo na to jedno CDčko. (Pěkná byla i cena, 650Kč za 650MB.)
2.1GB, pche :-)
Nejdřív hudba (na disketu se moc MP3 nevešlo), pak fotky, videa...
Na druhou stranu nástup SSD a notebooků to dost zkrotil - sice tady mám 8TB NAS a 8TB externí disk, ale celkem vzato těch důležitých dat (=co nosím s sebou) moc není. Jen je mi líto těch 8TB promazat, "co kdyby se to hodilo".
Ze zálohovacích SW musím pochválit (Apple) Time Machine - protože všechno funguje samo. Jen jsem tedy vyhodil ze záloh VirtualBox a Docker image. Nevýhoda je, že ten zálohovací disk shoří při stejném požáru, jako primární notebook. Jako druhou zálohu (do cloudu) jsem měl CrashPlan, ale ten pro domácí použití skončil. Takže teď AWS (S3 a Glacier), ale to prostě není pohodlné.
Asi jste mě vyprovokovali k velkému úklidu...
Nechcete tím doufám naznačit, že výrobci disků už technologii na nekonečně velké disky mají, a jediné, co jim brání v nasazení, je OSA? A HAMR mám teda chápat jako technologii omezení velikosti neomezeně velkých disků, aby je nezlikvidovala OSA na poplatcích?
Tam je vidět, jak úchylná ta myšlenka autorských poplatků je. Pokud budu mít nekonečně velké úložiště, logicky na něj můžu uložit všechna autorská díla světa, včetně těch, která spravuje OSA. Jenže zaplatím nejen za ty OSAcké, ale i za všechna ostatní, a pořád bude mít OSA nárok na nekonečně dalších peněz, přestože v této chvíli je zcela jasné, že na autorská díla to zbývající místo použít prostě nemůžu...