Autor se tazal po zkusenostech s tzv. ATA RAID radici, toz se ozyvam. To ze ty zarizeni neumi RAID 5 je pravda, ono to ani nejsou HW radice - ke sve cinnosti potrebuji driver, pomoci ktereho vetsinu prace, kterou by mel zastat radic, udela hlavni procesor.
V linuxu lze provozovat jen tri druhy techto zarizeni (pro zadne jine jsem nesehnal drivery), a to Promise, HPT a cosi co se zove Medley a maji to nektere SIL chipsety.
Z kazde te skupiny jsem jednoho zastupce zkousel a pominu-li problemy s temi drivery, tak proti alternative, kdy ten radic pouziju bez RAIDu a ten udelam az SW nad linuxem, byl vzdycky linuxovy RAID rychlejsi (ne o moc, ale byl).
Jako jedinou vyhodu ATA raidu tak vidim kompatibilitu mezi Windows a Linuxem, pokud tam budu mit jen linux, vyplati se mi tam dat SW RAID.
Mám (několikaleté) zkušenosti s řadičem s čipem HPT370, o něco kratší s Promise PDC20276 (2x IDE) a ještě kratší s PDC20376 (1x IDE, 2x SATA).
ad HPT370 :
- podpora v kernelu se objevila docela pozdě, ale lepší pozdě než vůbec.
- driver v kernelu podporuje (resp. dřive podporoval a pak jsem to nijak jinak nezkoušel) jen RAID0, podpora RAID1 tam nebyla
- pole RAID0 s tímto ovladačem bylo naprosto nepoužielné, pokud byl zaváděn jako modul - hlásilo to chyby v DMA přenosech a bedna tuhla. Ovšem naprosto bez problémů šlapal pokud byl zahrnutý přímo v kernelu
- kernelový ovladač byl o cca 5 - 30% rychlejší než binární ovladač od výrobce karty
Mezi námi on byl taky líný jak prase, ale v jeho podání vznikne nové zařízení na /dev/ataraid/d0.. a současně je možné přistupovat k fyzickým diskům na něm připojeným -> takže je možné nastavit jim pomocí hdparm rozumné přenosové parametry a to je pak znát.
Malá perlička - při upg. disků jsem k původnímu poli RAID0 (primary master + secondary master) připojil nové dva disky (jako primary slave + secondary slave), nastavil jsem v BIOSu karty nové pole a doufal jsem že budu moct přesypat data na nové pole a pak původní disky odpojím. Ovšem kernelový ovladač se pokusil do pole spojit prvná dva disky které našel (primary master + slave) -> to se mu ovšem neodařilo, takže nepřipojil nic. Tupoun.
Po výměně desky jsem pole "honil" na on-board řadiči s čipem Promise. Přenosové rychlosti jsem neměřil, ale zdálo se být subjektivně rychlejší.
Po další výměně desky za typ s čipem PDC20376 a před výměnou disků za SATA jsem svoje "políčko" připojil dočasně opět na kartu s HPT370. Aniž jsem cokoliv nastavoval v BIOSu karty (a předtím chvíli sloužila jen jako přídavné IDE kanály bez RAID-u) toto pole normálně naběhlo jako by se nechumelilo ! Docela mě to překvapilo. Ale je to IMHO tím, že "SW" RAID je v linuxu (ataraid) oddělený od ovladačů karet (HPT / Promise), takže je mu celkem jedno kde ty disky visí ..
Poslední zkušenost mám s čipem PDC20376, na kterém visí dva SATA disky. Ovladač není v kernelu (2.4.18-19.8.0), ale dá se sehnat od výrobce jako "polobinární" (podobně jako NVidia je jádro ovladače binární a pro konkrétní linuxové jádro se kompiluje meziksicht), pole se hlásí jako SCSI disk.
Po naformátování pole na ext3 jsme měřil zápis / čtení 1 resp. 10 GB dat s výsledkem 9,016/12,317 resp. 2:8,923/2:13,700, což ukazuje na reálné přenosové rychlosti okolo 75 MB/s.
Jo a druhá perlička - na tento čip se dá připojit i IDE disk. Udělal jsem to a doufal, že bude normálně přístupný. Ale chyba lávky - musel jsem v BIOSu čipu udělat pole (tuším že taky RAID0) sestávající z jednoho (!) disku a pak už to jde.
K detekci disků:
Linuxový ataraid dělá detekci tak, že prochází postupně všechny IDE disky v systému (index od nuly nahoru) a hledá "superblok". Když ho na nějakém disku najde, zorientuje si pole podle něho.
Podle Vaší poznámky se zdá, že disky patřící do pole má v superbloku označené pořadovými čísly, nikoli user-space písmenky (hda, hdc apod).
Vyplývá z toho jedna zajímavá vlastnost: to si třeba vyrobíte pole na řadiči Promise, ale pak oba disky přepojíte na "obyčejný" IDE řadič, železo od Promise ze systému vyhodíte, a voila, ovladač ataraid pole v klidu najde na "obyčejném" řadiči...
Což by bylo fajn, až na to, že ataraid je celkově prakticky nepoužitelný - hodí se pouze pro případy, kdy potřebujeme mít přístup k oddílu Windows na takovém poli apod.
Takové jsou alespoň moje poznatky s jádry kolem 2.4.20 a řadičem PDC20271.
Neni pravda, ze jde jen o SW RAID, jako priklad lze uvest radice 3Ware, nebo RaidCore (ty maj ale ovladace jen pro Windows). 3Ware je pekne dlouho podporovanej jadrem (2.4.x).
Ovsem cena zacina na 5kKc pro 2-diskovou PATA verzi (3W), ty vetsi maj samozrejme standardni kombinaci ficur (RAID0,1,5,10,JBOD)...
1) Nevim kde Michal prisel na cenu HW RAIDu. Kazda vetsi firma prodava servery s HW RAID radicem od cen co sou vydavany za ceny tech radicu. Samotnej radic stoji par set dolaru (neberte doslova, ale rozhodne je to min nez udavanych tri az ctyri tisice).
2) RAID 1+0 se sakra pouziva, je to podstatne lepsi reseni nez RAID 5. 5ka se hodi max. pro lidi co nemaj penize na 1+0 (a kdo pri dnesnich cenach disku nema). Osobne bych z praxe rek ze prave RAID 5 se nepouziva, vsechno je budto 1 nebo 1+0.
3) To ze linux kernel neumi rozchodit vypadek (nebo hot-swap) IDE disku me neprekvapuje ;) Hadejte proc je IDE v NT kernelu brany pres SCSI emulaci (no musel sem si rejpnout)...
1) slusny HW raid stoji 20-40K Kc ...
2) cca 140GB SCSI disk (10K RPM) stoji 20K Kc ... pro 1+0 potrebuju minimalne 4, takze to neni zase malo. (zejmena pokud chci mit napriklad 1TB array :-) )
Nicmene faktem zustava, ze RAID5 je nepouzitelny, alespon pokud jde o vysoce zatizene webservery (mam s tim trochu zkusenosti, bohuzel) ... a 1+0 je jakztakz OK.
RAID5 je pouzivanej v datovejch skladech i na extremne vytizenejch db serverech, jde jen o to, jakej system s jakejma radicema a s jakou cache mame...
Jestli ale chcem delat napr. 6TB SCSI nebo spis FC-AL pole, tak financni narocnost 10 (resp. 0+1) je doslova brutalni a na rozumnym HW skoro nelze poznat rychlostni rozdil mezi R5 a R10...
A jen tak mimochodem - ponekud se tu v diskuzi micha R10 a R0+1, coz jsou z hlediska zabezpeceni dat velmi odlisna reseni (R10 je stabilnejsi, kdyz vam vypadne 1 disk z 0+1, tak se z takoveho pole efektivne stava R0, coz je celkem prusvih, paklize jsme udelali takovou chybu, ze jsme tam dali trebas db logy, ze? [Ne, ze by vypadek 1 HDD na R10 byl jen vitanym zpestrenim odpoledne, ale na to, aby vypadlo cele pole by bylo nutne, aby odesel do vecnych lovist jeden konkretni disk z celeho pole, zatimco v pripade R0+1 staci jakykoli disk z te "zdrave pulky"]).
RAID5 se vyuziva a to hlavne na fileserverech, kde neni potreba velkeho vykonu pri zapisu. Pouziva se take u DB aplikaci, ktere nejsou narocne na zapis. FC-AL pole je dobra vjec ale pouze pro 1 az dva servery (Arbitrated loop poskytuje pouze sdilene prenosove pasmo). Lepsi je samozrejme Fabric topologie, coz se zase odrazi na cene za FC prvek. Jinak to, ze neni poznat rychlost mezi r5 a r10 je vetsinou dano velikosti cache, ktera se pohybuje od 256MB, ale spise 512 az 1 az 2GB.
Tak hezky od konce
"Jinak to, ze neni poznat rychlost mezi r5 a r10 je vetsinou dano velikosti cache, ktera se pohybuje od 256MB, ale spise 512 az 1 az 2GB."
- a co jsem asi mel na mysli pojmem 'rozumny HW'?
Ostatne R5 je pomaly na zapis spise kvuli vypocetni narocnosti, takze je to spise o procesorech (ta cache u low-end zarizeni vyrovnava prave vypocetni nedostatecnost).
Co se tyce SAN topologii, tak to je zalezitost konkretni situace, ja nejcasteji prichazim do styku s FC-AL, tak jsem napsal FC-AL, ale obcas staci point to point, obcas je potreba fabric... (mel jsem napsat FC a bylo by po vtakach :)
"RAID5 se vyuziva a to hlavne na fileserverech, kde neni potreba velkeho vykonu pri zapisu. Pouziva se take u DB aplikaci, ktere nejsou narocne na zapis"
To tak vetsinou je, ale jsou pripady, kdy se proste i u velmi zatizenych db systemu R10 oproti R5 nevyplati (kdyz mate pole napr. na SAN storage serveru s mnoha GB cache a vykonnymi procesory - tam je vykonnostni rozdil zcela zanedbatelny a financni rozdil nezanedbatelny :).
SouhlasTo tak vetsinou je, ale jsou pripady, kdy se proste i u velmi zatizenych db systemu R10 oproti R5 nevyplati (kdyz mate pole napr. na SAN storage serveru s mnoha GB cache a vykonnymi procesory - tam je vykonnostni rozdil zcela zanedbatelny a financni rozdil nezanedbatelny :).
To je pravda - nicmene pokud resite koupi takoveho pole tak vas nejakych par disku navic urcite netrapi ;-)). Ale jinak samozrejme mate pravdu - trosku se omlouvam mel sem vcera malinko rypavou naladu ;-))
Nesuhlasim. Pri zapisovani na RAID5 MUSITE vzdy nejake data z disku aj precitat, aby ste mali s cim ratat paritu, co pri 10 ani 0+1 nemusite.
Su pripady, ked tie data nahodou mate v cache, ale aby sa to dialo vzdy, museli by ste mat cache vacsiu ako celkovu kapacitu danych diskov (kvoli overheadu).
Preto RAID5 JE VZDY POMALSI AKO RAID1+0 ALEBO 0+1
a ak by aj nahodou nebol pomalsi, vyplyvat to bude maximalne tak z toho, ze uzke miesto je niekde inde.
Už jsem psal jinde. Raid 5 se pro databáze nehodí, pro datové sklady s výraznou převahou čtení nad zápisem asi ano. Pokud vám jde o rychlost a bezpečnost současně při častém přístupu, tak používejte RAID 0+1, i když spotřebujete víc místa. RAID 5 má hodně špatné výsledky při sekvenčním zápisu a čtení v kombinaci s náhodným přístupem. Při malém počtu disků (3-5) dokonce horší než samostatné disky bez RAID. Hodně patrné je to hlavně u databází, kde dochází k neustálému I/O.
1) Ja jsem psal "cena pole" - za to jsem povazoval kompletni krabici s disky a pripadne s radicem. Samotny radic pochopitelne stoji podstatne mene. Ale takove reseni se podle meho vlastnostmi prilis nelisi od SW raidu (i kdyz pochopitelne urcite existuji situace, kde je to naopak vyhodne reseni :-)
2) No, ja znam dost RAID5 - napriklad ted stavim pole na zalohy, u ktereho neni moc potreba vykon, ale maximalni velikost a (urcita) odolnost proti vypadku. RAID5 se pro to hodi zcela idealne.
3) A NT tedy umi rozchodit hotswap IDE? Ja mel dojem, ze je problem spis v IDE. Podle mne kdyz mam na jednom kanalu dva disky a nadrizeny (musime byt politicky korektni ;-)))) vytahnu, tak to podrizeny nerozchodi a nepujde s nim komunikovat.
Ad 3: pokial robis sw-raid na linuxe, v ziadnom pripade by som nedaval 2 disky na 1 kanal ide-radica (master, slave). Nejde len o hot-swap (na ktory neni ide-zbernica vobec robena), ale o to, ze pri hw-poskodeni 1 disku (je jedno ci je master alebo slave) na 99% komunikacne odide aj druhy disk na tom istom ide-kanali...
Jedine logicke pouzitie je 2 disky (master/slave) v raid0 (stripping), pretoze tam ked odide 1 disk, aj tak su data v prdeli. Pripadne raid0+1 (2 disky stripnute na 1 ide-kanali, a cele mirornute na 2 disky v 2-ide kanali. Lenze tam sa zas naraza na vykon, ktory je u 2 diskov na jednom ide-kanali nizsi, ako u 2 diskov na 2 ide-kanaloch...
No NT kernel v kazdym pripade umi hot swap IDE, zeptej se kohokoli na kolejich kdo ma suplicek s diskem :) Jestli na tom snesou SW RAID to nevim...
Jinak k pouzivani RAID 5 na databaze - kdyby mi to DBA udelal tak ho zenu svinskym krokem, ten pokles vykonu je tam fakt hodne znatelnej (bohuzel sem se musel presvedcit na vlastni zkusenosti ;). Jedina vyjimka by byl nejakej statickej datovej sklad, kde by se jen cetlo, ale kolik takovejch aplikaci je, ze. A samozrejme, u databazi s par set radkama na web s par tisicema hitu denne je to naprosta putna...
Nejde o NT kernel (ci linux kernel), ale o elektricke vyhotovenie zbernice. Ved sa len pozri na tie konektory! Kazde poriadne hot-swap zariadenie ma zemniaci kolik na konektore dlhsi, aby sa odpajal od zariadenia ako posledny (ale samozrejme to neni len zalezitost 1 kolika).
Pokial ide o suplicky, tie klasicke obycajne je to iste ako rovno zapojit disk na ide-ksandu. Ziadne hot-swap, leda tak loteria (lahne ide-zbernica, nelahne?). Existuju aj specialne (a ovela drahsie) supliky (napriklad tusim Promise) ktore podporuju hot-swap pomocou specialneho HW a SW. A potom su este interne ide-supliky ktore sa pripajaju v kompe na usb2/firewire, tie su samozrejme z principu hot-swap. Zbernica ide neni a nebola navrhnuta ako hot-swap, to nezmeni ziaden kernel...
pane Jeri3 RAID5 na DB je zcela bezny pro DB aplikce u vetsiny tuzemskych firem, ano, prednasky, teorie jsou jasne proti, oracle vam rad doda verze 8i(9i) DB s moznosti primeho zapisu na device ve svem internim formatu(bez zbytecnosti jako zapisu na vlastni FS OS), ale skutecne sem to zatim nevidel, kdepak delate a co/jak provozujete na te ne Raid5 DB ?
Taky se mi zdálo, že RAID 5 funguje trošku jinak, ale nebyl jsem si jistý. Možná by to chtělo trošku přesnější popisy. RAID 5 je ale pro kočku, takže bych to neviděl jako vhodnou cestu k pokusům. RAID 1+0 je fajn, ale nezdá se mi, že by ta rychlost byla jen o malinko větší. Mi to připadá od dost rychlejší, ale asi záleží na diskových mechanikách. Z líného disku neuděláž blesk :-)))
No ja pouzivam na firemnim serveru IDE RAID kartu pro 4 IDE disky uz asi 2 roky, umi 0, 1 i 5, snad dokonce i vymenu vadneho disku za behu (prez ovladac desky se odpoji), Linuxove drivery dodava vyrobce. Na vyrobce bych se musel podivat, pokud ma nekdo zajem, cena byla okolo 10k.
Libor
HW RAID 5 IDE karty dela bud
Adaptec (4 para nebo noveji i serial ATA diky - ovladace pro linux jsou imho stejne jako pro scsi varianty - i2o) s tim mam osobni zkusenost, nebo
3WARE - ten dela mensi i vetsi (az 12 ide, para i serial) kousky, s ovladaci do linuxu by taky nemel byt problem, jen bacha, vetsina vetsich radicu je pro 64bit pci.
nedavno jsem taky byl nucen vybirat IDE raid kartu a skoncil jsem u Adaptec 2400A (4 kanalovy ATA). Slape celkem dobre (RAID5). Akorat build pole trval malem dva dny (4x250GB disky) a rychlost sekvencniho cteni (merena pomoci dd) neni moc oslniva - mensi nez samostatny disk. Mozna za to muze PCI sbernice (IDE na boardu nejsou vetsinou pripojeny na systemovou PCI takze ji nejsou ovlivnovany)
Jako nejvetsi problem ale vidim to, ze Adaptec nevydal drivery v src forme a jeho predkompilovane binarky jaksi nejsou dostupne pro celou radu kernelu. Takze se mi zatim nepodarilo rozchodit dohledove utility (storage manager). Jinak pole bezi s defaultnim driverem z kernelu (dpt_i2o) zatim v pohode.
Ohlizel jsem se po SATA reseni - neni problem sehnat ale vsechny radice opravdu pouzivaji 64bit PCI sbernici (ze by prave kvuli vykonnosti?).
64bitove PCI karty bezne funguji ve 32bitovem slotu - jenom za slotem musi byt volne misto, nesmi tam zaclanet nejake soucastky. PCI zarizeni na karte si dohodne s PCI bridgem na motherboardu 32bitovy rezim a pak to funguje, jako kdyby karta mela jenom 32bitovou PCI.
Muzou se samozrejme vyskytnout obecne problemy s revizi PCI na motherboardu, s napetim PCI logiky (5V/3.3V) nebo s podporou bus masteringu v ruznych slotech na motherboardu, ale samotna PCI64 by nemela predstavovat problem. Na novejsim ATXovem motherboardu by to melo chodit.
Frantisek Rysanek
Celkom by ma zaujimala nasledovna situacia: povedzme ze mam par ide-diskov, kazdy pripojeny cez interny vymenny "suplik" na usb2. Toto riesenie z hardwaroveho hladiska JE hot-swap (aspon teda pod tymi hnusnymi winblowsami mozem disk zo suplika vytiahnut/zasunut za behu a je aj rozpoznany/pripojeny).
Bolo by potom mozne spravit na linuse sw-raid5 zo 4 diskov, kazdy na usb2, s podporou hot-swap? Nemam vobec skusenosti so "storage-device" na usb2 pod linuxom (ci je to vobec mozne), ale ak funguje na linuse usb2 hot-plug (rozpoznanie po pripojeni) mozno by sa to nejakou seriou skriptov dalo aj zrealizovat...
Ad 2:
Je pravda, ze se jmena prideluji dynamicky, ale
usb_storage po odpojeni zarizeni a jeho opetovnem
pripojeni prideli stejne jmeno/cislo. Pouziva k tomu
nejake hashovani z idVendor, idProduct a SerialNumber
(viz drivers/usb/storage/usb.c - volani fce make_guid
a nasledne prohledavani seznamu drive pouzitych
zarizeni).
A navic i kdyby to melo jine cislo/jmeno, tak by to
stejne nevadilo :-) Stejne se musi pouzit mdadm
a specifikovat mu, ktery disk ma odstranit a ktery
tam pridat.
.. ze za siti hustou tak, ze by se dala krajet, byl server brcalnik. Brcalnik bezel s peti disky v RAIDu5 leta bez zavahani a vsichni bychom byli stastni asi az do smrti, jak to pekne funguje, kdyby. Kdyby jednoho dne neprisli z PRE, ze budou predelavat rozvadec a ze budem den bez elektriny. No, co? UPSka pro po nejakych 20ti minutach cele korektne shodila a pak uz jsme se jen tesili, az nam panove zase pusti proud.. Pustili. Jenze z tech 5ti disku, ktere po leta bez zavahani bezely se tri neroztocily. To je konec pohadky.
Soudim, ze disky byly ze stejne serie a protoze u RAID5 maji vsechny stejny pracovni rezim, tak zakonite odchazeji po vicemene shodne dobe. A protoze existuje jisty usek v zivote disku, kdy disk jeste bezi, ale jen do zastaveni, a protoze tento usek muze cinit i mesice, nemuzete se divit, ze se stalo to co se stalo.
No prece, kdyz se ten disk tocil jeste pred hodinou, tak aspon naka sila v motoru byla, ne? kdyz vidim ze disk se neroztoci, vyndam ho a zkusim s nim prudce otocit ve smeru otaceni... V nejhorsim to dat naky firme na zachranu dat. tam ho v cisty laborce rozeberou a roztocej plotny rucne :-)
Rozhodne nad takovym diskem nelamat hul. Data tam taky este sou, nikdo je nepremazal, kdyz to bylo korektne ukonceny. Kazdopadne je dobry nemit disky z jedny serie a vyrobce v jednom poli....
A zalohovat, zalohovat, zalohovat!
Tak pravil Lenin.
zrcadlici raid je o tom, ze kdyz klekne 1 disk, tak se aspon nejak jede dal, bez preruseni chodu firmy.
Kdo pri raidu nezalohuje, precijen si koleduje o maler!
BTW zajimalo by mne, jesli SATA umi hotswap!
A na IDE obycejnym jsem se suplikem v linuxu kdysi overil, ze to aspon nejak funguje. Jenze pro bezny pouziti bych to neriskoval. Elektrika je mrcha ;)
popletou se potencialy a je vymalovano
Slysel jsem pohadku i o opacnem pripadu. Kamaradovi jednou odesel SCSI disk. Nebyl si jisty, jestli to neni kabelem nebo radicem, tak ho jel vyzkouset do prace. Tam disk chvili fungoval, ale pak zase zkolaboval. Tak ho napadlo, ze je to teplem, doma dal disk na chvili vychladit do mrazaku a pak jej zase pripojil a jal se rychle zachranovati. Vse se podarilo, zadna data neztratil, pohadky je konec.
Od toho je S.M.A.R.T. (smartmontools). Dostanete-li zprávu o odcházejícím disku, pak okamžitě zazálohujte data. Nevypínejte počítač, disk se již nemusí roztočit.
Doma mám taky takový disk (starý 200M SCSI). Když ho při startu vezmu do ruky a pohybuji otáčivým pohybem, nakonec naběhne. Roztočení disku je mnohem náročnější akcí než udržování rotace.
Ale ani smartmontools ti neřeknou jak dopadne rozjezdová loterie.
Ten disk bude až do vypnutí ok, protože má stabilní provozní podmínky, jenom snad podle nakroucených "motohodin" včas provést upgrade, každopádně když disk vydává podivné zvuky připomínající frézu ...
Stejně se chovají větráky na cpu a zdroji, jenom to nekončí tak tragicky (pokud si toho všimne někdo dříve než se mašinka uvaří).
Hlavne pozor na radice pouzivajici aacraid (Adaptec Ultra 320 SCSI RAID - nachazej se v ruznejch Dellech apod.). Tam opravdu smartmontools nepouzivat (ostatne pise se to i v dokumentaci k smartmontools, ale vim moc dobre, kdy se cte dokumentace. A to uz je v tomto pripade pozde :-)
mate nejspis na mysli registrovani disku, "-R", druhy prikaz odregistrovani je s "-U".. jde to ovsem skutecne pouze se zarizenimi, ktere to podoporuji, jako zminovane CF karty... s IDE disky si to z principu neporadi. je ale mozne ten disk vyradit z pole, umountit a s toho cold-swapu proste vyrvat... system bezi a ticho po pesine.. pokud zajistime, aby to doby, kdy disk do stejne bay vratime (potencialne dlouha doba), nedoslo k zadnemu pristupu na disk, je vse ok. po vraceni, roztoceni, namounteni a pripojeni do pole uz zbyva jen se zamyslet nad tim, kolikrat disk (a ten druhy na stejnem kanalu, je-li jaky), muze takovouhle napetovou spicku vydrzet... ale bez obav, reklamuji to bez problemu ;-)
1. Jestlize CF je v True IDE modu, neni mezi ni IDE diskem zadny SW rozdil. Kernel je na tento hotswap pripraveny. Jina otazka je u IDE disku, ty to samozrejme nemusi "prezit". Jak jsem psal, zkousel jsem to s CF kartou a ta jeste mela jeste SW ovladany napajeni. Jediny problem s hdparm je, ze musi existovat alespon jeden dalsi IDE disk, aby se mohlo pres neco provest ioctl volani kernelu pro register noveho disku.
2. "-R" a "-U" je samozrejme mozne provest uspesne pouze na odmontovanem disku. Podle me je to zejmena dulezite, pokud novy disk bude mit jine parametry. "-R" totiz znovu nacte parametry disku do datovych struktur kernelu a vse by melo byt OK.
Ja jsem se snazil nainstalovat na IDE disk Gentoo Linux. Ale nahlasi mi, ze prikazem fdisk /dev/hda nejde hda otevrit. Pritom tam je. Mam disk zapojeny v raidovem slotu na desve a nemuzu case odpecetit. Proto bych se chtel zeptat jak gentoo nainstalovat. Do win. musim dodat ovladace Promise fast track. Dik za odpoved.
Dokazete nekdo nabootovat ze sw RAID 5 pole? At uz Linux nebo nejake BSD? Az mi to nekdo predvede (ne pomoci pomocne partition, ale primo z te /dev/mdX partition), tak mu zatleskam. Ja jsem zatim neprisel na to, jak to udelat, takze mam pomocnou parcelu:
# mount
/dev/md0 on / type xfs (rw)
proc on /proc type proc (rw)
devpts on /dev/pts type devpts (rw,gid=5,mode=620)
/dev/sda1 on /boot type xfs (rw)
No mozno sa to uz medzicasom zmenilo, ale este donedavna sa dalo bootovat iba z sw-raid1 (mirroring). Riesil som to tak, ze 4 disky som mal sice v sw-raid5, ale prva 10MB particia na kazdom disku (kde bol /boot) bola mirrorovana (teda 4-nasobne, na vsetky 4 disky). Takto bootovanie fungovalo bez velkej straty, dokonca asi este s vacsou bezpecnostou.
Pouzival som patchnute lilo, ktore bralo ako argument aj /dev/md1, a samozrejme patricne rekompilovany kernel (tusim tam treba zapnut nejake volby boot/root on raid).
Tohle z principu nejde. Mozna pomuze patchnute lilo.
Ale stejne nemate ten bootaci disk redundantni.
Aby tohle slo, musite bud pouzit HW raid nebo
musite mit podporu v BIOSu. EVMS by snad melo
schopno nacist konfiguraci volume grup pri bootu,
bez pouziti userspace utilit, ale to porad neresi
problem "odkud natahnu jadro?"
Ivan
No, pokud vím, tak je to zkratka z "Just a Bunch Of Disks" a znamená to něco jako "Prostě trs disků :)" Že to v článku není vysvětleno by mi snad ani nevadilo, on to totiž není raid, je to, jak to říct, prostě několik disků připojených počítači, které ale neplní funkci raidu, prostě jsou zenové (tzn. jsou jaké jsou :)
Pro hot-swap je potreba nekolik veci:
1) elektricka podpora na urovni konektoru a HW rozhrani (delsi zemni pin apod.)
2) nejlepe hot-swap backplane, ktery hlida stav zasunuti supliku, ale take jejich napajeni, teplotu, apod. a predevsim v pripade zasunuti/vysunuti nahlasi diskovemu radici, ze "se neco deje". Klicovou soucastkou je tzv. hot-swap backplane processor - v oblasti SCA, coz je standard pro SCSI hot-swap, je tento procesor pripojeny jako zarizeni na SCSI sbernici. Spravci serveru mozna znaji tajemne zarizeni GEM318 - to je hot-swap procesor kompatibilni se specifikaci SAF-TE (existuje jeste alternativni SES).
3) podpora ve firmwaru RAID radice nebo v operacnim systemu.
Tradicne je podpora pro SAF-TE a SES jenom v HW RAID radicich. Operacni systemy tyto standardy nepodporuji - vyjimkou jsou snad nejake letite ovladace ve FreeBSD. Do Linuxu a Windows existuji komercni dohledove softiky - od prirody nic. Pro Windows existuje zadarmo jenom "siditkovy" ovladac, aby Windows nepovazovaly GEM318 za "nezname zarizeni".
Naopak napriklad radice Promise se svym Windowsim softwarem zvladnou hot-swap s IDE ramecky, ktere nemaji inteligentni hot-swap backplane.
K veci ($SUBJ):
Videl jsem jednu serverovou masinu se dvema vymennymi SATA supliky. Samotne konektory supliku byly zjevne konstruovane s ohledem na hot-swap - zajimavy byl ale hlavne hot-swap backplane. Bylo videt, ze na nem chybi nektere soucastky a podle popisku se dalo poznat, co to presne bylo - chybel tam jeden ci dva I2C konektory a predevsim svab GEM424.
http://www.qlogic.com/documents/datasheets/products_data/gem/gem424.datasheet.pdf
Zda se, ze rodina standardu SATA obsahuje naprosto jednoznacnou podporu pro hot-swap.
Dokonce se te veci rika SAF-TE, tak jako u SCSI. Hot-swap procesor ale neni SATA zarizeni, pripojuje se pres I2C.
Vyrobci RAIDovych karet, jako treba Promise, dodavaji SATA radice s I2C porty pro "enclosure management" - coz je prave toto.
Nemam prakticke zkusenosti, abych rekl, jak moc to funguje mezi ruznymi vyrobci pocitacovych skrini a SATA RAID radicu.
Frantisek Rysanek
Zdravim
Clanek pomerne zajimavy, nevedel jsem ze linuxovy kernel muze udelat SW raid na jakemkoliv pocitaci i bez promise/hpt/... cipu.
Resim v soucasnosti maly problem s velkym polem, mam %SUBJ a nedari se mi ho rozjet, pokud s nim mate nekdo zkusenosti a jste ochotni pomoct, ozvete se nekdo na icq 313322072.
Diky
Zdenek
RAID znamena "Redundant array of inexpensive disks", co znamena ze vznikol kvoli
1. redundantnosti dat (co neplati iba i RAID 0)
2. nizkej cene (male disky sa spoja a vytvoria velky virtualny)
Takze tvrdit, ze RAID je drahy, je velmi relativna zalezitost - ano, da sa postavit pole s nejakou kapacitou, ktore bude drahsie, ako disk s rovnakou kapacitou (co dnes zrejme plati pre vsetke polia lacnejsie ako najvacsie dostupne disky), ale postavit dnes pole 1TB verzus ziskat disk 1TB - myslim ze to pole vyjde lacnejsie. (no yo, ak uz je na svete lacny 1 TB disk, tak si to zmente na 5TB).
To, ze existuju drahe polia, vyplyva z uplne ineho dovodu: kvalitne polia byvaju velmi rychle, spolahlive, a spravovatelne neporovnatelne jednoduchsie a flexibilnejsie ako jednotlive pevne disky.
RAID 10 znamena RAID 1+0, to znamena nad RAIDami 1 postaveny RAID0. Takze stripping mirrorov.
RAID 0+1 znamena nad RAIDami 0 postaveny RAID 1 - TOTO je mirroring stripov.
RAID 1+0 ma v porovnani s RAIDom 0+1 tieto vyhody:
1. kazdy disk ma svoj mirror, takze pri vypadnuti jedneho disku staci data prekopirovat z jedneho konkretneho disku a netreba rebuildovat cely strip (virtualny disk)
2. pri vypadku jedneho disku v RAID 1+0 treba na odidenie celeho pola aby vypadol presne jeho mirrorovaci disk, zatial co pri RAID 0+1 staci aby vypadol jeden disk z druheho stripu, co je niekolkokrat viac pravdepodobne.
RAID 0+1 teda v porovnani s RAIDom 1+0 v podstate nema zmysel pouzivat.
RAID50 znamena nad RAIDami 5 postaveny RAID 0.
Prve cislo v raide znamena ake raidy su na najnizsej urovni a druhe cislo znamena, co je nad tymi mikroRAIDami postavene.
- hotswap IDE - kamarad mel suplika a hotswapil a hotswapil ... a asi po 3 mesicich si hotswapnul a odpalil co slo ... disk, ideport ...
- hotswap SCSI - nejdriv ho odregidtrovat v /proc/scsi/scsi a pak urvat kabely. Je to bez zaruky, ale pouzivam to uz 2 roky bez problemu. [DISCAIMER] nepiste mi, ze vam neco shorelo, jestli se bojite, tak to nedelejte
- spinup - v disku je N civek (kde N je male cele cislo, ktere jsem zapomel, tusim 5), ktere realizuji plochy krokovy motor. Pokud shori jedna, disk se roztoci, pokud shori dve, disk se toci, ale neroztoci (no nejaka hra na setrvacnost by pomoci mohla), tedy to je vysvetleni, proc disky umiraji po vypnuti.