Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Hlavní navigace

ZFS dostal podporu deduplikace

Deduplikace je proces, který pomáhá šetřit volný prostor na disku. Může fungovat na úrovni souborů, bloků nebo bytů. Pro data jsou vytvořeny jedinečné otisky, které si souborový systém uchová ve zvláštní tabulce. Pokud se na disk poté pokusíme uložit stejná nebo podobná data, nealokuje se pro ně další místo, ale jen vznikne záznam v tabulkách s otisky. V případě mnoha duplicitních souborů (například u virtualizace nebo záloh) může deduplikace zajistit až několikanásobně větší prostor na disku. Sun nyní oznámil, že souborový systém ZFS má nyní integrovanou podporu deduplikace, kterou stačí jednoduše aktivovat.

Dále čtěte…         

Předchozí zprávička Následující zprávička        
Miroslav Prýmek aura:56
4. 11. 2009 15:00 Nový

Virtualizace?

celé vlákno

Nemam s deduplikaci zadne zkusenosti a jedna vec mi nejde do hlavy – napr. u image virtualniho stroje se muze docela lehce stat, ze se stejna data trochu pohazeji, nebo posunou (vlivem nejake fragmentace nebo tak) – a deduplikace (na urovni bloku) je v cudu, prestoze tam stejna data jsou.

Mate nekdo zkusenosti s tim, jak to vpraxi funguje? Dik.

chsajarsa
chsajarsa (neregistrovaný) 212.67.81.---
5. 11. 2009 8:45 Nový

Re: Virtualizace?

celé vlákno

Pokud vim tak chunky maji nejakou velikost napr. 4kB. A pak se porovnavji ruzne hashe techto chunku. Velikost je natolik mala, ze tam sice dochazi k nejakym stejnym datum,ale zase tak hrozne to neni. Pri deduplikovanych zalohach (2 mesicni retantion time OS,DB,FS i image virtualnich stroju) jsme se byli schopni dostat pod 10% mista potrebneho pro zalohu. Nekdy v docela blizke dobre by snad mel umet deduplikaci i VMware. Navic se nehodi jen pro zalohy,ale napr. cteni je z deduplikovaneho FS rychlejsi.

Marek Chlup
Marek Chlup (neregistrovaný) ---.erkor-oc.cz
4. 11. 2009 15:30 Nový

velikost tabulky otisků

celé vlákno

Je to zajímavé. Ovšem asi ne vždy vhodné použít – předpokládám, že tvorba otisků a jejich ukládání něco časově a prosotrově stojí. Navrch otisk musí být mnohem menší než ukládaná data (jinak to nemá smysl) a je otázka, jaká je pravděpodobnost kolize (různá data budou mít stejný otisk).

Miroslav Prýmek aura:56
4. 11. 2009 17:57 Nový

Re: velikost tabulky otisků

celé vlákno

>> že tvorba otisků a jejich ukládání něco časově a prosotrově stojí

Mám zato, že ZFS otisky tak jako tak dělá kvůli odhalování „silent corruption“.

>> jaká je pravděpodobnost kolize

Snad by se data měla bajt po bajtu porovnat, když se rovná hash – divil bych se, kdyby to tak nedělali.

Miroslav Hrončok
4. 11. 2009 16:11 Nový

Záloha

celé vlákno

Pokud něco zálohuju na stejnou partition, není to blbost? A zároveň, pokud to blbost není, tak je blbost takovou zálohu pak deduplikovat, ne? Je pka naprosoto zbytečná.

Jan Horak
Jan Horak (neregistrovaný) 212.136.56.---
4. 11. 2009 16:28 Nový

Re: Záloha

celé vlákno

Tipnul bych si, ze autor clanku mel na mysli pripad, kdy na jednom mediu (napr. na diskovem poli) mate vice nez jednu zalohu toho jednoho a sameho.

Potom se tam vejdou zalohy treba serveru ne za posledni tyden, ale treba i za vice nez cely mesic, jelikoz stejne bloky tam budou pouze jednou.

Ovsem pri fyzickem poskozeni disku jsou data v haji prave proto, ze byla ulozena jenom jednou. Je tedy potreba pouzivat diskova pole (raidy) atd.

motyq
motyq (neregistrovaný) ---.seznam.cz
4. 11. 2009 16:47 Nový

Re: Záloha

celé vlákno

Je tedy potreba pouzivat diskova pole (raidy) atd. … anebo vyuzit ostatni vlastnosti zfs zpoolu :)

Jan Horak
Jan Horak (neregistrovaný) 212.136.56.---
5. 11. 2009 15:27 Nový

Re: Záloha

celé vlákno

Anebo tak ovsem tim se ochudite o moznost minimalizovat nasledky softwarove chyby v ZFS.

Obcas se vyplati rozhodit mozne chyby mezi sfotware a hardware tak, aby se vam zniceni dat kvuli chybe hw neseslo se znicenim dat kvuli chybe sw s moznym znicenim dat kvuli chybe obsluhy.

Idealni stav: Online a Offline zalohy, vzhledem k clanku ZFS je-li to vyhodne a nejaky ten hw ci sw RAID ktery ovsem ZFS pouzivat nesmi.

abcd
abcd (neregistrovaný) ---.net.upc.cz
4. 11. 2009 16:32 Nový

Re: Záloha

celé vlákno

Zálohovat něco na stejný filesystem/par­tition je blbost samo o sobě a vliv deduplikace už je minimální.
Ad dříve virtualizace – v rámci toho image budou knihovny, binárky atd. stejně začínat na hranici bloku. Bude-li deduplikace po blocích, tak se tedy shody najdou. Cena v případě třeba md5(4kb) bude jedno procento.
Technologie celkem zajímává, už před lety mi chybělo něco jako hardlink-copy-on-write. Nejen virtualizace, ale třeba checkout do různých míst to zlepší. Na běžném uživatelském desktopu bude užitek spíš malý.

xurfa
xurfa (neregistrovaný) ---.adsl.sky.cz
5. 11. 2009 12:00 Nový

kolize?

celé vlákno

A co když se objeví dva bloky, které mají stejné hashe, ale rozdílný obsah? To přece nikdy nelze vyloučit, ne?

chsajarsa
chsajarsa (neregistrovaný) 212.67.81.---
5. 11. 2009 12:06 Nový

Re: kolize?

celé vlákno

a co treba hashe dvouma ruznyma metodama ?

Sten
Sten (neregistrovaný) ---.seznam.cz
5. 11. 2009 13:13 Nový

Re: kolize?

celé vlákno

Pokud je součet výsledné velikosti hashů menší než původní objem dat, vždy musí existovat kolize, takže to rozhodně nepomůže.

Petr Šmíd
Petr Šmíd (neregistrovaný) ---.systinet.com
5. 11. 2009 13:08 Nový

Re: kolize?

celé vlákno

To se samozřejmě stávat bude. Určitě se to v případě stejných hashů ověří.

Jan Horak
Jan Horak (neregistrovaný) 212.136.56.---
5. 11. 2009 15:29 Nový

Re: kolize?

celé vlákno

V pripade ze najdete shodu hashu ty bloky proste porovnate cely. Porovnat nekolik set nejvyse nekolik tisic bytu neni zase takovy problem.

Porovnavani hashu umozni rychle nalezeni shody.
Porovnani celeho obsahu znemozni chyby.

Jan Pechanec
Jan Pechanec (neregistrovaný) ---.sun.com
5. 11. 2009 18:25 Nový

Deduplikace v ZFS

celé vlákno

ahoj, koho zajima, jak to opravdu je, zde je link:

http://blogs.sun.com/…ry/zfs_dedup

Miroslav Prýmek aura:56
6. 11. 2009 8:15 Nový

Re: Deduplikace v ZFS

celé vlákno

Super, díky.

Zaujalo mě tohle:

To have a collision probability of 10−18 (already more reliable than almost anything else in the system), this would require approximately 298 unique blocks (2115 bytes @128k) to be written, well beyond the limits for any forseeable storage platform.

:)

xurfa
xurfa (neregistrovaný) ---.adsl.sky.cz
6. 11. 2009 21:25 Nový

Re: Deduplikace v ZFS

celé vlákno

prííma. uz se tesim, az nekdo najde slabinu v hashovacim algoritmu. to bude bezpecnostni dira…

xurfa
xurfa (neregistrovaný) ---.adsl.sky.cz
6. 11. 2009 22:21 Nový

Re: Deduplikace v ZFS

celé vlákno

Tak koukam, ze na kolize uz je pekne naslapnuto:

http://arxiv.org/abs/0803.1220

Vcelku prdel..

Zasílat nově přidané příspěvky e-mailem        

Přehled názorů

Virtualizace?
Miroslav Prýmek 4. 11. 2009 15:00
└ 
Re: Virtualizace?
chsajarsa 5. 11. 2009 08:45
velikost tabulky otisků
Marek Chlup 4. 11. 2009 15:30
└ 
Re: velikost tabulky otisků
Miroslav Prýmek 4. 11. 2009 17:57
Záloha
Miroslav Hrončok 4. 11. 2009 16:11
├ 
Re: Záloha
Jan Horak 4. 11. 2009 16:28
│
└ 
Re: Záloha
motyq 4. 11. 2009 16:47
│
 
└ 
Re: Záloha
Jan Horak 5. 11. 2009 15:27
└ 
Re: Záloha
abcd 4. 11. 2009 16:32
kolize?
xurfa 5. 11. 2009 12:00
├ 
Re: kolize?
chsajarsa 5. 11. 2009 12:06
│
└ 
Re: kolize?
Sten 5. 11. 2009 13:13
├ 
Re: kolize?
Petr Šmíd 5. 11. 2009 13:08
└ 
Re: kolize?
Jan Horak 5. 11. 2009 15:29
Deduplikace v ZFS
Jan Pechanec 5. 11. 2009 18:25
└ 
Re: Deduplikace v ZFS
Miroslav Prýmek 6. 11. 2009 08:15
 
└ 
Re: Deduplikace v ZFS
xurfa 6. 11. 2009 21:25
 
 
└ 
Re: Deduplikace v ZFS
xurfa 6. 11. 2009 22:21