Názory k článku
Zstd 1.5.0 s rychlejší a lepší kompresí

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

16. 5. 2021 7:37

Marek

Ještě by bylo fajn napsat v kterém roce vyšel nejnovější procesor, který ještě neuměl SSE2. V roce 2016 jsem takový potkal, byl to nějaký 10 let starý stroj, který se válel v zadním rohu v kumbálu (serverovně). Všechny x86_64 processory SSE2 umí.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
16. 5. 2021 23:10

Ondra Satai Nekola

Zlatý podporovatel

Spíš to bude otázka non-x86 mašin a mašinek...
Každodenně u x86(64) je to naprostá samozřejmost.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 5. 2021 2:33

kvr kvr

Pro jiné architektury existuje optimalizace taky. V podstatě jde o porovnání dvou vektorů. Na SSE2 se použije _mm_cmpeq_epi8, na ARM zase něco jiného (kombinace shift apod - vyžaduje o něco víc instrukcí, ale pořád mnohem rychlejší než porovnání po bytes). Až se rozšíří RISC-V (standardně s vector extension), tak určitě využijí i tam.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 5. 2021 9:50

me vakérav
Zstd je naprosto skvělá komprese, vlastně používám už jenom ji (kromě vyložené archivace, kde používám xz).

Akorát je zvláštní, že na většině mých datech (různé jsony, kombinace hexadecimálního textu apod.) je zvláštní jev, kdy výchozí stupeň komprese (4) dává úplně nejhorší kompresní poměr. I menší stupeň komprese dává lepší kompresní poměr, a to čím dále od výchozí hodnoty, tím lepší.

Například teď jsem zkusil rychlý test na jednom ze souborů:

Komprese Velikost 1 5057067 <-- nejrychlejší, ale přitom super malé! 2 5147241 3 5407954 4 5589279 <-- největší velikost! 5 5445645 6 5323713 7 5141845 8 5028717 9+ (menší velikost)

Z prvních 7 stupňů nejlépe zabaluje ten první, nejrychlejší! Až stupeň 8 zabaluje lépe, ale zato mnohem pomaleji. Rychlost komprese je přitom očekávatelná, tedy snižuje se se zvyšujícím stupněm.

Takže já osobně zabaluju vždy na první stupeň, vyšší stupně nepoužívám vlastně vůbec.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 5. 2021 15:45

Fík

Zlatý podporovatel

To bude asi způsobeno zvláštností těch vstupních dat. Ale zstd umí i záporné rychlejší stupně, možná by stálo za to zkusit i je
zstd --fast=1

-1 je nejpomalejší, -2 rychlejší ...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 5. 2021 18:49

Mintaka

Většinou komprimuji celé disky nebo partitions a tam mi hodně pomáhá pigz, který zvládá běžet vícevláknově a využije více jader CPU.

Je někde přehled, pro jaká data je zstd dobré a kde nic moc?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 5. 2021 23:33

Bobinnho

Souhlas, pigz je paradni a divim se, ze ty ostatni popularni kompresory paralelni processing neumi.

S pigz na Power9 s 64 lcpu (AIX, lpar, db server) zalohuji celou instanci databaze | pigz na 16 cpu a i kdyz je pod tim hw all flash diskove pole, ktere umi zapsat vysoke stovky MBs/s, tak diky te paralelni kompresi, kterou ta masina v klidu zvladne, snizim celkovy beh backupu na mensi polovinu, proste luxus a na pigz nenecham dopustit :-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
18. 5. 2021 9:02

me vakérav

Tak zstd má třeba u mě na počítači rychlost obecně vyšší stovky MB za sekundu (podle obsahu), což stejně naráží na rychlost běžných disků.

Ale zase je fakt, že by to stejně mohlo umět i paralelní zpracování. Vlastně by bylo triviálně jednoduché udělat takové udělátko na paralelní kompresi nad jakýmkoli kompresorem. Využil bych toho, že všechny ty gzipy, xz, zstd apod. lze řetězit, (DEKOMPRESE(KOMPRESE(obsahA) + KOMPRESE(obsahB)) = obsahA + obsahB). Takový kompresor by postupně četl soubor řekněme po 10 MB, každou takovou část zabalil v separátním vlákně, a pak všechny tyhle zabalené části postupně zapisoval do výsledného souboru. To by snad šlo i v bashi. Kompresní poměr by byl samozřejmě horší (mezi jednotlivými částmi se ztrácí kontext), ale to je u pigz taky, jinak to udělat ani snad nejde.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
18. 5. 2021 12:40

Fík

Zlatý podporovatel

zstd je paralelní již nativně, lze použít buď zstd -T0, nebo zstdmt

xz taky umí paralelní kompresi xz -T0, nebo je k dispozici pxz
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 5. 2021 13:46

Mintaka

Tak to je docela zásadní informace. Díky za info.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
18. 5. 2021 11:20

Mintaka

Podle mě tam je nezanedbatelný prostor k optimalizacím.
Třeba sdílený slovník mezi vlákny.
Sekvenční přednačítání do paměti, aby se nečekalo až na to, které vlákno si řekne o jaká data.
Předstartovní analýza zdroje a vybrání vhodné strategie, jak ze zdroje číst.
....