Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Hlavní navigace

Názor k článku
Akta X: EXI čili binární XML

BLEK.
BLEK. (neregistrovaný)
5. 11. 2007 16:45

Re: gzip

celé vlákno
Ona je otázka, za jakým účelem se to binární XML vlastně dělá.

a) Pokud se dělá za účelem rychlého zpracování, tak je třeba zapomenout na nějaké Huffmanovy kódy a hledání opakujících-se řetězců, protože tyhle věci zpracovávání zpomalují, nezrychlují. Pak se taky udivuji, proč v článku píšou, že je to "stream" dat, asi by bylo rozumnější, aby to byl strom, aby se daly přeskakovat elementy, co člověk nechce. Další věc, co by zpracovávání mohlo zrychlit, by mohlo být třeba přidat ke každému řetězci 32-bitový hash, aby se nechtěné elementy a atributy daly přeskakovat rovnou jedním porovnáním, a nebylo třeba dělat pomalé porovnávání řetězců po bytech.

b) Pokud se dělá za účelem zmenšení velikosti dokumentu (z článku jsem získal dojem, že tohleto byl cíl autorů), pak mi přijde divné, že komise navrhuje něco, co v podstatě používá kompresní algoritmy ze 70 let. Kdyby vztali nějaký současný kompresní algoritmus a vyřešili v něm problémy, kvůli kterým to XML komprimuje neefektivně (např. použili odlišné slovníky a statistické tabulky pro elementy/atributy/data), tak mi přijde, že by tím mohli dosáhnout daleko lepších výsledků.

On i ten gzip (i když jeho princip je jednoduchý) se vyvíjel mnoho let, aby byl rychlý a efektivní, tak pochybuju, že pokud si někdo sedne a řekne "já teď udělám kompresi opakujících-se řetězců", tak výsledek bude lepší než gzip.