Poměrně rozsáhle jsem téma parserů řešili tady http://blog.converter.cz/index.php?p=1242&c=1 a v diskusi pod tímto článkem http://www.lupa.cz/clanky/soumrak-nad-modernim-x/ a jednoznačně je jednodušší napsat parser HTML!
Ano, HTML.
Je třeba si uvědomit, že i tohle http://www.dgx.cz/knowhow/xhtml/ je validní XHTML kód!

