Hm ale takhle jednoduche to parsovani opravdu neni. Pokud by bylo, tak neni az takovy problem, ale XML je o dost slozitejsi, nez se na prvni pohled zda.
Doctype je ale v XML vemi dulezite (podle ceho jineho chcete validovat nez podle DTD, pripadne jak jinak poznat co to je vubec za dokument nez pomoci identifikatoru) a navic muze obsahovat vlastni entity!
Nejak jste pritom zapomnel prave na entity (interni, externi, parametricke) a to muze byt poradny humus (v entitach mohou byt take znacky).
Atributy mohou obsahovat take znaky mezera a = a mohou byt oddeleny stridave apostrofy i uvozovkami a obsahovat tytez znaky odescapovane. A oo teprve blok CDATA, ktery muze obsahovat temer cokoliv. A to nejsem zadny XML guru a spousta zaludnosti mne ani nenapadlo.
HTML prece take definuje, jak se ma pracovat s neuzavrenymi tagy, ktere smeji byt neuzavreny a ktere ne. Ty, ktere jsou neuzavrene spravne neni potreba nijak odhadovat a ty, ktere jsou uzavreny spatne nejsou well-formed HTML :) Ze nektere prohlizece nejak prectou i non-well-formed HTML prece neni chyba specifikace HTML :)
Vami spravovany web, odhaduji, bude nejak technologicky specializovany tj. ne obecny web, ktery navstevuje vetsinova populace cili ta cisla jsou v techto pripadech obecne u MSIE nizsi, ale to je jedno.
Názor k článku
Ian Hickson o nové verzi HTML
uživatel si přál zůstat v anonymitě
23. 4. 2007 19:20

