RE: internacionalizace
To neni tak docela pravda: XML sice obsahuje informaci v jake kodove strance je napsano, ale bohuzel uz napsanou v nejake kodove strance.. tzn. neexistuje zpusob jak zjistit kodovou stranku jeste pred ctenim dokumentu. Nehlede na neexistenci moznosti zapsat cast dokumentu v jine kodove strance.
eeeh ? co je to za ptakoviny ?
proc bych si nemohl psat cast dokumentu v jinym kodovani ?
pokud ovsem nekdo neuvazuje o tom cpat diakriticke znaky do nazvu elementu a pod (coz by ovsem byla stejna demence jako cpat diakritiku du nazvu promennych, procedur/funkci/trid/cehokoli, ci dokonce klicovych slov programovaciho jazyku (podle me nepatri diakritika nikam jinam nez do dat a uzivatelskyho rozhrani, maximalne tak jeste do mailu od sefu a dalsich ignorantu).
klidne muzu mit neco typu
<xxx>
<enc1250>cokoliv v cp1250</enc1250>
<enc????>blah blah, cp ????</enc????>
</xxx>
a podle kodovy stranky pod kterou program pojede si vybrat relevantni polozku.
... a odsoudim se k tomu, ze nebudu moci pouzivat 90% dostupnych nastroju - pocinaje text editory, ktere mi od tohoto okamziku nezobrazi cely dokument spravne, ale vzdy jen tu cast se spravnym kodovanim a konce vsemi konvertory mezi kodovacimi tabulkami.
Tohle myslim do xml opravdu nepatri. Od ceho mame unicode, ze?
ja jsem pouze rikal ze ta moznost tu je, ne ze by to mel nekdo delat ....
<joke>unicode je skvela vec, zavedeme si rovnou znaky pro f^n a bl, ne ? nebo pockame do hyper-space-wide-unicode verze s 32B na 1 znak a dostatkem znaku pro vsechny formy zivota v tehdy znamem vesmiru ?</joke>
"To neni tak docela pravda: XML sice obsahuje informaci v jake kodove strance je napsano, ale bohuzel uz napsanou v nejake kodove strance.. tzn. neexistuje zpusob jak zjistit kodovou stranku jeste pred ctenim dokumentu."
Jeste pred ctenim dokumentu jiste ne :)
XML ma pouze mechanismus, jak z nacteni nekolika prvnich bajtu jednoznacne urcit kodovani a znakovou sadu celeho dokumentu, aniz by predem byla znama. Funguje to prinejmensim pro Unicode a vsechny kodove stranky rozsirujici ASCII.
"Nehlede na neexistenci moznosti zapsat cast dokumentu v jine kodove strance."
K tomu jsou externi entity.
>Jeste pred ctenim dokumentu jiste ne :)
Mel jsem na mysli to, ze musite precist cast dokumentu UZ V URCITEM KODOVANI abyste zjistili ahaaa, je to kodovani to a to. Ano, funguje pro ASCII, ale uz ne pro Unicode ( LE,BE), pouze pro Utf-8, ale hlavne ne pro EBCDIC atd
>K tomu jsou externi entity
Cekal bych, ze my takovy format umozni napsat slovnik, treba Japonsko-Cesky, kde jednoznacne potrebuji dve zcela odlisna kodovani
nerikam ze xml je shit, rikam ze xml je bohuzel shit
"Ano, funguje pro ASCII, ale uz ne pro Unicode ( LE,BE), pouze pro Utf-8, ale hlavne ne pro EBCDIC atd "
Mam za to, ze Unicode ma byte-order mark pro rozliseni UTF8/16 a LE/BE. S EBCDIC bohuzel nemam zkusenosti. Urcite existuji systemy, kde se autodetekce nepovede, ale presto se domnivam, ze se XML k i18n stavi celem.
A japonsko-cesky slovnik bych, kdybych umel japonsky, pohodlne napsal cely v Unicode. Spis bych mel problemy s fonty a editorem, nez jak to ulozit do XML.