Názory k článku
Perličky: kódování znaků a unicode
RE: Perličky: kódování znaků a unicode
celé vláknoProboha, nedělejte to jako autor!
celé vláknoAutor si ještě vybere příklad, jak ošetřit znaky azbuky, ale nafláká je do výstupu jako Unicodové HTML-symboly.
Místo opisování z ruských pramenů by asi měl uvést příklad, jak třeba převést v UTF-8 zapsané znaky z Windows-1250 na znaky sady ISO-8859-2 (tedy třeba dlouhou pomlčku na normální). Jinak to nemůže použít dál (jen na HTML-výstup).
Musím ale poznamenat, že tohle již před do 10 lety udělali programátoři Lynxu. Ten dělá převody, jak normální lidé čekají. Stačí jen se ho v Perlu naučit aktivovat na vstup nebo výstup.
P.S.
Hlavně mi není jasné, proč tohle neopsali programátoři Perlu 5.8 ?
Re: Proboha, nedělejte to jako autor!
celé vláknoTaky porovnávat převádění ve webového prohlížeči, kde není zásadní ani tak správnost převodu, ale srozumitelnost přeloženého textu, aby vypadal alespoň podobně. Normální člověk není programátor. Programátor potřebuje přesně vědět, co mu leze na vstupu, potom převod nemůže dopadnout špatně. Pokud to neví, tak to je problém programátora nebo systému. Programovací jazyk tohle asi moc rozumně vyřešit nemůže.
Jinak, když budu chtít BOM u souboru, tak předpokládám můžu zapomentou na #!/usr/bin/perl na prvním řádku, co? Předpokládám že linuxový kernel takové značky nepodporuje.
Re: Proboha, nedělejte to jako autor!
celé vláknoS tim ohybanim do HTML - proc ne, spousta skriptu muze byt nasazena v CGI prostredi. Sice do HTML muzete narvat utf8 primo (coz jsem udelal pri psani clanku), ale treba ne kazdej filtr postavenej za vas skript to zvladne apod.
BOM bych nevidel tak tragicky. Nikde neni napsano ze to musi byt prvni znak, jak to tam cpe notepad ve windows. IMHO staci, aby BOM byl na stejnym miste jako byste dal use utf8, tj. pred prvnim neascii znakem. Jestli to rozdycha kernel v shebangu je otazka, ale ja myslim ze ne. Muzete to dat jako namet na LKML :-)
Re: Proboha, nedělejte to jako autor!
celé vláknoRe: UTF-8
celé vláknovelcí i malí indiáni
Pro úplnost, ještě existuje middle-endian (PDP11). Příklad: nedorozumění little/big-endian udělá ze slova UNIX - XINU, middle-endian ale NUXI (tedy byty v 16 bitovém slově jsou řazeny little-endian, ale 16 bitová slova do 32 bitového dvojslova jsou složena big-endian).
Konec IT archeologie.
Japonske znakove sady
celé vláknoRe: Japonske znakove sady
celé vláknoVÍCE JAK 65 TISÍC ZNAKŮ JE ZBYTEČNÉ !!!
65 TISÍC ZNAKŮ BY MĚLO STAŠIT PRO VŠECHNY NÁRODNÍ ABECEDY NA SVĚTĚ A JEŠTĚ SPOUSTU SMAJLÍKŮ K TOMU. A TO, ŽE SE DO TĚCH 65 TISÍC ZNAKŮ NEVEJDE ČÍNŠTINA TO JE ČISTĚ JEJICH PROBLÉM !!! NEMAJÍ POUŽÍVAT TAK DEBILNÍ PÍSMO !!! (ostatně právě díky čínskému geniálnímu písmu je v číně tak nízká gramotnost)
SLOVA AUTORA:
Kódování UCS-2 používá pevných 16 bitů na symbol a dnes se již doporučuje jej nepoužívat, jelikož kvůli tomu umí reprezentovat pouze symboly z BMP…
NO PROSTĚ UPLNĚ HLOUPÉ KECY.
MĚ TĚCH 65 TISÍC ZNAKŮ STAČÍ, A TUDÍŠ MĚ STAČÍ 16 bitů na symbol. ČÍNSKÝ ZNAK NEBUDU POTŘEBOVAT NIKDY ZAPSAT !!! A NEBUDU HO POTŘEBOVAT ANI ZOBRAZIT, PROTOŽE BYCH MU STEJNĚ NEROZUMĚL !!!
AŤ MĚ AUTOR PŘESVĚDČÍ, ŽE BUDU POTŘEBOVAT POUŽÍVAT VÍCE, NEŽ 65 TISÍC ZNAKŮ !!! :D :D :D ☺☺☺☺☺☻☻☻☻☻

