Vlákno názorů k článku Napsat správně mezinárodní aplikaci v Qt nemusí být snadné od Jakub Galgonek - Jeden znak může při použití UTF-8 zabrat maximálně...

Článek je starý, nové názory již nelze přidávat.

27. 12. 2010 3:05

Jakub Galgonek (neregistrovaný)

Jeden znak může při použití UTF-8 zabrat maximálně čtyři bajty, ne šest.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor

27. 12. 2010 9:01

Radovan (neregistrovaný)

Bits Last code point Byte 1   Byte 2   Byte 3   Byte 4   Byte 5   Byte 6
  7  U+007F          0xxxxxxx
 11  U+07FF          110xxxxx 10xxxxxx
 16  U+FFFF          1110xxxx 10xxxxxx 10xxxxxx
 21  U+1FFFFF        11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
 26  U+3FFFFFF       111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
 31  U+7FFFFFFF      1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

viz Wiki

Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor

27. 12. 2010 9:10

Jakub Galgonek (neregistrovaný)

0000 0000-0000 007F | 0xxxxxxx 0000 0080-0000 07FF | 110xxxxx 10xxxxxx 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx 0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

viz RFC 3629 ;-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
28. 12. 2010 11:09

Radovan (neregistrovaný)

Jo, na windowsácké UTF-16 to dá, ale jak do toho nacpeš UTF-32? A neříkej že to se ti NIKDY stát nemůže, čtyřbytové IP adresy také měly stačit navždy...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
28. 12. 2010 11:43

Jakub Galgonek (neregistrovaný)
Jak? Jednoduše! Musíš si uvědomit, čím UTF-? jsou a čím nejsou! Je to způsob, jak kódovat číselné kódy unicode znaků do bajtů. No a unicode prostor má rozsah 000000-10FFFF. Z toho ti plynou dvě věci:

V případě použití UTF-8 budeš potřebovat maximálně 4 bajty. Nejde totiž o to pomocí UTF-8 ukládat 32 bitová čísla, ale unicode kódy znaků!

V případě použití UTF-32 ne každá 32 bitová hodnota je přípustná (kóduje nějaký unicode znak).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 12. 2010 15:37

Radovan (neregistrovaný)

Jasně, a také 640 KB musí stačit každému a se Sovětským svazem na věčné časy ;-) Kromě toho žádná další RFC už také nikdy nebudou a nezmění to zase jinak... Mimochodem, ne 32 ale 31 bitová, jak píše CHe níže.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 12. 2010 16:02

Jakub Galgonek (neregistrovaný)

Takže ty tedy říkáš, že mé tvrzení, že znak kódovaný v UTF-8 podle normy nemůže zabrat více jak čtyři bajty, je nepravdivé, protože v budoucnu se může objevit nová norma? Ty jsi teda kus demagoga.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 1. 2011 11:24

Sten (neregistrovaný)

Nebylo by to poprvé, co by Unicode Consortium něco takového udělalo.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 1. 2011 9:58

Jakub Galgonek (neregistrovaný)

Až se změní, tak se změní. Ale nemá smysl nyní tvrdit a argumentovat, že těch bajtů může být maximálně šest, když žádný takový znak v unicodu neexistuje a podle aktuální normy existovat nemůže. A až se norma změní, bude to třeba více než šest ;-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 1. 2011 16:09

Radovan (neregistrovaný)

Ale může, protože natruc budu (a nejen já) používat program z roku 2001, který na nějakou aktuální normu dlabe :-P
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 1. 2011 18:01

Jakub Galgonek (neregistrovaný)

Tak mi napiš alespoň jeden znak, který podle stavu z roku 2001 potřebuje v UTF-8 šest bajtů ;-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 12. 2010 16:57

Jakub Galgonek (neregistrovaný)

Mimochodem, ne 31 ale 32 bitová, jak jsem již psal. Neboť i když byl unicode prostor původně 31 bitový, nic to nemění na tom, že:

UTF-32 is the simplest Unicode encoding form. Each Unicode code point is represented directly by a single 32-bit code unit. (Unicode Standard 6.0)

Přesto ale:

As for all of the Unicode encoding forms, UTF-32 is restricted to representation of code points in the range 0-10FFFF - that is, the Unicode codespace. This guarantees interoperability with the UTF-16 and UTF-8 encoding forms. (Unicode Standard 6.0)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 12. 2010 9:33

CHe (neregistrovaný)

The original specification allowed for sequences of up to six bytes, covering numbers up to 31 bits (the original limit of the Universal Character Set). In November 2003 UTF-8 was restricted by RFC 3629 to four bytes covering only the range U+0000 to U+10FFFF, in order to match the constraints of the UTF-16 character encoding.

viz Wiki... :)

RFC 2044 (1996): 4 octets
RFC 2279 (1998): 6 octets
RFC 3629 (2003): 4 octets

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Napsat správně mezinárodní aplikaci v Qt nemusí být snadné od Jakub Galgonek - Jeden znak může při použití UTF-8 zabrat maximálně...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Irsko se po čtyřleté pauze znovu otevírá pro výstavbu datových center

Agentické nakupování mění pravidla e-commerce

Petr Šmíd: Když startupy rostou, české fondy je opouštějí

Malware, ransomware a další online hrozby: Jak se liší?

Apple opravil bezpečnostní chybu, která byla v iOS od verze 1.0

České firmy pod náletem kyberútoků. Počet vzrostl o pětinu

MeshCore je bezdrátová síť nejen pro mimořádné události

Google Pixel 10a má plochý design a vylepšenou odolnost

Navazující a souběžná zaměstnání pro účely JMHZ

V Evropě roste zájem o alternativu k Microsoftu, říká Petra Novotná

Handicap proměnila v úspěšný byznys, učí ženy nosit paruky

Strojové učení slibuje rychlejší a levnější vývoj baterií

Proč mají vysavače mikrofony? Omylem ovládl tisíce vysavačů DJI

Zahrávají si ČEZ či E.ON s čínským ohněm?

Domén s koncovkou .CZ přibývá, většina je podepsaných

Školkovné se vrací. S jakou obměnou?

Počet nových pracovních míst prudce klesá

Připravit, pozor, teď! Spouštíme Channeltrends Awards 2025

Registrace zaměstnance od 1. dubna 2026 pro účely JMHZ

Stát dá svobodu důchodcům, které držel ve III. pilíři