Právě od toho existují normální formy Unicodových stringů.
U UCS4/UTF-32 platí, že jeden Unicode znak je na stále stejných 32 bitech.
U UTF-8/UTF-16 a dalších platí, že navíc k tomu přistupuje bordel, že jeden znak má proměnný počet bitů, navíc obě tato kódování se umějí i rozesrat. Tedy obsahovat bitové sequence, které jsou chybné, či neplatné s nejednoznačným zotavením se z chyby, což v případě UCS4/UTF-32 nezažijete.
Navíc, ukažme si prstem, UTF-16 také Unicode škodí. Jen a jen díky tomuto kódování jsou Unicode znaky omezeny na 21 bitový prostor. Kdybychom UTF-16 zavrhli, pak bez problémů máme 32bitový prostor. Jako důsledek bychom mohli Asiatům přestat prznit jejich znaky han unifikací, protože by najednou byl dostatek prostoru pro všechny jejich obrázky, a Asie by konečně mohla přestat odmítat používat Unicode. Zatím má vážné důvody si držet svá znaková kódování a na Unicode se dívat jako na zrádce.
Bohužel odstřelení brání Microsoft Windows a Java, jakožto dva reprezentanti, kteří skočili na špek 16bitovému Unicode. Bylo by potřeba zlikvidovat Windows a Javu, aby se to podařilo. Jen kvůli nim totiž UTF-16 existuje. I když primární příčina je Unicode consortium samo, protože „16bitů bude v Unicode stačit každému“. Šetření bitíkama přineslo Y2K a UTF-16 a problémy v nedostatku IPv4 adres. A ještě mnoho problémů přinese.

