Hlavní navigace

Názor k článku Interní reprezentace řetězců v různých jazycích: od počítačového pravěku po současnost od kvr - Hezké shrnutí. Ještě dneska si pamatuju na to...

  • Článek je starý, nové názory již nelze přidávat.
  • 21. 9. 2017 1:20

    kvr (neregistrovaný)

    Hezké shrnutí. Ještě dneska si pamatuju na to pozdvižení, když RedHat zvolil do své distribuce UTF-8 jako výchozí kódování. Dneska je cokoliv jiného sebevražda :-)

    Ten první příklad bude spíš klasické x86, nikoliv x86_64. I když za předpokladu, že adresa řetězce bude ve spodních 32 bitech (což asi bude), by mohl spíše náhodou fungovat i na x86_64. Nejsem si jistý, jestli je podporováno int $0x80 místo sysenter... Řetězec by běžně umístil překladač do sekce ".text".

    Myšlenka v python 3.3 je zajímavá, ale když budu generovat nebo číst nějaké XML a ukládat do string bufferu, tak kvůli pozdravu českého uživatele bude celá anglická stránka čtyřikrát (či dvakrát) větší. V tomto by python 2 s UTF-8 šetrnější. IMHO by spíš mělo smysl udržovat UTF-8 a v případě potřeby náhodného přístupu explicitně vytvořit UCS-4 kopii.