Hlavní navigace

Názor ke zprávičce Ext4 bude výchozím souborovým systémem ve Fedoře 11 od Miloslav Ponkrác - „To ano, ale pak uz to nebudou regularni...

  • Aktualita je stará, nové názory již nelze přidávat.
  • 25. 1. 2009 9:41

    Miloslav Ponkrác
    „To ano, ale pak uz to nebudou regularni vyrazu 8-bitove, jak jste psal.“

    Regulární výraz bude v UTF-8, prohledávaný text bude v UTF-8, a knihovna regulárních výrazů si bude myslet, že prohledává normální text složený z 8-mi bitových znaků, přičemž vše bude fungovat. Kde je problém?

    „Prvni problem je, ze tech normalnich forem je vic, takze pri prohledavani ruznych textu (treba na disku) je na to potreba brat zretel. Druhy problem je, ze se na to, ze text bude normalizovany, neda 100% spolehnout, takze to osetrit stejne musite.“

    Problém je hlavně v tom, že i když je nromálních forem více, je to pro některé znaky jen několik variant přesně a jednoznačně určených sekvencí bajtů. I kdybyste nenormalizoval, stále uděláte bleskově rychlé prohledávání a nahrazování nad UTF-8.

    Zkrátka, abych to uzavřel a už se k tomu nevracel, práce s UTF-8 je v zásadě velmi prímová a fajn. Nejsou nad tím žádné složité algoritmy, ani nic, co by výrazně zpomalovalo jakékoli operace nad řetězci, či texty. Já osobně jsem se rozhodl, jak už jsem psal výše, že 8-mi bitové znakové sady pro mě neexistují, píšu-li jakýkoli text kamkoli, a stále jsem přesvědčený, že to bylo nejlepší rozhodnutí.

    Pokud se někdo chce trápit s již zastaralou ISO-8859-*, jejichž podpora je IMHO nutná už jen z historických důvodů, ale z žádných jiných, nechť se trápí.