"Znak" je v unicode dost problematické slovo. Unicode má milion code pointů. Obvykle jsou zakódované jako utf-8 - jeden a více bytů na code point.
Nad tím je další kódování proměnné délky použitím jednoho nebo více code pointů. Kromě diakritiky jsou to třeba smajlíky s modifikátorem barvy kůže.
A ještě nad tím je další kódování proměnné délky, kdy se "znaky" z několika code pointů skládají pomocí spojovacího znaku do ještě většího bloku. Sem patří třeba ta limetka, která se skládá z citronu a zeleného čtverečku. Nebo si můžete poskládat až čtyřčlennou rodinku z jednotlivých lidiček různého pohlaví a věku. Možnost různě si je obarvit určitě v budoucnu taky dostaneme :)
Takže ne. Unicode má standardní a běžně používané metody jak zakódovat celou botanickou a zologickou taxonomii a k tomu přidat i gryfa a krokokachnu.
> Nebo si můžete poskládat až čtyřčlennou rodinku z jednotlivých lidiček různého pohlaví a věku.
Zajímavý příklad jsou vlajky zemí - vlajka je ve skutečnosti ISO zkratka země ze dvou písmenek. Např. zima hlad a zemiak = U+1F1F1 U+1F1FB. Můžete se přesvědčit pastnutím do terminálu který to nepodporuje, nebo hexdumpem. Mně to zobrazí ve čtverečku L a V - kód té země.
Dobře, takhle se do milionu codepointů vejde cokoli. Ale nechápu jak je to implementované - to se asi kreslí dynamicky (třeba ty "skin tones" které jdou přidat k lecčemu, nebo zvratky), ale jak velký je proboha ten dataset ikonek, jak komplikovaný je ten software a kdo to designuje aby všechny kombinace modifikátorů dávaly smysl?!
Unicode není složité, unicode je kosmický horor intrinsické složitosti. Je to obrovská hromada podivností a složitostí posbírané z různých jazyků a kultur po celém světě. Jednotlivě ty featury dávají smysl, obzvlášť pokud jsou ručně psané na papír.
Návrh je výsledek spiknutí vlád a obrovských nadnárodních korporací (ale máme tomu říkat konsorcium) ;)
Ja si jenom vzpominam na dobu, kdy neproslo pridani znaku ze Star Treck do unicode, protoze ten, kdo tehdy spravoval unicode, nechtel zabordelit unicode "zbytecnymi" znaky.
Rekneme si to uprimne, muj nazor na to je celkem rozpolceny. Na jednu stranu si myslim, ze je dobre, ze unicode obsahuje znaky na vsechno mozne, ale na druhou stranu to skutecne zacina byt znacne zabordelene. Hlavne jde o to, ze se nikdy neda spolehnout na to, ze ten znak, ktery chci pouzit, bude skutecne podporovan sirokou zakladnou zarizeni. Casto se mi stava, ze stejny message pres viber se mi na telefonu zobrazi nejakym zpusobem, ale na PC to vypada uplne jinak (napriklad nekolik divnych znaku misto jednoho emoji). Nebo ten slavny problem s vlajkama, kde produkty microsoftu jednoduse nezobrazovaly unicode vlajky. Netusim vubec, jestli to uz spravili.
Při přidání prvních emoji do Unicode se mi to také nelíbilo, říkal jsem si, že tam těch obrázků může být třeba milion a pokaždé někdo vymyslí nějaký další. Ale aspoň se pro to vtipně použily složené znaky, takže nemusí být nový znak pro každou variantu, ale spojí se třeba modifikátor „muž“ nebo „žena“ se znakem pro pracující osobu, a je z toho „pracující muž“ nebo „pracující žena“. Takže ty znaky nepřibývají takovým tempem.
Praktické použití mne ale přesvědčuje, že to bylo správné rozhodnutí. Zkopírujete text s emoji z WhatsAppu a vložíte ho do Slacku, a emoji tam zůstanou. Vzhledem k tomu, že pamatuju dobu, kdy bylo při přenosu mezi programy překódovat české znaky, beru to jako výrazný posun vpřed a ukázku toho, jak by mělo IT fungovat – prostě mám data (v tomto případě text s emoji) a je jedno, kterým programem je zpracovávám, všude to znamená to samé. Technicky to není dokonalé řešení, ale dokonalé řešení by se nikdy neprosadilo (znamenalo by místo plaintextu všude začít používat nějaký jednoduchý značkovací jazyk, kde by se emoji vyjadřovaly pomocí značek – a na tom by se IT obor nikdy neshodl, ani co to má být za jazyk, ani jak standardizovat ty symboly, a největší spory by se vedly o to, zda tam nemají být i značky pro tučné písmo, kurzívu, a možná i odstavce, obrázky, odrážkové seznamy…).
Takže je to zneužití Unicode, o tom žádná. Ale nerozbíjí to nic, co nebylo rozbité už předtím; nezpůsobilo to žádný problém (Unicode se rozšířilo za hranici dvoubajtového kódování dávno předtím); a pragmaticky to prostě dost věcí zjednodušuje.
Tak ty složené znaky hlavně vedou ke kombinatorické explozi. Prakticky máte tisíce "znaků", pro které ani nemáme "slova". Každý program je zobrazuje více či méně jinak, různé fonty podporují různé podmnožiny, ...
Schválně si otevřete na unicode.org přehled emoji. Ta tabulka obrázků, jak to různé programy zobrazují, se mi načítala desítky minut. A to ještě prořezali ty složené znaky.
Že to nezpůsobuje žádné problémy je odvážné tvrzení. Stačilo mi číst diskuze kolem zavádějí unicode do c++. Těch člověkohodin, co propálili na přemýšlení které znaky povolit a které ne.
Tak ty složené znaky hlavně vedou ke kombinatorické explozi. Prakticky máte tisíce "znaků", pro které ani nemáme "slova".
Není možné skládat libovolný znak s libovolným jiným. Stejně, jako je určeno, se kterými diakritickými znaky se může spojit „a“, je určeno, které emoji se mohou spojit se kterými modifikátory.
Každý program je zobrazuje více či méně jinak, různé fonty podporují různé podmnožiny, ...
To ale platí o Unicode písmech odjakživa. A to, že různé písmo zobrazuje různé znaky jinak platí už od vynálezu písem.
Stačilo mi číst diskuze kolem zavádějí unicode do c++.
„Unicode“ je ale něco jiného, než „emoji v Unicode“.
Ano, není možné skládat libovolný znak s libovolným jiným. Proto je taky v současné době povolených kombinací "jen" něco přes tři a půl tisíce.
A ano, „Unicode“ je ale něco jiného, než „emoji v Unicode“. Unicode je nadmnožina. Emoji tvoří relativně malou, ale velmi odlišnou skupinu znaků. Svou jinakostí hážou vidle do všecho naprosto nepoměrně jejich počtu. A ten počet navíc stále roste. Ve chvíli kdy máme jako precedent stovky naprosto obskurních kombinací se další odmítají velmi špatně.
Loni byl jediný rok od 2015, kdy přibylo míň než 100 nových emoji. Schválně se koukněte na nějaké seznamy na unicode.org. Ani nemusíte tahat stopky, něco tak pomalého nepamatuju ani z dob vytáčeného připojení. Pokud oficiální stránka není schopná vykreslovat tyhle znaky v nenasíracím čase (o reálném se ani nedá mluvit, to už není ani špatný vtip), pak je něco naprosto fundamentálně špatně.
A ta diskuze kolem zavádění unicode se hodně točila právě kolem těch emoji. Protože jsou to na jednu stranu cool "znaky", takže jimi byly prošpikované všechny slidy a papery. A na druhou stranu jsou (přinejlepším) úplně k ničemu když jde o praktické programování. Prostě to byla tvář celé té iniciativy, která ale byla zároveň první v pořadí na vykopnutí.
Svou jinakostí hážou vidle do všecho naprosto nepoměrně jejich počtu.
Co je na nich z pohledu programovacího jazyka jiné?
Pokud oficiální stránka není schopná vykreslovat tyhle znaky v nenasíracím čase, pak je něco naprosto fundamentálně špatně.
Nedělal bych takovou tragédii z toho, že Unicode Consorcium neumí udělat rychlý web. Jako mohli si to nechat udělat od někoho, kdo to umí, ale že by to bylo nějak moc důležité…
A na druhou stranu jsou (přinejlepším) úplně k ničemu když jde o praktické programování.
A co se na tom řešilo? Podpora v textech? To snad ne, tam emoji nepřinesly nic nového. Nebo se řešilo jestli se mohou používat jako identifikátory, třeba názvy proměnných? To se řešilo až po přidání emoji do Unicode? Všechny ostatní jazyky už to mají dávno vyřešené – buď definovaly množinu znaků, které jsou použitelné pro identifikátory, a emoji mezi nimi logicky nebyly, protože v té době ještě neexistovaly. Nebo definovaly množinu znaků, které jsou zakázané, a vše ostatní je povolené. A pak zase není důvod emoji nějak speciálně řešit.
Největší průšvih s Unicode byl, když se zjistilo, že 64k nemusí stačit každému. Ty 4 miliardy nám snad už vystačí, alespoň do setkání s nějakou mimozemskou civilizací. Emoji přišlo s barevnými znaky, ale to je problém vykreslovacích knihoven, ne programovacího jazyka.
Jak "z pohledu programovacího jazyka"? Co tím vůbec myslíte?
Ony stačí už ty barvy. Ty nerozdýchá standardní TrueType. Jsou třeba nestandardní rozšíření. A při kreslení kvůli nim buď všechno nasypete do barevných textur, nebo tyhle znaky budete kreslit zvlášť a jinak. Když budete hledat nějaké příklady pro FreeType nebo třeba ImGui, tak dost často najdete kód který má dvě takřka nezávislé verze - podle toho jestli potřebujete emoji nebo ne.
Jsou v nich "ligatury" (myslím ZWJ), které mají po rozbití na části o dost jiný význam. Normální ligatury můžete s klidem odignorovat a bude to jen vypadat trochu divně. A ani to nejsou znaky s modifikátory, jako diakritika. Takže další extra větev v kódu.
Jinak ne, nemáme 4 miliardy. Ani náhodou. utf-8 končí kus nad milionem. Dál jsou lvi a nosní démoni. Předchozí verze sice šly až ke dvěma miliardám, ale podle posledního rfc to nejsou povolené znaky. Jestli někdy budou potřeba, tak to bude zajímavé, protože to spousta softwaru prostě nedá.
Jak "z pohledu programovacího jazyka"? Co tím vůbec myslíte?
Když píšu kód třeba v C++, v Javě, v Pythonu nebo v kterémkoli jiném programovacím jazyce, který umí pracovat s Unicode řetězci. Co se změnilo, když byly do Unicode zavedeny emoji? Bylo potřeba něco změnit v programovacím jazyku jako takovém? Psal jste o zavádění Unicode do C++. Změnili něco emoji na podpoře Unicode v C++?
Ony stačí už ty barvy.
To je ta jediná věc, která se změnila. A to je pouze věc knihovny vykreslující text.
Jsou v nich "ligatury" (myslím ZWJ), které mají po rozbití na části o dost jiný význam.
Byl by konkrétní příklad?
A ani to nejsou znaky s modifikátory, jako diakritika.
V čem se to liší? V čem se liší dvojice U+0061 U+0301 od dvojice U+1F467 U+1F3FB?
Předchozí verze sice šly až ke dvěma miliardám, ale podle posledního rfc to nejsou povolené znaky.
To se přeci mění s verzemi Unicode. S novou verzí se přidají nové znaky, které obsadí pozice na dříve nepovolených znacích.
U+1F467 U+1F3FB je normální znak s modifikátorem, ty se používají samozřejmě taky.
Myslel jsem třeba U+1F469 U+1F3FB U+200D U+1F3EB. To je víc plnotučných znaků, které můžou mít i vlastní modifikátory. Je kapku rozdíl, jestli uvidím obrázek učitelky nebo jako fallback ženský obličej a jakousi budovu. Někomu možná ani nedojde, že to nemají být dva smajlíky vedle sebe.
Tohle samozřejmě musím řešit, pokud od "pracovat s unicode řetězci" chci něco víc než střčit pole bytů do černé skříňky a doufat, že to nějak dá. Dal jsem vám právě příklad dvou knihoven, které obvykle musím použít o dost jinak pokud chci nebo nechci pracovat s emoji.
Tipuju, že ty standardní stránky jsou tak nechutně pomalé právě proto, že nemůžou počítat s tím, že ten text nějaká knihovna na cílovém stroji zvládne spolehlivě vykreslit. Takže jim nezbývá nic jiného než tahat tisíce obrázků se vším co k tomu patří.
Jo, s novýma verzema se obsazují neobsazené díry. Ale horní limit je 1,112,064 možných znaků, ne nějaké miliardy. Jít výš bude z historických důvodů opravdu hodně těžké. Pokud kvůli tomu museli zpětně vykleštit i utf-8, tak pochybuju, že by se tenhle limit dal nějak rozumně prorazit.
Asi vás mate Zero-width joiner U+200D. Což je ovšem „znak“, který byl do Unicode přidán dávno před emoji, kvůli asijským jazykům. Navržen do Unicode byl v roce 2004.
Tipuju, že ty standardní stránky jsou tak nechutně pomalé právě proto, že nemůžou počítat s tím, že ten text nějaká knihovna na cílovém stroji zvládne spolehlivě vykreslit.
Webové stránky nemohou samy o sobě spouštět nativní knihovny. Mohou používat jenom API, které jim poskytuje prohlížeč.
Takže jim nezbývá nic jiného než tahat tisíce obrázků se vším co k tomu patří.
S tím si ale webové technologie umí poradit. Akorát je nutné umět je používat.
Zatím to vypadá, že narážíte na špatné implementace Unicode, které byly špatné odjakživa, akorát jste na to nenarazil, protože se to neprojevovalo u znaků, které jste používal. Emoji přišly akorát s barvami (což je čistě věc vykreslování), jinak používaí vlastnosti Unicode, které byly v Unicode už dávno před emoji.
"Webové stránky nemohou samy o sobě spouštět nativní knihovny. Mohou používat jenom API, které jim poskytuje prohlížeč."
A za tím api prohlížeče se skrývá co? Že by nějaká nativní knihovna?
Když javascript volá třeba funkce WebGL, které +- odpovídají tomu co mají k dispozici i nativní appky je to api prohlížeče nebo knihovny? Je v tom nějaký praktický rozdíl?
Jinak jestli vás ten zero width joiner nemate, tak se na něj podívejte pořádně. On totiž v různých kontextech dělá více či méně různé věci. A to emoji je samozřejmě další kontext, který dělá něco velmi podobného tomu, co ten zwj dělá i jinde. A jinde se zase podobné věci mají dít samy, takže aby to nebylo tak jednoduché, máme i opačný znak non-joiner.
Ano, obvykle narážím na špatné implementace unicode. Z jednoho prostého důvodu. Unicode je tak šíleně komplexní, že je ho skoro nemožné implementovat dobře. Pro složitější práci s unicode textem existuje asi tak jedna jediná použitelná knihovna a moc nehrozí, že by její monopolní postavení něco ohrozilo.
Ale tohle by neměla být omluva pro přidávání další komplexity.
Emoji kromě barev přichází i s jinýma věcma. Třeba s nějakou tou stovkou nových znaků každý rok. Přidává nějaký jazyk každý rok desítky fungl nových složených symbolů? Co pozoruju, tak se to všude jinde snaží spíš zjednodušovat a čistit. Emoji už je tolik, že je občas těžké je od sebe rozeznat. A přibývají další a další.
A za tím api prohlížeče se skrývá co? Že by nějaká nativní knihovna?
Vypadalo to, jako byste si myslel, že si web může přibalit svou vlastní knihovnu pro vykreslování písma.
Jinak pro informaci, webové prohlížeče Unicode znaky vykreslovat umí a nemají s tím žádné problémy.
On totiž v různých kontextech dělá více či méně různé věci.
Na základě znaku, který je před ním a po něm, vytvoří úplně nový znak, definovaný standardem. Co jsou ty další věci, které to podle vás dělá?
A to emoji je samozřejmě další kontext, který dělá něco velmi podobného tomu, co ten zwj dělá i jinde.
V čem je ten kontext emoji jiný?
Ale tohle by neměla být omluva pro přidávání další komplexity.
Pořád jste nenapsal, v čem ta další komplexita spočívá.
Třeba s nějakou tou stovkou nových znaků každý rok.
To, že se do Unicode přidávají nové znaky, není žádná novinka. Pokud s tím nějaká knihovna nepočítá, měla problém dávno před emoji.
Přidává nějaký jazyk každý rok desítky fungl nových složených symbolů?
To je pro programy nebo knihovny nějaká zátěž? Co vám bude vadit dál, že každý den vznikají nové a nové dokumenty ve Wordu?
Co pozoruju, tak se to všude jinde snaží spíš zjednodušovat a čistit.
Kde všude jinde? O jakém jiném kódování znaků píšete?
Emoji už je tolik, že je občas těžké je od sebe rozeznat. A přibývají další a další.
To, že je nedokážete rozeznat, není vlastnost Unicode, ale vlastnost konkrétního písma. Tak použijte jiné písmo, kde budou znaky lépe rozeznatelné. Jak už jsem psal, to, že vy další emoji nechcete, neznamená, že je nechce někdo jiný. A už jsem upozorňoval na to, že kdyby se to posuzovalo podle četnosti použití, možná bychom měli emoji v Unicode dávno před tím, než by se tam dostalo ř.
Emoji nie su znaky ale piktogramy ktore oznacuju slovo alebo skupinu slov.
Znaky su grafemy oznacujuce hlasku alebo slabiku.
Znaky su aj logogramy (nemylit si s piktogrammi) ktore oznacuju slovo. Ale paralelne k logogramom sa spravidla pouzivaju grafemy, aby sa bezny pisatelia neukreslili k sialenstvu. Napr egyptske pismo (logogramy) vzdy sprevadzalo hieraticke alebo demoticke pismo, kanji sprevadza katakana alebo hiragana a tak podobne...
Co sa tyka pouzivania v zivom jazyku. V hovorenom slove nikdy. V pisanom prejave zalezi na slovnej zasobe jedinca (cim vacsie pako, tym viac piktogramov)
Co to zase meliete, nepodsuvajte mi slova, ktore som nenapisal a ktore ani nie je mozne odvodit z toho co som napisal ak len clovek aspom tusi co je interpunkcia zmanena vo vztahu ku konkretnemu jazyku, alebo len matne tusi ze matematika je najpouzivanejsi jazyk na svete...
Vas evidentne bavi presviecat okolie ze na rozdiel od vas su vsetci blazni. No nic kaslem na vas, idem radsej sulozit. A ked si pomyslim ze vasa predohra je podobna tomu co ste schopny tu v komentaroch, tak vam asi jediny partner ostane len vy sam. Tak prijemny vecer kazdemu podla jeho schopnosti a noznosti ;)
Psal jste, že znaky označují hlásku nebo slabiku, pak jste připustil, že mohou jako logogram označovat i celé slovo. Tak co takový středník – označuje hlásku, slabiku, je to logogram? A co 5 – je to hláska, slabika, logogram? A co hůř, ono to vaše tvrzení neplatí ani o písmenech. Označuje „t“ v angličtině nějakou hlásku nebo slabiku? Nebo je to snad logogram? A co takové „c“ v češtině? Hláska, že? I ve slově „chobot“?
Vas evidentne bavi presviecat okolie ze na rozdiel od vas su vsetci blazni.
Co to zase meliete, nepodsuvajte mi slova, ktore som nenapisal a ktore ani nie je mozne odvodit z toho co som napisal.
Jak už jsem psal, nemyslím si a nikdy jsem netvrdil, že jsou všichni ostatní blázni. Většina lidí je normálních. Ale např. tady v diskusích na Rootu se občas nějací blázni vyskytnou. Napíšou třeba nějaké tvrzení o znacích a pak se hrozně diví, když jim ho rozbiju triviálním protipříkladem.
Z pohladu jazykovedy je znak cokolvek co oznacuje hlasku, slabiku, slovo a samozrejme aj diakritika ktore su viazane na konkretny jazyk. Ch je digraf. Napr. japonstina a cinstina maju mnoho spolocnych znakov, ale nie len ze rovnako nezneju ale v konkretnom jazyku maju uplne iny vyznam. Podoba znaku nijako nemusi suvisiet s jeho vyznamom, ktory je zavysi od jazyka v ktorom sa znak pouzije.
Naproti tomu piktogram, vratane emoji, nie je viazany na ziadny jazyk. Podoba piktogramu vzdy znazornuje jeho vyznam, ktory je nezavysli od akehokolvek jazyka.
Skoda ze nepremyslate nad prispevkami na ktore odpovedate. Mozno by ste si uvedomil ze drviva vacsina diskutujucich s vami nesuhlasi a vase jednoduche argumenty vyvracia...
Škoda že vy nepřemýšlíte ani nad příspěvkem, na který odpovídáte, ani nad příspěvkem, který sám píšete.
Znovu jste napsal definici znaku, kterou nesplňují ani interpunkční znaménka, třeba středník. Takže buď musíte interpunkční znaménka vyhodit z Unicode, nebo musíte pro Unicode použít jinou definici znaku, než tu vaši. (A pořád platí, že tu vaši definici nesplňuje spousta dalších znaků.)
Mezi smajlíkem a znakem „5“ je jenom ten rozdíl, že význam smajlíku typicky bude popsán více slovy, zatímco číslice bude typicky popsána jedním slovem. Ale nedokážu vyloučit, že třeba v němčině nemají pro některé smajlíky jedno slovo a že některé jazyky nemají třeba pro 9 více slov (třeba něco jako „pět-a-čtyři“).
Takže přestaňte filozofovat nad tím, nad čím přemýšlím a kdo se mnou nesouhlasí, a soustřeďte se na tu jednu věc, kterou vám teď už píšu potřetí – na středník. Zamyslete se nad tím, jestli středník (tedy znak ;) podle vás je znak nebo není, a pokud je, tak kterou část vaší definice splňuje.
Podla vas nie je interpunkcia viazana na konkretny jazyk? Doplnte si vzdelanie, ucte sa aj ine jazyky ako cestinu, alebo latincinu skomolenu tak aby ju davali aj piktovia.
Ked uz ste tak silno chcel argumentovat tymto smerom, tak je dost na povazenie ze na dosah vaseho IA je prave interpunkcia, su tam aj ramiky, jednoduche, dvojite a kombinacie. Lenze tie tam musia byt aj ked nie su viazane na konkretny jazyk, inak by unicode nebolo spatne kompatibilne.
Piktogramy nie su jazykovo zavisle. Naviac nemaju na rozdiel od piktogramu nejak presnejsie definovany tvar. Zoberte si na porovnanie variabilitu piktogramu na WC a variabilitu velkeho latinskeho A.
23. 9. 2023, 08:21 editováno autorem komentáře
Ta otázka byla hodně jednoduchá: "Je (v češtině nebo slovenštině) středník hláška, slabika nebo slovo?" Když na tuhle jednoduchou otázku neumíte odpovědět, nasvědčuje to tomu, že se ve svých tvrzeních mýlíte. Tak to přiznejte. Nebo napište, že odpovědět neumíte. Nebo mlčte. Ale je dětinské snažit se to "zakrýt" tím, že mi podsouváte něco, co jsem nikdy nenapsal. Je hloupé někomu doporučovat, ať si doplní vzdělání, když nedokážete odpovědět na otázku, co je v češtině středník.
Na otázku: „Je to A, B nebo C?“ se neodpovídá „Je to D“ (bez dalšího upřesnění, že jste opravdu nevybral žádnou z nabízených variant). Ale dobře, beru to tak, že jste chtěl odpovědět, že středník není ani hláska, ani slabika, ani slovo. Tím pádem nesplňuje vaši definici znaku. Zároveň jste v předchozích komentářích mířil k tomu (i když jste to nikdy explicitně nenapsal, ale založil jste na tom celou svou další argumentaci), že v Unicode by měly být jenom znaky. Takže z vašich tvrzení plyne, že by v Unicode neměl být ani středník.
Co s tím? Napadají mne následující možnosti:
Ja si jenom vzpominam na dobu, kdy neproslo pridani znaku ze Star Treck do unicode, protoze ten, kdo tehdy spravoval unicode, nechtel zabordelit unicode "zbytecnymi" znaky.
Na blbiny je vzdy miesta dost...
https://en.m.wikipedia.org/wiki/Klingon_scripts
Pripadne tam najdete aj tengwar (pan prstenov)...
20. 9. 2023, 12:05 editováno autorem komentáře
No aspoň že to je v private use area. Tam si může každý sypat, co chce
Jinak je zajímavé, jak je to písmo vlastně strašně nudné. Autor může bez omezení popustit uzdu fantasii a přijde se zjednodušenou latinkou s pár znaky navíc.
Ten tengwar je aspoň komplexní, i když stále je to slabý odvar proti některým mormálním písmům.
Ech, to je ale silene. Dle wiki "The Unicode Technical Committee rejected the Klingon proposal in May 2001 on the grounds that research showed almost no use of the script for communication, and the vast majority of the people who did use Klingon employed the Latin alphabet by preference."
Tak bych chtel videt, jak delali podobny 'research' pro limetku (a vsechny ty dalsi emodzi znaky). Tak ale treba to je vyvoj v komisi a dnes by klingonstina prosla?
Jenže to narážíte na přepis z japonštiny do češtiny, což zdejší japanologové ukotvili zhruba v době, kdy se ustálil i přepis z japonštiny do angličtiny.
(Mimochodem: s čínštinou to bylo obdobné, ale českým sinologům se to povedlo lépe - vzhledem k tomu, že máme oproti angličtině pár písmenek k použití navíc.)
Ty přepisy zkratkou přes angličtinu prostě občas co české huby nepadnou a českému oku nelahodí.
Přesně tak, jazyk se vyvíjí, a třeba tohle ":)" je opravdu široce používané. Problém je že to nabralo velkou rychlost, a mě by zajímalo jestli je někdo použije, nebo je schopen rozlišit emodži citrónu a limetky. Zavání to zbytečností.
Ale co já vím, třeba za 100 let se budou všechny recepty na koktejly psát jako sada obrázků:
(recept na citronou limonádu):
½ℓ💧+ 🥄🍋
Edit: ech, koukám že root nebo webový prohlížeč nedává plné unicode, tak si představte: znak poloviny, znak litru, znak kapky vody, znak plus, znak lžička, znak citron
Edit 2: hm, divné, a teď už to funguje...
19. 9. 2023, 08:24 editováno autorem komentáře
"je schopen rozlišit emodži citrónu a limetky."
Ono třeba emoji melounu nebo hrušky je té limetce hodně podobné a bez najetí myší se těžko dekódují. K jaké rozumné komunikaci jde tohle použít mi moc hlava nebere.
Celé unicode je jako psychedelický fraktál. Na první úpohled je to komplikované jako prase. A při bližším pohledu je to ještě o řád složitější než co si člověk vůbec dokáže představit.
Ono třeba emoji melounu nebo hrušky je té limetce hodně podobné
To je vlastnost písma, které používáte k zobrazení emoji. V jiném písmu to bude vypadat jinak.
Vůbec by mne nepřekvapilo, kdyby třeba emoji citronu bylo celosvětově používanější, než znak „ř“. A když ne teď, tak v budoucnu. Takže bych byl opatrný k tomu posuzovat užitečnost jednotlivých znaků podle toho, jak často se používají.
Otázka je, když si píšeš nákupní seznam, kreslíš si obrázky? Já teda ne, a řekl bych, že skoro nikdo ne...
Proto moc nechápu tento hype přidávání nesmyslů do "textu". Já nikdy neříkal, že by všude měl být jen čistý text. Máme technologie na to, aby to tak nebylo (třeba HTML zvládne všechno), a to co dělá unicode je podle mě v rozporu s touto technologií, protože text najednou obsahuje obrázky, a barvy, a renderer mi nenakreslí černý smajlík, když budu mít černý text, protože jsme k textu přidali dokonce i modifikátor barvy kůže... Jak bude žlutý smajlík na žlutém pozadí...
Přečíst nějaký TTF/OTF font a vyrenderovat pomocí něho text je dnes už tak komplikované, že nedokážu pochopit, proč to dělat ještě komplikovanější. Ve fontech máme 2 vektorové formáty (GLYF, CFF), potom máme nativní rastrové formáty, a k tomu jsme začali embeddovat 2 další vektorové formáty (SVG, COLR) a další rastrové formáty (PNG). Nově si lidi v Google vymysleli, že k GSUB/GPOS ještě přidáme do fontů WASM, takže renderer písma najednou potřebuje i WASM interpreter, aby toho nebylo málo...
Navíc teď každý OS používá svoji technologii, takže MS si tlačí COLR formát, Apple SVG, atd... Mimochodem ten emoji co Apple používá má snad 200MB.
Když se nad tím z tohoto pohledu zamyslím, tak docházím k závěru, že tato technologie jde špatným směrem, a unicode v tomto případě na tom má svůj podíl.
No jo, jenže dokážeme se dohodnout, že budeme všude místo obyčejného textu používat HTML? Nedokážeme. Dokážeme se dohodnout, že do Unicode přidáme emoji? No, na tom jsme se evidentně dohodnout dokázali. Dokážou tvůrci knihoven pro vykreslování písma implementovat barevné znaky (které Unicode nutně nevyžaduje, Unicode předepisuje, co znak reprezentuje, ne jak má vypadat)? No, evidentně to zvládli. A nebylo potřeba upravovat všechny programy, aby místo textu začaly používat HTML, prostě se jen upravilo těch pár knihoven pro vykreslování písem. Že to není ideální řešení? No není, ale holt máme evoluci a ne inteligentní design.