"Znak" je v unicode dost problematické slovo. Unicode má milion code pointů. Obvykle jsou zakódované jako utf-8 - jeden a více bytů na code point.
Nad tím je další kódování proměnné délky použitím jednoho nebo více code pointů. Kromě diakritiky jsou to třeba smajlíky s modifikátorem barvy kůže.
A ještě nad tím je další kódování proměnné délky, kdy se "znaky" z několika code pointů skládají pomocí spojovacího znaku do ještě většího bloku. Sem patří třeba ta limetka, která se skládá z citronu a zeleného čtverečku. Nebo si můžete poskládat až čtyřčlennou rodinku z jednotlivých lidiček různého pohlaví a věku. Možnost různě si je obarvit určitě v budoucnu taky dostaneme :)
Takže ne. Unicode má standardní a běžně používané metody jak zakódovat celou botanickou a zologickou taxonomii a k tomu přidat i gryfa a krokokachnu.
> Nebo si můžete poskládat až čtyřčlennou rodinku z jednotlivých lidiček různého pohlaví a věku.
Zajímavý příklad jsou vlajky zemí - vlajka je ve skutečnosti ISO zkratka země ze dvou písmenek. Např. zima hlad a zemiak = U+1F1F1 U+1F1FB. Můžete se přesvědčit pastnutím do terminálu který to nepodporuje, nebo hexdumpem. Mně to zobrazí ve čtverečku L a V - kód té země.
Dobře, takhle se do milionu codepointů vejde cokoli. Ale nechápu jak je to implementované - to se asi kreslí dynamicky (třeba ty "skin tones" které jdou přidat k lecčemu, nebo zvratky), ale jak velký je proboha ten dataset ikonek, jak komplikovaný je ten software a kdo to designuje aby všechny kombinace modifikátorů dávaly smysl?!
Unicode není složité, unicode je kosmický horor intrinsické složitosti. Je to obrovská hromada podivností a složitostí posbírané z různých jazyků a kultur po celém světě. Jednotlivě ty featury dávají smysl, obzvlášť pokud jsou ručně psané na papír.
Návrh je výsledek spiknutí vlád a obrovských nadnárodních korporací (ale máme tomu říkat konsorcium) ;)