Keďže dúfam, že do toho trošku vidím, tak pár slov o tom, prečo to funguje tak ako to funguje. [Nie som autoromo ani jedného z programov]
Ako sa vlastne dá dopĺňať diakritika do textu? Máme metódy jednoduché a použiteľné ako už vyššie zmienený czaccent, ktorý je založený na slovníku a štatistické, ktoré vychádzajú zo slov, ktoré videli. Pri štatistických (HaT) ako už vyplýva z názvu sa používa frekvencia jednotlivých slov. A pri slovníkoch, slovník (ak je tak, radšej morfologický analyzátor [vec, ktorá doplní rod, číslo, ...]). Kebyže do slovníka pridáme informácie o frekvencii, tak by sme pre voľný text [bez tématického zaradenia] dostali najlepšie výsledky. Pre konkrétny typ textov by bolo lepšie buď použiť štatistický značkovač, alebo do slovníku doplniť info o štatistikách (zase zrejme to najlepšie).
Sú komplikované riešenia lepšie? Samozrejme, že áno :) Tu už je tých možností o pár viac, ale spomieniem len pár. Keď ich však chceme využiť, tak je základným nástrojom vec, ktorá nám pridá značky o rode, čísle, páde, ... o každom slove. Takýto nástroj existuje aj pre češtinu (napr. ajka, lemma) ale aj keď samotný program smie byť GNU/GPL (ajka), tak dáta sa obvykle šíriť len tak nemôžu. Ich cena sa pohybuje niekde na pomedzí 5-6 miestnych súm [zväčša prístup len ku skompilovanej forme dát]. Ak však máme toto, potom sa môžeme pustiť ďalej a zisťovať štatisticky používanie dvojíc, trojíc, ... a prídeme na to, že tu či tam nám vypadne pravidlo, ktoré vyzerá rozumne [príd. meno - podst. meno]. A potom už fičíme :)
Ak by bol záujem, tak o tom napíšem aj viac. Ak by niekto mal záujem spraviť niečo takéto a študuje na FI MUNI, tak nech sa ozve a môže to vytvárať minimálne ako bakalársku prácu :) to už nejako dohodneme.
V zasade by to nemuselo byt tak tezke, nasadi se na to nejaka umela inteligence nebo statistika pro vyber vhodne varianty slova z okolniho kontextu a sehnat trenovaci data je lehke ... odstranit diakritiku je trivialni, takze na uceni staci vzit jakykoliv český text a toho se vali po webu mraky ....
No, na MFF sice studuju, ale rocnikac II mam uz PDF editor a diplomku zas mam dohodlou s Pelikanem ...