Vlákno názorů k článku Nová softwarová sklizeň (19. 1. 2005) od marx - Keďže dúfam, že do toho trošku vidím, tak...

  • Článek je starý, nové názory již nelze přidávat.
  • 19. 1. 2005 11:56

    marx (neregistrovaný)

    Keďže dúfam, že do toho trošku vidím, tak pár slov o tom, prečo to funguje tak ako to funguje. [Nie som autoromo ani jedného z programov]

    Ako sa vlastne dá dopĺňať diakritika do textu? Máme metódy jednoduché a použiteľné ako už vyššie zmienený czaccent, ktorý je založený na slovníku a štatistické, ktoré vychádzajú zo slov, ktoré videli. Pri štatistických (HaT) ako už vyplýva z názvu sa používa frekvencia jednotlivých slov. A pri slovníkoch, slovník (ak je tak, radšej morfologický analyzátor [vec, ktorá doplní rod, číslo, ...]). Kebyže do slovníka pridáme informácie o frekvencii, tak by sme pre voľný text [bez tématického zaradenia] dostali najlepšie výsledky. Pre konkrétny typ textov by bolo lepšie buď použiť štatistický značkovač, alebo do slovníku doplniť info o štatistikách (zase zrejme to najlepšie).

    Sú komplikované riešenia lepšie? Samozrejme, že áno :) Tu už je tých možností o pár viac, ale spomieniem len pár. Keď ich však chceme využiť, tak je základným nástrojom vec, ktorá nám pridá značky o rode, čísle, páde, ... o každom slove. Takýto nástroj existuje aj pre češtinu (napr. ajka, lemma) ale aj keď samotný program smie byť GNU/GPL (ajka), tak dáta sa obvykle šíriť len tak nemôžu. Ich cena sa pohybuje niekde na pomedzí 5-6 miestnych súm [zväčša prístup len ku skompilovanej forme dát]. Ak však máme toto, potom sa môžeme pustiť ďalej a zisťovať štatisticky používanie dvojíc, trojíc, ... a prídeme na to, že tu či tam nám vypadne pravidlo, ktoré vyzerá rozumne [príd. meno - podst. meno]. A potom už fičíme :)

    Ak by bol záujem, tak o tom napíšem aj viac. Ak by niekto mal záujem spraviť niečo takéto a študuje na FI MUNI, tak nech sa ozve a môže to vytvárať minimálne ako bakalársku prácu :) to už nejako dohodneme.

  • 19. 1. 2005 12:14

    Johanka (neregistrovaný)

    Jen dodam, ze pokud nekdo studuje zase na MFF UK a chtel by neco takoveho delat (jako rocnikac II, bakalarku az diplomku), muze se ozvat zase mne :)

  • 19. 1. 2005 13:13

    Martin 'Bilbo' Petricek (neregistrovaný)

    V zasade by to nemuselo byt tak tezke, nasadi se na to nejaka umela inteligence nebo statistika pro vyber vhodne varianty slova z okolniho kontextu a sehnat trenovaci data je lehke ... odstranit diakritiku je trivialni, takze na uceni staci vzit jakykoliv český text a toho se vali po webu mraky ....

    No, na MFF sice studuju, ale rocnikac II mam uz PDF editor a diplomku zas mam dohodlou s Pelikanem ...

  • 19. 1. 2005 14:25

    marx (neregistrovaný)

    V zásade do toho potrebuješ pragmatiku a aj to je málo :) takže to je problém ako hrom. Kasli na pelikana a pod robit toto ;)

  • 19. 1. 2005 16:03

    Martin 'Bilbo' Petricek (neregistrovaný)

    No jo, kdyz ja ale studuju obor grafika a precejen bych radsi mel diplomku z oboru :o)

    Lingvistiku bych asi prenechal lingvistum z kolektivu treba kolem Hajice ...

  • 19. 1. 2005 20:18

    Johanka (neregistrovaný)

    (OT) Hele Marxi, a kterejpak z Pala-teamu Ty ses? :) Napis mi kdyztak nekdy, at si doplnim svou tabulku prirazeni xicht-jmeno-prezdivka-co_dela :)