Vlákno názorů k článku Nová softwarová sklizeň (19. 1. 2005) od marx - Keďže dúfam, že do toho trošku vidím, tak...

Článek je starý, nové názory již nelze přidávat.

19. 1. 2005 11:56

marx (neregistrovaný)

Keďže dúfam, že do toho trošku vidím, tak pár slov o tom, prečo to funguje tak ako to funguje. [Nie som autoromo ani jedného z programov]

Ako sa vlastne dá dopĺňať diakritika do textu? Máme metódy jednoduché a použiteľné ako už vyššie zmienený czaccent, ktorý je založený na slovníku a štatistické, ktoré vychádzajú zo slov, ktoré videli. Pri štatistických (HaT) ako už vyplýva z názvu sa používa frekvencia jednotlivých slov. A pri slovníkoch, slovník (ak je tak, radšej morfologický analyzátor [vec, ktorá doplní rod, číslo, ...]). Kebyže do slovníka pridáme informácie o frekvencii, tak by sme pre voľný text [bez tématického zaradenia] dostali najlepšie výsledky. Pre konkrétny typ textov by bolo lepšie buď použiť štatistický značkovač, alebo do slovníku doplniť info o štatistikách (zase zrejme to najlepšie).

Sú komplikované riešenia lepšie? Samozrejme, že áno :) Tu už je tých možností o pár viac, ale spomieniem len pár. Keď ich však chceme využiť, tak je základným nástrojom vec, ktorá nám pridá značky o rode, čísle, páde, ... o každom slove. Takýto nástroj existuje aj pre češtinu (napr. ajka, lemma) ale aj keď samotný program smie byť GNU/GPL (ajka), tak dáta sa obvykle šíriť len tak nemôžu. Ich cena sa pohybuje niekde na pomedzí 5-6 miestnych súm [zväčša prístup len ku skompilovanej forme dát]. Ak však máme toto, potom sa môžeme pustiť ďalej a zisťovať štatisticky používanie dvojíc, trojíc, ... a prídeme na to, že tu či tam nám vypadne pravidlo, ktoré vyzerá rozumne [príd. meno - podst. meno]. A potom už fičíme :)

Ak by bol záujem, tak o tom napíšem aj viac. Ak by niekto mal záujem spraviť niečo takéto a študuje na FI MUNI, tak nech sa ozve a môže to vytvárať minimálne ako bakalársku prácu :) to už nejako dohodneme.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 12:14

Johanka (neregistrovaný)

Jen dodam, ze pokud nekdo studuje zase na MFF UK a chtel by neco takoveho delat (jako rocnikac II, bakalarku az diplomku), muze se ozvat zase mne :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 13:13

Martin 'Bilbo' Petricek (neregistrovaný)

V zasade by to nemuselo byt tak tezke, nasadi se na to nejaka umela inteligence nebo statistika pro vyber vhodne varianty slova z okolniho kontextu a sehnat trenovaci data je lehke ... odstranit diakritiku je trivialni, takze na uceni staci vzit jakykoliv český text a toho se vali po webu mraky ....

No, na MFF sice studuju, ale rocnikac II mam uz PDF editor a diplomku zas mam dohodlou s Pelikanem ...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 14:25

marx (neregistrovaný)

V zásade do toho potrebuješ pragmatiku a aj to je málo :) takže to je problém ako hrom. Kasli na pelikana a pod robit toto ;)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 16:03

Martin 'Bilbo' Petricek (neregistrovaný)

No jo, kdyz ja ale studuju obor grafika a precejen bych radsi mel diplomku z oboru :o)

Lingvistiku bych asi prenechal lingvistum z kolektivu treba kolem Hajice ...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 20:18

Johanka (neregistrovaný)

(OT) Hele Marxi, a kterejpak z Pala-teamu Ty ses? :) Napis mi kdyztak nekdy, at si doplnim svou tabulku prirazeni xicht-jmeno-prezdivka-co_dela :)

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Nová softwarová sklizeň (19. 1. 2005) od marx - Keďže dúfam, že do toho trošku vidím, tak...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Kdy a jak podat přiznání, aby vám přeplatek vrátili co nejdřív?

Google Pixel 10a má plochý design a vylepšenou odolnost

Petr Šmíd: Když startupy rostou, české fondy je opouštějí

Apple opravil bezpečnostní chybu, která byla v iOS od verze 1.0

Irsko se po pauze znovu otevírá pro výstavbu datových center

Domén s koncovkou .CZ přibývá, většina je podepsaných

Malware, ransomware a další online hrozby: Jak se liší?

Lidé si mohou nechat zdarma vyšetřit znaménka, zrak i cukr

Nervózní Microsoft začal v ČR žehlit Trumpův chaos

Analýza rozebrala moderování Jílkové v Máte slovo

V Evropě roste zájem o alternativu k Microsoftu, říká Petra Novotná

Počet nových pracovních míst prudce klesá

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Z evropského koláče chytrých telefonů ukusují Apple a Honor

Plánované změny v penzích: Zjistili jsme další podrobnosti

Proč mají vysavače mikrofony? Omylem ovládl tisíce vysavačů DJI

Ještě mi nevrátili peníze za Markétu a už je tu EET zas

Statistiky o ransomware, které jste asi neznali nebo si neuvědomili

Digitalizační masakr: stát chce data o zaměstnancích

Deset kroků pro maximální zabezpečení Google účtu