Ten hackovac a carkovac mne velmi zaujal, myslim, takova vec ma obrovsky vyuziti, zejmena kdyz bude DOBRE fungovat. Co trebas mit v dialogu pro pridavani prizpevku do diskuze zaskrtavatko
[x] dopln diakritiku....to by bylo sikovne, ne?
Nechcete (Johanko) koneckoncu nekdo, kdo o tom vi vic (Johanko!) napsat o problematice strojoveho zpracovani cestiny->cestinu ??? Neco jako problemy a uskali pocitacove lingvistiky?????
Jak vlastne tenhle skript funguje? Ma nekde statistiky uspesnosti? jak "chytry" je algoritmus?
Myslim tim zejmena u nejednoznacnych slov jako 'cesky' coz mohou byt tri verze, nicmene podle okolnich slov (zda se napriklad ve stejne vete {odstavci} objevilo slovo 'koleno') je potreba uvazit jak pravdepodobne jsou cesky jako soucast kolena, nebo ty zbyle dve verze....
Zkuste si v Googlu srovnat s czaccent, to je nastroj ktery dela totez tak by mne zajimalo zda je tohle tve lepsi neho horsi...
A treninkove texty? slo by pouzit trebas fulltexty diplomek z knihovny? Tam je k dispozici nejen slovnik ale i ty vety, takze by sly ziskat ty okolni slova a jejich vahy...a je to jeden z mala delsich textu ktery je nelicencovany....novinove clanky, etc..se pry pouzit nesmi...
Jirka Cech
NEJSEM autor czaccent, nemam s tim NIC spolecneho, kdyz jsem s nim zkousel diskutovat napriklad o tom pod jakou licenci je kod czaccent a zda ho muze nekdo opravit a zlepsit (koneckoncu jsou akademicka instituce kterou si z dani platim i ja)napsal mi , ze:
> zda je mozne to dal rozvijet, pod jakou licenci jsou zdrojaky a tak.
"Delal jsem to ja pred nekolika lety jako reakci na jednu velice spatnou diplomovou praci. Kod nema zadnou licenci, protoze se nesiri."
Kdyz jsem se pokusil navrhnout mikroskopicke zmeny (jako treba uvedeni v jakem kodovani je vystup)
byl autor hluboce dotcen a urazen,...pry po tom nikomu nic neni.
No, ja tento nazor o kodovani cestiny nesdilim a kdyz jsem copy-paste ten vysledek do sveho HTML na Macu, musel jsem analyzou jeho zdrojaku zjistit, ze je to iso-latin-2, coz jsem pak uvedl do svych metatagu...dobre, ja si metatag precist umim, ale umi to normalni BFU na windowsech? Nebo mu z toho vyjde zmrseny nesmysl??
Ahoj,
ona to neni zas takova veda a nevim, kolik lidi by to zajimalo, takze o lingvistice radeji nepisu :)
S tim ohackovavanim se to ma tak: czaccent pouziva (co jsem slysela) "tupy" algoritmus - ma tedy slovnik, jednoznacna slova priradi, a k nejednoznacnym natvrdo da jejich pravdepodobnejsi variantu - zadna lingvistika, analyza kontextu nic (jestli se mylim, opravte me prosim nekdo). Kupodivu jim ten algoritmus celkem funguje, ja to sveho casu dost pouzivala (nez jsem se naucila psat diakriticky - jedna z jedne johanky doporucuje ucw klavesovou mapu), po *kazdem* ohackovavaci si text stejne musite precist a opravit rucne, takze je to skoro jedno.
No a ty "chytrejsi" ohackovavace to delaji statisticky, tedy sezenou si velke kvantum kvalitnich textu (noviny?) a pak se to na tom naucej. Problem je se sehnanim tech textu, s pravy na ne apod., takze pak se ten soft uz nesiri i s datama, ale naucenej, a tudiz nemennej (stejne tak brnaci by to asi nemohli sirit se slovnikem, nevim, kdo na nej ma jaka prava apod.). Kdysi s tim experimentoval Pavel Machek, ale ten vysledek moc nefungoval (mel malo dat - a to jich mel hodne :)), pak se to pry zlepsilo, ale to uz jsem nezkoumala.
Nicmene ani chytry statisticky ohackovavac nikdy neda vsechno - jakmile se nejake slovo v trenovacich datech nevyskytlo (coz je dost pravdepodobny, pokud mate jen noviny a ne texty uplne ze vsech odbornych oblasti), nebo ho tam bylo malo, nebo tam byla chyba apod., tak to proste neda, nema z ceho. No a zkouset to delat pravidlove (na zaklade slovniku) je asi blbost, to by bylo desny prace s nejistym vysledkem.
Zaver tedy je, ze ta brnacka metoda, at je totalne tupa, dava pro prakticke pouziti uspokojive vysledky, statisticke metody mohou byt lepsi, ale zas uz ne o moc, a vzdy u nich zavisi na mnozstvi a kvalite dat.
Ad treninkove texty:
Co mnou navrhovane fulltexty diplomek? Jsou public domain, ne? A v nekterych provincnich (jak je radi oznacuji prazaci) univerzitach je uz leta povinost odevzdat knihovne vytisky diplomky i elektronickou (pdf) verzi. Navic by mohly byt i oborove rozdelene, myslim, ze na MatFyz nebo FJFI se spravne ohackovane slovo 'pocitac' vyskytne radove casteji nez trebas povidka nebo jeviste, naopak to zase bude u nejakych humanistu, kteri ale taky pisou (extahovatelne) diplomky. A navic DP ma kazdy tak nejak opravenou a prave diky statistice by se pripadne preklepy nemely moc projevit.
Ad statisktika:
co presne se tim mysli? nejaka analyza kontextu? protoze pokud je to jen dosazeni nejpravdepodobnejsiho vyskytu slova, je to zase jen nahrazovani a staci na to slovnik z ispellu,ne ?
Ad implementace:
proc by se to nemohlo VOLITELNE ucit Ad-hoc? myslim tim, ze by to bylo jako ten brnensky czaccent (www rozhrani), ale v pripade pochybnosti by se VOLITELNE zeptal (nabidl klikatelne varianty at to jde rychle) a pak by si to uz pamatoval resp. ulozil do statistiky.
No nevím, já sem zase slyšel, že se volná dostupnost diplomek zhoršuje, něco s autorským zákonem. Ségra říkala, že na VŠE už nejsou volně na knihovně, ale jen na objednávku a presenčně jen pro studenty. Každopádně kamarád se hodně snažil právně zajistit aby se k jeho diplomce dostalo co nejmíň lidí protže obsahovala cenné know how zadavatelské firmy a doufejme že se to bude stávat stále častěji, tím myslím spolupráci firem s VŠ a možnost studentů dostat se k opravdu hi tech věcem.
No, treba kamarad zase delal diplomku na VABO a tam mu ji rovnou utajili .... neboli bez proverky se k ni nikdo nedostane ...
Ale zase ne kazda diplomka musi byt nejak utajena ... ne vsechny diplomky obsahuji tajna data armady, statu, nebo nejake firmy .... a pak podle mne neni k utajovani duvod, utajovani diplomenk by mela byt spis vyjimka nez pravidlo.
Promin, ale kdyz ja napisu diplomku, neni to nahodou moje autorske dilo? Jak mi muze univerzita zakazat praci treba zverejnit na internetu, s podminkami vyuziti, ktere si stanovim?
Prace na tema, dejme tomu, vliv nacionalisticke ideologie na premenu srbochorvatstiny na samostatnou srbstinu a chorvatstinu, neobsahuje zadna statni ani firemni tajemstvi, a myslim si, ze jako takova by mela z principu byt ve verejne domene. Prece jsou to akademicke informace, z nichz se mohou potom dalsi lidi, nejen studenti, neco dozvedet, a tajit bezduvodne informace, zabranovat poznani, mi prijde ponekud orwellovske.
ad první odstavec:
jak? - soudním příkazem, například :-)
Zákon č. 121/2000 o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů
§ 60
Školní dílo
(2) Není-li sjednáno jinak, může autor školního díla své dílo užít či poskytnout jinému licenci, není-li to v rozporu s oprávněnými zájmy školy nebo školského či vzdělávacího zařízení.
... pokud to správně chápu, tak jestliže škola řekne, že je to v rozporu s jejími zájmy, tak ani jako autor nesmíš užít diplomku, své dílo, podle předchozích ustanovení onoho zákona; nehledě na to, že prakticky vždy je "sjednáno jinak" (čte si vůbec někdo studijní řády? - kdybychom se jimi vždy měli řídit doslovně, tak by na většině našich VŠ nikdo nestudoval :-((( )
Při počešťování Dasheru se nám podařilo získat 300kB vzorek z Ústavu pro český jazykový korpus pod GPL. V případě, že by se slovník nešířil ve zdrojové formě, je možné pro analýzu smluvně získat i větší vzorky.
A že převod cestina->čeština rozhodně není jednoznačný, by mohl vyprávět spolužák Ján Čisár, ze kterého se po konverzi čeština->cestina->čeština ve školním systému stal Jan Císař.
UCW klavesova mapa je jaka?
Taky jsem udelal svuj ohackovavac (jednoduchy perl skript se slovnikem) takze vidim jak pak hazi vysledky a je to dycky treba kontrolovat rucne .... K tomu jsem tam pridelal feature ktera kdyz to neni schopen jednoznacne ohackovat tak tam da ke slovu znacku ... no uvidime, tenhle stahnu, bud ho zacnu pouzivat, nebo s z nej aspon rozsirim slovnik :o)