Vlákno názorů k článku Nová softwarová sklizeň (19. 1. 2005) od jie liu - Ten hackovac a carkovac mne velmi zaujal, myslim,...

Článek je starý, nové názory již nelze přidávat.

19. 1. 2005 9:21

jie liu (neregistrovaný)

Ten hackovac a carkovac mne velmi zaujal, myslim, takova vec ma obrovsky vyuziti, zejmena kdyz bude DOBRE fungovat. Co trebas mit v dialogu pro pridavani prizpevku do diskuze zaskrtavatko
[x] dopln diakritiku....to by bylo sikovne, ne?

Nechcete (Johanko) koneckoncu nekdo, kdo o tom vi vic (Johanko!) napsat o problematice strojoveho zpracovani cestiny->cestinu ??? Neco jako problemy a uskali pocitacove lingvistiky?????

Jak vlastne tenhle skript funguje? Ma nekde statistiky uspesnosti? jak "chytry" je algoritmus?

Myslim tim zejmena u nejednoznacnych slov jako 'cesky' coz mohou byt tri verze, nicmene podle okolnich slov (zda se napriklad ve stejne vete {odstavci} objevilo slovo 'koleno') je potreba uvazit jak pravdepodobne jsou cesky jako soucast kolena, nebo ty zbyle dve verze....

Zkuste si v Googlu srovnat s czaccent, to je nastroj ktery dela totez tak by mne zajimalo zda je tohle tve lepsi neho horsi...

A treninkove texty? slo by pouzit trebas fulltexty diplomek z knihovny? Tam je k dispozici nejen slovnik ale i ty vety, takze by sly ziskat ty okolni slova a jejich vahy...a je to jeden z mala delsich textu ktery je nelicencovany....novinove clanky, etc..se pry pouzit nesmi...

Jirka Cech
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 9:37

Pavel Tisnovsky (neregistrovaný)

Jen tak jsem pro zajimavost zkousel projet Vas prispevek czaccentem a nic moc - pravdepodobne to jenom tupe nahrazuje slova bez ohledu na kontext
(napr. "jeden z mala", samozrejme "cesky" apod.).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 10:11

jie liu (neregistrovaný)

NEJSEM autor czaccent, nemam s tim NIC spolecneho, kdyz jsem s nim zkousel diskutovat napriklad o tom pod jakou licenci je kod czaccent a zda ho muze nekdo opravit a zlepsit (koneckoncu jsou akademicka instituce kterou si z dani platim i ja)napsal mi , ze:

> zda je mozne to dal rozvijet, pod jakou licenci jsou zdrojaky a tak.
"Delal jsem to ja pred nekolika lety jako reakci na jednu velice spatnou diplomovou praci. Kod nema zadnou licenci, protoze se nesiri."

Kdyz jsem se pokusil navrhnout mikroskopicke zmeny (jako treba uvedeni v jakem kodovani je vystup)
byl autor hluboce dotcen a urazen,...pry po tom nikomu nic neni.

No, ja tento nazor o kodovani cestiny nesdilim a kdyz jsem copy-paste ten vysledek do sveho HTML na Macu, musel jsem analyzou jeho zdrojaku zjistit, ze je to iso-latin-2, coz jsem pak uvedl do svych metatagu...dobre, ja si metatag precist umim, ale umi to normalni BFU na windowsech? Nebo mu z toho vyjde zmrseny nesmysl??
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 10:38

Johanka (neregistrovaný)

Ahoj,

ona to neni zas takova veda a nevim, kolik lidi by to zajimalo, takze o lingvistice radeji nepisu :)

S tim ohackovavanim se to ma tak: czaccent pouziva (co jsem slysela) "tupy" algoritmus - ma tedy slovnik, jednoznacna slova priradi, a k nejednoznacnym natvrdo da jejich pravdepodobnejsi variantu - zadna lingvistika, analyza kontextu nic (jestli se mylim, opravte me prosim nekdo). Kupodivu jim ten algoritmus celkem funguje, ja to sveho casu dost pouzivala (nez jsem se naucila psat diakriticky - jedna z jedne johanky doporucuje ucw klavesovou mapu), po *kazdem* ohackovavaci si text stejne musite precist a opravit rucne, takze je to skoro jedno.

No a ty "chytrejsi" ohackovavace to delaji statisticky, tedy sezenou si velke kvantum kvalitnich textu (noviny?) a pak se to na tom naucej. Problem je se sehnanim tech textu, s pravy na ne apod., takze pak se ten soft uz nesiri i s datama, ale naucenej, a tudiz nemennej (stejne tak brnaci by to asi nemohli sirit se slovnikem, nevim, kdo na nej ma jaka prava apod.). Kdysi s tim experimentoval Pavel Machek, ale ten vysledek moc nefungoval (mel malo dat - a to jich mel hodne :)), pak se to pry zlepsilo, ale to uz jsem nezkoumala.

Nicmene ani chytry statisticky ohackovavac nikdy neda vsechno - jakmile se nejake slovo v trenovacich datech nevyskytlo (coz je dost pravdepodobny, pokud mate jen noviny a ne texty uplne ze vsech odbornych oblasti), nebo ho tam bylo malo, nebo tam byla chyba apod., tak to proste neda, nema z ceho. No a zkouset to delat pravidlove (na zaklade slovniku) je asi blbost, to by bylo desny prace s nejistym vysledkem.

Zaver tedy je, ze ta brnacka metoda, at je totalne tupa, dava pro prakticke pouziti uspokojive vysledky, statisticke metody mohou byt lepsi, ale zas uz ne o moc, a vzdy u nich zavisi na mnozstvi a kvalite dat.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 11:08

jam (neregistrovaný)

a nestalo by zato, nasadit tento soft prave pro prizpevky? a z oprav uvedomelych uzivatelu by se tento soft mohl ucit...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 11:14

jie liu (neregistrovaný)

Ad treninkove texty:
Co mnou navrhovane fulltexty diplomek? Jsou public domain, ne? A v nekterych provincnich (jak je radi oznacuji prazaci) univerzitach je uz leta povinost odevzdat knihovne vytisky diplomky i elektronickou (pdf) verzi. Navic by mohly byt i oborove rozdelene, myslim, ze na MatFyz nebo FJFI se spravne ohackovane slovo 'pocitac' vyskytne radove casteji nez trebas povidka nebo jeviste, naopak to zase bude u nejakych humanistu, kteri ale taky pisou (extahovatelne) diplomky. A navic DP ma kazdy tak nejak opravenou a prave diky statistice by se pripadne preklepy nemely moc projevit.

Ad statisktika:
co presne se tim mysli? nejaka analyza kontextu? protoze pokud je to jen dosazeni nejpravdepodobnejsiho vyskytu slova, je to zase jen nahrazovani a staci na to slovnik z ispellu,ne ?

Ad implementace:
proc by se to nemohlo VOLITELNE ucit Ad-hoc? myslim tim, ze by to bylo jako ten brnensky czaccent (www rozhrani), ale v pripade pochybnosti by se VOLITELNE zeptal (nabidl klikatelne varianty at to jde rychle) a pak by si to uz pamatoval resp. ulozil do statistiky.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 12:34

kyknos (neregistrovaný)

Ad: treninkove texty: co treba Wikipedia? A predevsim, existuje v cestine neco jako project Gutenberg? Pokud ne, asi by stalo zato do Gutenbergu ceske texty pridat :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 22:04

petr andrs (neregistrovaný)

No nevím, já sem zase slyšel, že se volná dostupnost diplomek zhoršuje, něco s autorským zákonem. Ségra říkala, že na VŠE už nejsou volně na knihovně, ale jen na objednávku a presenčně jen pro studenty. Každopádně kamarád se hodně snažil právně zajistit aby se k jeho diplomce dostalo co nejmíň lidí protže obsahovala cenné know how zadavatelské firmy a doufejme že se to bude stávat stále častěji, tím myslím spolupráci firem s VŠ a možnost studentů dostat se k opravdu hi tech věcem.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
20. 1. 2005 1:02

Martin 'Bilbo' Petricek (neregistrovaný)

No, treba kamarad zase delal diplomku na VABO a tam mu ji rovnou utajili .... neboli bez proverky se k ni nikdo nedostane ...

Ale zase ne kazda diplomka musi byt nejak utajena ... ne vsechny diplomky obsahuji tajna data armady, statu, nebo nejake firmy .... a pak podle mne neni k utajovani duvod, utajovani diplomenk by mela byt spis vyjimka nez pravidlo.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
20. 1. 2005 5:48

brehy (neregistrovaný)

Promin, ale kdyz ja napisu diplomku, neni to nahodou moje autorske dilo? Jak mi muze univerzita zakazat praci treba zverejnit na internetu, s podminkami vyuziti, ktere si stanovim?

Prace na tema, dejme tomu, vliv nacionalisticke ideologie na premenu srbochorvatstiny na samostatnou srbstinu a chorvatstinu, neobsahuje zadna statni ani firemni tajemstvi, a myslim si, ze jako takova by mela z principu byt ve verejne domene. Prece jsou to akademicke informace, z nichz se mohou potom dalsi lidi, nejen studenti, neco dozvedet, a tajit bezduvodne informace, zabranovat poznani, mi prijde ponekud orwellovske.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
20. 1. 2005 12:59

kavol (neregistrovaný)

ad první odstavec:
jak? - soudním příkazem, například :-)

Zákon č. 121/2000 o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů
§ 60
Školní dílo
(2) Není-li sjednáno jinak, může autor školního díla své dílo užít či poskytnout jinému licenci, není-li to v rozporu s oprávněnými zájmy školy nebo školského či vzdělávacího zařízení.

... pokud to správně chápu, tak jestliže škola řekne, že je to v rozporu s jejími zájmy, tak ani jako autor nesmíš užít diplomku, své dílo, podle předchozích ustanovení onoho zákona; nehledě na to, že prakticky vždy je "sjednáno jinak" (čte si vůbec někdo studijní řády? - kdybychom se jimi vždy měli řídit doslovně, tak by na většině našich VŠ nikdo nestudoval :-((( )
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
20. 1. 2005 22:12

petr andrs (neregistrovaný)

tady slo spis o opacny problem - aby autor co nejvice zamezil manipulaci, zejmena univerzitou, se svou praci
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 11:57

Stanislav Brabec (neregistrovaný)

Při počešťování Dasheru se nám podařilo získat 300kB vzorek z Ústavu pro český jazykový korpus pod GPL. V případě, že by se slovník nešířil ve zdrojové formě, je možné pro analýzu smluvně získat i větší vzorky.

A že převod cestina->čeština rozhodně není jednoznačný, by mohl vyprávět spolužák Ján Čisár, ze kterého se po konverzi čeština->cestina->čeština ve školním systému stal Jan Císař.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 12:50

Martin 'Bilbo' Petricek (neregistrovaný)

UCW klavesova mapa je jaka?

Taky jsem udelal svuj ohackovavac (jednoduchy perl skript se slovnikem) takze vidim jak pak hazi vysledky a je to dycky treba kontrolovat rucne .... K tomu jsem tam pridelal feature ktera kdyz to neni schopen jednoznacne ohackovat tak tam da ke slovu znacku ... no uvidime, tenhle stahnu, bud ho zacnu pouzivat, nebo s z nej aspon rozsirim slovnik :o)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 15:52

byF (neregistrovaný)

Skoda, nejaky zajimavy clanek na tema pocitacove lingvistiky by se hodil..pro inspiraci
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
20. 1. 2005 5:54

brehy (neregistrovaný)

Ja se pripojuju! Prosim, prosim. Treba nejen o pocitacove ale i o obecne jazykovede. (Doktor Blazek z FF MU rika, ze je to nejexaktnejsi z humanitnich ved. On je to taky byvalej fyzik.)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 11:59

Semo (neregistrovaný)

No, ja pod slovom "cesky" v cestine vidim 4 vyznamy. A to som Slovak :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 13:13

Martin 'Bilbo' Petricek (neregistrovaný)

česky
čéšky
český
češky

... no uz jsem se parkrat setkal i s ceskymi vyrazy bez diakritiky, kde to neslo uhodnout ani z kontextu .... obzvlaste treba u ceskych prijmeni.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
20. 1. 2005 5:57

brehy (neregistrovaný)

To posledni by ale melo byt s velkym pismenem, ne? :) (Sorry ze ja sam pisu bez diakritiky, mam cerstve nainstalovanej Slackware a jeste se mi nechtelo kompilovat locales.)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
20. 1. 2005 6:28

brehy (neregistrovaný)

To posledni by ale melo byt s velkym pismenem, ne? :) (Sorry ze ja sam pisu bez diakritiky, mam cerstve nainstalovanej Slackware a jeste se mi nechtelo kompilovat locales.)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 15:24

Ava (neregistrovaný)

Jen reaguju na tri verze pocesteneho "cesky", ja mam ctyri:
c^es^ky (ty zeny)
c^esky' (pochazejici z ceska)
c^esky (hovorit jak)
c^e's^ky (kolenni)

ma nekdo nejakou dalsi ? :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 1. 2005 22:03

petr andrs (neregistrovaný)

Existuje i neco podobneho jako Wordove makro, říká si to "začešti"

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Nová softwarová sklizeň (19. 1. 2005) od jie liu - Ten hackovac a carkovac mne velmi zaujal, myslim,...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Ke kuplířství nedocházelo, říká obžalovaný z kauzy Sex.cz

Na dotace na zateplení zapomeňte. Nová vláda vykleští NZÚ

Desítky rozšíření pro Chrome kradou uživatelská data

Příspěvek na produkty spoření na stáří a daň z příjmů

Irsko se po pauze znovu otevírá pro výstavbu datových center

Kdy a jak podat přiznání, aby vám přeplatek vrátili co nejdřív?

Malware, ransomware a další online hrozby: Jak se liší?

Výjimka z EET je nejmenším OSVČ k ničemu, hodí se ale podvodníkům

Z evropského koláče chytrých telefonů ukusují Apple a Honor

Deset kroků pro maximální zabezpečení Google účtu

Handicap proměnila v úspěšný byznys, učí ženy nosit paruky

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Je tu první vydání magazínu CIOtrends v tomto roce

Google uvádí Gemini 3.1 Pro a přidává působivé benchmarky

Statistiky o ransomware, které jste asi neznali nebo si neuvědomili

Kdo se bude moct vyhnout EET a co bude muset splnit?

Lidé si mohou nechat zdarma vyšetřit znaménka, zrak i cukr

Ještě mi nevrátili peníze za Markétu a už je tu EET zas

AI prolomila celou firemní infrastrukturu za 21 hodin

Ve firmách se pořád věří jediné „pravdě“ z dat. A to je problém