hmm, zda se mi to, nebo se ty clanky nepridavaji o pulnoci, ale az s cca 20 sec zpozdenim ?
Názory k článku
Nová softwarová sklizeň (19. 1. 2005)
Re:
celé vláknoee, je to 17.574 sekundove oneskorenie :)
Re:
celé vláknohlavne rootovi jde trosku spatne cas... ten prvni prispevek jsem posilal 4 sec a 2 minuty po pulnoci...
Re:
celé vláknoBez hacku a carek
celé vlákno...souhlasim, bez hacku a carek je to stejne nejlepsi. Skoda jen, ze mi na roota nechteji clanky bez diakritiky prijmout... :-(
Re: Bez hacku a carek
celé vláknoTak mas rovnou soft na to, aby je pridal a zbytek dodela bdela korektorka ^__^. Musim souhlasit, ze hacky a carky jsou otravne, ale hodi se to naucit. Mne treba semestralku asi bez hacku a carku neprijmou.
Re: Bez hacku a carek
celé vláknoMyslim, ze je to moc povyku pro nic. Kdyz uz tu musim "lustit" clanky ve slovenstine, tak proc ne v cestine (cti bez hacku)?
Co se tyce semestralky, tak predpokladam, ze ji odevzdavas v tisteny podobe a tam uz hrozi riziko, ze se vyskytne v rukou nekoho, kdo nemusi bejt computer geek a mohlo by mu to dekodovani obsahu zneprijemnit.
Ja osobne bych ale cestinu (opet bez hacku) "legalizoval" alespon jako jazyk pro elektronickou komunikaci. Nutit nekoho psat hacky a carky je stejny jako nutit ho, aby psal vsechna cisla v hexu. (IMHO)
Re: Bez hacku a carek
celé vláknoCo jste sakra za pronárod? Předně tak začněte i mluvit. Pak se registrujte jako národností menšina, pak se ukáže kolik lidí se k ní přihlásí, a teprve pak se můžeme bavit o nějaké legalizaci cestiny. Protože cestina není čeština.
> Nutit nekoho psat hacky a carky je stejny jako
> nutit ho, aby psal vsechna cisla v hexu
Zcela analogicky: nutit někoho číst cestinu je jako nutit ho číst všechna čísla v hexa.
Re: Bez hacku a carek
celé vláknopresne tak ... je to blbost zvlast kdyz uz s cestinou neni problem.
Re: Bez hacku a carek
celé vlákno...ale ja to prece nikomu nechci cpat. At si jeden pise bez hacku a druhej s nima, vsichni rozumi obema, tak co resit? Mne jen vadi preferovani jednoho pred druhym...
Re: Bez hacku a carek
celé vláknoMě by zajímalo, jestli když bez hacku a carek píšete, jestli si to bez nich i čtete, ať už nahlas, či vduchu.
Jáchym
Re: Bez hacku a carek
celé vláknome text bez hacku a carek nedela problem, jsem na nej zvykly.
btw, laboratorni prace na pc odevzdavam zasadne bez diakritiky, ajeste si nikdo nestezoval ;)
Re: Bez hacku a carek
celé vláknoja si uz v duchu text ohackuju a ocarkuju, pokud se na to nesoustredim ani nerozpoznam, jestli je text psan s diakritikou, ci bez ni...
btw: to s tou narodnostni mensinou je dobrej napad, jenom da chvilku praci se naucit mluvit bez hacku a kratce, zato je to dobra insiprace pro reklamu na oskara :)
Re: Bez hacku a carek
celé vláknoK budeme vsici mluvit jako ostravaci bez hacku
Re: Bez hacku a carek
celé vláknoAle samozrejme, ze si to dekoduju zpatky do hacku a carek, ale to prece delam i u aglictiny...
...chtel jsem jen rict, ze i po odebrani diakritiky je mozno text zase prakticky bez ztraty informace ziskat zpet, takze zadnej problem...
...mam lepsi prirovnani nez k hexovejm cislum. Berte odebrani diakritiky jako ztratovou kompresi. Nebo vam snad taky vadi, ze se vsude pouzivaji jpegy misto bmpcek?
Re: Bez hacku a carek
celé vláknoTož já raději PNG ^_~
Bez hacku a carek v SVK
celé vláknoNevie niekdo o podobnom softwari pre slovencinu ? vdaka
Re: Bez hacku a carek v SVK
celé vláknoAk som to spravne pochopil, tak staci tento, len ho treba 'vytrenovat' :-)
Hledam konzultanta na jednor. ukol Redhat dedik.
celé vláknoOmlouvam se za zneuziti prispevku,
nedokazu nikoho najit pres vyhledavace:
mam dedikovany server, potreboval bych
jej upravit tak, aby DNS, pokud je na nej
vznesen dotaz a DNS nema tuto domenu
explicitne nastavenou, aby odpovedel,
jako kdyby ji nastavenou mel a poslal
to tam kde parkuji domeny a mam tam script,
ktery dale tento pozadavel zpracuje.
Tzn. nastavit DNS aby zpracoval jakykoli
pozadavek *.* ~ *.*.*.*
A nastavit Apache, aby tento pozadavek take prijal
a naserviroval adresar se scriptem, ktery tento
pozadavek dale zpracuje.
Duvod:
vlastnim stovky domen, ktere maji traffic, z ruznych
zdroju, at uz typo nebo stare odkazy atd. A dalsi
domeny postupne pripojuji. A protoze se me nechce
pro kazdou domenu neustale vytvaret pres whm nove
ucty, tak bych za idelani povazoval u dane domeny jen
zmenit nameserver a tim by to bylo hotovo. Navic whm
funguje spatne a spousty domen me prida spatne, takze se
neresolvuji...
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoZapomel kontakt:
zdenda zavinac startseek.com
Prosim adminy at to nemazou, dekuji.
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoTo máte stovky domén a nemáte pár pitomejch stovek Kč na experta, který vám to udělá?!
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoExperta se prave tady snazim najit. Nenapadlo me, ze si nekdo bude myslet, ze to chci zadarmo. Nastaveni Apache uz jsem si z nouze vykoumal.Pocital jsem s vydajem v radu tisicu, ne stovek. Nejaky patch na nameserver snad taky nejdu, co si clovek neudela sam, to nema...
K prispevku Jana Dvoraka nize:
napriklad ten frajer co mu patri goggle.com musi mit desitky tisic typos navstevniku denne. Hodnota takoveto domeny na trhu se pohybuje v radu xxx,xxx USD. Takze kdybyste o takoveto domene vedel a umyslne ji nezaregistroval, abyste nebyl "ten zly" (pricemz byste vedel, ze za par minut to stejne capne nekdo jiny), to byste byl svetec...
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoclovek nemusi bejt hned svetec.
Ale vetsina linuxaku ma aspon nejaky moralni hodnoty, pokud patrite mezi svine typu majasofta, tak doufam ze zde zadnou pomoc nenajdete.
co na takovejch typo domenach nabizite? Pecko? nebo neco jinak uzasne nepotrebneho?
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoAdsense a Overture, prumerna ziskovost $15/1000.
Pro zajimavost mam domeny s denni typo navstevnosti 34K takze si je rozhodne do zadku (jak radi pan nize) strkat nehodlam, pac je to slusny bezpracny prijem, radeji tyto penize investuji do dalsich domen...
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoPoslyste, pani Kubiku, bezte si spamovat nekam jinam. Tady na vas fakt neni nikdo zvedavej. :-/
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoTak si se pochlubil, ze umis whois...ale tenhle tvuj prispevek je taky spam co na nej neni nikdo zvedavej.
Vubec, zajimavy je, za ja napisu jeden dejme tomu "spam" do diskuze, nacez se objevi 5 lidi, kteri zacnou spamovat "spamere jeden zlej, fuuuj, smazat".
Takze zatimco puvodni prispevek je dejme tomu neeticky, nasledne nadavani, nad tim, jaka jsem svine, problem znekolikanasobuje.
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknotak z toho by se cloveku zvednul kufr, podvadet pri DNS odpovedich a jeste krast cilene domeny, o ktere nekdo projevil zajem. Navic to verejne hlasat zde a jeste hledat spolupachatele. Pri predstave, ze uvidim u sve nove zalozene firmy volnou domenu, zazadam o jeji zalozeni podle nazvu firmy a on si ji "nahodou", nez vyplnim formulare, nekdo zaregistruje o minutu driv a ja budu vymyslet zbytecne kombinace jako "firma-sro", atd., tak to bych vas nakopal do zadku zepredu. :(
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoje to offtopic. Nestydite se zasirat diskuzi? Proc si za par korun nezaplatite PR clanek ci inzerci na rootu? jeho redakce vy Vam (jako platicimu inzerentovi) jiste vysla vstric.
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoJak to mam vedet ? To jsem si zase nabehl, linuxaci namysleni, ja si to vykoumam sam, bez zas parit kvejka nafuko...
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoInu tak, slusne chovani se mezi "podnikateli" nenosi.
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknostejne jako mezi namyslenymi linuxaky :) nezacal won
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoAle zacal. Zacal tim, ze zneuziva omylu ci nevedomosti lidi. To je sproste parazitovani na lidske chybe. Velmi ubohy zpusob obzivy. Neni to v podstate umyslny pokus o podvod?
Johanko a ctenari, omlouvam se za tenhle prispevek, ale co je moc, to je moc.
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoA hle ze by dalsi domenovy spekulant nebo dokonce typosquatter ? Ja bych naopak prosil adminy o rychlou DELETE query :)
Re: Hledam konzultanta na jednor. ukol Redhat ded
celé vláknoVazeny, podobnou <>vinu uz vymyslel Verisign a dodnes jsou s tim problemy. Bohudik pouze pro .net a .com. Vidim, ze je chcete s vymyslenim zhovadilosti patrne trumfnout.
Ergo - prestante zasirat diskusi off-topic prispevky a svoje stovky domen si nacpete tam, kde zada ztraceji slusne misto, pokud nejste schopen spravovat DNS normalnim zpusobem.
kodovani cz: je k nevire, co je vlastne k nevire!
celé vlákno"Je skoro až k nevíře, kolik problémů může způsobit taková zdánlivě nevinná věc jako háčky a čárky."
:o\
je skoro az k nevire, kolik problemu muze zpusobit takova zdanlive nevinna vec, jako ignorovani standardu ISO nejmenovanou spolecnosti s dominantnim postavenim na trhu operacnich systemu pro osobni pocitace.
nepouzivam diakritiku nikoliv proto, ze by muj domaci pocitac nezvladal nektere z kodovani ceskych znaku, ale proto, ze - pokud jde o nektere dokumenty - nemam jistotu, ze se prijemci zobrazi spravne.
HACKY A CARKY
celé vláknoTen hackovac a carkovac mne velmi zaujal, myslim, takova vec ma obrovsky vyuziti, zejmena kdyz bude DOBRE fungovat. Co trebas mit v dialogu pro pridavani prizpevku do diskuze zaskrtavatko
[x] dopln diakritiku....to by bylo sikovne, ne?
Nechcete (Johanko) koneckoncu nekdo, kdo o tom vi vic (Johanko!) napsat o problematice strojoveho zpracovani cestiny->cestinu ??? Neco jako problemy a uskali pocitacove lingvistiky?????
Jak vlastne tenhle skript funguje? Ma nekde statistiky uspesnosti? jak "chytry" je algoritmus?
Myslim tim zejmena u nejednoznacnych slov jako 'cesky' coz mohou byt tri verze, nicmene podle okolnich slov (zda se napriklad ve stejne vete {odstavci} objevilo slovo 'koleno') je potreba uvazit jak pravdepodobne jsou cesky jako soucast kolena, nebo ty zbyle dve verze....
Zkuste si v Googlu srovnat s czaccent, to je nastroj ktery dela totez tak by mne zajimalo zda je tohle tve lepsi neho horsi...
A treninkove texty? slo by pouzit trebas fulltexty diplomek z knihovny? Tam je k dispozici nejen slovnik ale i ty vety, takze by sly ziskat ty okolni slova a jejich vahy...a je to jeden z mala delsich textu ktery je nelicencovany....novinove clanky, etc..se pry pouzit nesmi...
Jirka Cech
Re: HACKY A CARKY
celé vláknoJen tak jsem pro zajimavost zkousel projet Vas prispevek czaccentem a nic moc - pravdepodobne to jenom tupe nahrazuje slova bez ohledu na kontext
(napr. "jeden z mala", samozrejme "cesky" apod.).
Re: HACKY A CARKY
celé vláknoNEJSEM autor czaccent, nemam s tim NIC spolecneho, kdyz jsem s nim zkousel diskutovat napriklad o tom pod jakou licenci je kod czaccent a zda ho muze nekdo opravit a zlepsit (koneckoncu jsou akademicka instituce kterou si z dani platim i ja)napsal mi , ze:
> zda je mozne to dal rozvijet, pod jakou licenci jsou zdrojaky a tak.
"Delal jsem to ja pred nekolika lety jako reakci na jednu velice spatnou diplomovou praci. Kod nema zadnou licenci, protoze se nesiri."
Kdyz jsem se pokusil navrhnout mikroskopicke zmeny (jako treba uvedeni v jakem kodovani je vystup)
byl autor hluboce dotcen a urazen,...pry po tom nikomu nic neni.
No, ja tento nazor o kodovani cestiny nesdilim a kdyz jsem copy-paste ten vysledek do sveho HTML na Macu, musel jsem analyzou jeho zdrojaku zjistit, ze je to iso-latin-2, coz jsem pak uvedl do svych metatagu...dobre, ja si metatag precist umim, ale umi to normalni BFU na windowsech? Nebo mu z toho vyjde zmrseny nesmysl??
Re: HACKY A CARKY
celé vláknoAhoj,
ona to neni zas takova veda a nevim, kolik lidi by to zajimalo, takze o lingvistice radeji nepisu :)
S tim ohackovavanim se to ma tak: czaccent pouziva (co jsem slysela) "tupy" algoritmus - ma tedy slovnik, jednoznacna slova priradi, a k nejednoznacnym natvrdo da jejich pravdepodobnejsi variantu - zadna lingvistika, analyza kontextu nic (jestli se mylim, opravte me prosim nekdo). Kupodivu jim ten algoritmus celkem funguje, ja to sveho casu dost pouzivala (nez jsem se naucila psat diakriticky - jedna z jedne johanky doporucuje ucw klavesovou mapu), po *kazdem* ohackovavaci si text stejne musite precist a opravit rucne, takze je to skoro jedno.
No a ty "chytrejsi" ohackovavace to delaji statisticky, tedy sezenou si velke kvantum kvalitnich textu (noviny?) a pak se to na tom naucej. Problem je se sehnanim tech textu, s pravy na ne apod., takze pak se ten soft uz nesiri i s datama, ale naucenej, a tudiz nemennej (stejne tak brnaci by to asi nemohli sirit se slovnikem, nevim, kdo na nej ma jaka prava apod.). Kdysi s tim experimentoval Pavel Machek, ale ten vysledek moc nefungoval (mel malo dat - a to jich mel hodne :)), pak se to pry zlepsilo, ale to uz jsem nezkoumala.
Nicmene ani chytry statisticky ohackovavac nikdy neda vsechno - jakmile se nejake slovo v trenovacich datech nevyskytlo (coz je dost pravdepodobny, pokud mate jen noviny a ne texty uplne ze vsech odbornych oblasti), nebo ho tam bylo malo, nebo tam byla chyba apod., tak to proste neda, nema z ceho. No a zkouset to delat pravidlove (na zaklade slovniku) je asi blbost, to by bylo desny prace s nejistym vysledkem.
Zaver tedy je, ze ta brnacka metoda, at je totalne tupa, dava pro prakticke pouziti uspokojive vysledky, statisticke metody mohou byt lepsi, ale zas uz ne o moc, a vzdy u nich zavisi na mnozstvi a kvalite dat.
Re: HACKY A CARKY
celé vláknoa nestalo by zato, nasadit tento soft prave pro prizpevky? a z oprav uvedomelych uzivatelu by se tento soft mohl ucit...
Re: HACKY A CARKY
celé vláknoAd treninkove texty:
Co mnou navrhovane fulltexty diplomek? Jsou public domain, ne? A v nekterych provincnich (jak je radi oznacuji prazaci) univerzitach je uz leta povinost odevzdat knihovne vytisky diplomky i elektronickou (pdf) verzi. Navic by mohly byt i oborove rozdelene, myslim, ze na MatFyz nebo FJFI se spravne ohackovane slovo 'pocitac' vyskytne radove casteji nez trebas povidka nebo jeviste, naopak to zase bude u nejakych humanistu, kteri ale taky pisou (extahovatelne) diplomky. A navic DP ma kazdy tak nejak opravenou a prave diky statistice by se pripadne preklepy nemely moc projevit.
Ad statisktika:
co presne se tim mysli? nejaka analyza kontextu? protoze pokud je to jen dosazeni nejpravdepodobnejsiho vyskytu slova, je to zase jen nahrazovani a staci na to slovnik z ispellu,ne ?
Ad implementace:
proc by se to nemohlo VOLITELNE ucit Ad-hoc? myslim tim, ze by to bylo jako ten brnensky czaccent (www rozhrani), ale v pripade pochybnosti by se VOLITELNE zeptal (nabidl klikatelne varianty at to jde rychle) a pak by si to uz pamatoval resp. ulozil do statistiky.
treninkove texty
celé vláknoAd: treninkove texty: co treba Wikipedia? A predevsim, existuje v cestine neco jako project Gutenberg? Pokud ne, asi by stalo zato do Gutenbergu ceske texty pridat :)
Re: HACKY A CARKY
celé vláknoNo nevím, já sem zase slyšel, že se volná dostupnost diplomek zhoršuje, něco s autorským zákonem. Ségra říkala, že na VŠE už nejsou volně na knihovně, ale jen na objednávku a presenčně jen pro studenty. Každopádně kamarád se hodně snažil právně zajistit aby se k jeho diplomce dostalo co nejmíň lidí protže obsahovala cenné know how zadavatelské firmy a doufejme že se to bude stávat stále častěji, tím myslím spolupráci firem s VŠ a možnost studentů dostat se k opravdu hi tech věcem.
Re: HACKY A CARKY
celé vláknoNo, treba kamarad zase delal diplomku na VABO a tam mu ji rovnou utajili .... neboli bez proverky se k ni nikdo nedostane ...
Ale zase ne kazda diplomka musi byt nejak utajena ... ne vsechny diplomky obsahuji tajna data armady, statu, nebo nejake firmy .... a pak podle mne neni k utajovani duvod, utajovani diplomenk by mela byt spis vyjimka nez pravidlo.
Re: HACKY A CARKY
celé vláknoPromin, ale kdyz ja napisu diplomku, neni to nahodou moje autorske dilo? Jak mi muze univerzita zakazat praci treba zverejnit na internetu, s podminkami vyuziti, ktere si stanovim?
Prace na tema, dejme tomu, vliv nacionalisticke ideologie na premenu srbochorvatstiny na samostatnou srbstinu a chorvatstinu, neobsahuje zadna statni ani firemni tajemstvi, a myslim si, ze jako takova by mela z principu byt ve verejne domene. Prece jsou to akademicke informace, z nichz se mohou potom dalsi lidi, nejen studenti, neco dozvedet, a tajit bezduvodne informace, zabranovat poznani, mi prijde ponekud orwellovske.
Re: HACKY A CARKY
celé vláknoad první odstavec:
jak? - soudním příkazem, například :-)
Zákon č. 121/2000 o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů
§ 60
Školní dílo
(2) Není-li sjednáno jinak, může autor školního díla své dílo užít či poskytnout jinému licenci, není-li to v rozporu s oprávněnými zájmy školy nebo školského či vzdělávacího zařízení.
... pokud to správně chápu, tak jestliže škola řekne, že je to v rozporu s jejími zájmy, tak ani jako autor nesmíš užít diplomku, své dílo, podle předchozích ustanovení onoho zákona; nehledě na to, že prakticky vždy je "sjednáno jinak" (čte si vůbec někdo studijní řády? - kdybychom se jimi vždy měli řídit doslovně, tak by na většině našich VŠ nikdo nestudoval :-((( )
Re: HACKY A CARKY
celé vláknotady slo spis o opacny problem - aby autor co nejvice zamezil manipulaci, zejmena univerzitou, se svou praci
Re: HACKY A CARKY
celé vláknoPři počešťování Dasheru se nám podařilo získat 300kB vzorek z Ústavu pro český jazykový korpus pod GPL. V případě, že by se slovník nešířil ve zdrojové formě, je možné pro analýzu smluvně získat i větší vzorky.
A že převod cestina->čeština rozhodně není jednoznačný, by mohl vyprávět spolužák Ján Čisár, ze kterého se po konverzi čeština->cestina->čeština ve školním systému stal Jan Císař.
Re: HACKY A CARKY
celé vláknoUCW klavesova mapa je jaka?
Taky jsem udelal svuj ohackovavac (jednoduchy perl skript se slovnikem) takze vidim jak pak hazi vysledky a je to dycky treba kontrolovat rucne .... K tomu jsem tam pridelal feature ktera kdyz to neni schopen jednoznacne ohackovat tak tam da ke slovu znacku ... no uvidime, tenhle stahnu, bud ho zacnu pouzivat, nebo s z nej aspon rozsirim slovnik :o)
Re: HACKY A CARKY
celé vláknoSkoda, nejaky zajimavy clanek na tema pocitacove lingvistiky by se hodil..pro inspiraci
Re: HACKY A CARKY
celé vláknoJa se pripojuju! Prosim, prosim. Treba nejen o pocitacove ale i o obecne jazykovede. (Doktor Blazek z FF MU rika, ze je to nejexaktnejsi z humanitnich ved. On je to taky byvalej fyzik.)
Re: HACKY A CARKY
celé vláknoNo, ja pod slovom "cesky" v cestine vidim 4 vyznamy. A to som Slovak :-)
Re: HACKY A CARKY
celé vláknočesky
čéšky
český
češky
... no uz jsem se parkrat setkal i s ceskymi vyrazy bez diakritiky, kde to neslo uhodnout ani z kontextu .... obzvlaste treba u ceskych prijmeni.
Re: HACKY A CARKY
celé vláknoTo posledni by ale melo byt s velkym pismenem, ne? :) (Sorry ze ja sam pisu bez diakritiky, mam cerstve nainstalovanej Slackware a jeste se mi nechtelo kompilovat locales.)
Re: HACKY A CARKY
celé vláknoTo posledni by ale melo byt s velkym pismenem, ne? :) (Sorry ze ja sam pisu bez diakritiky, mam cerstve nainstalovanej Slackware a jeste se mi nechtelo kompilovat locales.)
Re: HACKY A CARKY
celé vláknoJen reaguju na tri verze pocesteneho "cesky", ja mam ctyri:
c^es^ky (ty zeny)
c^esky' (pochazejici z ceska)
c^esky (hovorit jak)
c^e's^ky (kolenni)
ma nekdo nejakou dalsi ? :-)
Re: HACKY A CARKY
celé vláknoExistuje i neco podobneho jako Wordove makro, říká si to "začešti"
predpotopni
celé vláknojest tento tool. <noflame> Kdysi jsem videl neco takovyho na widlich, bylo to makro pro M$Off.Word Vyznacovalo se to tim, ze to umelo pouzivat slovnik pro korektury, coz povazuju za vyznamny rozdil oproti tomuto. To neni v komunite nikdo kdo by dokazal napsat neco inteligentnejsiho nez find&replace? Vzdyt slovniky mame i v Linouchovi, neni nutno to psat rovnou pro OOo
</noflame>
;-)
Doplňovanie diakritiky (czaccent & HaT)
celé vláknoKeďže dúfam, že do toho trošku vidím, tak pár slov o tom, prečo to funguje tak ako to funguje. [Nie som autoromo ani jedného z programov]
Ako sa vlastne dá dopĺňať diakritika do textu? Máme metódy jednoduché a použiteľné ako už vyššie zmienený czaccent, ktorý je založený na slovníku a štatistické, ktoré vychádzajú zo slov, ktoré videli. Pri štatistických (HaT) ako už vyplýva z názvu sa používa frekvencia jednotlivých slov. A pri slovníkoch, slovník (ak je tak, radšej morfologický analyzátor [vec, ktorá doplní rod, číslo, ...]). Kebyže do slovníka pridáme informácie o frekvencii, tak by sme pre voľný text [bez tématického zaradenia] dostali najlepšie výsledky. Pre konkrétny typ textov by bolo lepšie buď použiť štatistický značkovač, alebo do slovníku doplniť info o štatistikách (zase zrejme to najlepšie).
Sú komplikované riešenia lepšie? Samozrejme, že áno :) Tu už je tých možností o pár viac, ale spomieniem len pár. Keď ich však chceme využiť, tak je základným nástrojom vec, ktorá nám pridá značky o rode, čísle, páde, ... o každom slove. Takýto nástroj existuje aj pre češtinu (napr. ajka, lemma) ale aj keď samotný program smie byť GNU/GPL (ajka), tak dáta sa obvykle šíriť len tak nemôžu. Ich cena sa pohybuje niekde na pomedzí 5-6 miestnych súm [zväčša prístup len ku skompilovanej forme dát]. Ak však máme toto, potom sa môžeme pustiť ďalej a zisťovať štatisticky používanie dvojíc, trojíc, ... a prídeme na to, že tu či tam nám vypadne pravidlo, ktoré vyzerá rozumne [príd. meno - podst. meno]. A potom už fičíme :)
Ak by bol záujem, tak o tom napíšem aj viac. Ak by niekto mal záujem spraviť niečo takéto a študuje na FI MUNI, tak nech sa ozve a môže to vytvárať minimálne ako bakalársku prácu :) to už nejako dohodneme.
Re: Doplňovanie diakritiky (czaccent & HaT)
celé vláknoJen dodam, ze pokud nekdo studuje zase na MFF UK a chtel by neco takoveho delat (jako rocnikac II, bakalarku az diplomku), muze se ozvat zase mne :)
Re: Doplňovanie diakritiky (czaccent & HaT)
celé vláknoV zasade by to nemuselo byt tak tezke, nasadi se na to nejaka umela inteligence nebo statistika pro vyber vhodne varianty slova z okolniho kontextu a sehnat trenovaci data je lehke ... odstranit diakritiku je trivialni, takze na uceni staci vzit jakykoliv český text a toho se vali po webu mraky ....
No, na MFF sice studuju, ale rocnikac II mam uz PDF editor a diplomku zas mam dohodlou s Pelikanem ...
Re: Doplňovanie diakritiky (czaccent & HaT)
celé vláknoV zásade do toho potrebuješ pragmatiku a aj to je málo :) takže to je problém ako hrom. Kasli na pelikana a pod robit toto ;)
Re: Doplňovanie diakritiky (czaccent & HaT)
celé vláknoNo jo, kdyz ja ale studuju obor grafika a precejen bych radsi mel diplomku z oboru :o)
Lingvistiku bych asi prenechal lingvistum z kolektivu treba kolem Hajice ...
Re: Doplňovanie diakritiky (czaccent & HaT)
celé vlákno(OT) Hele Marxi, a kterejpak z Pala-teamu Ty ses? :) Napis mi kdyztak nekdy, at si doplnim svou tabulku prirazeni xicht-jmeno-prezdivka-co_dela :)
Bez diakritiky lze i jinak :-)
celé vláknoHledal jsem dlouho, velice dlouho, nakonec jsem nalezl. Bylo to na Liane. Snad se to sem vejde...
Krajani a druzi moji, ach, smutno mi je, trudno, neveselo, chmurami jsem zavalen, hanbou jsem zdrcen a jest mi za co pykat. Maje na mysli jen dobro,
bez rozmyslu jsem vnesl do jazyka velkou lotrovinu a tak zavinil historickou nehodu. Dlouho se to utlalo, teprve tato epocha celou moji vinu naplno vyjevila. Uznal jsem to a kaji se. V troufalosti ducha, a usiluje pouze o to, aby bylo lze rychleji rozmluvy, ano i knihy, skripta a lejstra zapisovati, jsem vymyslel potrhlou a krutou fintu. Brkem z husy jsem litery a, c, d, e, i, n, o, r, s, r, u, y, z pobodal a zle poranil.
"Je to jako bobky od much, co si nad linkami v letu ulevily, fuj!" podotkli k diakritice kritici z univerzity, ledva ohrnuli nos.
Tehdy se lid proti tomu moc neohrazoval, ale myslel si svoji a brblal: "Pche, zase jeden trouba, aby se zviditelnil, navrhl reformu. Ale co bychom s
panstvem vedli spor. Zase holt dali shora befelem akademickou stolici nedoukovi a my si to odneseme. Aby ho kat spral!"
A tak se tak najednou psalo. Co jsem to provedl! Jejda, to jsem tomu dal, to jsem to zpackal! Zaujat plky z kazatelny, do toho doby shon, bez koncepce,
bez projektu, nedbaje na dopady, zavrhl jsem kompatibilitu s latinskou abecedou. Byl to ode mne omyl, hloupost a nedbalost. Omluvou mi snad je jen
neznalost toho, kudy se pokrok v budoucnu bude pohybovat. Nemaje potuchy, co jednou bude znamenat ASCII, znesnadnil jsem vlasti vstup do Evropy a
zatarasil pohodlnou cestu do e-mailu i do INTERNETu. Za ten skutek by informatici i po letech dozajista souhlasili s onou klatbou, kterou na mou hlavu uvalil koncil v Kostnici, a nejeden znalec by bezpochyby na hranici i poleno donesl.
Ouha, ale co dnes poradit vlastenci, chce-li cosi kamsi poslat a je nucen oholit znaky o diakritiku a pochroumat tak jazyk, jindy pln kouzla a vtipu?
Dumal jsem tuze dlouho, zda mohu malinko napravit, co jsem v minulosti zpackal, a lze-li vyklouznout z pasti diakritiky.
A ejhle - z toho kruhu se vymanit lze! Vynech, zanedbej, obejdi, rovnou do pekel uvrhni ta slova, co jsem zbabral, a spisuje cos, vol jen ta, co zbyla
mnou netknuta! Neboj se a nelekej, je jich kupodivu spousta! Vylov si je z mozku, vychytej z knih, vyber si je v proudu slov na ulici, na rynku i v pajzlu, i tam v rozhlase, naslouchej, po libosti se slovy si hrej, ale dbej, abys nemluvil a nepsal jako robot, co nikdy nenabyl ducha a citu! S rozmyslem a odvahou cpi ta slova na listy, do stroje i do e-mailu!
Linkami, pery a editory lehce prolezou a neoloupeny o smysl donesou vzkazy kamkoli bez vady a kazu. Pak bude na odiv, co za kejkle tenhle jazyk dovede - a o tom je samosebou i tento list. Jeho obmyslnou podstatu jste dozajista hnedlinko zkraje prokoukli, nebo snad ne?
S pozdravem, pokorou a notnou omluvou
Mistr Jan
Re: Bez diakritiky lze i jinak :-)
celé vlákno:-) ...pekny. Taky bych mu polinko prihodil... :-)
HaT
celé vláknoJelikoz jsem autor HaTu a vyrojily se zde nejake dotazy ohledne jeho fungovani, tak k tomu napisu par slov.
Je-li v databazi ulozena dvojice (predchozi slovo, aktualni slovo) ci (aktualni slovo, nasledujici slovo), pak se pouzije prislusna ohackovana varianta aktualniho slova. Paklize dany kontext v trenovacich datech viden nebyl, tak se vezme ohackovana varianta s nejvyssi cetnosti (ktera byla v trenovacich datech videna nejcasteji).
Nekdo se muze zeptat, co se stane, kdyz je stejny kontext pro vice ohackovanych variant. Odpoved zni: vybere se jedna "nahodne" (= podle poradi v hashi). Bylo by samozrejme lepsi, kdyby se vzala ta dvojice s nejvyssi cetnosti a je to zcela jiste chyba, ze se tak nedeje, nicmene uspesnost hackovani byla dost vysoka na to, abych si toho nevsiml :-)
Re: HaT
celé vláknoto zni pomerne dobre. Muzu se zeptat jak dobre tvuj skript obstoji v primem srovnani s czaccent? Kdyz do nej naladujes vzorek (~10 kB) ASCII textu a pak spocitas spatna slova? Jde mi o to zda to mam zacit pouzivat....
Kazdopadne ti dekuju, veci jako tohle jsou potreba jak sul a divim se ze nikomu krome mne palcive nechybi...
Re: HaT
celé vláknoNevim, jak HaT obstoji ve srovnani s czaccent (to necht vyzkousi nekdo jiny), ale postval jsem ho na vystup z http://www.root.cz/print.php4?id=2587 (vystup byl zbaven jakehokoliv formatovani tim, ze byl copy'n'paste z okna browseru). Ve vystupu bylo 2072 slov (= shluku nemezer; HaT pocita za slovo shluk pismen, kterych bylo pouze 2048, ale pro ucely tohoto porovnani tato odlisnost nevadi), z nichz bylo 172 chybne ohackovanych, coz je uspesnost asi 91%. Po analyze rozdilu je zrejme, ze vetsi trenovaci data by rozhodne pomohla, zvlaste paklize by v nich bylo vice z oblasti, kterou se clanek zabyva.
Re: HaT
celé vláknoFedora nebo Mandrake
celé vláknoVážení,
chystám se na svůj systém nainstalovat linux, momentálně však váhám, kterou distribuci použít. Nejsem žádný počítačový guru, ale neco jsem se již naučil, instalaci jakéhokoliv ze systémů patrně zvládnu v pohodě. Nicméně jiná otázka je, že následnou konfiguraci systému podle potřeb a instalaci či aktualizaci potřebných programů určitě nezvládnu přez příkazovou řádku. Po určité úvaze jsem výběr distribucí zůžil na 2 resp. 3 kandydáty. Nejlépe mi vychází Fedora Core 3, Mandrake 10.1 a popřípadě SUSE ve verzi ftp. tj. ořezaná nekomerční verze (tam ale jak jsem pochopil budu muset spoustu věcí doinstalovat následně takže záleží na tom jak to bude jednoduché). Chtěl bych se zeptat na zkušenosti jednotlivých uživatelů s tím kterým systémem. Jak říkám je pro mne důležité, abych ho byl schopen uživatelsky spravovat bez nutnosti zadávat cokoliv složitého na příkazovém řádku. (Omlouvám se za použití temínu jak ho znám z dob dosu a win). Za případné rady předem děkuji. Ps: zapomněl jsem dodat, že by systém měl být kompletně počeštěný, neboť ho budu sdílet s uživateli, kteří anglicky neumí ani slovo. Díky a přeji hezký den.
Re: Fedora nebo Mandrake
celé vláknoUaaah? Jakym dusevnim pochodem jste prosimvas dospel k tomu, ze sem patri tento dotaz? Proc ho nepolozite do diskusniho fora na http://www.abclinuxu.cz/?
Nicmene nevim, co zazracneho se chcete dozvedet. Co se tyce klikoidnosti rozhrani pro spravu, tak jsou na tom MDK a SUSE zhruba stejne, FC se da zatim nastesti spravovat i normalnim zpusobem. :-P
Re: Fedora nebo Mandrake
celé vláknoJsi mimo tema a porusujes tim pravidla slusneho chovani na internetu. Priste pis tam, kam to patri, v clanku OPRAVDU nebylo nic o vyberu distribuce. Pokud chces jednoduchou, hezkou a intuitivni distribuci, porid si Mandrake.
Pro redakci.
Nechcete zacit moderovat diskuze? trebas smazat vlakno toho spamera co si to tu plete s inzertni rubrikou???
Re: Fedora nebo Mandrake
celé vláknopokud to myslite s UNIXem vazne, pak doporucuji gentoo (http://www.gentoo.org/) protoze ma asi tak nejblize k plnohodnotnym unixum a zaroven to je jeste plnohodnotny linux, takze ma veskerou podporu, kterou se linux muze pochlubit (HW, SW, uzivatelska podpora, knizni podpora atp)
takze na prechod z windows, naprosto idealni, navic nebudete tolik zatizen prasarnami, kterych se linuxaci mnohdy dopousteji
Re: Fedora nebo Mandrake
celé vláknoMyslímže Gentoo daným požadavkům příliš nevyhovuje (ale taky ho mám rád :-)
Já bych dal přednost Mandrake před Fedorou - kromě osobní náklonnosti bych měl dva argumenty:
* Fedora jde cestou licenční čistoty, pro obyčejného uživatele je to peklo; Mandrake má poměrně obsáhlý contrib a případný sporný software řeší PLF :-)
* zrovinka včera jsem viděl přidávání samba tiskárny ve Fedoře - proti printerdrake hotový porod ... různé klikací drak* nástroje mi přijdou v poslední verzi už slušně vychytané (ovšem když něco nefunguje - nepříliš kompatibilní hw apod. - pak je to v Mdk dost na houby :-/ )
Re: Fedora nebo Mandrake
celé vláknoSolaris je nebo v nejblizsi dobe bude zadarmo, TO JE UNIX
Re: Fedora nebo Mandrake
celé vlákno_Beta_ verze Solaris je _docasne_ _zadarmo_ (as in beer, not as in freedom). Nikdo nevi, co bude dal. Dekuji, betatestovanim jsem plne ukojen z operacnich systemu Windows, nemam zajem.
Ha, ha, ha.
celé vláknoTak dlouho jsem se nanasmál.
De facto zde exceluje skupina pseudotechnokratických intelektuálů.
Důkaz:
... píšu bez háčků a čárek laborky a nic ...
Tak přátelé! VY BINÁRNÍ HOVADA! Chce se zvolat.
Vás bych vyrazil z laborek a jiných předmětů svinským krokem.
Protože vzdělanec, jenž vzdělání dosáhne pílí, toto vzdělání má šířiti v jakékoliv podobě dál.
Vždyť vzdělání není jen tupé zírání do monitorů a redukce světa na binární kód. V lepším případě snad i ten hexa.
Vzdělanost je komplex poznání a hlavně úcty k okolí. Tedy i k tomu o čem nic moc nevím. A to včetně úcty ke své vlastní historii.
To co vy předkládáte na odiv jako vzdělanost, je spíše nevzdělaností.
Avšak absolutním nevzdělancem se mi jeví ten, jenž převzal kritiku Mistra Jana Husa od dalších, rádoby, intelektuálů.
Tak tedy věz, ty matematicko binární intelektuále. Ty nejsi hoden ani škrtu korektorova. Protože Mistr Komenský jasně tuto binárně pokleslou třídu definoval jako "tupá hovada".
A tam patříš. Včetně těch vašich ignorantských učitelů.
Re: Ha, ha, ha.
celé vláknouz to nehul, blbnes po tom....
Re: Ha, ha, ha.
celé vlákno... a Ty už to přestaň chlastat a probuď se. Už je to 20 let, kdy byl definován standard ISO pro češtinu. Teprve s přechodem na Linux jsem začal češtinu používat bez obav, že by to někdo nemohl přečíst.
Už si ani nedovedu představit, že bych psal bez diakritiky. Snad jen SMS na mobil.
Re: Ha, ha, ha.
celé vláknoTak to patris mezi stastnejsi, co nemuseji komunikovat i s uzivatelema Windowsu, kde velky Bill implicitne predpoklada win1250.
Re: Ha, ha, ha.
celé vláknoa kdeže to Velký deBill v současnosti implicitně předpokládá?
v M$ Outlook (Express), kde je jako implicitní kódování pošty ISO-8859-2?
v Internet Exploreru, který si umí z HTML přečíst meta-tag deklarující kódování?
na NTFS nebo Joliet filesystému, kde je jako implicitní Unicode?
či snad v PDF dokumentech, které s Velkým deBillem nicmoc společného nemají a v poslední době se celkem úspěšně k cross-platform výměně textových/prezentačních dat používají?
... jistě, je spousta věcí, které jedou nad cp1250, ale nepovažuji je pro komunikaci za nijak zásadní (v současnosti je zřejmě stěžejní e-mail, a co se týče všemožných dokumentů, OpenOffice si s .doc, .xls, .ppt a všelijakou podobnou havětí a jejím překódováním hravě poradí)
Re: Ha, ha, ha.
celé vláknoMno, Karlosi, pominu-li nesmysly kolem Komenskeho, tak musim konstatovat, ze ve vetsine ostatnich prispevku byly (na rozdil od tveho) alespon spravne carky ve vetach :-)).
Re: Ha, ha, ha.
celé vláknojá jsem narazil pouze na jednu chybějící ... hm, stane se ... nebo je tam těch čárek špatně více, že si to zaslouží takovýto komentář?
jinak sorry, ale člověk, který říká, že nic nepreferuje a nechce nikoho do ničeho nutit, a jedním dechem dodá, že číst bez diakritiky _musí_ umět a tolerovat každý, u mě howado je, s prominutím :-/
Re: Ha, ha, ha.
celé vláknoNe jedna, ale ctyri. Dve tam chybi a dve jsou tam navic. :-P
Re: Ha, ha, ha.
celé vláknoTak už jsem našel, kde chybí ta druhá :-)
Ale co se týče těch přebývajících, rád se nechám podat ...
Mimochodem, já bych tam krom uvedeného přidal ještě pár uvozovek, čárku a změnil jedno velké písmeno na malé.
Re: Ha, ha, ha.
celé vláknoTo bylo jako na mne? Nic o "museni" jsem nikde nepsal, kdo nechce, nemusi to cist. Ze stejneho duvodu preskakuji clanky ve slovenstine...
Re: Ha, ha, ha.
celé vláknopravda, slovo "muset" přímo nepadlo, nicméně jeho význam naplněn byl například tímto:
> Ja osobne bych ale cestinu (opet bez hacku)
> "legalizoval" alespon jako jazyk pro
> elektronickou komunikaci.
... když už máme slovíčkařit; nicméně já jsem to "musí umět číst" nepoužil ve významu "je nucen (to) číst Radkem Podgornym", nýbrž spíše "Radek Podgorny (implicitně) předpokládá, že (to) (každý) umí (a chce) číst (takže se ani nemusí snižovat k tomu, aby někoho nutil, jak již bylo zmíněno v pasáži 'nechce nutit')"

