Jelikoz jsem autor HaTu a vyrojily se zde nejake dotazy ohledne jeho fungovani, tak k tomu napisu par slov.
Je-li v databazi ulozena dvojice (predchozi slovo, aktualni slovo) ci (aktualni slovo, nasledujici slovo), pak se pouzije prislusna ohackovana varianta aktualniho slova. Paklize dany kontext v trenovacich datech viden nebyl, tak se vezme ohackovana varianta s nejvyssi cetnosti (ktera byla v trenovacich datech videna nejcasteji).
Nekdo se muze zeptat, co se stane, kdyz je stejny kontext pro vice ohackovanych variant. Odpoved zni: vybere se jedna "nahodne" (= podle poradi v hashi). Bylo by samozrejme lepsi, kdyby se vzala ta dvojice s nejvyssi cetnosti a je to zcela jiste chyba, ze se tak nedeje, nicmene uspesnost hackovani byla dost vysoka na to, abych si toho nevsiml :-)
to zni pomerne dobre. Muzu se zeptat jak dobre tvuj skript obstoji v primem srovnani s czaccent? Kdyz do nej naladujes vzorek (~10 kB) ASCII textu a pak spocitas spatna slova? Jde mi o to zda to mam zacit pouzivat....
Kazdopadne ti dekuju, veci jako tohle jsou potreba jak sul a divim se ze nikomu krome mne palcive nechybi...
Nevim, jak HaT obstoji ve srovnani s czaccent (to necht vyzkousi nekdo jiny), ale postval jsem ho na vystup z http://www.root.cz/print.php4?id=2587 (vystup byl zbaven jakehokoliv formatovani tim, ze byl copy'n'paste z okna browseru). Ve vystupu bylo 2072 slov (= shluku nemezer; HaT pocita za slovo shluk pismen, kterych bylo pouze 2048, ale pro ucely tohoto porovnani tato odlisnost nevadi), z nichz bylo 172 chybne ohackovanych, coz je uspesnost asi 91%. Po analyze rozdilu je zrejme, ze vetsi trenovaci data by rozhodne pomohla, zvlaste paklize by v nich bylo vice z oblasti, kterou se clanek zabyva.