Sosnul jsem z netu balik temer 17 tisic knizek v polstine, jsou tam jak stare, tak nove, format TXT cp1250. Podle chyb v textu to vypada na OCR, ale setsakra kvalitni. Opravdu by me zajimalo, jak neco takoveho vzniklo. 17 000! Jak se neco takoveho dela? Nezda se mi, ze by nekdo sedel a scanoval treba Sailor on Horseback od JACK LONDON a pak to ORCkoval a kontroloval.
Viz http://www.pgdp.net - distributed proofreaders. Vyborna zabava na dlouhe jarni vecery :)