Někde jsem slyšel, že do PDF souborů lze vkládat neviditelné vrstvy s textem získaným OCR programem a tak v nich umožnit vyhledávání i v případě skenovaných souborů. Pokud s tím máte někdo zkušenost, budu rád, pokud se podělíte o informace v diskusi pod článkem.
Ano, je to mozne, po OCR ABBYY FineReaderem ...
Ano, jde to. Jak přesně se to dělá nevím, takže jenom dva poznatky:
1) Když jsem před třemi lety popisoval formáty podporované čtečkou PRS-505, tak došlo i na PDF. Hledal jsem tehdy nějaká ukázková PDF, na kterých by tahle vrstva s prostým textem nebyla, abych mohl vyzkoušet, jak si čtečka poradí, když nebude moci použít reflow. A žádný příklad se mi najít nepodařilo, ani mezi úplně starými PDF - všude ta vrstva byla, byť ne vždy v použitelné podobě.
2) Co mám zkušenost, tak ta textová vrstva je typicky výstupem nějakého OCR bez jakékoliv korektury, tzn. je jakž takž použitelná pro prohledávání (kde ovšem výsledek "nenalezeno" vůbec neznamená, že se dané slovo v textu nevyskytuje), ale sotva pro něco dalšího.
Nezkousel jsem, ale melo by to jit i s Bindery nebo PDFBeads. Doporucuji projit forum http://diybookscanner.org/forum/index.php je zde i sekce venovana programu ScanTailor.
...alebo ďalšie komerčné:
Adobe Acrobat + Paper Capture -> postup: napr. http://www.dummies.com/how-to/content/making-scanned-documents-searchable-and-editable.html
PDF OCR X: http://solutions.weblite.ca/pdfocrx/
Free:
hocr2pdf http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/: postup napr. http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/
Proč bych to proboha dělal? Proč skrývat čitelný (OCR text) a necvhávat jen obrázky nevhodné pro čtení a čtení ve čtečkách a telefonech čtyřnásob. To je stejná blbost jako bych na webové stránky vkládal jen ALT a graficky zobrazoval obrázyk jen tehdy pokud se nezobrazí text v parametru ALT!
Proc bys to delal ty, nevim. Ale jsou lide, kteri si potrpi na estetiku a proste knizka sazena profesionaly se mu libi vice, nez knizka ve wordu, nebo v cem ten vytazeny text nakonec clovek cte. Na druhou stranu takovy clovek chce take vyuzit modernich vymozenosti a vyhledavat v textu apod. Dalsi vec - asi je dost pracne hlidat si spravne umisteni obrazku atd. po OCR (spravne prirazeni popisku a nvm co jeste, OCR vyuzivam minimalne). U toho scanu se to resit nemusi.
Jj hlavně že je knížka pěkně vysázená, že díky tomu nejde přečíst, komu by to vadilo? Myslím, že když někdo knížky jen sbírá, tak se zaměřuje na papírové (analogové) knížky a ne nějaké scany. Já od e-booků především očekávám, že půjdou přečíst, zda je nějaký obrázek o dva body víc vlevo jak v papírové předloze mi tolik nevadí. Jasně že bych uvítal, stav, že e-book bude čitelný pohodlně v čtečce a zároveň parádně zalomený ale obávám se, že na takový stav si budeme muset nějaký ten pátek počkat a kdo ví, zda je něco takového řešitelné.
Proc by diky tomu nemela jit precist? Nechapu! Protoze ctecka to nezvladne? Protoze software ctecky neni schopny pohodlne manipulace s pdf? Nekdo si to precte proste na notebooku, PC nebo necem takovem a bezproblemu (ctecku treba nema, nebo tam cte jiny druh materialu, nebo cokoliv). Navic predpokladam, ze nektera cteci zarizeni si s pdf poradi pekne a jde to cist pohodlne. Sberatelstvi me vubec nenapadlo. Naopak jsem tim myslel, ze se takova pekne zarovnana knizka, se vsim, co k tomu patri muze cist lepe. Obrazek o dva body vlevo me taky nezajima, spise jsem tim myslel, ze pak odplave o 10 stran dal (ale uznavam, ze mozna profi OCR program to ma osetrene, nvm). + docela dobra vec - odkazy na str. tu a tu maji stale smysl, u prevedeneho formatu se tahle informace totalne ztraci.
Používal som na to OCR program Tesseract a hocr2pdf.
Tesseractom som vytvoril z .tif predlohy .html výstup (hOCR súbor) a následne pomocou hocr2pdf z .tif a .html súboru vygeneroval .pdf s textovou vrstvou.
Tesseract od verzie 3.00 dáva pomerne slušné výsledky aj pre slovenčinu a češtinu.