Někde jsem slyšel, že do PDF souborů lze vkládat neviditelné vrstvy s textem získaným OCR programem a tak v nich umožnit vyhledávání i v případě skenovaných souborů. Pokud s tím máte někdo zkušenost, budu rád, pokud se podělíte o informace v diskusi pod článkem.
Ano, je to mozne, po OCR ABBYY FineReaderem ...
Ano, jde to. Jak přesně se to dělá nevím, takže jenom dva poznatky:
1) Když jsem před třemi lety popisoval formáty podporované čtečkou PRS-505, tak došlo i na PDF. Hledal jsem tehdy nějaká ukázková PDF, na kterých by tahle vrstva s prostým textem nebyla, abych mohl vyzkoušet, jak si čtečka poradí, když nebude moci použít reflow. A žádný příklad se mi najít nepodařilo, ani mezi úplně starými PDF - všude ta vrstva byla, byť ne vždy v použitelné podobě.
2) Co mám zkušenost, tak ta textová vrstva je typicky výstupem nějakého OCR bez jakékoliv korektury, tzn. je jakž takž použitelná pro prohledávání (kde ovšem výsledek "nenalezeno" vůbec neznamená, že se dané slovo v textu nevyskytuje), ale sotva pro něco dalšího.
Nezkousel jsem, ale melo by to jit i s Bindery nebo PDFBeads. Doporucuji projit forum http://diybookscanner.org/forum/index.php je zde i sekce venovana programu ScanTailor.
...alebo ďalšie komerčné:
Adobe Acrobat + Paper Capture -> postup: napr. http://www.dummies.com/how-to/content/making-scanned-documents-searchable-and-editable.html
PDF OCR X: http://solutions.weblite.ca/pdfocrx/
Free:
hocr2pdf http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/: postup napr. http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/
Proč bych to proboha dělal? Proč skrývat čitelný (OCR text) a necvhávat jen obrázky nevhodné pro čtení a čtení ve čtečkách a telefonech čtyřnásob. To je stejná blbost jako bych na webové stránky vkládal jen ALT a graficky zobrazoval obrázyk jen tehdy pokud se nezobrazí text v parametru ALT!
Proc bys to delal ty, nevim. Ale jsou lide, kteri si potrpi na estetiku a proste knizka sazena profesionaly se mu libi vice, nez knizka ve wordu, nebo v cem ten vytazeny text nakonec clovek cte. Na druhou stranu takovy clovek chce take vyuzit modernich vymozenosti a vyhledavat v textu apod. Dalsi vec - asi je dost pracne hlidat si spravne umisteni obrazku atd. po OCR (spravne prirazeni popisku a nvm co jeste, OCR vyuzivam minimalne). U toho scanu se to resit nemusi.
Jj hlavně že je knížka pěkně vysázená, že díky tomu nejde přečíst, komu by to vadilo? Myslím, že když někdo knížky jen sbírá, tak se zaměřuje na papírové (analogové) knížky a ne nějaké scany. Já od e-booků především očekávám, že půjdou přečíst, zda je nějaký obrázek o dva body víc vlevo jak v papírové předloze mi tolik nevadí. Jasně že bych uvítal, stav, že e-book bude čitelný pohodlně v čtečce a zároveň parádně zalomený ale obávám se, že na takový stav si budeme muset nějaký ten pátek počkat a kdo ví, zda je něco takového řešitelné.
Proc by diky tomu nemela jit precist? Nechapu! Protoze ctecka to nezvladne? Protoze software ctecky neni schopny pohodlne manipulace s pdf? Nekdo si to precte proste na notebooku, PC nebo necem takovem a bezproblemu (ctecku treba nema, nebo tam cte jiny druh materialu, nebo cokoliv). Navic predpokladam, ze nektera cteci zarizeni si s pdf poradi pekne a jde to cist pohodlne. Sberatelstvi me vubec nenapadlo. Naopak jsem tim myslel, ze se takova pekne zarovnana knizka, se vsim, co k tomu patri muze cist lepe. Obrazek o dva body vlevo me taky nezajima, spise jsem tim myslel, ze pak odplave o 10 stran dal (ale uznavam, ze mozna profi OCR program to ma osetrene, nvm). + docela dobra vec - odkazy na str. tu a tu maji stale smysl, u prevedeneho formatu se tahle informace totalne ztraci.
Používal som na to OCR program Tesseract a hocr2pdf.
Tesseractom som vytvoril z .tif predlohy .html výstup (hOCR súbor) a následne pomocou hocr2pdf z .tif a .html súboru vygeneroval .pdf s textovou vrstvou.
Tesseract od verzie 3.00 dáva pomerne slušné výsledky aj pre slovenčinu a češtinu.
Přesně! Pro "polotovar" pro výrobu e-booků se používá formát djvu (+ jako kontrolní médium pro korektury textu během korektur po procesu OCRkování).
Nadpis tohoto článku je velmi zavádějící. E-booky tzvořené obrázky namísto skutečného textu se hodí s ještě stěží pro čtení na klasickém počítači, možná v nejhorší nouzi pro čtení na tabletu ale pro čtečky a nedejbože na obrazovce mobilu se takové e-booky nehodí ani náhodou. I normální PDFka (kde text je text a ne obrázek) se do čteček a mobilů moc nehodí a čtení je obrovský "opruz", natořž pak obrázky, kdy se písmenka na malém displeji zmeší na velikost pouhé tečky.
To zavisi od citacky. Ja citam takmer vyhradne PDF (iRex 800) lebo:
- pokial pouzivam citacku pracovne/na studium, PDF je format v ktorom stiahnem z webu vacsinu materialov
- nepotrebujem sa babrat s Calibre a konverziami, proste to pouzijem ako som to stiahol
- kvoli citatelnosti nepotrebujem zvacsenie fontu a reflow, v 95% staci orezat okraje
A pokial s dokumentom nerobim aj na PC, tak nepotrebujem ziadne OCR (na citacke vyhladavat nebudem) a PDF s oskenovanych obrazkov je pre mna uplne postacujuce. S inymi specialnymi ebook formatmi som mal akurat rozne problemy s fontami (beletriu citam SK/CZ/PL/EN), PDF je istotka.
Mám tři připomínky.
1. Můj Scan Tailor vytváří pouze výstup ve formátu TIFF, žádná možnost PDF tam není (Ubuntu 10.04 Lucid)
2. Neškodilo by někde zmínit, JAK převést naskenovaný text do editovatelné podoby. Jinými slovy něco o OCR software. To považuji za nejdůležitější.
3. Bylo by velmi neskromné chtít, aby druhý díl článku obsahoval někde odkaz na první díl?
Používám SW dodaný s tiskárnou HP (HP Photosmart Essential, docela moloch...) a volbu skenovat do pdf s možností vyhledávání. Výhoda je indexace skenů přes desktopsearch (Copernic) a zřídkakdy vytažení textu pro další použití. Nevýhodou je rel. větší velikost souboru (min 300dpi, sken je dobře znovutisknutelný), ze 150dpi to nerozpozná.Jako OCR je použito IRIS.