Vlákno názorů k článku Skenování knih pro tablety, čtečky a telefony se Scan Tailor podruhé od PRaG - Někde jsem slyšel, že do PDF souborů lze...

Článek je starý, nové názory již nelze přidávat.

10. 4. 2012 0:28

PRaG (neregistrovaný)

Někde jsem slyšel, že do PDF souborů lze vkládat neviditelné vrstvy s textem získaným OCR programem a tak v nich umožnit vyhledávání i v případě skenovaných souborů. Pokud s tím máte někdo zkušenost, budu rád, pokud se podělíte o informace v diskusi pod článkem.

Ano, je to mozne, po OCR ABBYY FineReaderem ...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 4. 2012 6:13

_pepak (neregistrovaný)

Ano, jde to. Jak přesně se to dělá nevím, takže jenom dva poznatky:

1) Když jsem před třemi lety popisoval formáty podporované čtečkou PRS-505, tak došlo i na PDF. Hledal jsem tehdy nějaká ukázková PDF, na kterých by tahle vrstva s prostým textem nebyla, abych mohl vyzkoušet, jak si čtečka poradí, když nebude moci použít reflow. A žádný příklad se mi najít nepodařilo, ani mezi úplně starými PDF - všude ta vrstva byla, byť ne vždy v použitelné podobě.

2) Co mám zkušenost, tak ta textová vrstva je typicky výstupem nějakého OCR bez jakékoliv korektury, tzn. je jakž takž použitelná pro prohledávání (kde ovšem výsledek "nenalezeno" vůbec neznamená, že se dané slovo v textu nevyskytuje), ale sotva pro něco dalšího.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 4. 2012 8:38

pejuko (neregistrovaný)

Nezkousel jsem, ale melo by to jit i s Bindery nebo PDFBeads. Doporucuji projit forum http://diybookscanner.org/forum/index.php je zde i sekce venovana programu ScanTailor.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 4. 2012 9:31

zdenop (neregistrovaný)

...alebo ďalšie komerčné:
Adobe Acrobat + Paper Capture -> postup: napr. http://www.dummies.com/how-to/content/making-scanned-documents-searchable-and-editable.html
PDF OCR X: http://solutions.weblite.ca/pdfocrx/

Free:
hocr2pdf http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/: postup napr. http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 4. 2012 18:51

VfB (neregistrovaný)

Proč bych to proboha dělal? Proč skrývat čitelný (OCR text) a necvhávat jen obrázky nevhodné pro čtení a čtení ve čtečkách a telefonech čtyřnásob. To je stejná blbost jako bych na webové stránky vkládal jen ALT a graficky zobrazoval obrázyk jen tehdy pokud se nezobrazí text v parametru ALT!
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
11. 4. 2012 8:23

nasson (neregistrovaný)

Proc bys to delal ty, nevim. Ale jsou lide, kteri si potrpi na estetiku a proste knizka sazena profesionaly se mu libi vice, nez knizka ve wordu, nebo v cem ten vytazeny text nakonec clovek cte. Na druhou stranu takovy clovek chce take vyuzit modernich vymozenosti a vyhledavat v textu apod. Dalsi vec - asi je dost pracne hlidat si spravne umisteni obrazku atd. po OCR (spravne prirazeni popisku a nvm co jeste, OCR vyuzivam minimalne). U toho scanu se to resit nemusi.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
11. 4. 2012 12:04

VfB (neregistrovaný)

Jj hlavně že je knížka pěkně vysázená, že díky tomu nejde přečíst, komu by to vadilo? Myslím, že když někdo knížky jen sbírá, tak se zaměřuje na papírové (analogové) knížky a ne nějaké scany. Já od e-booků především očekávám, že půjdou přečíst, zda je nějaký obrázek o dva body víc vlevo jak v papírové předloze mi tolik nevadí. Jasně že bych uvítal, stav, že e-book bude čitelný pohodlně v čtečce a zároveň parádně zalomený ale obávám se, že na takový stav si budeme muset nějaký ten pátek počkat a kdo ví, zda je něco takového řešitelné.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
11. 4. 2012 12:55

nasson (neregistrovaný)

Proc by diky tomu nemela jit precist? Nechapu! Protoze ctecka to nezvladne? Protoze software ctecky neni schopny pohodlne manipulace s pdf? Nekdo si to precte proste na notebooku, PC nebo necem takovem a bezproblemu (ctecku treba nema, nebo tam cte jiny druh materialu, nebo cokoliv). Navic predpokladam, ze nektera cteci zarizeni si s pdf poradi pekne a jde to cist pohodlne. Sberatelstvi me vubec nenapadlo. Naopak jsem tim myslel, ze se takova pekne zarovnana knizka, se vsim, co k tomu patri muze cist lepe. Obrazek o dva body vlevo me taky nezajima, spise jsem tim myslel, ze pak odplave o 10 stran dal (ale uznavam, ze mozna profi OCR program to ma osetrene, nvm). + docela dobra vec - odkazy na str. tu a tu maji stale smysl, u prevedeneho formatu se tahle informace totalne ztraci.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
20. 4. 2012 9:37

edo (neregistrovaný)

Používal som na to OCR program Tesseract a hocr2pdf.
Tesseractom som vytvoril z .tif predlohy .html výstup (hOCR súbor) a následne pomocou hocr2pdf z .tif a .html súboru vygeneroval .pdf s textovou vrstvou.
Tesseract od verzie 3.00 dáva pomerne slušné výsledky aj pre slovenčinu a češtinu.

Vlákno názorů k článku Skenování knih pro tablety, čtečky a telefony se Scan Tailor podruhé od PRaG - Někde jsem slyšel, že do PDF souborů lze...

Dále u nás najdete

Z evropského koláče chytrých telefonů ukusují Apple a Honor

Při podezření na rakovinu jděte za praktikem, nehledejte na internetu

Sailfish OS na Sony Xperia 10 III: seznámení a instalace

U dědečkova stavu našla smysl a teď oživuje unikátní tkaní

Malware, ransomware a další online hrozby: Jak se liší?

Digitalizační masakr: stát chce data o zaměstnancích

Navazující a souběžná zaměstnání pro účely JMHZ

AI prolomila celou firemní infrastrukturu za 21 hodin

Sociální sítě: od seznamování k debatám o bezpečnosti

AMD přichází se značkou Ryzen AI do segmentu stolních počítačů

Jaké screeningy vám lékař doporučí po padesátce

Pojišťovny zneužívají lenosti svých klientů. Ti za to platí

Konflikt na Blízkém východě: informace pro turisty

Standardizace sítí 6G se soustředí na 6GHz pásmo a možnosti sdílení

Deset kroků pro maximální zabezpečení Google účtu

Vývojáři už kód nepíší, kočírují smečky AI agentů

Majetkové přiznání dalo ministrům současné vlády zabrat

Na arytmii přišel díky hodinkám. Lékaři radí zkoušet tep pravidelně

Energetické infrastruktuře bez chytrého řízení hrozí kolaps

Český SAP posilují Štěpánka Ryšavá a Štěpán Kroupa