Hlavní navigace

Skenování knih pro tablety, čtečky a telefony se Scan Tailor podruhé

Tomáš Pinkas 10. 4. 2012

V minulém článku jsme si společně ukázali, jak správně naskenovat knihu a připravit naskenovaná data pro Scan Tailor a jaké máme další možnosti zpracování dat výstupních. Dnes se podíváme na praktickou práci s našim pomocníkem, kterým bude program Scan Tailor. To on bude provádět všechnu magii.

Scan Tailor umí nastavit správnou orientaci naskenovaných stránek, rozdělit naskenované dvojstránky na samostatné stránky, umí natočit vychýlené stránky tak, aby text byl v horizontální poloze. Dále dokáže oříznout nepotřebné okraje naskenovaného obrázku a uložit upravené stránky do samostatných souborů. Před uložením je možno použít filtr, který převede obrázek ze stupňů šedi do černobílé, což v mnoha případech vylepší čtivost. Scan Tailor neumí provádět rozpoznávání znaků — tedy převádět obrázky do textu, jen pomáhá zpracovat naskenované obrázky tak, aby se zlepšila jejich čitelnost, případně, aby se vizuálně přiblížily původní předloze.

Před spuštěním Scan Tailoru bychom měli mít připraven adresář s naskenovanými soubory, jejichž jména seřazená v abecedním pořadí, odpovídají pořadí stránek předlohy. Scan Tailor nemá žádné parametry příkazové řádky a nepracuje ani s aktuálním adresářem, ze kterého ho pouštíme. První dialog, který nám ukáže je výběr projektu. Zvolím „New Project…“ a pak „Input Directory“.

Úvodní obrazovka Scan Tailor

DPI vstupních obrázků

Zde může nastat problém s DPI. Scan Tailor to ohlásí dialogem „Fix DPI“. Dokumentace říká, že je to tehdy, když zdrojové soubory nemají specifikováno DPI, případně ho mají očividně špatně. Znám-li (fyzickou) velikost originálu, můžu DPI dopočítat ze znalosti rozlišení obrázku. Pokud ji neznám, volím obvykle 600×600 DPI.

Pozor, vstupní DPI již nelze dále v průběhu zpracování projektu v Scan Tailoru měnit. Nepříjemné to může být obzvláště v případě, kdy pouze některé obrázky z množiny vstupních souborů mají neznámé DPI. Pak je potřeba buď nastavit stejné DPI jako u obrázků, které ho mají, nebo nastavit DPI všem vstupním souborům na společnou hodnotu a u některých tak přepsat jejich hodnotu původní. Neprovedu-li ani jedno z navržených řešení a nastavím v rámci jednoho projektu pro různé soubory jiné DPI, budou mít výstupní stránky jinou velikost. Podrobněji se k tomu ještě vrátím níže.

Jaké DPI má konkrétní obrázek specifikováno, lze zjistit např. příkazem

$ identify -verbose OBRAZEK |grep Resolution

Zde je potřeba zdůraznit, že jakékoli změny se neprojeví na originálních souborech, ty zůstanou nedotčené. Hodnota DPI se uloží pouze v projektu Scan Tailoru.

V dialogu změny DPI v Scan Tailoru nemusí být na první pohled zřejmé, že lze DPI měnit jak u jednotlivých souborů, tak hromadně pro celou množinu. Hromadnou změnu lze provést kliknutím na nadřazenou položku ve stromu zobrazujícím hierarchii souborů podle jejich velikosti. Výběr s podržením CTRL nebo SHIFT zde nefunguje.

Po načtení vstupních souborů můžeme přistoupit k jejich úpravám.

Obecné zásady práce s Scan Tailorem

Proces zpracování skenovaného dokumentu Scan Tailor dělí do šesti kroků. Pokud libovolný krok přeskočíme, Scan Tailor před provedením aktuálního kroku přeskočené kroky stejně provede. Jelikož se žádné změny neprovádí na originálních souborech, lze se k libovolným krokům kdykoli vracet.

Pokaždé, když přejdete k jednomu z šesti kroků kliknutím na položku levého menu, Scan Tailor upraví aktuálně vybraný obrázek a zobrazí ho v hlavním panelu. Parametry operace lze následně v levém sloupci měnit a změny se okamžitě aplikují na aktuální obrázek. U většiny operací lze nastavit rozsah působnosti změn. Je tak možné změnu aplikovat kromě aktuálního obrázku také na další definovanou množinu obrázků.

Volitelně můžeme vyvolat hromadné zpracování tlačítkem „Play“ umístěném na panelu. Play provede zpracování všech změn, které doposud nebyly vykonány (byly pouze navoleny), a to od aktuálně vybraného obrázku do konce. Hromadné zpracování je v zásadě povinné pouze před závěrečným krokem 6, „Output“, ale k tomu se ještě dostaneme.

Každý ze šesti kroků provádí Scan Tailor automaticky — snaží se rozpoznat optimální provedení kroku a aplikuje ho. Pokud nejsme s výsledkem spokojeni, můžeme ručně upravit výsledek daného kroku změnou jeho parametrů. Takto „ručně“ upravený obrázek již nebude při dalším spuštění hromadného zpracování tlačítkem „Play“ měněn. Díky tomu zůstávají manuální úpravy obrázků zachovány i při opakovaném spuštění hromadného zpracování.

Šest kroků zpracování

V prvním kroku Fix Orientation můžeme ovlivnit orientaci stránky — tedy natočení stránky, které jsme skenovali ve vertikální polože či vzhůru nohama. V okně Rotate nastavíme rotaci o 90° správným směrem, případně o 180° a volitelně v okně „Apply to…“ vybereme rozsah vstupních obrázků, na které se má daná změna aplikovat. Tento krok je, jako jediný, pouze manuální — orientaci skenovaných stránek neumí Scan Tailor automaticky rozpoznávat. Pokud jsme skenovali vše ve správné poloze, můžeme tento krok přeskočit.

V kroku dvě Split pages se Scan Tailor snaží rozpoznat rozdělení skenovaného dokumentu na jednotlivé stránky, v případě, že jsme skenovali dvoustrany. Samozřejmě můžeme výsledek ovlivnit i ručně. Můžeme nastavit o jaký typ naskenované stránky se jedná: o samostatnou stránku, o jednu stránku s přesahem na jinou stránku nebo o dvojstranu. Nastavenou variantu lze opět promítnout na rozsah vstupních obrázků. Pokud rozdělujeme dvojstranu na samostatné stránky, snaží se Scan Tailor určit dělící linku, ale ne vždy se mu to podaří správně. Pak můžeme dělící linku u jednotlivých obrázků posunout ručně táhnutím myší: buď za tělo dělící linky, nebo za její konce.

Třetí krok Deskew považuji za jeden z nejužitečnějších. Jedná se o natočení textu do horizontální polohy v případech vychýlení. Scan Tailor vychýlení rozpoznává automaticky a obvykle to „odhadne“ dobře. Se špatným natočením jsem se setkal pouze v případech, kdy se na stránce vyskytovaly obrázky s nejasným okrajem. V případě, že nejsme spokojeni s výsledkem automatického natočení, můžeme stránku dorovnat ručně tahem myší. Při manuální úpravě je výhodné stránku přiblížit kolečkem myši a tahem myši zarovnat vzhledem k mřížce, kterou Scan Tailor nad obrázkem zobrazuje.

Ve čtvrtém kroku Select Content stanovujeme hranice textu (přesněji řečeno tiskového zrcadla). Tento krok slouží k vymezení toho, co nás na stránce zajímá a co už ne. I zde platí stejná zásada — co Scan Tailor rozpoznal špatně, můžeme tahem myší za rám upravit ručně. Scan Tailor tento krok využívá mj. k určení výsledné velikosti stránky. To je velikost, která je společná všem výstupním obrázkům. Řečeno terminologií kreslících programů: velikost plátna, na kterou jsou naskenované obrázky následně umístěny. To zajistí jednotnou velikost výstupních obrázků bez ohledu na to, kolik je na nich textu, což odpovídá realitě tištěných dokumentů. U vybraných obrázků lze nastavit, aby nebyly započítány do množiny, ze kterých se výsledná velikost stránky počítá. To se hodí především u stránek, které nezapadají do vnitřního obsahu knihy — např. u přebalu tiskoviny, případně u vložených reklam, které často přesahují tiskové zrcadlo běžného textu.

Rámec s obsahem je možno ze stránky smazat úplně volbou z kontextové nabídky vyvolané pravým tlačítkem myši. V takovém případě se stránka vyhodnotí jako prázdná. Toho využijeme především v případech, kdy stránka byla skutečně prázdná, ale díky stínům nebo kazům na stránce na ní Scan Tailor rozpoznal „obsah“. Podobně lze rámec obsahu přidat, v případě, kdy Scan Tailor pro změnu žádný obsah nerozpoznal.

V předposledním kroku Page layout volíme šířku okrajů kolem textu v okénku „Margins“ a umístění textového bloku na plátně výsledné stránky v okénku „Page Layout“. Zde volíme pouze velkost okrajů, v následujícím kroku pak máme možnost okraje nechat vyplnit bílou barvou nebo nechat tak, jak jsou.

V okénku zarovnání „Alignment“ je důležité zaškrtávací políčko „Align with other pages“. Jeho odškrtnutím vyřazujeme danou stránku z množiny, ze kterých se počítá výsledná velikost (viz popis minulého kroku). Jsou zde ještě dvě velmi užitečné funkce: „Widest Page“ a „Tallest Page“. Jelikož výsledná velikost stránky je odvozena od stránky s největším tiskovým zrcadlem, můžeme tak tyto stránky dohledat a ujistit se, že jsme u nich nastavili rámec s obsahem, který nás skutečně zajímá.

Můžeme se také rozhodnout takovou stránku vyřadit z množiny určující výslednou velikost stránky a vyhledat druhou největší. To se hodí v případech, kdy v knize je na několika stránkách obsah roztažen mimo okraje většiny zbývajících stránek. Tyto „nabobtnalé“ stránky by pak určily výslednou velikost stránky" a všechny ostatní „běžné“ stránky by byly umístěny na zbytečně velké plátno.

Poslední, šestý krok Output konečně generuje výstupní soubory. Vybereme-li v tomto kroku libovolný náhled stránky, uloží se do výstupního adresáře aktuální obrázek. Změníme-li nastavení šestého kroku, okamžitě se to projeví na výstupním obrázku. Hromadným zpracováním tlačítkem Play získáme kompletní sadu výstupních souborů.

Výstupní soubory můžeme ovlivnit jak co do velikosti, tak do vzhledu. Velikost nastavujeme v dialogu DPI. Předpokládám, že správným nastavením DPI skenovaných souborů při vytváření projektu a zde DPI tiskárny, získáme vytištěním dokumentu odpovídající kopii původního dokumentu co se velikosti týče. Musím přiznat, že v tomto směru jsem neexperimentoval. Velikost upravuji mimo Scan Tailor, jak jsem popsal v předchozím díle.

V dialogu Mode můžeme nastavit, zda mají být výstupní obrázky převedeny do stupňů šedi, či zda mají být zachovány v původních barvách, případně zda mají být oba přístupy zkombinovány. Já obvykle nechávám volbu „Color / Grayscale“, ale volba „Black and White“ má také své kouzlo. Především, pokud si pohrajeme s tloušťkou čar jezdcem „Thinner/Thicker“, který se zobrazuje u nastavení „Black and White“.

U volby „Color / Grayscale“ jsou zase k dispozici volby „White Margins“ a „Equalize Illumination“. První volba nahradí v okrajích definovaných v předchozím kroku původní předlohu za bílou plochu. Druhá volba, dostupná pouze v případě zaškrtnutí první, upravuje hodnoty kontrastu. S tímto jsem mnoho experimentů neprováděl, ale zdá se, že tato volba vede k lepším výsledkům, především pokud na výstupní soubory aplikujeme příkaz convert -auto-level (viz předchozí díl).

Závěrem…

Největší nevýhoda takto vyrobených PDF souborů je to, že v nich nelze vyhledávat. Výhodou je zase zachování sazby a celkového vzhledu dokumentu. Někde jsem slyšel, že do PDF souborů lze vkládat neviditelné vrstvy s textem získaným OCR programem a tak v nich umožnit vyhledávání i v případě skenovaných souborů. Pokud s tím máte někdo zkušenost, budu rád, pokud se podělíte o informace v diskusi pod článkem.

Našli jste v článku chybu?

11. 4. 2012 21:43

Snape (neregistrovaný)

Mám tři připomínky.

1. Můj Scan Tailor vytváří pouze výstup ve formátu TIFF, žádná možnost PDF tam není (Ubuntu 10.04 Lucid)

2. Neškodilo by někde zmínit, JAK převést naskenovaný text do editovatelné podoby. Jinými slovy něco o OCR software. To považuji za nejdůležitější.

3. Bylo by velmi neskromné chtít, aby druhý díl článku obsahoval někde odkaz na první díl?

20. 4. 2012 9:37

edo (neregistrovaný)

Používal som na to OCR program Tesseract a hocr2pdf.
Tesseractom som vytvoril z .tif predlohy .html výstup (hOCR súbor) a následne pomocou hocr2pdf z .tif a .html súboru vygeneroval .pdf s textovou vrstvou.
Tesseract od verzie 3.00 dáva pomerne slušné výsledky aj pre slovenčinu a češtinu.



Podnikatel.cz: Alza.cz má StreetShop. Mall.cz více výdejních míst

Alza.cz má StreetShop. Mall.cz více výdejních míst

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Vitalia.cz: Tesco: Chudá rodina si koupí levné polské kuře

Tesco: Chudá rodina si koupí levné polské kuře

Vitalia.cz: Paštiky plné masa ho zatím neuživí

Paštiky plné masa ho zatím neuživí

Vitalia.cz: Baletky propagují zdravotní superpostel

Baletky propagují zdravotní superpostel

Vitalia.cz: Dáte si jahody s plísní?

Dáte si jahody s plísní?

Vitalia.cz: Manželka je bio, ale na sex moc není

Manželka je bio, ale na sex moc není

DigiZone.cz: Rádio Šlágr má licenci pro digi vysílání

Rádio Šlágr má licenci pro digi vysílání

Lupa.cz: Seznam mění vedení. Pavel Zima v čele končí

Seznam mění vedení. Pavel Zima v čele končí

Podnikatel.cz: Na poslední chvíli šokuje vyjímkami v EET

Na poslední chvíli šokuje vyjímkami v EET

Vitalia.cz: Jsou čajové sáčky toxické?

Jsou čajové sáčky toxické?

Podnikatel.cz: Babiš: E-shopy z EET možná vyjmeme

Babiš: E-shopy z EET možná vyjmeme

120na80.cz: Boreliózu nelze žádným testem prokázat

Boreliózu nelze žádným testem prokázat

Podnikatel.cz: Víme první výsledky doby odezvy #EET

Víme první výsledky doby odezvy #EET

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu

DigiZone.cz: Sony KD-55XD8005 s Android 6.0

Sony KD-55XD8005 s Android 6.0

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Podnikatel.cz: Chtějte údaje k dani z nemovitostí do mailu

Chtějte údaje k dani z nemovitostí do mailu

Měšec.cz: Jak vymáhat výživné zadarmo?

Jak vymáhat výživné zadarmo?