Skenování knih pro tablety, čtečky a telefony se Scan Tailor podruhé

10. 4. 2012

Doba čtení: 8 minut

Líbí se vám článek?
Podpořte redakci

V minulém článku jsme si společně ukázali, jak správně naskenovat knihu a připravit naskenovaná data pro Scan Tailor a jaké máme další možnosti zpracování dat výstupních. Dnes se podíváme na praktickou práci s našim pomocníkem, kterým bude program Scan Tailor. To on bude provádět všechnu magii.

Scan Tailor umí nastavit správnou orientaci naskenovaných stránek, rozdělit naskenované dvojstránky na samostatné stránky, umí natočit vychýlené stránky tak, aby text byl v horizontální poloze. Dále dokáže oříznout nepotřebné okraje naskenovaného obrázku a uložit upravené stránky do samostatných souborů. Před uložením je možno použít filtr, který převede obrázek ze stupňů šedi do černobílé, což v mnoha případech vylepší čtivost. Scan Tailor neumí provádět rozpoznávání znaků — tedy převádět obrázky do textu, jen pomáhá zpracovat naskenované obrázky tak, aby se zlepšila jejich čitelnost, případně, aby se vizuálně přiblížily původní předloze.

Před spuštěním Scan Tailoru bychom měli mít připraven adresář s naskenovanými soubory, jejichž jména seřazená v abecedním pořadí, odpovídají pořadí stránek předlohy. Scan Tailor nemá žádné parametry příkazové řádky a nepracuje ani s aktuálním adresářem, ze kterého ho pouštíme. První dialog, který nám ukáže je výběr projektu. Zvolím „New Project…“ a pak „Input Directory“.

Úvodní obrazovka Scan Tailor

DPI vstupních obrázků

Zde může nastat problém s DPI. Scan Tailor to ohlásí dialogem „Fix DPI“. Dokumentace říká, že je to tehdy, když zdrojové soubory nemají specifikováno DPI, případně ho mají očividně špatně. Znám-li (fyzickou) velikost originálu, můžu DPI dopočítat ze znalosti rozlišení obrázku. Pokud ji neznám, volím obvykle 600×600 DPI.

Pozor, vstupní DPI již nelze dále v průběhu zpracování projektu v Scan Tailoru měnit. Nepříjemné to může být obzvláště v případě, kdy pouze některé obrázky z množiny vstupních souborů mají neznámé DPI. Pak je potřeba buď nastavit stejné DPI jako u obrázků, které ho mají, nebo nastavit DPI všem vstupním souborům na společnou hodnotu a u některých tak přepsat jejich hodnotu původní. Neprovedu-li ani jedno z navržených řešení a nastavím v rámci jednoho projektu pro různé soubory jiné DPI, budou mít výstupní stránky jinou velikost. Podrobněji se k tomu ještě vrátím níže.

Jaké DPI má konkrétní obrázek specifikováno, lze zjistit např. příkazem

$ identify -verbose OBRAZEK |grep Resolution

Zde je potřeba zdůraznit, že jakékoli změny se neprojeví na originálních souborech, ty zůstanou nedotčené. Hodnota DPI se uloží pouze v projektu Scan Tailoru.

V dialogu změny DPI v Scan Tailoru nemusí být na první pohled zřejmé, že lze DPI měnit jak u jednotlivých souborů, tak hromadně pro celou množinu. Hromadnou změnu lze provést kliknutím na nadřazenou položku ve stromu zobrazujícím hierarchii souborů podle jejich velikosti. Výběr s podržením CTRL nebo SHIFT zde nefunguje.

Po načtení vstupních souborů můžeme přistoupit k jejich úpravám.

Obecné zásady práce s Scan Tailorem

Proces zpracování skenovaného dokumentu Scan Tailor dělí do šesti kroků. Pokud libovolný krok přeskočíme, Scan Tailor před provedením aktuálního kroku přeskočené kroky stejně provede. Jelikož se žádné změny neprovádí na originálních souborech, lze se k libovolným krokům kdykoli vracet.

Pokaždé, když přejdete k jednomu z šesti kroků kliknutím na položku levého menu, Scan Tailor upraví aktuálně vybraný obrázek a zobrazí ho v hlavním panelu. Parametry operace lze následně v levém sloupci měnit a změny se okamžitě aplikují na aktuální obrázek. U většiny operací lze nastavit rozsah působnosti změn. Je tak možné změnu aplikovat kromě aktuálního obrázku také na další definovanou množinu obrázků.

Volitelně můžeme vyvolat hromadné zpracování tlačítkem „Play“ umístěném na panelu. Play provede zpracování všech změn, které doposud nebyly vykonány (byly pouze navoleny), a to od aktuálně vybraného obrázku do konce. Hromadné zpracování je v zásadě povinné pouze před závěrečným krokem 6, „Output“, ale k tomu se ještě dostaneme.

Každý ze šesti kroků provádí Scan Tailor automaticky — snaží se rozpoznat optimální provedení kroku a aplikuje ho. Pokud nejsme s výsledkem spokojeni, můžeme ručně upravit výsledek daného kroku změnou jeho parametrů. Takto „ručně“ upravený obrázek již nebude při dalším spuštění hromadného zpracování tlačítkem „Play“ měněn. Díky tomu zůstávají manuální úpravy obrázků zachovány i při opakovaném spuštění hromadného zpracování.

Šest kroků zpracování

V prvním kroku Fix Orientation můžeme ovlivnit orientaci stránky — tedy natočení stránky, které jsme skenovali ve vertikální polože či vzhůru nohama. V okně Rotate nastavíme rotaci o 90° správným směrem, případně o 180° a volitelně v okně „Apply to…“ vybereme rozsah vstupních obrázků, na které se má daná změna aplikovat. Tento krok je, jako jediný, pouze manuální — orientaci skenovaných stránek neumí Scan Tailor automaticky rozpoznávat. Pokud jsme skenovali vše ve správné poloze, můžeme tento krok přeskočit.

V kroku dvě Split pages se Scan Tailor snaží rozpoznat rozdělení skenovaného dokumentu na jednotlivé stránky, v případě, že jsme skenovali dvoustrany. Samozřejmě můžeme výsledek ovlivnit i ručně. Můžeme nastavit o jaký typ naskenované stránky se jedná: o samostatnou stránku, o jednu stránku s přesahem na jinou stránku nebo o dvojstranu. Nastavenou variantu lze opět promítnout na rozsah vstupních obrázků. Pokud rozdělujeme dvojstranu na samostatné stránky, snaží se Scan Tailor určit dělící linku, ale ne vždy se mu to podaří správně. Pak můžeme dělící linku u jednotlivých obrázků posunout ručně táhnutím myší: buď za tělo dělící linky, nebo za její konce.

Třetí krok Deskew považuji za jeden z nejužitečnějších. Jedná se o natočení textu do horizontální polohy v případech vychýlení. Scan Tailor vychýlení rozpoznává automaticky a obvykle to „odhadne“ dobře. Se špatným natočením jsem se setkal pouze v případech, kdy se na stránce vyskytovaly obrázky s nejasným okrajem. V případě, že nejsme spokojeni s výsledkem automatického natočení, můžeme stránku dorovnat ručně tahem myší. Při manuální úpravě je výhodné stránku přiblížit kolečkem myši a tahem myši zarovnat vzhledem k mřížce, kterou Scan Tailor nad obrázkem zobrazuje.

Ve čtvrtém kroku Select Content stanovujeme hranice textu (přesněji řečeno tiskového zrcadla). Tento krok slouží k vymezení toho, co nás na stránce zajímá a co už ne. I zde platí stejná zásada — co Scan Tailor rozpoznal špatně, můžeme tahem myší za rám upravit ručně. Scan Tailor tento krok využívá mj. k určení výsledné velikosti stránky. To je velikost, která je společná všem výstupním obrázkům. Řečeno terminologií kreslících programů: velikost plátna, na kterou jsou naskenované obrázky následně umístěny. To zajistí jednotnou velikost výstupních obrázků bez ohledu na to, kolik je na nich textu, což odpovídá realitě tištěných dokumentů. U vybraných obrázků lze nastavit, aby nebyly započítány do množiny, ze kterých se výsledná velikost stránky počítá. To se hodí především u stránek, které nezapadají do vnitřního obsahu knihy — např. u přebalu tiskoviny, případně u vložených reklam, které často přesahují tiskové zrcadlo běžného textu.

Rámec s obsahem je možno ze stránky smazat úplně volbou z kontextové nabídky vyvolané pravým tlačítkem myši. V takovém případě se stránka vyhodnotí jako prázdná. Toho využijeme především v případech, kdy stránka byla skutečně prázdná, ale díky stínům nebo kazům na stránce na ní Scan Tailor rozpoznal „obsah“. Podobně lze rámec obsahu přidat, v případě, kdy Scan Tailor pro změnu žádný obsah nerozpoznal.

V předposledním kroku Page layout volíme šířku okrajů kolem textu v okénku „Margins“ a umístění textového bloku na plátně výsledné stránky v okénku „Page Layout“. Zde volíme pouze velkost okrajů, v následujícím kroku pak máme možnost okraje nechat vyplnit bílou barvou nebo nechat tak, jak jsou.

V okénku zarovnání „Alignment“ je důležité zaškrtávací políčko „Align with other pages“. Jeho odškrtnutím vyřazujeme danou stránku z množiny, ze kterých se počítá výsledná velikost (viz popis minulého kroku). Jsou zde ještě dvě velmi užitečné funkce: „Widest Page“ a „Tallest Page“. Jelikož výsledná velikost stránky je odvozena od stránky s největším tiskovým zrcadlem, můžeme tak tyto stránky dohledat a ujistit se, že jsme u nich nastavili rámec s obsahem, který nás skutečně zajímá.

Můžeme se také rozhodnout takovou stránku vyřadit z množiny určující výslednou velikost stránky a vyhledat druhou největší. To se hodí v případech, kdy v knize je na několika stránkách obsah roztažen mimo okraje většiny zbývajících stránek. Tyto „nabobtnalé“ stránky by pak určily výslednou velikost stránky" a všechny ostatní „běžné“ stránky by byly umístěny na zbytečně velké plátno.

Poslední, šestý krok Output konečně generuje výstupní soubory. Vybereme-li v tomto kroku libovolný náhled stránky, uloží se do výstupního adresáře aktuální obrázek. Změníme-li nastavení šestého kroku, okamžitě se to projeví na výstupním obrázku. Hromadným zpracováním tlačítkem Play získáme kompletní sadu výstupních souborů.

Výstupní soubory můžeme ovlivnit jak co do velikosti, tak do vzhledu. Velikost nastavujeme v dialogu DPI. Předpokládám, že správným nastavením DPI skenovaných souborů při vytváření projektu a zde DPI tiskárny, získáme vytištěním dokumentu odpovídající kopii původního dokumentu co se velikosti týče. Musím přiznat, že v tomto směru jsem neexperimentoval. Velikost upravuji mimo Scan Tailor, jak jsem popsal v předchozím díle.

V dialogu Mode můžeme nastavit, zda mají být výstupní obrázky převedeny do stupňů šedi, či zda mají být zachovány v původních barvách, případně zda mají být oba přístupy zkombinovány. Já obvykle nechávám volbu „Color / Grayscale“, ale volba „Black and White“ má také své kouzlo. Především, pokud si pohrajeme s tloušťkou čar jezdcem „Thinner/Thicker“, který se zobrazuje u nastavení „Black and White“.

U volby „Color / Grayscale“ jsou zase k dispozici volby „White Margins“ a „Equalize Illumination“. První volba nahradí v okrajích definovaných v předchozím kroku původní předlohu za bílou plochu. Druhá volba, dostupná pouze v případě zaškrtnutí první, upravuje hodnoty kontrastu. S tímto jsem mnoho experimentů neprováděl, ale zdá se, že tato volba vede k lepším výsledkům, především pokud na výstupní soubory aplikujeme příkaz convert -auto-level (viz předchozí díl).

Závěrem…

Největší nevýhoda takto vyrobených PDF souborů je to, že v nich nelze vyhledávat. Výhodou je zase zachování sazby a celkového vzhledu dokumentu. Někde jsem slyšel, že do PDF souborů lze vkládat neviditelné vrstvy s textem získaným OCR programem a tak v nich umožnit vyhledávání i v případě skenovaných souborů. Pokud s tím máte někdo zkušenost, budu rád, pokud se podělíte o informace v diskusi pod článkem.

Vstoupit do diskuse (15 názorů)

Líbí

Nelíbí

Tomáš Pinkas

Za fajn návod. Hodí se...

D.A.Tiger

Sdílet

DPI vstupních obrázků

Obecné zásady práce s Scan Tailorem

Šest kroků zpracování

Závěrem…

Byl pro vás článek přínosný?

Autor článku

Tomáš Pinkas

Skenování knih pro tablety, čtečky a telefony se Scan Tailor podruhé

Sdílet

DPI vstupních obrázků

Obecné zásady práce s Scan Tailorem

Šest kroků zpracování

Závěrem…

Byl pro vás článek přínosný?

Autor článku

Tomáš Pinkas

Mohlo by vás zajímat

Red Hat končí s CentOS 7, jeho další podporu nabízí SUSE, první rok za 50 Kč měsíčně

O nedostatku IPv4 adres víme třicet let, NAT měl být dočasným řešením

Postřehy z bezpečnosti: Cobalt Strike pod palbou, zmatky kolem OpenSSH

CrowdStrike poukázal na nedostatek představivosti a problém lidského faktoru

Dále u nás najdete

Motání hlavy může být způsobeno problémy s krčními tepnami

Češi stále nejvíc milují kuřecí řízek a smažák

Intolerance lepku byla po staletí záhadou. Vysvětlil ji až hladomor

Popálená tvář, zlomená páteř. Elektřina mrzačí i bez doteku drátů

Příčina obřího IT výpadku? Chyba aktualizace

Výrobce koupelnového vybavení Laufen čeká oživení poptávky

Více než polovina žen v porodnici dostává klystýr

Revmatická horečka už nepatří mezi běžná onemocnění

Impregnace škodí životnímu prostředí i zdraví

Výrobci nemusí udávat přesné složení parfémů

Musk: Humanoidní roboty začne Tesla používat už příští rok

Tesco na jedné straně plasty šetří, na druhé jimi ale plýtvá

Praktické tipy pro fyzické osoby, jak ušetřit na daních

Test Wi-Fi 7 vs. Wi-Fi 6: Další zvýšení rychlostí

Zmatek u důchodové reformy, stejný termín pro dvě opatření

Trdlokafe otevřelo první pobočku v USA

Změny v českém maloobchodu, Electro World se mění na Datart

Jednu vanilkovou, nebo spíš kopeček slaného karamelu?

Google už nechce rušit cookies třetích stran v Chromu

Pořad 168 hodin v České televizi končí