Skenování knih a převod do eknih je hračka

Kamil Pošvic 6. 9. 2011

Už jsme si řekli, jak eknihy vytvářet, jak a kde je číst. Kde je ale brát? Často se stává, že vám někdo dá knihu jako dar a netuší, že už nějakou dobu máte elektronickou čtečku, pomocí které knihy čtete. Proto se dnes podíváme na to, jak takovou knihu zdigitalizovat, jak je to pracné a kolik vám to tak zabere času.

I když se dnes již dá sehnat v elektronické podobě poměrně velké množství knih, tak většinou tu, kterou vlastníte a nebo si chce koupit, zrovna nelze nalézt. Koupíte si ji tedy v tištěné podobě a začnete uvažovat: „Jak tedy co nejjednodušeji převést svou knihu do počítače, respektive do formátu podporovaného vaší čtečkou?“

Co k tomu tedy budeme potřebovat. Z hardwarového vybavení určitě skener. I když se celý proces dá rozchodit na kterémkoliv zařízení (zkusil jsem i na historickém zařízení Mustek 1200 CP přes paralelní port), tak vřele doporučuji nějaký novější typ a jestliže máte přístup k A3 skeneru, tak máte minimálně z poloviny ušetřený čas první etapy. Pro účely tohoto článku jsem použil multifunkční zařízení Samsung SCX-3205 a sken jedné strany i s otočením mi trval necelých 20 sekund. 100 stránková kniha tak vyjde přibližně na půl hodiny.

Speciál léto s (e)knihou

Přemýšlíte o elektronických knihách, ale víte o nich málo? Uvažujete nad čtečkou, ale máte pocit, že je ještě příliš brzy? Pak čtěte náš speciál léto s (e)knihou, kde se o elektronických knížkách dozvíte vše podstatné.

Dále budeme samozřejmě potřebovat knihu, kterou budeme chtít skenovat. Doporučuji se dopředu rozhodnout, zda budete chtít převádět i obrázky kvůli nastavení parametrů vstupu. Pro samotný text plně vyhovuje nastavení odstínů šedi, s obrázky nastavíme plnou barevnou škálu.

Dále budeme potřebovat softwarové vybavení. Pro obsluhu skeneru využívám knihovnu Sane (respektive její frontend XSane), jako OCR (Optical Character Recognition- optické rozpoznávání znaků) využívám cuneiform (respektive jeho frontend YAGF). Pro finální opravy a stylizaci textu lze využít libovolný textový editor (já využívám LibreOffice Writer).

Získáváme vstupní data – skenujeme knihu

Jestliže nemáte přístup k A3 skeneru a nemůžete tedy skenovat celou dvojstranu naráz, tak je důležité si v Xsane před začátkem nastavit správné krokování jmen souborů na +2. Jméno souboru na 0001.jpeg a dpi na 200. Pro OCR je tato hodnota dostatečná a velikost souboru je ještě poměrně rozumná.

Nyní si nastavíte knihu do jedné polohy a pomocí náhledu nastavíte skenovanou oblast na kompletní stránku. Pak již jen mačkáte tlačítko Skenovat a otáčíte stránky. Po skončení lichých stránek, knihu otočíte o 180°, resetujete počítadlo na číslo 0002 a pokračujete v najetém úkonu až do konce knihy. Jestliže jste vše udělali správně, máte nyní adresář plný souborů obsahující jednotlivé stránky.

Vždy dbejte na to, aby stránka byla naskenována rovně. Nemusíte pak již obrázky upravovat a OCR je přesnější.

 Převádíme obrázky na text

Nyní přistoupíme k dalšímu kroku. Obrazová data, která jsme získali skenováním knihy potřebujeme převést do textu. Sice už nyní by se kniha dala číst, ale dovolím si tvrdit že pohodlně pouze na desktopu a nebo na zařízeních s větším displejem (třeba na tabletu). Jednou z dalších nevýhod takovéhoto čtení je i celková velikost takové knihy, která při sto stranách přesahuje 50 MB.

Pro převod do textu využívám cuneiform a jeho grafický frontend YAGF. Jedná se o velice jednoduché prostředí, které umožňuje otevření všech souborů naráz (proto bylo důležité, aby soubory se skenem jednotlivých stránek měly po sobě jdoucí číslování) a spuštění hromadného převodu do textu formátovaného HTML. Lze zvolit i formátování TEXT, ale pak přijdete o odsazení odstavců a jestliže chcete mít výsledný text včetně odstavců, tak byste si zbytečně přidělávali práci.

Převod není zrovna nejrychlejší a jestliže se budeme držet našeho výše uvedeného příkladu knihy o rozsahu 100 stran, tak počítejte, že tento převod bude trvat déle než hodinu. Tento úkon se však plně obejde bez vaší asistence, takže je otázka, zda tento čas započítávat do celkového času převodu knihy, protože jej lze efektivně zúročit jinou prací.

Finalizujeme textovou úpravu

Nyní máme tedy knihu v surové podobě a, mohu mluvit ze zkušenosti, poměrně slušně povedené. Viděl jsem a četl knihu, která byla v této fázi převedena do formátu elektronické knihy bez dalších úprav a dala se číst a dočíst. Já však mám rád dobře odvedenou práci, a proto nyní nastupuje LibreOffice Writer a jeho „Kontrola překlepů a gramatiky (F7)“.

Jestliže zjistíte, že se některá chyba pravidelně opakuje, tak doporučuji nastavit automatické nahrazování. Kontrola námi zvolené knihy zabere přibližně 45 minut (podle rozsahu a podle členitosti textu). Po jejím skončení nastupuje kontrola vzhledu. Projíždím jednotlivé stránky a kontroluji, zda jsou odstavce správně odsazeny, zda kurzíva je opravdu kurzívou a zda je zarovnání správně nastaveno. Jestliže máte dostatek času a chcete si ponechat knihu ve formátu LibreOffice, tak si můžete pohrát i s obsahem, číslováním stránek, popisky obrázků a dalšími efekty, které však převodem do jiného formátu zmizí.

Po skončení úprav dostaneme již velice pěknou elektronickou knihu, kterou si můžete uložit do své elektronické knihovny v rozličných formátech. Pro převod můžete použít například již námi zmiňovaný eCub (formáty EPUB a MobiPocket). Já osobně vedu knihovničku ve formátu PDB (pozůstatky z historie, kdy jsem četl knihy na zařízení se Symbianem a Windows Mobile 5). Pro převod do tohoto formátu používám perlový script bibelot, do kterého exportuji kódovaný text z LibreOffice.

Jednoduchým příkazem pak převedu vybraný text do PDB:

widgety

$ perl bibelot.pl -t „Jmeno knihy“ zdrojovy_text.txt vystupni_kniha.pdb

Jak to všechno dopadlo?

Ve finále jsme převedli knihu obsahující 100 stran za necelé tři hodiny. Do tohoto času však započítávám i převod OCR (hodina). Jestliže byste tento postup absolvovali častěji a připravili si v textovém editoru styly, tak si dovolím tvrdit, že čistého času, kdy bude nutná vaše reálná přítomnost,  bude potřeba tak hodina a čtvrt. Finálně převedená kniha se dá krásně číst, neobsahuje žádné významné chyby a i po čase se vám bude ve vaší elektronické knihovně dobře vyjímat.

Reklama

Knihkupectví Kanzelsberger – hlavní partner speciálu Léto s (e)knihou

Síť knihkupectví po celé ČR, online prodej. Nabízíme více než 56 000 denně aktualizovaných záznamů knih všech žánrů: beletrie, dětské knihy, učebnice, slovníky, odbornou a technickou literaturu, historie, encyklopedie, hudebniny, mapy a atlasy.

www.kanzelsber­ger.cz | www.facebook.com/kni­hy.kanzelsber­ger

Připravil jsem si pro vás i ukázku výsledku – část knihy Mluvicí balík od Geralda Durrela. Můžete si prvních deset stránek stáhnout v PDF nebo v PDB. Druhý jmenovaný zobrazíte například v programu FBReader.

Odkazy

Našli jste v článku chybu?
Vitalia.cz: Tohle jsou nejlepší česká piva podle odborníků

Tohle jsou nejlepší česká piva podle odborníků

Podnikatel.cz: Udělali jsme velkou chybu, napsal Čupr

Udělali jsme velkou chybu, napsal Čupr

Vitalia.cz: Muž, který miluje příliš. Ženám neimponuje

Muž, který miluje příliš. Ženám neimponuje

120na80.cz: Galerie: Čínští policisté testují českou minerálku

Galerie: Čínští policisté testují českou minerálku

Lupa.cz: Kde leží hardwarový pupek světa?

Kde leží hardwarový pupek světa?

Lupa.cz: Další Češi si nechali vložit do těla čip

Další Češi si nechali vložit do těla čip

Vitalia.cz: Tesco nabízí desítky tun jídla zdarma

Tesco nabízí desítky tun jídla zdarma

DigiZone.cz: Parlamentní listy: kde končí PR...

Parlamentní listy: kde končí PR...

Lupa.cz: Blíží se konec Wi-Fi sítí bez hesla?

Blíží se konec Wi-Fi sítí bez hesla?

Podnikatel.cz: Letáky? Lidi zuří, ale ony stále fungují

Letáky? Lidi zuří, ale ony stále fungují

DigiZone.cz: Numan Two: rozhlasový přijímač s CD

Numan Two: rozhlasový přijímač s CD

DigiZone.cz: DVB-T2 ověřeno: seznam TV zveřejněn

DVB-T2 ověřeno: seznam TV zveřejněn

Vitalia.cz: 5 chyb, které děláme při skladování potravin

5 chyb, které děláme při skladování potravin

Vitalia.cz: Jak Ondra o astma přišel

Jak Ondra o astma přišel

DigiZone.cz: Wimbledon na Nova Sport až do 2019

Wimbledon na Nova Sport až do 2019

Vitalia.cz: Antibakteriální mýdla nepomáhají, spíš škodí

Antibakteriální mýdla nepomáhají, spíš škodí

Lupa.cz: Patička e-mailu závazná jako vlastnoruční podpis?

Patička e-mailu závazná jako vlastnoruční podpis?

120na80.cz: Co je padesátkrát sladší než cukr?

Co je padesátkrát sladší než cukr?

DigiZone.cz: Technisat připravuje trojici DAB

Technisat připravuje trojici DAB

DigiZone.cz: Mordparta: trochu podchlazený 87. revír

Mordparta: trochu podchlazený 87. revír