Hlavní navigace

Skenování knih a převod do eknih je hračka

Kamil Pošvic 6. 9. 2011

Už jsme si řekli, jak eknihy vytvářet, jak a kde je číst. Kde je ale brát? Často se stává, že vám někdo dá knihu jako dar a netuší, že už nějakou dobu máte elektronickou čtečku, pomocí které knihy čtete. Proto se dnes podíváme na to, jak takovou knihu zdigitalizovat, jak je to pracné a kolik vám to tak zabere času.

I když se dnes již dá sehnat v elektronické podobě poměrně velké množství knih, tak většinou tu, kterou vlastníte a nebo si chce koupit, zrovna nelze nalézt. Koupíte si ji tedy v tištěné podobě a začnete uvažovat: „Jak tedy co nejjednodušeji převést svou knihu do počítače, respektive do formátu podporovaného vaší čtečkou?“

Co k tomu tedy budeme potřebovat. Z hardwarového vybavení určitě skener. I když se celý proces dá rozchodit na kterémkoliv zařízení (zkusil jsem i na historickém zařízení Mustek 1200 CP přes paralelní port), tak vřele doporučuji nějaký novější typ a jestliže máte přístup k A3 skeneru, tak máte minimálně z poloviny ušetřený čas první etapy. Pro účely tohoto článku jsem použil multifunkční zařízení Samsung SCX-3205 a sken jedné strany i s otočením mi trval necelých 20 sekund. 100 stránková kniha tak vyjde přibližně na půl hodiny.

Speciál léto s (e)knihou

Přemýšlíte o elektronických knihách, ale víte o nich málo? Uvažujete nad čtečkou, ale máte pocit, že je ještě příliš brzy? Pak čtěte náš speciál léto s (e)knihou, kde se o elektronických knížkách dozvíte vše podstatné.

Dále budeme samozřejmě potřebovat knihu, kterou budeme chtít skenovat. Doporučuji se dopředu rozhodnout, zda budete chtít převádět i obrázky kvůli nastavení parametrů vstupu. Pro samotný text plně vyhovuje nastavení odstínů šedi, s obrázky nastavíme plnou barevnou škálu.

Dále budeme potřebovat softwarové vybavení. Pro obsluhu skeneru využívám knihovnu Sane (respektive její frontend XSane), jako OCR (Optical Character Recognition- optické rozpoznávání znaků) využívám cuneiform (respektive jeho frontend YAGF). Pro finální opravy a stylizaci textu lze využít libovolný textový editor (já využívám LibreOffice Writer).

Získáváme vstupní data – skenujeme knihu

Jestliže nemáte přístup k A3 skeneru a nemůžete tedy skenovat celou dvojstranu naráz, tak je důležité si v Xsane před začátkem nastavit správné krokování jmen souborů na +2. Jméno souboru na 0001.jpeg a dpi na 200. Pro OCR je tato hodnota dostatečná a velikost souboru je ještě poměrně rozumná.

Nyní si nastavíte knihu do jedné polohy a pomocí náhledu nastavíte skenovanou oblast na kompletní stránku. Pak již jen mačkáte tlačítko Skenovat a otáčíte stránky. Po skončení lichých stránek, knihu otočíte o 180°, resetujete počítadlo na číslo 0002 a pokračujete v najetém úkonu až do konce knihy. Jestliže jste vše udělali správně, máte nyní adresář plný souborů obsahující jednotlivé stránky.

Vždy dbejte na to, aby stránka byla naskenována rovně. Nemusíte pak již obrázky upravovat a OCR je přesnější.

 Převádíme obrázky na text

Nyní přistoupíme k dalšímu kroku. Obrazová data, která jsme získali skenováním knihy potřebujeme převést do textu. Sice už nyní by se kniha dala číst, ale dovolím si tvrdit že pohodlně pouze na desktopu a nebo na zařízeních s větším displejem (třeba na tabletu). Jednou z dalších nevýhod takovéhoto čtení je i celková velikost takové knihy, která při sto stranách přesahuje 50 MB.

Pro převod do textu využívám cuneiform a jeho grafický frontend YAGF. Jedná se o velice jednoduché prostředí, které umožňuje otevření všech souborů naráz (proto bylo důležité, aby soubory se skenem jednotlivých stránek měly po sobě jdoucí číslování) a spuštění hromadného převodu do textu formátovaného HTML. Lze zvolit i formátování TEXT, ale pak přijdete o odsazení odstavců a jestliže chcete mít výsledný text včetně odstavců, tak byste si zbytečně přidělávali práci.

Převod není zrovna nejrychlejší a jestliže se budeme držet našeho výše uvedeného příkladu knihy o rozsahu 100 stran, tak počítejte, že tento převod bude trvat déle než hodinu. Tento úkon se však plně obejde bez vaší asistence, takže je otázka, zda tento čas započítávat do celkového času převodu knihy, protože jej lze efektivně zúročit jinou prací.

Finalizujeme textovou úpravu

Nyní máme tedy knihu v surové podobě a, mohu mluvit ze zkušenosti, poměrně slušně povedené. Viděl jsem a četl knihu, která byla v této fázi převedena do formátu elektronické knihy bez dalších úprav a dala se číst a dočíst. Já však mám rád dobře odvedenou práci, a proto nyní nastupuje LibreOffice Writer a jeho „Kontrola překlepů a gramatiky (F7)“.

Jestliže zjistíte, že se některá chyba pravidelně opakuje, tak doporučuji nastavit automatické nahrazování. Kontrola námi zvolené knihy zabere přibližně 45 minut (podle rozsahu a podle členitosti textu). Po jejím skončení nastupuje kontrola vzhledu. Projíždím jednotlivé stránky a kontroluji, zda jsou odstavce správně odsazeny, zda kurzíva je opravdu kurzívou a zda je zarovnání správně nastaveno. Jestliže máte dostatek času a chcete si ponechat knihu ve formátu LibreOffice, tak si můžete pohrát i s obsahem, číslováním stránek, popisky obrázků a dalšími efekty, které však převodem do jiného formátu zmizí.

Po skončení úprav dostaneme již velice pěknou elektronickou knihu, kterou si můžete uložit do své elektronické knihovny v rozličných formátech. Pro převod můžete použít například již námi zmiňovaný eCub (formáty EPUB a MobiPocket). Já osobně vedu knihovničku ve formátu PDB (pozůstatky z historie, kdy jsem četl knihy na zařízení se Symbianem a Windows Mobile 5). Pro převod do tohoto formátu používám perlový script bibelot, do kterého exportuji kódovaný text z LibreOffice.

Jednoduchým příkazem pak převedu vybraný text do PDB:

$ perl bibelot.pl -t „Jmeno knihy“ zdrojovy_text.txt vystupni_kniha.pdb

Jak to všechno dopadlo?

Ve finále jsme převedli knihu obsahující 100 stran za necelé tři hodiny. Do tohoto času však započítávám i převod OCR (hodina). Jestliže byste tento postup absolvovali častěji a připravili si v textovém editoru styly, tak si dovolím tvrdit, že čistého času, kdy bude nutná vaše reálná přítomnost,  bude potřeba tak hodina a čtvrt. Finálně převedená kniha se dá krásně číst, neobsahuje žádné významné chyby a i po čase se vám bude ve vaší elektronické knihovně dobře vyjímat.

Reklama

Knihkupectví Kanzelsberger – hlavní partner speciálu Léto s (e)knihou

Síť knihkupectví po celé ČR, online prodej. Nabízíme více než 56 000 denně aktualizovaných záznamů knih všech žánrů: beletrie, dětské knihy, učebnice, slovníky, odbornou a technickou literaturu, historie, encyklopedie, hudebniny, mapy a atlasy.

www.kanzelsber­ger.cz | www.facebook.com/kni­hy.kanzelsber­ger

Připravil jsem si pro vás i ukázku výsledku – část knihy Mluvicí balík od Geralda Durrela. Můžete si prvních deset stránek stáhnout v PDF nebo v PDB. Druhý jmenovaný zobrazíte například v programu FBReader.

Odkazy

Našli jste v článku chybu?

7. 9. 2011 10:54

jehovista (neregistrovaný)

A ted si predstav treba ty blazny, kteri se cely rok staraji o zahradku, aby z toho pak meli par kilo mrkve a cesneku. Vzdyt si muzou zajit do obchodu a vse si pohodlne koupit.
Ti tezko presvedci MS-certified chief account managera, MBA o tom, ze je to bavi. On totiz vi, ze nejlepsi je intenzivni odpocinek u golfu a na squashi. Ten vi jak spravne zit.


6. 9. 2011 0:32

PRaG (neregistrovaný)

Hm ... odpoved je jednoducha: virtualbox + WinXP + ABBYY FineReader 9 nebo 10 = eKniha.

Lupa.cz: Co se dá měřit přes Internet věcí

Co se dá měřit přes Internet věcí

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu

DigiZone.cz: Recenze Prostřeno: cirkus postižených

Recenze Prostřeno: cirkus postižených

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Vitalia.cz: Tesco: Chudá rodina si koupí levné polské kuře

Tesco: Chudá rodina si koupí levné polské kuře

Podnikatel.cz: Chtějte údaje k dani z nemovitostí do mailu

Chtějte údaje k dani z nemovitostí do mailu

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

120na80.cz: Horní cesty dýchací. Zkuste fytofarmaka

Horní cesty dýchací. Zkuste fytofarmaka

Lupa.cz: Teletext je „internetem hipsterů“

Teletext je „internetem hipsterů“

Vitalia.cz: Co nabídne největší výživová konference FOOD21?

Co nabídne největší výživová konference FOOD21?

120na80.cz: Na ucho teplý, nebo studený obklad?

Na ucho teplý, nebo studený obklad?

DigiZone.cz: Sat novinky: slovenská TV8 HD i ruský NTV Mir

Sat novinky: slovenská TV8 HD i ruský NTV Mir

Podnikatel.cz: Víme první výsledky doby odezvy #EET

Víme první výsledky doby odezvy #EET

Vitalia.cz: Co pomáhá dítěti při zácpě?

Co pomáhá dítěti při zácpě?

120na80.cz: Jak oddálit Alzheimera?

Jak oddálit Alzheimera?

Vitalia.cz: Paštiky plné masa ho zatím neuživí

Paštiky plné masa ho zatím neuživí

Lupa.cz: UX přestává pro firmy být magie

UX přestává pro firmy být magie

Podnikatel.cz: Na poslední chvíli šokuje vyjímkami v EET

Na poslední chvíli šokuje vyjímkami v EET

Root.cz: Certifikáty zadarmo jsou horší než za peníze?

Certifikáty zadarmo jsou horší než za peníze?

Vitalia.cz: Baletky propagují zdravotní superpostel

Baletky propagují zdravotní superpostel