Hlavní navigace

Skenování knih a převod do eknih je hračka

Už jsme si řekli, jak eknihy vytvářet, jak a kde je číst. Kde je ale brát? Často se stává, že vám někdo dá knihu jako dar a netuší, že už nějakou dobu máte elektronickou čtečku, pomocí které knihy čtete. Proto se dnes podíváme na to, jak takovou knihu zdigitalizovat, jak je to pracné a kolik vám to tak zabere času.

Tweetni to Odměnte autora  Jak to funguje?

I když se dnes již dá sehnat v elektronické podobě poměrně velké množství knih, tak většinou tu, kterou vlastníte a nebo si chce koupit, zrovna nelze nalézt. Koupíte si ji tedy v tištěné podobě a začnete uvažovat: „Jak tedy co nejjednodušeji převést svou knihu do počítače, respektive do formátu podporovaného vaší čtečkou?“

Co k tomu tedy budeme potřebovat. Z hardwarového vybavení určitě skener. I když se celý proces dá rozchodit na kterémkoliv zařízení (zkusil jsem i na historickém zařízení Mustek 1200 CP přes paralelní port), tak vřele doporučuji nějaký novější typ a jestliže máte přístup k A3 skeneru, tak máte minimálně z poloviny ušetřený čas první etapy. Pro účely tohoto článku jsem použil multifunkční zařízení Samsung SCX-3205 a sken jedné strany i s otočením mi trval necelých 20 sekund. 100 stránková kniha tak vyjde přibližně na půl hodiny.

Speciál léto s (e)knihou

Přemýšlíte o elektronických knihách, ale víte o nich málo? Uvažujete nad čtečkou, ale máte pocit, že je ještě příliš brzy? Pak čtěte náš speciál léto s (e)knihou, kde se o elektronických knížkách dozvíte vše podstatné.

Dále budeme samozřejmě potřebovat knihu, kterou budeme chtít skenovat. Doporučuji se dopředu rozhodnout, zda budete chtít převádět i obrázky kvůli nastavení parametrů vstupu. Pro samotný text plně vyhovuje nastavení odstínů šedi, s obrázky nastavíme plnou barevnou škálu.

Dále budeme potřebovat softwarové vybavení. Pro obsluhu skeneru využívám knihovnu Sane (respektive její frontend XSane), jako OCR (Optical Character Recognition- optické rozpoznávání znaků) využívám cuneiform (respektive jeho frontend YAGF). Pro finální opravy a stylizaci textu lze využít libovolný textový editor (já využívám LibreOffice Writer).

Získáváme vstupní data – skenujeme knihu

Jestliže nemáte přístup k A3 skeneru a nemůžete tedy skenovat celou dvojstranu naráz, tak je důležité si v Xsane před začátkem nastavit správné krokování jmen souborů na +2. Jméno souboru na 0001.jpeg a dpi na 200. Pro OCR je tato hodnota dostatečná a velikost souboru je ještě poměrně rozumná.

Nyní si nastavíte knihu do jedné polohy a pomocí náhledu nastavíte skenovanou oblast na kompletní stránku. Pak již jen mačkáte tlačítko Skenovat a otáčíte stránky. Po skončení lichých stránek, knihu otočíte o 180°, resetujete počítadlo na číslo 0002 a pokračujete v najetém úkonu až do konce knihy. Jestliže jste vše udělali správně, máte nyní adresář plný souborů obsahující jednotlivé stránky.

Vždy dbejte na to, aby stránka byla naskenována rovně. Nemusíte pak již obrázky upravovat a OCR je přesnější.

 Převádíme obrázky na text

Nyní přistoupíme k dalšímu kroku. Obrazová data, která jsme získali skenováním knihy potřebujeme převést do textu. Sice už nyní by se kniha dala číst, ale dovolím si tvrdit že pohodlně pouze na desktopu a nebo na zařízeních s větším displejem (třeba na tabletu). Jednou z dalších nevýhod takovéhoto čtení je i celková velikost takové knihy, která při sto stranách přesahuje 50 MB.

Pro převod do textu využívám cuneiform a jeho grafický frontend YAGF. Jedná se o velice jednoduché prostředí, které umožňuje otevření všech souborů naráz (proto bylo důležité, aby soubory se skenem jednotlivých stránek měly po sobě jdoucí číslování) a spuštění hromadného převodu do textu formátovaného HTML. Lze zvolit i formátování TEXT, ale pak přijdete o odsazení odstavců a jestliže chcete mít výsledný text včetně odstavců, tak byste si zbytečně přidělávali práci.

Převod není zrovna nejrychlejší a jestliže se budeme držet našeho výše uvedeného příkladu knihy o rozsahu 100 stran, tak počítejte, že tento převod bude trvat déle než hodinu. Tento úkon se však plně obejde bez vaší asistence, takže je otázka, zda tento čas započítávat do celkového času převodu knihy, protože jej lze efektivně zúročit jinou prací.

Finalizujeme textovou úpravu

Nyní máme tedy knihu v surové podobě a, mohu mluvit ze zkušenosti, poměrně slušně povedené. Viděl jsem a četl knihu, která byla v této fázi převedena do formátu elektronické knihy bez dalších úprav a dala se číst a dočíst. Já však mám rád dobře odvedenou práci, a proto nyní nastupuje LibreOffice Writer a jeho „Kontrola překlepů a gramatiky (F7)“.

Jestliže zjistíte, že se některá chyba pravidelně opakuje, tak doporučuji nastavit automatické nahrazování. Kontrola námi zvolené knihy zabere přibližně 45 minut (podle rozsahu a podle členitosti textu). Po jejím skončení nastupuje kontrola vzhledu. Projíždím jednotlivé stránky a kontroluji, zda jsou odstavce správně odsazeny, zda kurzíva je opravdu kurzívou a zda je zarovnání správně nastaveno. Jestliže máte dostatek času a chcete si ponechat knihu ve formátu LibreOffice, tak si můžete pohrát i s obsahem, číslováním stránek, popisky obrázků a dalšími efekty, které však převodem do jiného formátu zmizí.

Po skončení úprav dostaneme již velice pěknou elektronickou knihu, kterou si můžete uložit do své elektronické knihovny v rozličných formátech. Pro převod můžete použít například již námi zmiňovaný eCub (formáty EPUB a MobiPocket). Já osobně vedu knihovničku ve formátu PDB (pozůstatky z historie, kdy jsem četl knihy na zařízení se Symbianem a Windows Mobile 5). Pro převod do tohoto formátu používám perlový script bibelot, do kterého exportuji kódovaný text z LibreOffice.

Jednoduchým příkazem pak převedu vybraný text do PDB:

$ perl bibelot.pl -t „Jmeno knihy“ zdrojovy_text.txt vystupni_kniha.pdb

Jak to všechno dopadlo?

Ve finále jsme převedli knihu obsahující 100 stran za necelé tři hodiny. Do tohoto času však započítávám i převod OCR (hodina). Jestliže byste tento postup absolvovali častěji a připravili si v textovém editoru styly, tak si dovolím tvrdit, že čistého času, kdy bude nutná vaše reálná přítomnost,  bude potřeba tak hodina a čtvrt. Finálně převedená kniha se dá krásně číst, neobsahuje žádné významné chyby a i po čase se vám bude ve vaší elektronické knihovně dobře vyjímat.

Reklama

Knihkupectví Kanzelsberger – hlavní partner speciálu Léto s (e)knihou

Síť knihkupectví po celé ČR, online prodej. Nabízíme více než 56 000 denně aktualizovaných záznamů knih všech žánrů: beletrie, dětské knihy, učebnice, slovníky, odbornou a technickou literaturu, historie, encyklopedie, hudebniny, mapy a atlasy.

www.kanzelsber­ger.cz | www.facebook.com/kni­hy.kanzelsber­ger

Připravil jsem si pro vás i ukázku výsledku – část knihy Mluvicí balík od Geralda Durrela. Můžete si prvních deset stránek stáhnout v PDF nebo v PDB. Druhý jmenovaný zobrazíte například v programu FBReader.

Odkazy

Ohodnoťte jako ve škole:
Průměrná známka 1,20
Tweetni to Odměnte autora  Jak to funguje?

Vzdělávejte sebe i své lidi





.
  •  
    Firemní školení pro web a online marketing
  • Obsah školení přizpůsobíme na míru vaší firmě.
  • Odnesete si informace, které ihned uplatníte v praxi.

Detailní informace o individuálních školeních pro firmy »

       

Přehled názorů

ABBYY
PRaG 6. 9. 2011 00:32
Nový
├ 
Re: ABBYY
cezz 6. 9. 2011 02:21
Nový
│
└ 
Re: ABBYY
ml 6. 9. 2011 08:07
Nový
│
 
└ 
Re: ABBYY
Radovan Garabík 6. 9. 2011 19:35
Nový
└ 
Re: ABBYY
Sten 6. 9. 2011 12:30
Nový
rucni scannery?
fanoush 6. 9. 2011 02:48
Nový
├ 
Re: rucni scannery?
Jiří 6. 9. 2011 06:20
Nový
│
└ 
Držák na foťák
www TurZin.Cz 6. 9. 2011 17:56
Nový
│
 
└ 
Re: Držák na foťák
Jarda 6. 9. 2011 21:20
Nový
│
 
 
└ 
Re: Držák na foťák
www TurZin.Cz 6. 9. 2011 21:30
Nový
└ 
Re: rucni scannery?
Filip Jirsák 6. 9. 2011 08:47
Nový
DYI BookScanners
Tom 6. 9. 2011 07:15
Nový
Re: Skenování knih a převod do eknih je hračka
motyq 6. 9. 2011 08:03
Nový
└ 
Re: Skenování knih a převod do eknih je hračka
mam 6. 9. 2011 08:10
Nový
 
└ 
Re: Skenování knih a převod do eknih je hračka
pepazdepa 6. 9. 2011 08:59
Nový
 
 
└ 
Re: Skenování knih a převod do eknih je hračka
mam 6. 9. 2011 09:25
Nový
Co to nafotit?
Ondra 6. 9. 2011 08:27
Nový
└ 
Re: Co to nafotit?
xaint 6. 9. 2011 14:00
Nový
Má to smysl?
dolik.rce 6. 9. 2011 09:11
Nový
└ 
Re: Má to smysl?
adam rambousek 6. 9. 2011 09:30
Nový
stroj na skenovani
JS 6. 9. 2011 09:11
Nový
├ 
Re: stroj na skenovani
dolik.rce 6. 9. 2011 09:19
Nový
│
├ 
Re: stroj na skenovani
Jindra Šaur 6. 9. 2011 11:01
Nový
│
├ 
Re: stroj na skenovani
Tonda 6. 9. 2011 12:26
Nový
│
└ 
Re: stroj na skenovani
Sten 6. 9. 2011 12:52
Nový
├ 
Re: stroj na skenovani
Tonda 6. 9. 2011 12:29
Nový
└ 
Re: stroj na skenovani
Patrik Chrz 6. 9. 2011 15:02
Nový
Formát
m@rcus 6. 9. 2011 09:51
Nový
Plustek Opticbook 3600
Peppa 6. 9. 2011 11:00
Nový
Prevod - vice vlaken
Trident 6. 9. 2011 11:30
Nový
My way...
Chochule 6. 9. 2011 12:43
Nový
└ 
Re: My way...
pepak 6. 9. 2011 17:14
Nový
Více jazyků v jednom dokumentu?
skurut 6. 9. 2011 13:31
Nový
Kompilace BETA VERZE - Qt YAGF
www TurZin.Cz 6. 9. 2011 18:17
Nový
└ 
Re: Kompilace BETA VERZE - Qt YAGF
Kamil Pošvic 6. 9. 2011 18:53
Nový
 
├ 
Re: Kompilace BETA VERZE - Qt YAGF
www TurZin.Cz 6. 9. 2011 21:11
Nový
 
│
└ 
YAGF -> Kompilace BETA VERZE -> qt4-dev-tools
www TurZin.Cz 6. 9. 2011 21:36
Nový
 
└ 
yagf-0.8.7-qt-4.6.x
www TurZin.Cz 6. 9. 2011 21:42
Nový
 
 
└ 
Re: yagf-0.8.7-qt-4.6.x
Kamil Pošvic 6. 9. 2011 21:55
Nový
 
 
 
└ 
Re: yagf-0.8.7-qt-4.6.x
www TurZin.Cz 6. 9. 2011 21:59
Nový
 
 
 
 
└ 
Re: yagf-0.8.7-qt-4.6.x
www TurZin.Cz 6. 9. 2011 23:25
Nový
3 hodiny?
mat 7. 9. 2011 04:39
Nový
└ 
Re: 3 hodiny?
jehovista 7. 9. 2011 10:54
Nový
 
└ 
Re: 3 hodiny?
Sten 7. 9. 2011 12:22
Nový
1 korektura je malo
MozziM 9. 9. 2011 18:12
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem