Hm ... odpoved je jednoducha: virtualbox + WinXP + ABBYY FineReader 9 nebo 10 = eKniha.
Názory k článku
Skenování knih a převod do eknih je hračka
Re: ABBYY
celé vláknoVyzera, ze samotny engine ABBYY je aj na linux. Kazdopadne cuneiform vyzera byt dost kvalitny OCR engine. Nepodarilo sa mi najst nejake rozumne porovnanie tychto dvoch (a pripadne inych) OCR enginov, asi treba pripadne skusit.
Ja by som to pomerne casto pouzil pri prevode PDF do nejakeho ebook formatu, nevedel som, ze OCR-ka zvladaju uz tak kvalitne detekovat odstavce, odrazky a podobne. Na samotnej detekcii textu v pripade PDF asi nezalezi.
Re: ABBYY
celé vláknoJa som tiež našiel nejaké odkazy na ABBYY pod linuxom, ale keď som napísal priamo predajcovi, tak som dostal odpoveď, že ABBYY pod linuxom nepredávajú. Skúšal som rôzne OCR pod linuxom, ale žiadny sa nevyrovná ABBYY Fine Readerovi. Ani kvalitou výstupu, ani ovládaním. Sú viac-menej použiteľné len na menšie texty, kde nie je problém následne si chyby opravovať.
Re: ABBYY
celé vláknoABBYY pre linux existuje už pár rokov... hneď sme po ňom skočili, ABBYY (a scaner s win-only ovládačom) bol jediný dôvod, prečo sme v práci mali posledné 2ks počítačov s windows.
Licencia je o dosť odlišná od ABBYY for Windows (na počet strán na rok, pri registrácii sa kontroluje hardware a dovolí len jednu inštaláciu - to sme ale vyriešili inštaláciou do kvm :-)), a teda cena je niekde inde.
Funguje skvele, ale je ukážkový príklad, ako NEpísať CLI programy - veľmi veľa parametrov pri spúšťaní, na ich poradí záleží, GNU konvenciu to nedodržiava, do pipe sa dať nedá...
Re: ABBYY
celé vláknoFineReader funguje ve Wine. Akorát skenování je nutné provést přes linuxový nástroj. Možná by fungovalo nainstalovat Twain a Sane-Twain bridge, ale nezkoušel jsem.
rucni scannery?
celé vláknoPouzivate nekdo na podobnou vec nejaky rucni scanner? Ani nevim jestli nejake rozumne existujou nebo jestli to v praxi funguje ale vzdycky me u podobneho prevodu odrazovalo to vecne otaceni knizek smerem dolu na scanner a zase zpet a ze se mi poskodi vazba knihy.
Re: rucni scannery?
celé vláknoTeď jsem to zkoušel, v pátek mi to přišlo od Conradu, ale budu to vracet. Funguje dobře, ale u většiny knih mám problém se dostat na písmenka blízko hřbetu a problém často dělal i horní nebo dolní okraj stránky. Ne všechny knihy jsou vysázeny ideálně. Ten skener počítá s levým/pravým okrajem 1,2 a 2,5 cm. Další problém je, že válečky jsou od snímače vzdáleny 1,4 cm a když se přestanou otáčet, snímání je ukončeno - následkem je opět necelý horní/dolní okraj, podle směru snímání. A ještě jeden problém, možná mám walshový ruce, ale nedaří se mi udržet stránku tak aby byla v klidu a neuhýbala pod taženým skenerem, zvláště, když to musí být všelijak vypodložené aby stránky ležely rovně.
Vypadá to, že jako majitel digitálního fotoaparátu, si vyrobím nějaký držák knih tak, aby knihu držel otevřenou v úhlu 90° v ose objektivu...
Držák na foťák
celé vláknonezapomeň na speciální závit co mají foťáky, bacha, ať tam nenarveš M5 nebo M6 co tam naoko 'skoro' pasuje. Pak stačí primitivni rameno ze dřeva co do bude držet nad knížkou. Dobrý je knížku polootevřít, tak na 120stupňů a fotit tak kolmo na pěkně otevřenou málo ohnutou stránku. a moc s tím nehýbat a vzít nejdřív sudý a pak lichý stránky. klidně otočený - zapíram knihu o kraj ramene pod foťákem ať je pořád ve stejné poloze. Potom to na komplu zkombinovat MASS RENAME nástrojama, případně dootočit na commandlině 'mogrify *.JPG -rotate 270' a bohužel potom zpracovat a to zatím pouze ABBYY ve virtualboxu
Re: Držák na foťák
celé vláknoTen závit je palcový, UNC, konkrétně 1/4-20 nebo u velkých foťáků či kamer 3/8-16. První číslo je průměr (tj. 6,35 mm nebo 9,53 mm), druhé stoupání (závitů na palec čili 1,27 mm nebo 1,59 mm). Dříve se používal klasický Whitworth, s UNC je ale kompatibilní (u foťáků, ne v přesném strojírenství) ;-).
Re: Držák na foťák
celé vláknohlavě bacha na M6, mrška jedna tak jednu otáčku tam do toho plastovýho /na mým super ultra haxorovským foťáku s miliardou hustejch megapixelů/ závitu zaleze, dokonce by se zdálo, že je potřeba jenom trošku zabrat a je tam :)
Re: rucni scannery?
celé vláknoPoužívám VuPoint Solutions Magic Wand Portable Scanner. Většina knížek má úzké okraje, takže je potřeba skenovat od hřbetu ke kraji, někdy jsem pak pod skenovanou stránku vkládal tvrdší papír, po kterém skener dojede ven ze stránky (když je vnější okraj příliš úzký).
V případě úzkých okrajů je to skenování asi stejně pomalé, jako na skenování z plochy, ale podle mne takhle jdou bez zničení vazby naskenovat i knížky, které jsou sázené hodně ke hřbetu, a na ploše skeneru by je nešlo pořádně rozevřít. Když jsou okraje širší a není nutné být tak pečlivý, jde to podle mne rychleji. Každopádně se vyplatí být pečlivý při skenování a jít „na jistotu“ že chytnu i ta krajní písmenka, než pak v OCR mazat zbytky prvního písmene a doplňovat je. Zatím jsem takhle naskenoval myslím tři knížky, problém s okraji byl u jedné, kdy jsem si u pá stránek ve středu knížky nedal pozor a krajní písmenka byla naskenovaná v oblouku. Ale sousední stránky byly vpořádku, takže to byl opravdu jen problém malé pečlivosti při skenování.
Perfektní je to ale třeba na naskenování článků z časopisu v prezenční knihovně – skener je na tužkové baterky a ukládá na paměťovou kartu, takže „venku“ stačí ten skener, a pak si to doma v klidu přetáhnu do počítače.
DYI BookScanners
celé vláknostudy http://www.diybookscanner.org/ :)
Re: Skenování knih a převod do eknih je hračka
celé vláknonedavno (cca rok?) tu byl clanek ohledne korekce nascanovanych knih, tedy vylepseni tmavnuti textu smerem ke hrbetu, narovnani "zakrivenych" radku textu smerem ke hrbetu, atd... Ale nejak to nemuzu najit.
Mozna kdyby se ty dva navody spojily tak by byl vysledek jeste lepsi :)
Re: Skenování knih a převod do eknih je hračka
celé vláknoOdporucam scantailor, git verzia vie narovnavat aj zakrivene strany, vystupy su perfektne.
Re: Skenování knih a převod do eknih je hračka
celé vláknotakze neco jako unpaper jake pro klikace?
Re: Skenování knih a převod do eknih je hračka
celé vláknoano scantailor ma gui aj cli, tu opravu zakrivenia ma uz najnovsia verzia 0.9.10 pod output - dewarping
Co to nafotit?
celé vláknoZkoušel jsem před časem místo skeneru použít digitání fotoaparát (žádné megapráskové dělo, jen slušný kompakt), fotil jsem normálně z ruky za denního světla. Výsledek převodu v ABBYY Fine Readeru byl překvapivě dobrý, plně srovnatelný s OCR ze skenované předlohy. A samozřejmě je fotografování několikrát rychlejší a nesrovnatelně šetrnější ke knize než skener, protože jí nelámu hřebet a vlastně s ní po celou dobu skoro nepohnu, jen obracím stránky. Navíc u knih, které nejdou u hřbetu dobře rozevřít, je výsledek o kus lepší než u skenu - skener text blízko hřbetu obvykle zdeformuje tak, že si s tím OCR často neporadí, u fotek tenhle problém skoro nenastal.
Re: Co to nafotit?
celé vláknona ocr pouzivam jedine poradny fotak, nasazim kolem stolni lampicky kvuli poradnemu svetlu a pak uz jedem - manzelka foti, ja otacim, 200strankova knizka kvalitne nafocena behem cca pul hodinky. Proste jen listujete a partner cvaka. Jsou tam sice videt spicky prstyu, ale to se da vymazat :-)
Má to smysl?
celé vláknoNávod je to pěkný, jen si nejsem jistý zda bych to někdy smyslplně upotřebil. Přijde mi, že v naprosté většině případů je pro mě jednodušší si tu 100 stránkovou knihu za dvě hodiny přečíst v "analogové formě", než ji tři hodiny skenovat a pak ještě číst. Asi to má smysl jen u knih kde vím že je budu číst víckrát, případně že je bude kromě mě číst ještě někdo další (ale pozor na legálnost takového počínání ;-) ).
Re: Má to smysl?
celé vláknonebo prostě stáhnout, nabídka naskenovaných knih je velká :)
stroj na skenovani
celé vláknoNevite, jestli na to skenovani neni nejaky stroj? Uvazoval jsem o skeneru s automatickym podavacem, ale to bych musel tu knizku znicit.
Re: stroj na skenovani
celé vláknoSamozřejmě že existuje, dokonce se dá postavit po domácku.
Re: stroj na skenovani
celé vláknoLike a boss :)
Re: stroj na skenovani
celé vláknoTaky mi přijde nejjednodušší uříznout hřbet a pak použít scanner s podavačem.
Re: stroj na skenovani
celé vláknoV nejake tv reportazi jsem videl takovy stroj. Kniha se do nej pokladala hrbetem dolu a resil dokonce i jeji naklaneni, aby skener co nejlepe "zajel" do hrbetu. Na knize byla videt linka od zeleneho laseru, jak po ni prejizdi (svisla cara prejizdejici z levejo konce liche stranky k pravemu konci sude). Jen nevim, jestli to melo vyresene i otaceni.
Jinak souhlas, ze u vetsi knizky bude jednodussi fotak na stativu.
Formát
celé vlákno"Jméno souboru na 0001.jpeg a dpi na 200."
Síce robím na Windows, ale pre ABBYY FineReader (prevod na verzii 8.0 Corporate edition v robote pre pracovné účely, prevádzal som max. 20 strán naraz) sa mi osvedčilo nastavenie 300 dpi a komprimovaný tiff, gif alebo png, 2 farby (BW) alebo 16 odtieňov šedej. Vždy išlo len o texty, nie o obrázky. A na texty je jpeg vyslovene nevhodný a zbytočný - je to formát na fotky (a preto v texte rozostrí hrany a v tomot prípade produkuje väčšie súbory než správne nastavený tiff, gif, png).
Plustek Opticbook 3600
celé vláknoNa knihy je dobrý Plustek Opticbook 3600, snímač je blízko hrany zařízení.
Prevod - vice vlaken
celé vláknoUmi to vicevlanovy prevod? Cekat hodinu jen kvuli tomu ze autor zaspal dobu se mi nechce.
My way...
celé vláknoČasto najdu v antikvariátu nějakou 'pecku' za 'kačku'. Tam to řeším tak, že:
1. odpreparuji pevné desky
2. odříznu hřbet řezačkou, v nouzi skalpelem podle pravítka. Při řezání dvakrát měřte, protože jsem si u jedné knížky takto ufiknul na některých listech první písmenka a ty korektury (v textu byly slangové holandsko-finské námořnické hlášky) pak stály skutečně za to ;-)
3. proženu volné listy skenerem s podavačem. Napřed liché a pak sudé. Rozlišení 600 DPI, místa na to je dost, ve finále se to stejně smaže.
4. zkontroluji, zda sedí číslování stránek a skenů, usnadňuje to následné korektury, případné nedostatky IHNED řeším.
Zbytek dle vašich preferencí, já používám FineReader, archivuji v DOC/DOCX. Zpravidla si s knihou dost pohraji, těch hodin na ní strávím více. Do Kindla posílám emailem (subject:Convert) přes Amazon.
x-1. po nějakém čase, zpravidla po přečtení ebooku a případných opravách, odložím zbytek knihy do sběru.
x. A jelikož chci také přispět ke společnému dílu, z kterého také často čerpám, tak pošlu knížku do nějaké 'veřejné' knihovny.
Re: My way...
celé vláknoPřipadá mi barbarské ničit knížku jenom proto, abych ušetřil hodinu času na skenování - zvlášť když si uvědomím, že pak strávím pár hodin čištěním HTML a pár dní korekturami.
Plus se mi nechce ničit knížky, které už neseženu, nebo za neúměrných obětí.
Více jazyků v jednom dokumentu?
celé vláknoJak fungují dnešní OCR systémy při rozpoznávání naskenovaných dokumentů, ve kterých je více jazyků? Kdysi dávno (ale přiznávám, už hodně dávno) jsem to vyzkoušel a nějak to moc nefungovalo. Od té doby věci, které skenuji, OCRkem neproháním právě proto, že většina knih/článků, které si potřebuji naskenovat, obsahuje více jazyků (často mám v rámci jednoho dokumentu části nebo třeba i jen slova anglicky, německy, francouzsky, latinsky a starořecky) a následná úprava nerozpoznaných a špatně převedených slov by byla tak zdlouhavá a pracná, že to prostě nemá cenu.
Je v této oblasti nějaký pokrok? Má smysl to zase vyzkoušet, nebo je to zbytečná námaha?
Předem díky
Kompilace BETA VERZE - Qt YAGF
celé vláknoMohl by někdo popsat, jak je možné ten YAGF zkompilovat.
http://symmetrica.net/cuneiform-linux/yagf-en.html
nějak to nemůžu najít v doku, ani v rozbaleným archivu, náhodné zběsilé [configure/make/make install ani qmake QT-4 kejkle] nevede ke kýžené kompilaci
Re: Kompilace BETA VERZE - Qt YAGF
celé vlákno
sudo apt-get install libaspell-dev
cmake .
make
make clean
Re: Kompilace BETA VERZE - Qt YAGF
celé vlákno20:20:20 ~/Desktop/yagf-0.8.7 -> cmake .
CMake Error at /usr/share/cmake-2.8/Modules/FindQt4.cmake:673 (MESSAGE):
Could NOT find QtCore header
Call Stack (most recent call first):
CMakeLists.txt:14 (find_package)
-- Configuring incomplete, errors occurred!
YAGF -> Kompilace BETA VERZE -> qt4-dev-tools
celé vláknoaha, takže to potřebuje ###qt4-dev-tools###
apt-get install qt4-dev-tools
cmake .
yagf-0.8.7/src/qxtgraphicsproxywidget.cpp: In member function ‘virtual QVariant QXtGraphicsProxyWidget::itemChange(QGraphicsItem::GraphicsItemChange, const QVariant&)’:
yagf-0.8.7/src/qxtgraphicsproxywidget.cpp:48: error: ‘ItemScaleChange’ is not a member of ‘QGraphicsItem’
yagf-0.8.7/src/qxtgraphicsproxywidget.cpp:51: error: ‘ItemRotationChange’ is not a member of ‘QGraphicsItem’
make[2]: *** [CMakeFiles/yagf.dir/src/qxtgraphicsproxywidget.cpp.o] Error 1
make[1]: *** [CMakeFiles/yagf.dir/all] Error 2
make: *** [all] Error 2
aja jaj....
yagf-0.8.7-qt-4.6.x
celé vláknoyagf-0.8.7-qt-4.6.x
tak jo, už to jede, chce to stáhnout a rozbalit a zkusit zkompilovat tu verzi ###yagf-0.8.7-qt-4.6.x### možná následující řádky někomu ušetří čas:::
wget http://symmetrica.net/cuneiform-linux/yagf-0.8.7-qt.4.6.x.tar.gz
tar -xzvf yagf-0.8.7-qt.4.6.x.tar.gz
cd yagf-0.8.7-qt-4.6.x
sudo apt-get install libaspell-dev qt4-dev-tools
cmake .
make
sudo make clean
Re: yagf-0.8.7-qt-4.6.x
celé vláknojj, u toho linku na stažení je to napsáno, že pro uživatele Qt 4.6.x je potřeba ta druhá verze. Já používám Qt 4.7.2.
Re: yagf-0.8.7-qt-4.6.x
celé vláknook, už to jede, ale otevřeně, ten program je učiněné neštěstí, zlatej ABBYY, knížka je trochu ohnutá a to neštestí normálně vyhazuje celý řádky pryč jako by se nechumelilo. Množství nastavení mluví za vše.
Hoďte někdo ten ABBYY pod linux na nějakej torrent :)
Re: yagf-0.8.7-qt-4.6.x
celé vláknotestovací stránka:
http://www.uloz.to/10193329/246-jpg
3 hodiny?
celé vláknoChtěl bych být linuxáček a mít čas takhle blbnout. Chápu, že studentíci informatiky nebo správci linux serveru mají prd co na práci, ale 3 hodinu se drbat s jednou knihou je nesmysl ....
Re: 3 hodiny?
celé vláknoA ted si predstav treba ty blazny, kteri se cely rok staraji o zahradku, aby z toho pak meli par kilo mrkve a cesneku. Vzdyt si muzou zajit do obchodu a vse si pohodlne koupit.
Ti tezko presvedci MS-certified chief account managera, MBA o tom, ze je to bavi. On totiz vi, ze nejlepsi je intenzivni odpocinek u golfu a na squashi. Ten vi jak spravne zit.
Re: 3 hodiny?
celé vláknoPro MS certified lidi je nejlepší odpočinek u Next, Accept, Next, Next, Finish :-)
1 korektura je malo
celé vláknoTvrzeni, ze staci nechat nascanovanou knizku projet automatickou korekci a staci to, je imho nesmysl. Podle mých zkuseností teprve po cca 3. manualni korekture (pote,co co na to pustite automat), od nekolika lidi, zacina byt trochu k svetu. Jinak na scanovani bych rekl, za nejlepsi by byl nejaky knizni scanner od Plusteku (pokud mluvime o levnem a rychlem reseni).

