"No application -- not even Acrobat, the proprietary PDF editor made by Adobe, the company that wrote the PDF specifications -- is able to edit more than a single line while preserving format."
Takže přání, co jsou otcem myšlenky, si necháme na jindy...
OCR na to samozřejmě stačí, jen si nejsem jist, jestli na to stačí vývojáři OOo.
To nemyslím nijak ironicky nebo zle, ale tvorbou specializovaných OCR programů se docela úspěšně živí několik firem a asi to bude mít nějaký důvod a každopádně bych to v dohledné době neočekával...
Magická fráze je "preserve format". Jinak řečeno, texty z PDF vyexportuje kde co. Ale buď jako plain text (bez formátování), nebo jako množinu rámců s textem. V PDF není uložena žádná informaco o odstavcích, nadpisech atd. Vše je text s nějakým formátem v nějakém rámci, který má nějakou pozici. Celé to pochopíte ve chvíli, kdy se pokusíte dopsat do odstavce slovo. Začne posouvat řádek doprava, ale nikdy nepřeskočí níže. A pokud ano, tak jen proto, že zvětší rámec a začne přepisovat věci pod ním. Nebo je odsune, což je ještě horší - PDF nijak neříká co je záhlaví a zápatí stránky a asi si dokážete představit, co to udělá, když celý dokument posunete o pár centimetrů dolu. V každém případě to, co člověk vidí jako odstavec, to PDF vidí jako množinu rámců, obvykle po řádcích (někdy ani to ne).
Každopádně si dovedu představit, že někdo konečně udělá konvertor, který se pokusí PDF převést na nějaký jiný formát (ODF) tím, že se pokusí data interpretovat. Tedy pokusí se pospojovat některé rámce do odstavců apod. Výsledkem však bude jinak vypadající dokument a tedy to těžko bude nazvatelné "editace PDF". Ostatně tyhle programy již existují, ale já jsem nepotkal žádný, co by to zvládal alespoň dostatečně. Tedy jeden vlastně ano, ale výstup generoval do RTF, které šlo otevřít jen v MS Word. V jiných programech to byl rozsypaný čaj.
PDF jsem nezkoušel, ale když by ho to bralo stejně jako ze scanneru přes OCR...rozeznat písmena to umí, řádky to nějak pospojuje, odstavce by to mělo taky zvládnout ;) Pak ještě vyexportovat orig. obrázky a dosadit
Jakže se to říká? Představuješ si to jako Hurvínek válku? No, obávám se, že Hurvínek byl ještě celkem realista...
Postup s OCR funguje relativně dobře na jednoduchých textových publikacích - jeden sloupec textu, pevně definované záhlaví/zápatí, minimum obrázků, pokud tabulka, tak jednoduchá atd.
Už v případě poznámek pod čarou začne být sranda (a to se přitom poznámky pod čarou ještě celkem slušně algorytmizují). Jakmile se tam objeví vícesloupcová sazba, různé vkládané rámečky, složitější tabulky atd., tak je OCR v koncích. Prostě nezná tok textu a zatím ještě není tak jednoduché analyzovat tok textu a hlavně zvládnutelné v rozumném čase.
OCR není úplně v koncích, ale umělá inteligence začne čekat na zásah obsluhy. Pak se okamžitě ukáže, že to co člověk vidí okamžitě, počítač ani přibližně nezvládne.
Adobe navrhl do PDF nejake rozsireni, ktere do vysazeneho dokumentu pridalo i dalsi informace prave o textovych odstavcich. Bylo to myslene predevsim pro nasazeni na malych zarizenich (tam se A4 da precist dost tezko), pro hlasove ctecky atd. Ale hlavni je, ze podpora neni vyzadovana, takze kdyz ji nejaky PDF writer nepouzije, tak jsme zase tam, kde predtim :-( Proste je to opravdu prezentacni format, zatim bych od nej nic jineho necekal (ostatne pro otestovani staci malickost - otevrit si libovolne PDF s dvousloupcovou sazbou a zkusit vybrat odstavec :-)
Co vím, tak takováto "obrázkopísmenka" dělal scanovací program od Canonu, přičemž ten text byl z OCRka, bitmapy byly přímo ze scanneru. Připadalo mi to docela dobré, člověk to v pohodě přečte a pokud chci něco z toho textu nakopírovat, tak s chybami a omezeními, ale můžu.
BTW jsem zvědavý, co to udělá z textem z PDFTeXu, až do stáhnu a nainstaluju, dám vědět ... :-)
Pocity smíšené -- kupodivu to správně pochopilo kódování, dopsání příliš žluťoučkého koně je OK, ale nepoužilo to TeXovský font (v názvu má sice css..., ale zobrazuje Arial) a totálně to domršilo délky řádků (to asi souvisí). PDF z OpenOffice to vzalo v pohodě.