Rozšíření OpenOffice pro editaci PDF
4. 7. 2008 8:01
Pavel Chalupa
Na Linux.com vyšel článek věnující se rozšíření OpenOffice.org o možnost editace PDF. Jedná se o rozšíření Sun PDF Import ve stádiu beta verze. Rozšíření je k dispozici pro vývojové verze OpenOffice.org 3.0, který by měl vyjít v září. Toto rozšíření otevírá PDF dokument v aplikaci Draw a jeho největší nevýhodou je, že text je možné upravovat pouze po jednotlivých řádcích, které jsou reprezentovány jako textové objekty.
Dále čtěte…
- Vyšla první betaverze OpenOffice.org 3.3 13. 8. 2010 11:19
- Pět pěkných rozšíření pro OpenOffice.org 13. 7. 2010 12:59
- OpenOffice.org 3.2.1 je již dostupné v češtině 18. 6. 2010 14:12
- Počet stažení OpenOffice.org 3.2 přesáhl 31 milionů 10. 6. 2010 12:59
- Český lokalizační tým OpenOffice.org nutně potřebuje spolupracovníky 7. 5. 2010 15:12
funtom (neregistrovaný)
4. 7. 2008 8:19
Nový
PDF je standardem ISO a lze ho importovat do Google Docs. Očekávám, že ho tam dříve či později půjde i editovat.
4. 7. 2008 9:48
Nový
Re: PDF
celé vlákno
PDF není ISO standardem. ISO standardizací prošla pouze specifická podmnožina PDF (např. PDF-X/1a či PDF-X/3). PDF je velmi široký formát a neustále se vyvíjí.
Neočekávejte ale od editace pdf zázraky. Hrozně záleží na tom, jak bylo pdf vytvořeno a za jakým účelem. Pokud se jedná o finální výstup nebo export z OOo apod., tak tam je už minimum původních kontextových údajů (např. zmizely odstavce) a naopak tam přibyla spousta věcí, které nejsou tak úplně triviální (např. přibalená písma, tedy přesněji jejich podmnožina).
I takový Adobe Illustrator, který má od verze 10 jako interní formát PDF (předtím to byl postscript), nepracuje s každým PDF. Jako svůj formát využívá PDF rozšířené o mnoho věcí, aby byla zachována plná editovatelnost.
Editace PDF fakt není banalita. Je to primárně prezentační formát a je to znát.
Neočekávejte ale od editace pdf zázraky. Hrozně záleží na tom, jak bylo pdf vytvořeno a za jakým účelem. Pokud se jedná o finální výstup nebo export z OOo apod., tak tam je už minimum původních kontextových údajů (např. zmizely odstavce) a naopak tam přibyla spousta věcí, které nejsou tak úplně triviální (např. přibalená písma, tedy přesněji jejich podmnožina).
I takový Adobe Illustrator, který má od verze 10 jako interní formát PDF (předtím to byl postscript), nepracuje s každým PDF. Jako svůj formát využívá PDF rozšířené o mnoho věcí, aby byla zachována plná editovatelnost.
Editace PDF fakt není banalita. Je to primárně prezentační formát a je to znát.
Rejpal (neregistrovaný)
6. 7. 2008 1:30
Nový
Re: PDF
celé vláknoPDF není ISO standardem. ISO standardizací prošla pouze specifická podmnožina PDF (např. PDF-X/1a či PDF-X/3). PDF je velmi široký formát a neustále se vyvíjí.Copak ISO 32000-1:2008 není kompletní PDF 1.7? Samozřejmě nějaká ta extra rozšíření v Acrobatu nepočítám. Ohledně editovatelnosti, tam je nutno souhlasit. Ale už jinde jsem poznamenal, že u určitých typů dokumentů připadá "inteligentní" rekonstrukce připadá ještě celkem v úvahu (ve stylu OCR, s tím, že není třeba rozpozoznávat písmena, ovšem třeba rušit hyphenation a hádat text flow pochopitelně stále ještě nutné je). Nicméně i to pochopitelně bude fungovat jen u opravdu hodně pravidelných dokumentů, typicky knih.
7. 7. 2008 3:19
Nový
Re: PDF
celé vlákno
mno, jednak jsem v době, kdy jsem psal svůj kmentář, ještě o standardizaci PDF 1.7 nevěděl (mea culpa) a jednak jsem celkově vůči tomu silně skeptický. Hlavně proto, protože s PDF denně dělám, zpracovávám ho, vytvářím, upravuji...
Přestože PDF považuju za zatím nejlepší formát v oblasti prezentace dat, je to formát hrozně průserový kvůli šíři možností, které má.
Jedna z věcí, které mne v PDF děsně štve je právě písmo. PDF má čtyři hlavní možnosti, jak písmo vložit a dosud si bohužel většina aplikací (a opensource obzvlášť) vybírá ty nejpitomější dvě - křivky a vlastní znaková sada. V obou případech je text nezpracovatelný bez skutečného OCR. Chápu důvody, proč se tohle ve specifikaci PDF objevilo, ale hrubě s tím nesouhlasím, protože takové PDF je vhodné jen pro tisk a zobrazení. Vyhledávání a další, hlavně sémantické zpracování je velmi obtížné (čtěte nyní prakticky nemožné).
Takový věcí bych z rukávu vysypal patnáct do tuctu. :( V podstatě každé dodané PDF mi vyhodí nějaký problém na preflightu. Tekhle široký formát je prostě obrovské riziko a ani svaté ISO ho nezachrání.
P.S.: PDF se ale nevzdám. Znovu opakuju, že to je pro prezentační účely zatím to nejlepší, co je k dispozici. Bohužel.
Přestože PDF považuju za zatím nejlepší formát v oblasti prezentace dat, je to formát hrozně průserový kvůli šíři možností, které má.
Jedna z věcí, které mne v PDF děsně štve je právě písmo. PDF má čtyři hlavní možnosti, jak písmo vložit a dosud si bohužel většina aplikací (a opensource obzvlášť) vybírá ty nejpitomější dvě - křivky a vlastní znaková sada. V obou případech je text nezpracovatelný bez skutečného OCR. Chápu důvody, proč se tohle ve specifikaci PDF objevilo, ale hrubě s tím nesouhlasím, protože takové PDF je vhodné jen pro tisk a zobrazení. Vyhledávání a další, hlavně sémantické zpracování je velmi obtížné (čtěte nyní prakticky nemožné).
Takový věcí bych z rukávu vysypal patnáct do tuctu. :( V podstatě každé dodané PDF mi vyhodí nějaký problém na preflightu. Tekhle široký formát je prostě obrovské riziko a ani svaté ISO ho nezachrání.
P.S.: PDF se ale nevzdám. Znovu opakuju, že to je pro prezentační účely zatím to nejlepší, co je k dispozici. Bohužel.
Rejpal (neregistrovaný)
8. 7. 2008 23:50
Nový
Re: PDF
celé vlákno
Já myslel, že existence toho standardizačního procesu pro celé PDF 1.7 je veřejně známá. :-) Aspoň mám pocit, že o ní vím minimálně půlrok, pokud ne víc než rok. A co pdfTeX a XeTeX? Pozoroval jste na nich nějaké problémy, pokud Vám něco z nich vylezlého přišlo pod ruku? A nemáme na spolehlivý profi tisk hlavně PDF/X? :-) Jinak můj vztah k PDF je podobný, je to nejlepší ze všech špatných formátů. :-)
Rejpal (neregistrovaný)
9. 7. 2008 0:06
Nový
Re: PDF
celé vlákno
Ha, já to věděl: http://it.slashdot.org/article.pl?sid=07/01/29/1114228 - já tušil, že jsem se to dozvěděl někdy na začátku minulého roku, a trefil jsem se skoro přesně. :]
uživatel si přál zůstat v anonymitě
4. 7. 2008 8:54
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
do buducnosti sa planuje verzia ktora urobi konverziu do Writera, takze nebude problem s editovanim po riadkoch
def (neregistrovaný)
4. 7. 2008 9:12
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
Citace z článku:
"No application -- not even Acrobat, the proprietary PDF editor made by Adobe, the company that wrote the PDF specifications -- is able to edit more than a single line while preserving format."
Takže přání, co jsou otcem myšlenky, si necháme na jindy...
"No application -- not even Acrobat, the proprietary PDF editor made by Adobe, the company that wrote the PDF specifications -- is able to edit more than a single line while preserving format."
Takže přání, co jsou otcem myšlenky, si necháme na jindy...
4. 7. 2008 9:15
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
sice to nepřeložim, ale hádám že OCR(nebo jak se to píše) by mělo pro PDF bohatě stačit, ne?
def (neregistrovaný)
4. 7. 2008 10:11
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
OCR na to samozřejmě stačí, jen si nejsem jist, jestli na to stačí vývojáři OOo.
To nemyslím nijak ironicky nebo zle, ale tvorbou specializovaných OCR programů se docela úspěšně živí několik firem a asi to bude mít nějaký důvod a každopádně bych to v dohledné době neočekával...
To nemyslím nijak ironicky nebo zle, ale tvorbou specializovaných OCR programů se docela úspěšně živí několik firem a asi to bude mít nějaký důvod a každopádně bych to v dohledné době neočekával...
K. (neregistrovaný)
4. 7. 2008 10:22
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
Magická fráze je "preserve format". Jinak řečeno, texty z PDF vyexportuje kde co. Ale buď jako plain text (bez formátování), nebo jako množinu rámců s textem. V PDF není uložena žádná informaco o odstavcích, nadpisech atd. Vše je text s nějakým formátem v nějakém rámci, který má nějakou pozici. Celé to pochopíte ve chvíli, kdy se pokusíte dopsat do odstavce slovo. Začne posouvat řádek doprava, ale nikdy nepřeskočí níže. A pokud ano, tak jen proto, že zvětší rámec a začne přepisovat věci pod ním. Nebo je odsune, což je ještě horší - PDF nijak neříká co je záhlaví a zápatí stránky a asi si dokážete představit, co to udělá, když celý dokument posunete o pár centimetrů dolu. V každém případě to, co člověk vidí jako odstavec, to PDF vidí jako množinu rámců, obvykle po řádcích (někdy ani to ne).
Každopádně si dovedu představit, že někdo konečně udělá konvertor, který se pokusí PDF převést na nějaký jiný formát (ODF) tím, že se pokusí data interpretovat. Tedy pokusí se pospojovat některé rámce do odstavců apod. Výsledkem však bude jinak vypadající dokument a tedy to těžko bude nazvatelné "editace PDF". Ostatně tyhle programy již existují, ale já jsem nepotkal žádný, co by to zvládal alespoň dostatečně. Tedy jeden vlastně ano, ale výstup generoval do RTF, které šlo otevřít jen v MS Word. V jiných programech to byl rozsypaný čaj.
Každopádně si dovedu představit, že někdo konečně udělá konvertor, který se pokusí PDF převést na nějaký jiný formát (ODF) tím, že se pokusí data interpretovat. Tedy pokusí se pospojovat některé rámce do odstavců apod. Výsledkem však bude jinak vypadající dokument a tedy to těžko bude nazvatelné "editace PDF". Ostatně tyhle programy již existují, ale já jsem nepotkal žádný, co by to zvládal alespoň dostatečně. Tedy jeden vlastně ano, ale výstup generoval do RTF, které šlo otevřít jen v MS Word. V jiných programech to byl rozsypaný čaj.
4. 7. 2008 10:29
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
PDF jsem nezkoušel, ale když by ho to bralo stejně jako ze scanneru přes OCR...rozeznat písmena to umí, řádky to nějak pospojuje, odstavce by to mělo taky zvládnout ;) Pak ještě vyexportovat orig. obrázky a dosadit
4. 7. 2008 10:57
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
Jakže se to říká? Představuješ si to jako Hurvínek válku? No, obávám se, že Hurvínek byl ještě celkem realista...
Postup s OCR funguje relativně dobře na jednoduchých textových publikacích - jeden sloupec textu, pevně definované záhlaví/zápatí, minimum obrázků, pokud tabulka, tak jednoduchá atd.
Už v případě poznámek pod čarou začne být sranda (a to se přitom poznámky pod čarou ještě celkem slušně algorytmizují). Jakmile se tam objeví vícesloupcová sazba, různé vkládané rámečky, složitější tabulky atd., tak je OCR v koncích. Prostě nezná tok textu a zatím ještě není tak jednoduché analyzovat tok textu a hlavně zvládnutelné v rozumném čase.
Postup s OCR funguje relativně dobře na jednoduchých textových publikacích - jeden sloupec textu, pevně definované záhlaví/zápatí, minimum obrázků, pokud tabulka, tak jednoduchá atd.
Už v případě poznámek pod čarou začne být sranda (a to se přitom poznámky pod čarou ještě celkem slušně algorytmizují). Jakmile se tam objeví vícesloupcová sazba, různé vkládané rámečky, složitější tabulky atd., tak je OCR v koncích. Prostě nezná tok textu a zatím ještě není tak jednoduché analyzovat tok textu a hlavně zvládnutelné v rozumném čase.
Veterán (neregistrovaný)
4. 7. 2008 11:14
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
OCR není úplně v koncích, ale umělá inteligence začne čekat na zásah obsluhy. Pak se okamžitě ukáže, že to co člověk vidí okamžitě, počítač ani přibližně nezvládne.
risa (neregistrovaný)
4. 7. 2008 19:45
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
anonym napsal: "...celkem slušně algorytmizují..."
Nemá to být náhodou správně "algorytmisují" ?
Nemá to být náhodou správně "algorytmisují" ?
6. 7. 2008 17:30
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
rytmus mají hudebníci, progrmátoři mají algoritmus
7. 7. 2008 22:35
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
No, někdy ani ti muzikanti ne. A já furt, proč ty programy tak skřípou ... :-)
4. 7. 2008 13:06
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
Adobe navrhl do PDF nejake rozsireni, ktere do vysazeneho dokumentu pridalo i dalsi informace prave o textovych odstavcich. Bylo to myslene predevsim pro nasazeni na malych zarizenich (tam se A4 da precist dost tezko), pro hlasove ctecky atd. Ale hlavni je, ze podpora neni vyzadovana, takze kdyz ji nejaky PDF writer nepouzije, tak jsme zase tam, kde predtim :-( Proste je to opravdu prezentacni format, zatim bych od nej nic jineho necekal (ostatne pro otestovani staci malickost - otevrit si libovolne PDF s dvousloupcovou sazbou a zkusit vybrat odstavec :-)
ksfj (neregistrovaný)
4. 7. 2008 11:37
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
no nevim, ale nektere PDFka maji text jako obrazky (bitmapy fontu) a text pod tim je hatlamatilka.
Nektera pdfka maji ceske znaky tako jako obrazek...
No nevidim to moc ruzove.
Nektera pdfka maji ceske znaky tako jako obrazek...
No nevidim to moc ruzove.
4. 7. 2008 11:39
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
ty obrázky místo písmen, to je opravdu horor (vlastní zkušenost)
7. 7. 2008 22:41
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
Co vím, tak takováto "obrázkopísmenka" dělal scanovací program od Canonu, přičemž ten text byl z OCRka, bitmapy byly přímo ze scanneru. Připadalo mi to docela dobré, člověk to v pohodě přečte a pokud chci něco z toho textu nakopírovat, tak s chybami a omezeními, ale můžu.
BTW jsem zvědavý, co to udělá z textem z PDFTeXu, až do stáhnu a nainstaluju, dám vědět ... :-)
BTW jsem zvědavý, co to udělá z textem z PDFTeXu, až do stáhnu a nainstaluju, dám vědět ... :-)
7. 7. 2008 23:43
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
Pocity smíšené -- kupodivu to správně pochopilo kódování, dopsání příliš žluťoučkého koně je OK, ale nepoužilo to TeXovský font (v názvu má sice css..., ale zobrazuje Arial) a totálně to domršilo délky řádků (to asi souvisí). PDF z OpenOffice to vzalo v pohodě.
4. 7. 2008 12:03
Nový
RE: Rozšíření OpenOffice pro editaci PDF
celé vlákno
a tohle je to na co ceka hodne lidi a preju OOo a by nakopal M$O pekne do prdele.
-y- (neregistrovaný)
5. 7. 2008 0:16
Nový
Na čo je to dobré?
celé vlákno
Priznám sa, že nie je mi celkom jasné, načo je dobré editovať PDFko.
Ako hlavnú výhodu PDFka považujem práve to, že je "read only" a že je všade rovnako zobraziteľné a vytlačiteľné. Jednoducho elektronický papier.
Čo však mne osobne veľmi chýba je nejaká free (alebo aspoň zdarma) aplikácia na vkladanie poznámok do PDF, tak ako to umožňuje Acrobat.
Ako hlavnú výhodu PDFka považujem práve to, že je "read only" a že je všade rovnako zobraziteľné a vytlačiteľné. Jednoducho elektronický papier.
Čo však mne osobne veľmi chýba je nejaká free (alebo aspoň zdarma) aplikácia na vkladanie poznámok do PDF, tak ako to umožňuje Acrobat.
plamen (neregistrovaný)
5. 7. 2008 23:52
Nový
Re: Na čo je to dobré?
celé vlákno
Něco jako funkce "Přidat text" v pdfedit (http://pdfedit.petricek.net)?
7. 7. 2008 23:36
Nový
Re: Na čo je to dobré?
celé vlákno
Napadá mě třeba formulář z netu v PDF ... sice používám PdfTeX, kde formulář použiju jako podklad, ale je to dost otravně pracné, takže třeba tak ... :-)

