Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia Tuesday TopDrive KupDnes Navrcholu Bomba NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Hlavní navigace

Rozšíření OpenOffice pro editaci PDF

Na Linux.com vyšel článek věnující se rozšíření OpenOffice.org o možnost editace PDF. Jedná se o rozšíření Sun PDF Import ve stádiu beta verze. Rozšíření je k dispozici pro vývojové verze OpenOffice.org 3.0, který by měl vyjít v září. Toto rozšíření otevírá PDF dokument v aplikaci Draw a jeho největší nevýhodou je, že text je možné upravovat pouze po jednotlivých řádcích, které jsou reprezentovány jako textové objekty.

Předchozí zprávička Následující zprávička        
funtom
funtom (neregistrovaný)
4. 7. 2008 8:19 Nový

PDF

celé vlákno
PDF je standardem ISO a lze ho importovat do Google Docs. Očekávám, že ho tam dříve či později půjde i editovat.
pan anonym aura:96
4. 7. 2008 9:48 Nový

Re: PDF

celé vlákno
PDF není ISO standardem. ISO standardizací prošla pouze specifická podmnožina PDF (např. PDF-X/1a či PDF-X/3). PDF je velmi široký formát a neustále se vyvíjí.

Neočekávejte ale od editace pdf zázraky. Hrozně záleží na tom, jak bylo pdf vytvořeno a za jakým účelem. Pokud se jedná o finální výstup nebo export z OOo apod., tak tam je už minimum původních kontextových údajů (např. zmizely odstavce) a naopak tam přibyla spousta věcí, které nejsou tak úplně triviální (např. přibalená písma, tedy přesněji jejich podmnožina).

I takový Adobe Illustrator, který má od verze 10 jako interní formát PDF (předtím to byl postscript), nepracuje s každým PDF. Jako svůj formát využívá PDF rozšířené o mnoho věcí, aby byla zachována plná editovatelnost.

Editace PDF fakt není banalita. Je to primárně prezentační formát a je to znát.
Rejpal
Rejpal (neregistrovaný)
6. 7. 2008 1:30 Nový

Re: PDF

celé vlákno
PDF není ISO standardem. ISO standardizací prošla pouze specifická podmnožina PDF (např. PDF-X/1a či PDF-X/3). PDF je velmi široký formát a neustále se vyvíjí.
Copak ISO 32000-1:2008 není kompletní PDF 1.7? Samozřejmě nějaká ta extra rozšíření v Acrobatu nepočítám. Ohledně editovatelnosti, tam je nutno souhlasit. Ale už jinde jsem poznamenal, že u určitých typů dokumentů připadá "inteligentní" rekonstrukce připadá ještě celkem v úvahu (ve stylu OCR, s tím, že není třeba rozpozoznávat písmena, ovšem třeba rušit hyphenation a hádat text flow pochopitelně stále ještě nutné je). Nicméně i to pochopitelně bude fungovat jen u opravdu hodně pravidelných dokumentů, typicky knih.
pan anonym aura:96
7. 7. 2008 3:19 Nový

Re: PDF

celé vlákno
mno, jednak jsem v době, kdy jsem psal svůj kmentář, ještě o standardizaci PDF 1.7 nevěděl (mea culpa) a jednak jsem celkově vůči tomu silně skeptický. Hlavně proto, protože s PDF denně dělám, zpracovávám ho, vytvářím, upravuji...

Přestože PDF považuju za zatím nejlepší formát v oblasti prezentace dat, je to formát hrozně průserový kvůli šíři možností, které má.

Jedna z věcí, které mne v PDF děsně štve je právě písmo. PDF má čtyři hlavní možnosti, jak písmo vložit a dosud si bohužel většina aplikací (a opensource obzvlášť) vybírá ty nejpitomější dvě - křivky a vlastní znaková sada. V obou případech je text nezpracovatelný bez skutečného OCR. Chápu důvody, proč se tohle ve specifikaci PDF objevilo, ale hrubě s tím nesouhlasím, protože takové PDF je vhodné jen pro tisk a zobrazení. Vyhledávání a další, hlavně sémantické zpracování je velmi obtížné (čtěte nyní prakticky nemožné).

Takový věcí bych z rukávu vysypal patnáct do tuctu. :( V podstatě každé dodané PDF mi vyhodí nějaký problém na preflightu. Tekhle široký formát je prostě obrovské riziko a ani svaté ISO ho nezachrání.


P.S.: PDF se ale nevzdám. Znovu opakuju, že to je pro prezentační účely zatím to nejlepší, co je k dispozici. Bohužel.
Rejpal
Rejpal (neregistrovaný)
8. 7. 2008 23:50 Nový

Re: PDF

celé vlákno
Já myslel, že existence toho standardizačního procesu pro celé PDF 1.7 je veřejně známá. :-) Aspoň mám pocit, že o ní vím minimálně půlrok, pokud ne víc než rok. A co pdfTeX a XeTeX? Pozoroval jste na nich nějaké problémy, pokud Vám něco z nich vylezlého přišlo pod ruku? A nemáme na spolehlivý profi tisk hlavně PDF/X? :-) Jinak můj vztah k PDF je podobný, je to nejlepší ze všech špatných formátů. :-)
Rejpal
Rejpal (neregistrovaný)
9. 7. 2008 0:06 Nový

Re: PDF

celé vlákno
Ha, já to věděl: http://it.slashdot.org/article.pl?sid=07/01/29/1114228 - já tušil, že jsem se to dozvěděl někdy na začátku minulého roku, a trefil jsem se skoro přesně. :]
uživatel si přál zůstat v anonymitě
4. 7. 2008 8:54 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
do buducnosti sa planuje verzia ktora urobi konverziu do Writera, takze nebude problem s editovanim po riadkoch
def
def (neregistrovaný)
4. 7. 2008 9:12 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
Citace z článku:

"No application -- not even Acrobat, the proprietary PDF editor made by Adobe, the company that wrote the PDF specifications -- is able to edit more than a single line while preserving format."

Takže přání, co jsou otcem myšlenky, si necháme na jindy...
Michal Kundrát aura:64
4. 7. 2008 9:15 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
sice to nepřeložim, ale hádám že OCR(nebo jak se to píše) by mělo pro PDF bohatě stačit, ne?
def
def (neregistrovaný)
4. 7. 2008 10:11 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
OCR na to samozřejmě stačí, jen si nejsem jist, jestli na to stačí vývojáři OOo.
To nemyslím nijak ironicky nebo zle, ale tvorbou specializovaných OCR programů se docela úspěšně živí několik firem a asi to bude mít nějaký důvod a každopádně bych to v dohledné době neočekával...
K.
K. (neregistrovaný)
4. 7. 2008 10:22 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
Magická fráze je "preserve format". Jinak řečeno, texty z PDF vyexportuje kde co. Ale buď jako plain text (bez formátování), nebo jako množinu rámců s textem. V PDF není uložena žádná informaco o odstavcích, nadpisech atd. Vše je text s nějakým formátem v nějakém rámci, který má nějakou pozici. Celé to pochopíte ve chvíli, kdy se pokusíte dopsat do odstavce slovo. Začne posouvat řádek doprava, ale nikdy nepřeskočí níže. A pokud ano, tak jen proto, že zvětší rámec a začne přepisovat věci pod ním. Nebo je odsune, což je ještě horší - PDF nijak neříká co je záhlaví a zápatí stránky a asi si dokážete představit, co to udělá, když celý dokument posunete o pár centimetrů dolu. V každém případě to, co člověk vidí jako odstavec, to PDF vidí jako množinu rámců, obvykle po řádcích (někdy ani to ne).

Každopádně si dovedu představit, že někdo konečně udělá konvertor, který se pokusí PDF převést na nějaký jiný formát (ODF) tím, že se pokusí data interpretovat. Tedy pokusí se pospojovat některé rámce do odstavců apod. Výsledkem však bude jinak vypadající dokument a tedy to těžko bude nazvatelné "editace PDF". Ostatně tyhle programy již existují, ale já jsem nepotkal žádný, co by to zvládal alespoň dostatečně. Tedy jeden vlastně ano, ale výstup generoval do RTF, které šlo otevřít jen v MS Word. V jiných programech to byl rozsypaný čaj.
Michal Kundrát aura:64
4. 7. 2008 10:29 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
PDF jsem nezkoušel, ale když by ho to bralo stejně jako ze scanneru přes OCR...rozeznat písmena to umí, řádky to nějak pospojuje, odstavce by to mělo taky zvládnout ;) Pak ještě vyexportovat orig. obrázky a dosadit
pan anonym aura:96
4. 7. 2008 10:57 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
Jakže se to říká? Představuješ si to jako Hurvínek válku? No, obávám se, že Hurvínek byl ještě celkem realista...


Postup s OCR funguje relativně dobře na jednoduchých textových publikacích - jeden sloupec textu, pevně definované záhlaví/zápatí, minimum obrázků, pokud tabulka, tak jednoduchá atd.

Už v případě poznámek pod čarou začne být sranda (a to se přitom poznámky pod čarou ještě celkem slušně algorytmizují). Jakmile se tam objeví vícesloupcová sazba, různé vkládané rámečky, složitější tabulky atd., tak je OCR v koncích. Prostě nezná tok textu a zatím ještě není tak jednoduché analyzovat tok textu a hlavně zvládnutelné v rozumném čase.
Veterán
Veterán (neregistrovaný)
4. 7. 2008 11:14 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
OCR není úplně v koncích, ale umělá inteligence začne čekat na zásah obsluhy. Pak se okamžitě ukáže, že to co člověk vidí okamžitě, počítač ani přibližně nezvládne.
risa
risa (neregistrovaný)
4. 7. 2008 19:45 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
anonym napsal: "...celkem slušně algorytmizují..."

Nemá to být náhodou správně "algorytmisují" ?
Christof aura:89
6. 7. 2008 17:30 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
rytmus mají hudebníci, progrmátoři mají algoritmus
Stanislav Brožek
7. 7. 2008 22:35 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
No, někdy ani ti muzikanti ne. A já furt, proč ty programy tak skřípou ... :-)
Pavel Tišnovský aura:98
4. 7. 2008 13:06 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
Adobe navrhl do PDF nejake rozsireni, ktere do vysazeneho dokumentu pridalo i dalsi informace prave o textovych odstavcich. Bylo to myslene predevsim pro nasazeni na malych zarizenich (tam se A4 da precist dost tezko), pro hlasove ctecky atd. Ale hlavni je, ze podpora neni vyzadovana, takze kdyz ji nejaky PDF writer nepouzije, tak jsme zase tam, kde predtim :-( Proste je to opravdu prezentacni format, zatim bych od nej nic jineho necekal (ostatne pro otestovani staci malickost - otevrit si libovolne PDF s dvousloupcovou sazbou a zkusit vybrat odstavec :-)
ksfj
ksfj (neregistrovaný)
4. 7. 2008 11:37 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
no nevim, ale nektere PDFka maji text jako obrazky (bitmapy fontu) a text pod tim je hatlamatilka.

Nektera pdfka maji ceske znaky tako jako obrazek...

No nevidim to moc ruzove.
Michal Kundrát aura:64
4. 7. 2008 11:39 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
ty obrázky místo písmen, to je opravdu horor (vlastní zkušenost)
Stanislav Brožek
7. 7. 2008 22:41 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
Co vím, tak takováto "obrázkopísmenka" dělal scanovací program od Canonu, přičemž ten text byl z OCRka, bitmapy byly přímo ze scanneru. Připadalo mi to docela dobré, člověk to v pohodě přečte a pokud chci něco z toho textu nakopírovat, tak s chybami a omezeními, ale můžu.
BTW jsem zvědavý, co to udělá z textem z PDFTeXu, až do stáhnu a nainstaluju, dám vědět ... :-)
Stanislav Brožek
7. 7. 2008 23:43 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
Pocity smíšené -- kupodivu to správně pochopilo kódování, dopsání příliš žluťoučkého koně je OK, ale nepoužilo to TeXovský font (v názvu má sice css..., ale zobrazuje Arial) a totálně to domršilo délky řádků (to asi souvisí). PDF z OpenOffice to vzalo v pohodě.
zer01 zer01
4. 7. 2008 12:03 Nový

RE: Rozšíření OpenOffice pro editaci PDF

celé vlákno
a tohle je to na co ceka hodne lidi a preju OOo a by nakopal M$O pekne do prdele.
-y-
-y- (neregistrovaný)
5. 7. 2008 0:16 Nový

Na čo je to dobré?

celé vlákno
Priznám sa, že nie je mi celkom jasné, načo je dobré editovať PDFko.
Ako hlavnú výhodu PDFka považujem práve to, že je "read only" a že je všade rovnako zobraziteľné a vytlačiteľné. Jednoducho elektronický papier.

Čo však mne osobne veľmi chýba je nejaká free (alebo aspoň zdarma) aplikácia na vkladanie poznámok do PDF, tak ako to umožňuje Acrobat.
plamen
plamen (neregistrovaný)
5. 7. 2008 23:52 Nový

Re: Na čo je to dobré?

celé vlákno
Něco jako funkce "Přidat text" v pdfedit (http://pdfedit.petricek.net)?
Stanislav Brožek
7. 7. 2008 23:36 Nový

Re: Na čo je to dobré?

celé vlákno
Napadá mě třeba formulář z netu v PDF ... sice používám PdfTeX, kde formulář použiju jako podklad, ale je to dost otravně pracné, takže třeba tak ... :-)
Zasílat nově přidané příspěvky e-mailem        

Přehled názorů

PDF
funtom 4. 7. 2008 08:19
└ 
Re: PDF
pan anonym 4. 7. 2008 09:48
 
└ 
Re: PDF
Rejpal 6. 7. 2008 01:30
 
 
└ 
Re: PDF
pan anonym 7. 7. 2008 03:19
 
 
 
├ 
Re: PDF
Rejpal 8. 7. 2008 23:50
 
 
 
└ 
Re: PDF
Rejpal 9. 7. 2008 00:06
RE: Rozšíření OpenOffice pro editaci PDF
anonymní uživatel 4. 7. 2008 08:54
├ 
RE: Rozšíření OpenOffice pro editaci PDF
def 4. 7. 2008 09:12
│
└ 
RE: Rozšíření OpenOffice pro editaci PDF
Michal Kundrát 4. 7. 2008 09:15
│
 
├ 
RE: Rozšíření OpenOffice pro editaci PDF
def 4. 7. 2008 10:11
│
 
├ 
RE: Rozšíření OpenOffice pro editaci PDF
K. 4. 7. 2008 10:22
│
 
│
├ 
RE: Rozšíření OpenOffice pro editaci PDF
Michal Kundrát 4. 7. 2008 10:29
│
 
│
│
└ 
RE: Rozšíření OpenOffice pro editaci PDF
pan anonym 4. 7. 2008 10:57
│
 
│
│
 
├ 
RE: Rozšíření OpenOffice pro editaci PDF
Veterán 4. 7. 2008 11:14
│
 
│
│
 
└ 
RE: Rozšíření OpenOffice pro editaci PDF
risa 4. 7. 2008 19:45
│
 
│
│
 
 
└ 
RE: Rozšíření OpenOffice pro editaci PDF
Christof 6. 7. 2008 17:30
│
 
│
│
 
 
 
└ 
RE: Rozšíření OpenOffice pro editaci PDF
Stanislav Brožek 7. 7. 2008 22:35
│
 
│
└ 
RE: Rozšíření OpenOffice pro editaci PDF
Pavel Tišnovský 4. 7. 2008 13:06
│
 
└ 
RE: Rozšíření OpenOffice pro editaci PDF
ksfj 4. 7. 2008 11:37
│
 
 
└ 
RE: Rozšíření OpenOffice pro editaci PDF
Michal Kundrát 4. 7. 2008 11:39
│
 
 
 
└ 
RE: Rozšíření OpenOffice pro editaci PDF
Stanislav Brožek 7. 7. 2008 22:41
│
 
 
 
 
└ 
RE: Rozšíření OpenOffice pro editaci PDF
Stanislav Brožek 7. 7. 2008 23:43
└ 
RE: Rozšíření OpenOffice pro editaci PDF
zer01 zer01 4. 7. 2008 12:03
Na čo je to dobré?
-y- 5. 7. 2008 00:16
├ 
Re: Na čo je to dobré?
plamen 5. 7. 2008 23:52
└ 
Re: Na čo je to dobré?
Stanislav Brožek 7. 7. 2008 23:36