resim opravdu spatny problem :) potrebuju s php skriptem pod windows ( :( ) dostat z wordovskejch dokumentu cisty text. chtelo by to neco jako antiword zkompilovany pod win32, ale nic takoveho jsem nenasel. Take jsem zkousel experimentovat s COM pod php, ale nejak se nedari - PHP4.0.6 a Office 2000. Napada nekoho jak tento problem vyresit?
Ocenuju, ze autor shrnul programy na konverzi ruznych formatu. Bohuzel ne vse funguje tak ma. Ja behem casu vyzkousel prkaticky vsechny citovane programy, ale spokojeny jsen nebyl nikdy s nicim. Nejdal je asi abiword, ktery prece jen neco zkousne, ale i ten casto pada.
Zrejme by stalo za to vyzkouset jeste nezminovanou cestu pres XML/XLS, kterou mam pocit, ze word umi a chytry script by si s tim mohl poradit.
Ja bych chtel rict, ze nektere soubory mi wv nechtel korektne zobrazit, u antiwordu byla uspesnost 98% (nejake to slovo vycpal nesmyslnymi znaky, ale to skoro nestoji za rec). Zel vystupem je bud jen text nebo PostScript, ja bych radeji HTML. Co se tyce AbiWordu, neotevrel jsem jediny MS Word dokument s tabulkami. Zajimalo by me, jestli by nekdo nevedel, jak AbiWord donutit uzivat ceske fonty. Pouziva lokalni kopii, tusim, Type 1 fontu. Daji se do prislusneho adresare dat aliasy na systemove iso-8859-2 fonty? Na ktere? Nebo jinak? Co se tyce XML (i HTML) produkovaneho Wordem 2000, pri projeti validatorem tento znacne nadava na syntaxi, u AbiWordu je to bohuzel podobne.
Aliasy nefungují. Ale osobně jsem do AbiWordového adresáře udělal symbolické odkazy z nové verze /usr/share/ghostscript/fonts a namísto iso8859-1 jsem napsal iso8859-2 (nový Ghostscript tyto znaky obsahuje). Je pravda, že to neumí třeba pomlčky, ale jde to používat. Jinak AbiWord a vw umí totéž - použivají stejný převodník.
Jak je to s tiskem, nevím.
Potrebuju vedet jake mate zkusenosti s prevodem DOC souboru s vlozenymi wmf obrazky pomoci wvWare (v clanku zminovane jako wv), jmenovite s prevodem textu s diakritikou ve wmf obrazcich (WMF v docech je vcelku bezna vec, udelate jej napr. tak, ze do dokumentu vlozite excelovsky graf.). Upravil jsem totiz libwmf tak, aby se s diakritikou ve wmf souborech vyporadal, a rad bych vedel jestli uz to nekdo neudelal prede mnou a jestli mam tedy nejak sirit opravenou verzi.
mno! pro vytazeni cisteho nenaformatovaneho textu z msword jsem pouzival catdoc. po dobrem ocekovani souboru jsem bez problemu rozpoznaval i cestinu. vyvoj catdocu je jaksi zastaveny (nebo tak neco), co z je skoda. xls format je o poznani lepe normalizovany, pro prevod se mi vyborne osvedcil xlhtml.