resim opravdu spatny problem :) potrebuju s php skriptem pod windows ( :( ) dostat z wordovskejch dokumentu cisty text. chtelo by to neco jako antiword zkompilovany pod win32, ale nic takoveho jsem nenasel. Take jsem zkousel experimentovat s COM pod php, ale nejak se nedari - PHP4.0.6 a Office 2000. Napada nekoho jak tento problem vyresit?
Názory k článku
Převod textů do UNIXu
Re: antiword pro windows :(
celé vláknoAntiword zkompilovany pod Windows najdete na adrese http://www.informatik.uni-frankfurt.de/~markus/antiword/
Nevim, jak je funkcni, ale mohl by fungovat...
Re: antiword pro windows :(
celé vláknoZkuste zkompilovat antiword pod CYGWINem. Mozna to pujde.
konverze
celé vláknoKamarád je chudák na vojně, takže se neozve sám. Je na mě abych mu udělal reklamu :)
http://www.physics.muni.cz/~yeti/software/enca.shtml
no nic moc
celé vláknoOcenuju, ze autor shrnul programy na konverzi ruznych formatu. Bohuzel ne vse funguje tak ma. Ja behem casu vyzkousel prkaticky vsechny citovane programy, ale spokojeny jsen nebyl nikdy s nicim. Nejdal je asi abiword, ktery prece jen neco zkousne, ale i ten casto pada.
Zrejme by stalo za to vyzkouset jeste nezminovanou cestu pres XML/XLS, kterou mam pocit, ze word umi a chytry script by si s tim mohl poradit.
Re: no nic moc
celé vláknoS tím XML to bude tím, že starší verze MS-Wordu do nemají, a Office 2000 jsem nikdy neviděl.
Re: no nic moc
celé vláknoJa bych chtel rict, ze nektere soubory mi wv nechtel korektne zobrazit, u antiwordu byla uspesnost 98% (nejake to slovo vycpal nesmyslnymi znaky, ale to skoro nestoji za rec). Zel vystupem je bud jen text nebo PostScript, ja bych radeji HTML. Co se tyce AbiWordu, neotevrel jsem jediny MS Word dokument s tabulkami. Zajimalo by me, jestli by nekdo nevedel, jak AbiWord donutit uzivat ceske fonty. Pouziva lokalni kopii, tusim, Type 1 fontu. Daji se do prislusneho adresare dat aliasy na systemove iso-8859-2 fonty? Na ktere? Nebo jinak? Co se tyce XML (i HTML) produkovaneho Wordem 2000, pri projeti validatorem tento znacne nadava na syntaxi, u AbiWordu je to bohuzel podobne.
čeština v AbiWordu
celé vláknoAliasy nefungují. Ale osobně jsem do AbiWordového adresáře udělal symbolické odkazy z nové verze /usr/share/ghostscript/fonts a namísto iso8859-1 jsem napsal iso8859-2 (nový Ghostscript tyto znaky obsahuje). Je pravda, že to neumí třeba pomlčky, ale jde to používat. Jinak AbiWord a vw umí totéž - použivají stejný převodník.
Jak je to s tiskem, nevím.
Re: čeština v AbiWordu
celé vláknoMoc dekuji za odpoved. Prave jsem nalezl alternativni reseni: http://www.linux.cz/lists/archive/linux/128038.html
wvWare WMF konverze
celé vláknoPotrebuju vedet jake mate zkusenosti s prevodem DOC souboru s vlozenymi wmf obrazky pomoci wvWare (v clanku zminovane jako wv), jmenovite s prevodem textu s diakritikou ve wmf obrazcich (WMF v docech je vcelku bezna vec, udelate jej napr. tak, ze do dokumentu vlozite excelovsky graf.). Upravil jsem totiz libwmf tak, aby se s diakritikou ve wmf souborech vyporadal, a rad bych vedel jestli uz to nekdo neudelal prede mnou a jestli mam tedy nejak sirit opravenou verzi.
Re: wvWare WMF konverze
celé vláknoja myslim, ze wv v clanku bude word view, v jedne distribuci se to jmenuje mswordvw a je to program na prevod formatu MS Wordu do HTML
wvWare - jméno
celé vláknoWord view se přejmenoval na vwWare, ale dnes již umí víc, než jen html (viz článek).
Bez titulku
celé vláknomno! pro vytazeni cisteho nenaformatovaneho textu z msword jsem pouzival catdoc. po dobrem ocekovani souboru jsem bez problemu rozpoznaval i cestinu. vyvoj catdocu je jaksi zastaveny (nebo tak neco), co z je skoda. xls format je o poznani lepe normalizovany, pro prevod se mi vyborne osvedcil xlhtml.
wp2latex umi pozrat i Word
celé vláknomoc nechodi, ale muzete to zkusit jako vychodisko z nouze.
Interni format Wordu je strasna sracka, Wordperfect
je proti tomu relativne snadno rozlustitelny.
F&T

