a sam si odpovim: nebude to takova hruza, jaxem si puvodne myslel.
vyhrabal jsem na pocitaci 250MB "textovych souboru":
207MB pdf, 12MB html, 26MB rtf a 4,8 cisteho textu. vetsinou CZ, ENG, neco malo RU.
z toho vylezlo 30MB cisteho textu celkem. z toho jsem vyrobil jakz-takz pouzitelny slovnik (slovo = libovolny jedinecny retezec bez bilych znaku, delsi nez 2 znaky, obsahujici aspon jedno pismeno a-z a nekoncici na interpunkcni znamenko)
no a tenhle slovnik je jen 2.8MB veliky a obsahuje +-292K slov, coz je celkem v pohode.
btw pouzivate nekdo ANTs sit? je to fulltextove vyhledavani pouzitelne/uzitecne?

