Hlavní navigace

Full-textové prohledávání komixů a jiných obrázků

4. 3. 2019

Sdílet

Komiks - debug - perex2

V bitmapových obrázcích bývají často ukrytá užitečná data, která jsou ovšem běžně nepřístupná. V článku Full-textové prohledávání komixů a jiných obrázků (dostupné pouze přes Tor nebo pomocí webové Opnion proxy, jedná se o skrytou službu) autor prakticky ukazuje, jak si postahovat komixy např. z Roota a rozpoznat v nich text pomocí OCR nástroje Tesseract.

Následně Ghostscriptem vkládá všechny komiksy do jednoho velkého PDF, ve kterém jde vyhledávat text (který byl původně jen shlukem grafických bodů v bitmapách). Uvedený postup lze použít i k užitečnějším věcem, jako např. indexování nestrukturovaných dat na disku.

Tato zprávička byla zaslána čtenářem serveru Root.cz pomocí formuláře Přidat zprávičku. Děkujeme!

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.

Byl pro vás článek přínosný?

Autor zprávičky