Hlavní navigace

Full-textové prohledávání komixů a jiných obrázků

Sdílet

kokesova
Komiks - debug - perex2

V bitmapových obrázcích bývají často ukrytá užitečná data, která jsou ovšem běžně nepřístupná. V článku Full-textové prohledávání komixů a jiných obrázků (dostupné pouze přes Tor nebo pomocí webové Opnion proxy, jedná se o skrytou službu) autor prakticky ukazuje, jak si postahovat komixy např. z Roota a rozpoznat v nich text pomocí OCR nástroje Tesseract.

Následně Ghostscriptem vkládá všechny komiksy do jednoho velkého PDF, ve kterém jde vyhledávat text (který byl původně jen shlukem grafických bodů v bitmapách). Uvedený postup lze použít i k užitečnějším věcem, jako např. indexování nestrukturovaných dat na disku.

Tato zprávička byla zaslána čtenářem serveru Root.cz pomocí formuláře Přidat zprávičku. Děkujeme!

Našli jste v článku chybu?
Ochrana proti spamovacím robotům. Odpovězte prosím na následující otázku: Jaký je letos rok?