Na https://blacklist.salamek.cz maji funkcni parsovani pdf, jen nemaji hotove overovani podpisu
+1, podrobnosti zde: http://www.abclinuxu.cz/blog/salamovo/2017/7/czech-blacklist-info-page-api
Funkční parsování PDF, které umí spolehlivě parsovat jenom ta PDF, která už byla dříve zveřejněná, je k ničemu. Potřeba by bylo umět parsovat i PDF, která se mohou objevit v budoucnosti, a to nikdo nenapíše, když není vůbec nijak specifikován formát dat. Je velmi odvážné (a to je ještě mírně řečeno) tvrdit o něčem, že je to funkční parsování, když k dispozici nemáte žádnou specifikaci a máte jenom jeden jediný vzorek.
Proto je to celý web, který předpokládám bude spravovaný lidmi. Vzhledem k tomu, že na implementaci mají poskytovatelé vždycky asi 14 dní, tak mezi tím někdo stihne upravit parser / přidat tam ten job ručně.
Tím nechci tvrdit, že je tenhle přístup správně, samozřejmě, že to už mělo být ve strojově čitelném formátu. Ale momentálně je to dobrý nástroj, který ušetří opruz těm, kdo se tím nechtějí moc zabývat.
Není jednodušší ten záznam při změně prostě zkopírovat ručně, než to stejně ručně kontrolovat a pak případně upravovat parser? Já vím, že chyba je primárně na straně MF, ale připadá mi, že je zbytečné řešit nějaký parser, na který se stejně nedá spolehnout. Spíš bych řešil jenom údržbu toho seznamu ve strojově čitelném formátu.
Ale on ten parser nejspíš bude fungovat tak, že někdo vloží soubor a texťák, co má být na výstupu. Soubor se zahashuje, hash se použije jako klíč v DB a přidá se ten text.
Uživatel nahraje soubor, spočítá se hash, jeho hodnota se zkusí najít v databázi. Buďto tam je a vrátí to text, nebo není a vrátí to chybu...