"open-source automatický parser PDF dokumentů ministerstva s webovým rozhraním a API" ma dostal
ved naco robit za peniaze platcov dani nieco uzitocne ked mozeme vydavat informacie v neuzitocnej forme a zakonom zabezpecit ze aj tak to platcovia dani budu citat.
ale co, mozeme byt radi ze to nedavaju v jednobitovych tiffoch, ved to bol pred par desatrociami celkom pouzivany format.
kdo to chce zpracovávat strojově, tak to zvládne za pár minut a nemá potřebu se rozčilovat. Podle mě to řeší manažerské typy, kteří mají potřebu prokazovat, že jim to politicky myslí (nadávat na Babiše).
jde využít datumů za doménou
import re
from subprocess import check_output
def domains(pdf):
txt = check_output(['pdftotext', pdf, '-']).decode()
domain = r'[\w\.\-]+\.\w{2,4}'
date = r'\d{1,2}\.\d{1,2}\.\d{4}'
return re.findall(f'\n({domain})\n\n{date}\n', txt)1. 8. 2019, 10:25 editováno autorem komentáře