To je spatne postavene. Stat ma jen spatne nastaveny interface, protoze ty dokumenty produkuji byrokrate, kteri nemaji tuseni, co je treba k automatizaci. Co se tyka toho komunitniho gitu, prekvapuje me, jak dlouho trvalo, nez nekoho napadlo vytvorit alternativni verzi, ktera bude lepe vhodna pro strojove zpracovani. Ted je tady uz jen riziko, ze to majitele gitu za nekolik mesicu prestane bavit a seznam na git updatovany nebude. Ano, udela se fork, ale to zase vznikne zmatek...
> prekvapuje me, jak dlouho trvalo, nez nekoho napadlo vytvorit
> alternativni verzi, ktera bude lepe vhodna pro strojove zpracovani.
Tak, nějaké API poskytující data v lepším formátu tu již s námi delší dobu je, viz jiná vlákna této diskuze. Jen se o něm autor nešířil na Rootu :-).
> Ted je tady uz jen riziko, ze to majitele gitu za nekolik mesicu prestane
> bavit a seznam na git updatovany nebude. Ano, udela se fork, ale to
> zase vznikne zmatek...
Pokud by zachovávali interní strukturu dokumentu (co nedokážu posoudit, neb jsem jednotlivá vydání nesrovnával), možná by stačilo seznam domén (a dalších údajů) získat analýzou výstupu nástroje pdftotext (či se podívat přímo na příslušný stream v dokumentu).