Certifikát je platný pouze pro následující domény: 1xbet.com, www.1xbet.com, xbetsport.com, www.1x-bet.com, xbetsports.com, www.xbetsports.com, sport1xbet.com, kassabet.biz, 1-x-bet.com, 1x-bet.com, www.sport1xbet.com, www.1-x-bet.com, www.1-xbet.com, 1-xbet.com, www.xbetsport.com
Zítra bude asi dalších pár domén v nařízení
Podpis už prý sedí, viz https://www.root.cz/zpravicky/ministerstvo-financi-naridilo-blokaci-prvniho-hazardniho-webu/930767/ - nezkoušel jsem. Ověřoval to ještě někdo?
Ta adresa sa da z pdf vybrat asi aj teraz. Neskusal som to, ale ked ide oznacit text a urobit copy paste tak pojde aj nacitatat text cez nieco ako iTextSharp (neviem ci je pod linux asi nie). Potom treba urobit nepriestrelny algoritmus podla ktoreho najde adresy v tabulke. Kopec roboty ale malo by to ist :-)
@strepty: Tak pdftotext umím pustit taky. Akorát to má tu vadu, že pak v tom textu je např. další doména "mfcr.cz" :-) (v emailové adrese), takže kdybych z toho chtěl vytahovat domény, tak první bude zablokovaný i ten web s tímhle seznamem :D.
A myslím si, že každý ajták tohle za normálně strojově zpracovatelné nepovažuje, nemá to strukturu. Přijde jiný ouřada a hnedle další PDFko bude vypadat úplně jinak, včetně toho, co se pak převede na text.
Ta doména mfcr.cz není problém, prostě se explicitně vyřadí, např. takto:
pdftotext seznam-domen.pdf - | grep -E "[0-9A-Za-z]+\.(com|cz|net|sk|co\.uk|org)" | grep --invert-match "mfcr.cz"
Tato pipeline v současné verzi pdf souboru dá správný výstup
1xbet.com
Ale strukturu to fakt asi nemá, myslím že nebude mít žádný smysl psát na to nějaký skript (leda snad něco, co upozorní na novou verzi souboru) a bude se to dělat ručně.
Tato pipeline v současné verzi pdf souboru dá správný výstup
To je právě ten problém. Není dána struktura, takže co verze, to nový skript. To už je jednodušší to (zatím) sázet ručně.
Další problém nastane, až se v tom dokumentu budou také ty domény invalidovat (viz sloupec "Výmaz zveřejněných údajů"). Pak bude skript dost těžko domýšlet, jestli doména co vytáhl je k zablokování nebo k odblokování.
A to ne nebavím o tom, že v tom vašem "filtru" neprojde hromada jiných domén a navíc si udržujete ruční whitelist, který se třeba bude taky zvětšovat.
Tohle prostě nejsou strojově zpracovatelná data pro daný úkol.
Hledat v tom domény regulárním výrazem je nepoužitelné. Nejen, že můžete vytáhnout něco, co doména určená k blokaci není, ale klidně můžete minout doménu, která určená k blokaci je. Ono totiž to, co vidíte jako „1xbet.com“, může být klidně v PDF zapsané tak, že z toho po exportu do textového formátu vyjde:
t .com 1 x b e
A do toho klidně mohou být zamíchané znaky z jiných textů v dokumentu.
Obecné PDF prostě není strojově zpracovatelný formát. Aby byl ten seznam strojově zpracovatelný, musel by mít nějakou předem danou strukturu – a to dnes neplatí. Dalo by se to udělat i pomocí toho PDF, ale existují na to samozřejmě mnohem vhodnější formáty – ideální by bylo XML, kde by byla data jasně strukturovaná a pořád by to mohlo být elektronicky podepsané. A to XML se dá i vložit do PDF jako příloha, kdyby na to přišlo.
Obecné PDF prostě není strojově zpracovatelný formát.
Při kvalitě státní zprávy předpokládám, že úředník sousloví "strojově zpracovatelný formát" chápe tak, že jej stroj umí zpracovat. A vždyť PDF stroj zpracovat umí... Umí ho např. zobrazit a umí ho vytisknout. Schválně jaká je pravděpodobnost, že nejsem daleko od pravdy.
Každopádně souhlasím, že vyzobávat z toho domény pomocí regexp výrazů je kravina. To už mi přijde lepší při převodu na text pomocí pdftotext si pomoct parametry -layout -nopgbrk, pak je nemalá pravděpodobnost, že se řádky s požadovanými údaji budou dát vyzobat za sebou a nakonec z toho bude de-facto CSV oddělený (white)space znaky. Pořád to je ale pruda a bez záruky, nikdo při takovém podkladu nezaručí, že se to při další verzi dokumentu nerozpadne. Obzvlášť když ouřadové ani netuší, že když je dokument jednou elektronicky podepsaný, že rýpat do něj znamená narušení validity dokumentu, bylo by hloupé předpokládat, že by ho stejní patlalové byli schopni udržet ve stavu, kdy by byl vždy takový dokument konzistentní pro takové pokusy o převod do strukturovaných dat.