Vlákno názorů k článku
Ministerstvo financí nařídilo blokaci prvního hazardního webu od 190.121.210.133 - Certifikát je platný pouze pro následující domény: 1xbet.com,...

Článek je starý, nové názory již nelze přidávat.

26. 7. 2017 14:51

190.121.210.133 (neregistrovaný)

Certifikát je platný pouze pro následující domény: 1xbet.com, www.1xbet.com, xbetsport.com, www.1x-bet.com, xbetsports.com, www.xbetsports.com, sport1xbet.com, kassabet.biz, 1-x-bet.com, 1x-bet.com, www.sport1xbet.com, www.1-x-bet.com, www.1-xbet.com, 1-xbet.com, www.xbetsport.com

Zítra bude asi dalších pár domén v nařízení
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 7. 2017 15:17

8B3CE273 (neregistrovaný)

To bude dlouhý seznam. Na 1xbet{1..99}.com to běží taky
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 7. 2017 16:50

Jenda (neregistrovaný)

Já doufám, že co nejdřív narazí na hazardní hru s defaultní CDN doménou (typu s3.amazonaws.com) a zablokujou to celé.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 7:08

Petr M (neregistrovaný)

Doufám, že min. 20 takových her vyletí přímo na FB a Cukroušek je odmítne odstranit s tím, že ty hry nejsou jeho... :D To pak bude hukot.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 11:11

Dan (neregistrovaný)

Ja se pro zmenu tesim na "neco.co.uk"
Beztak si anglani za Brexit nic jinyho nezaslouzej ;-)

Smutne je, ze to PDF se seznamem je opatrene neplatnym eletronickym podpisem. Ja myslim, ze to pekne ilustruje odbornou zdatnost uredniku, kteri to cele organizuji ...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 11:38

ByCzech

Podpis už prý sedí, viz https://www.root.cz/zpravicky/ministerstvo-financi-naridilo-blokaci-prvniho-hazardniho-webu/930767/ - nezkoušel jsem. Ověřoval to ještě někdo?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 11:47

Filip Jirsák

Stříbrný podporovatel

Ano, podpis už sedí. Teda aspoň pro tu verzi souboru, který jsem stáhl já – s SHA-256 otiskem 9FE23564BE305AC7012690FBCF92B4A989459CB4FB2DF12FB3D47DB4314BA037.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 12:11

ByCzech

Tak aspoň něco. Díky za info. Každopádně u verzí, které jsem stahoval včera ještě neseděl a nebyla tam ani ta slíbená strojově zpracovatelná textová vrstva (teda pokud to není nějaký kec, že to slibovali, nezkoumal jsem ty jejich metodické pokyny ap.).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 12:22

strepty (neregistrovaný)

Ta adresa sa da z pdf vybrat asi aj teraz. Neskusal som to, ale ked ide oznacit text a urobit copy paste tak pojde aj nacitatat text cez nieco ako iTextSharp (neviem ci je pod linux asi nie). Potom treba urobit nepriestrelny algoritmus podla ktoreho najde adresy v tabulke. Kopec roboty ale malo by to ist :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 12:39

ByCzech

@strepty: Tak pdftotext umím pustit taky. Akorát to má tu vadu, že pak v tom textu je např. další doména "mfcr.cz" :-) (v emailové adrese), takže kdybych z toho chtěl vytahovat domény, tak první bude zablokovaný i ten web s tímhle seznamem :D.
A myslím si, že každý ajták tohle za normálně strojově zpracovatelné nepovažuje, nemá to strukturu. Přijde jiný ouřada a hnedle další PDFko bude vypadat úplně jinak, včetně toho, co se pak převede na text.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 13:19

Miroslav Mareš

Ta doména mfcr.cz není problém, prostě se explicitně vyřadí, např. takto:

pdftotext seznam-domen.pdf - | grep -E "[0-9A-Za-z]+\.(com|cz|net|sk|co\.uk|org)" | grep --invert-match "mfcr.cz"

Tato pipeline v současné verzi pdf souboru dá správný výstup

1xbet.com

Ale strukturu to fakt asi nemá, myslím že nebude mít žádný smysl psát na to nějaký skript (leda snad něco, co upozorní na novou verzi souboru) a bude se to dělat ručně.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 13:40

ByCzech

Tato pipeline v současné verzi pdf souboru dá správný výstup

To je právě ten problém. Není dána struktura, takže co verze, to nový skript. To už je jednodušší to (zatím) sázet ručně.
Další problém nastane, až se v tom dokumentu budou také ty domény invalidovat (viz sloupec "Výmaz zveřejněných údajů"). Pak bude skript dost těžko domýšlet, jestli doména co vytáhl je k zablokování nebo k odblokování.
A to ne nebavím o tom, že v tom vašem "filtru" neprojde hromada jiných domén a navíc si udržujete ruční whitelist, který se třeba bude taky zvětšovat.
Tohle prostě nejsou strojově zpracovatelná data pro daný úkol.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 14:50

Filip Jirsák

Stříbrný podporovatel
Hledat v tom domény regulárním výrazem je nepoužitelné. Nejen, že můžete vytáhnout něco, co doména určená k blokaci není, ale klidně můžete minout doménu, která určená k blokaci je. Ono totiž to, co vidíte jako „1xbet.com“, může být klidně v PDF zapsané tak, že z toho po exportu do textového formátu vyjde:

t .com 1 x b e

A do toho klidně mohou být zamíchané znaky z jiných textů v dokumentu.

Obecné PDF prostě není strojově zpracovatelný formát. Aby byl ten seznam strojově zpracovatelný, musel by mít nějakou předem danou strukturu – a to dnes neplatí. Dalo by se to udělat i pomocí toho PDF, ale existují na to samozřejmě mnohem vhodnější formáty – ideální by bylo XML, kde by byla data jasně strukturovaná a pořád by to mohlo být elektronicky podepsané. A to XML se dá i vložit do PDF jako příloha, kdyby na to přišlo.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 16:32

ByCzech

Obecné PDF prostě není strojově zpracovatelný formát.

Při kvalitě státní zprávy předpokládám, že úředník sousloví "strojově zpracovatelný formát" chápe tak, že jej stroj umí zpracovat. A vždyť PDF stroj zpracovat umí... Umí ho např. zobrazit a umí ho vytisknout. Schválně jaká je pravděpodobnost, že nejsem daleko od pravdy.

Každopádně souhlasím, že vyzobávat z toho domény pomocí regexp výrazů je kravina. To už mi přijde lepší při převodu na text pomocí pdftotext si pomoct parametry -layout -nopgbrk, pak je nemalá pravděpodobnost, že se řádky s požadovanými údaji budou dát vyzobat za sebou a nakonec z toho bude de-facto CSV oddělený (white)space znaky. Pořád to je ale pruda a bez záruky, nikdo při takovém podkladu nezaručí, že se to při další verzi dokumentu nerozpadne. Obzvlášť když ouřadové ani netuší, že když je dokument jednou elektronicky podepsaný, že rýpat do něj znamená narušení validity dokumentu, bylo by hloupé předpokládat, že by ho stejní patlalové byli schopni udržet ve stavu, kdy by byl vždy takový dokument konzistentní pro takové pokusy o převod do strukturovaných dat.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 7. 2017 13:15

Filip Jirsák

Stříbrný podporovatel

Text se ze souboru vykopírovat dá. Ale strojově zpracovatelné to není, musí někdo vždycky ten soubor otevřít a data z něj vykopírovat. Tedy ono by se to dalo strojově zpracovávat, ale bylo by to dost náročné a hlavně bez záruky.

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Ministerstvo financí nařídilo blokaci prvního hazardního webu od 190.121.210.133 - Certifikát je platný pouze pro následující domény: 1xbet.com,...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

Chystá se EDU Rádio, které rodičům ušetří za doučování

Stát se za data retention omluvil, ale údaje sbírá dál

Malware, ransomware a další online hrozby: Jak se liší?

Petr Šmíd: Když startupy rostou, české fondy je opouštějí

Příspěvek na produkty spoření na stáří a daň z příjmů

Hackeři útočí přes e-mail, prahnou po přihlašovacích údajích

JMHZ a změny v daních z příjmů v roce 2026 a 2027

Plánované změny v penzích: Zjistili jsme další podrobnosti

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Rostoucí cena operačních pamětí zásadně zdražuje počítače

Sailfish OS na Sony Xperia 10 III: seznámení a instalace

Nový model OpenAI kóduje 15krát rychleji než jeho předchůdce

České firmy pod náletem kyberútoků. Počet vzrostl o pětinu

Spropitné v restauracích se nebude muset danit ani evidovat v EET

Statistiky o ransomware, které jste asi neznali nebo si neuvědomili

Strojové učení slibuje rychlejší a levnější vývoj baterií

Google Pixel 10a má plochý design a vylepšenou odolnost

Stát dá svobodu důchodcům, které držel ve III. pilíři

Agentické nakupování mění pravidla e-commerce

Analýza rozebrala moderování Jílkové v Máte slovo

Vlákno názorů k článku
Ministerstvo financí nařídilo blokaci prvního hazardního webu od 190.121.210.133 - Certifikát je platný pouze pro následující domény: 1xbet.com,...