Tieto otazky RFC pomerne jednoznacne riesi.
TL/DR: Podla RFC sa ma pouzivat CRLF. Udaje su oddelene ciarkou.
Co sa tyka synchronizacie s pravnym podkladom, znie to ako by na urade museli naozaj pracovat. Sokujuce, ja viem.
možností tady je několik, rozšířit si PDF o vlastní xml block přes XMP. Nebo vedle pdf mít podepsaný xml dokument ve formátu XMLDSIG.
Stát se jednou musí naučit pracovat se strukturovanými daty a necpát je jako vizuální tabulky do wordu/pdf.
V excelu se také dají dělat prasečinky, vzorce a další libůstky, strojové zpracování je pak opět problém, dlouze o tom může mluvit Seznam, který dostává jízdní řády v excelu...
Není to pro mě šokující, ve státní správě pracuju :) A ano, PDF podepsat snadno jde, ale je možné podepsat i jiná data? A jak je to z pohledu zákona? Co kdyby to CSV a PDF bylo odlišné? A nezabralo by řešení těchto problémů více času a úsilí než by nakonec ušetřilo práce ostatním? Není lepší to nechat generovat třetí strany, jako se stalo v tomto případě dokonce od dvou nezávislých subjektů? Prostě některé věci státní správa řeší víc než by musela řešit soukromá firma.
> Není to pro mě šokující, ve státní správě pracuju :)
Ponechám bez komentáře :)
> ale je možné podepsat i jiná data?
Ne, podepisovat cokoliv jiného než PDF je trestáno smrtí (duh).
> A nezabralo by řešení těchto problémů více času a úsilí než by nakonec ušetřilo práce ostatním?
Jistě, sire Humphrey.
> Není lepší to nechat generovat třetí strany, jako se stalo v tomto případě dokonce od dvou nezávislých subjektů?
Ne, není. Musíš důvěřovat další straně, že data, který od ní dostaneš, jsou aktuální, správný, že tam není nic navíc a nic nechybí. Navíc ty třetí subjekty vlastně řeší málo, protože do nich ty informace někdo musí nasypat jak? Ručně.
> Prostě některé věci státní správa řeší víc než by musela řešit soukromá firma.
Zatímco se soukromoou firmou spolupracovat můžeš, se státem spolupracovat "musíš". Stát by neměl dávat větší překážky, než je nezbytně nutné.
stát se od začátku obhajoval, že seznam adres bude strojově zpracovatelný, pak přidali do pdf "strojově zpracovatelnou textovou vrstvu".
Mimochodem, již teď musí někdo kontrolovat, že se shoduje textová vrstva s pdf.
Nemyslím si, vyřešit to jednou je rozdíl proti tomu, když to řeší povinně stovky subjektů. Stát umí dělat garantované xml rpc služby, proč to neudělal jako další datovou službu? Nikdo ho nenutil, aby zveřejňoval na nějakém odkazu uvnitř svého webu pdf dokumenty, to je jeho volba.
Tak aj u nás bol jeden, čo v istej súvislosti hovoril o "nekopírovateľnom digitálnom formáte"
Tá súvislosť
https://slovensko.hnonline.sk/322478-beblavy-zaverecne-prace-budu-na-internete-video
Proč pdf? Vytisknu, podepíšu, dám na to razítko, založím do složky.
Jiné formáty jsou možná snadno zpracovatelné, ale pro úředníka je důležitější pohodlí při razítkování papírové kopie. Což vede i k horším paradoxům, jako je například začernění údajů v .pdf. Na papíře to vypadá začerněné, všichni jsou spokojeni. A že v .pdf je stále čitelný původní text? Podružné :-)
To je spatne postavene. Stat ma jen spatne nastaveny interface, protoze ty dokumenty produkuji byrokrate, kteri nemaji tuseni, co je treba k automatizaci. Co se tyka toho komunitniho gitu, prekvapuje me, jak dlouho trvalo, nez nekoho napadlo vytvorit alternativni verzi, ktera bude lepe vhodna pro strojove zpracovani. Ted je tady uz jen riziko, ze to majitele gitu za nekolik mesicu prestane bavit a seznam na git updatovany nebude. Ano, udela se fork, ale to zase vznikne zmatek...
> prekvapuje me, jak dlouho trvalo, nez nekoho napadlo vytvorit
> alternativni verzi, ktera bude lepe vhodna pro strojove zpracovani.
Tak, nějaké API poskytující data v lepším formátu tu již s námi delší dobu je, viz jiná vlákna této diskuze. Jen se o něm autor nešířil na Rootu :-).
> Ted je tady uz jen riziko, ze to majitele gitu za nekolik mesicu prestane
> bavit a seznam na git updatovany nebude. Ano, udela se fork, ale to
> zase vznikne zmatek...
Pokud by zachovávali interní strukturu dokumentu (co nedokážu posoudit, neb jsem jednotlivá vydání nesrovnával), možná by stačilo seznam domén (a dalších údajů) získat analýzou výstupu nástroje pdftotext (či se podívat přímo na příslušný stream v dokumentu).
V rámci komunity CSNOG? A kde se komunita potkává, jak se lze zapojit, kdo všechno v ní participuje? Ze stránek na csnog.eu totiž žádné relevantní informace patrné nejsou. Neexistuje dokonce ani mailing-list po vzoru jiných NOGů. Zatím to vypadá, že CSNOG je spíše jen prázdné slovo a nikoliv skutečnâ platforma pro otevřenou komunikaci síťových operátorů.
Začátky jsou vždycky těžké. Nicméně existuje skupina na Telegramu a kanál na Slacku. Mailing list nejspíše taky vznikne, ale dá se předpokládat, že na něm bude podobný provoz, jako na zmíněných dvou kanálech, tedy v podstatě žádný, dokud nepřijde nějaký impulz.
Uvšech NOGů je mailing-list základní komunikační kanál. Narozdíl od Slacku, Telegramu i IRC jest jaksi email stále technologií, kterou používá skutečně každý. A maximální dosah je důležitý. Zmíněné alternativy jsou jen komplementem, nikoliv substitutem. Aktuálním výsledkem jest toliko to, že CSNOG svoji očekávanou roli moc neplní.
To je vážně vtipné, že na csnog.eu tyhle informaci dohledat možné není. Opravdu čekáte, že zástupci československých operátorů budou prohledávat diskuze napříč internetem? To není žádný těžký začátek, to je spíš nezvládnutá samotná webová prezentace, na které chybí základní informace.
"Seznam nepovolených hazardních her má strojově zpracovatelnou verzi, tvoří ji komunita"
Jo... asi tak od 14. 8. 2017 na https://blacklist.salamek.cz ... :)
Ještě by to něco chtělo … .txt s jedním záznamem na řádek je fajn formát, ale nemá vyřešeno odstraňování starých záznamů. (Hádám, že až ty domény 1xbetXXX.com vzniklé k obcházení blokování nebude chtít 1xbet prodlužovat poté, co se dostaly na seznam blokovaných).
V gitu se jistě dají strojově zjistit změny a přijít tak na odstraněné záznamy, ale jednoduché načtení souboru přímo z https://raw.githubusercontent.com/CSNOG/MFCR-blacklist/master/blacklist.txt tedy aktuálně nestačí a musím to řešit nějak pracněji :(
a proc ne, vzdyt nejde z jejich penez. si to dokazu predstavit co je to za tezkou a zodpovednou praci pro minimalne 100 uredniku delat ten senzam.
vite kolik hodin musi stravit na netu, nez najdou dalsi takovou stranku k zablokovani?
podle mne ti chudaci pracuji urcite i po nocich a o vikendech
Když už se do toho CSNOG opřelo a chce zlepšit stávající stav, nebylo by principiálně lepší zkusit něco udělat přímo se zdrojem? Například vytvořit nějakou petici, aby publikovali soubor, který je opravdu strojově zpracovatelný? Nebo třeba obrátit se na někoho z Pirátu. Pokud vím, byli přizváni do nějaké komise, aby se podíleli na e-governmentu a myslím, že alespoň oni by tenhle nesmysl rozpoznali na první dobrou a měli by asi lepší páky vysvětlit to i té nejzabedněnější úřednické bedně ze všech nejzabedněnějších úřednických beden. Už jen číst o PDF formátu se strojově zpracovatelnou textovou vrstvou mi způsobuje psychickou bolest.
Kdyz pridaji do toho PDF souboru jeste QR kody, kodujici dulezite udaje, pro kazdy zaznam jeden QR kod, bude ten dokument strojove zpracovatelny? ;-) Pod pojmem strojove zpracovatelny soubor lze vymyslet cokoli... Pokud vim, ministerstvo slibovalo, ze oficialne publikovane PDF bude mit strojove citelelnou vrstvu, ale nevim zda to k necemu bylo.
Kdyz pouziji pdf2txt, tak vidim data "ve strojove vrstve", skutecne je to dost nepouzitelne. Mozna by sel napsat skrypt, ktery by pouzival heuristiku a data nejak logicky usporadal, ale bylo by to dost nespolehlive reseni. Neco podobneho delam treba pro bankovni vypis. Ceske banky jsou na tom podobne, mnohe neumi vygenerovat pouzitelny vypis pro strojove zpracovani, i to CSV ktere generuji je tragicke, takze je nakonec lepsi dolovat data primo z PDF vypisu :-(
Ono není vůbec jasné, kdo se do toho opřel. CSNOG není formálně vzato vůbec nic. Nemá to ani právní subjektivitu, těžko to může s kýmkoliv jednat. Aneb kdo vlastně zastupuje CSNOG navenek? Vždyť se ani neví, kdo přesně za tím stojí a koho by vlastně zastupovali.
Podle těch commitů v odkazovaném GIT repozitáři jde spíše o partizánštinu někoho z Cesnetu. V situaci, kdy se sám Cesnet z politických důvodů k autorství přiznat nechce. Ze strachu o granty, co je živí...
Já vám nevím, spíš by byla lepší osvěta všech pomocí medií (možná by to bylo i levnější? protože tv by mělo aspoň nějaké téma a hlavně nova by to zviditelnila jak lidi nemají díky tomu co do huby). Jak často bývá, to co se zakáže najednou i toho co to nezajímalo, najednou polapí (viz prohibice, pili i ti co nepili vůbec).
Je to jen ztráta času, nebo to vyřešit tím, že třeba uzákoní, že ať browser blokuje takové věci (což už na to se přechází a je to prioritou snad všech- případně aspoň dál volbu blokeru, který nějaká pravidla co má blokovat bude splnovat).
Nápad a zároveň myšlenka tam je, ale reálnost bohužel upadá.
Já naopak doufám, že tenhle amaterský projekt nějakého brigádníka na ministerstvu přežiju o mnoho desetiletí. Četl jste můj návrh obrátit se s tím na Piráty? https://www.root.cz/zpravicky/seznam-nepovolenych-hazardnich-her-ma-strojove-zpracovatelnou-verzi-tvori-ji-komunita/992356/
Dotycny urednik by si mel povinne po kazde aktualizaci smazat puvodni zdrojovy soubor (Word?) ze ktereho to PDF exportuje.
Pak muze ochutnat "vyhody" sve strojove citelne textove vrstvy a sestavit si z ni ten seznam sam znovu. At ma stejne podminky, jako ti, po kterych to vyzaduje!
Ze strany státní zprávy mi stejně "strojově zpracovatelný" seznam v PDF přijde jako ulitmátní trolling...což by asi ničemu nevadilo, kdyby to nebylo z daní nás všech a navíc implikující nějakou povinnost.
Jediné co má asi v tuhle chvíli opravdový smysl, apelovat na zvolené politiky, ať to zruší komplet či alespoň převedou výstup do reálného světa (jak zde někdo zmínil, i xlsx soubor je oproti tomu dokonalost sama)