Názory k článku
CZ.NIC spouští DNS crawler, bude sbírat veřejná data z domén

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

1. 6. 2020 11:08

martyd420

Aspon ze tam dali seznam ip adres, tak jsem je hned preventivne nasypal do firewallu..
Btw. jak blokujete badboty? Používám mod_security, mod_evasive s whitelistem na googlebota a seznam bota a několik free seznamů ip a user agentů, ale stále ten provoz botů je šílená zvrácenost.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 11:35

Ladislav Lhotka

Poměrně dlouze jsme zvažovali, zda se nemáme snažit DNS crawler provozovat nějak skrytě. To se nám jednak jevilo jako prakticky nerealizovatelné, ale hlavně principiálně pochybné. Doufáme, že rozumní operátoři tuto naši aktivitu přivítají a nebudou ji a priori blokovat.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 12:04

Rhinox

Myslim ze provozovat crawler je vzdycky pochybne...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 12:40

Filip Jirsák

Stříbrný podporovatel

Doufám, že jste zásadový, a nepoužíváte ani žádné výsledky crawlera. Třeba internetové vyhledávače.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 13:30

martyd420

A to jako protože existuje pár užitečných crawlerů (které whitelistuju), tak se musím podřídit libovolnému scanování serveru a stahování a strojovému zpracovávání mého obsahu?
Tak to je názor dost mimo...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 13:38

byCx

Pokud někdo ten váš veřejně dostupný obsah chce zpracovávat, tak ho zpracovávat bude a nic s tím neuděláte. Naopak to blokování se může projevit na nečekaných místech, počínaje výsledky v různých vyhledávačích.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 14:11

Filip Jirsák

Stříbrný podporovatel

K čemu je dobré vyfabulovat si nějaký názor, který to nikdo neprezentoval, a pak jej odsoudit, že je mimo?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 13:41

Rhinox

Reknu to takhle: kdyby nekdo prisel z ulice k meho domu a zacal pres okno fotit vsechno co je vevnitr, taky by mi to vadilo. I kdyz pravne by to mozna bylo v poradku (kdyz by neprekrocil hranici meho pozemku).

Jednoduse u nekterych veci se (pripoustim, ze asi naivne) spoleham na slusnost. A rozhodne nepovazuju za slusne aby nekdo furt cenichal kolem myho dn-serveru, web-serveru a mail-serveru, a sbiral vse na co jeho drapy dosahnou. Zejmena kdyz z toho ja nemam vubec zadnej osoh, stejne jako z toho vaseho crawleru (na rozdil treba od internetoveho vyhledavace)...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 14:26

Filip Jirsák

Stříbrný podporovatel

Tenhle robot, a drtivá většina ostatních, ale nesbírá nic zevnitř. Jediné neveřejné údaje, které má tenhle robot, je seznam domén druhé úrovně pod TLD .cz.

A rozhodne nepovazuju za slusne aby nekdo furt cenichal kolem myho dn-serveru, web-serveru a mail-serveru, a sbiral vse na co jeho drapy dosahnou.
Tohle rozhodně není popis chování toho crawlera od CZ.NIC. Roboti vyhledávašů sbírají mnohem víc informací, ale ani na ně zdaleka neplatí „sbiral vse na co jeho drapy dosahnou“.

Zejmena kdyz z toho ja nemam vubec zadnej osoh
Já nemám žádný užitek ani z robotů Seznamu nebo Microsoftu, přesto bych se neodvážil tvrdit, že jsou to neužiteční roboti.

Ale mně šlo jenom o to, zda jenom píšete silácké komentáře, nebo jestli se podle nich také řídíte. To už jsme se myslím dozvěděli, mně to stačí.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 15:06

Borek

Jak už bylo řečeno níže, nejde o focení přes okno. Viděl jste už někdy auto fotící pro Google? Nebo podobné auto dodávající data Seznamu? Letadlo fotící váš barák shora? CZ.NIC bude vypravovat jen další auto v řadě. A bude k tomu sbírat i informace, jako třeba kdo má děravý okap a jakou barvu má schránka. A když auto najde nějaký veliký problém, tak může majitele baráku upozornit.

Zlouni vypraví takové auto v tichosti, nebudou o tom psát články na root a detailní popis.
1. 6. 2020, 15:07 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2020 12:43

SB

„CZ.NIC bude vypravovat jen další auto v řadě.“
Pozor, tohle je argumentační klam - to, že není první či je jen jedním z mnoha, neznamená, že je automaticky přijatelný.

„A když auto najde nějaký veliký problém, tak může majitele baráku upozornit.“
A nebude to majitele obtěžovat?

Osobně ale na společenskou přijatelnost slídičů nemám vyhraněný názor.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2020 14:29

J ouda (neregistrovaný)

Pardon, ale nebyl internet prakticky od začátku veřejný s tím, že když někam lidi nechci pustit, tak je tam prostě nepustím (firewall, login, ...)

Pardon za ostřejší slova, ale tohle mě připomíná Cimrmanovo "Postavil si hospodu na rozcestí. Ale chodili mu tam lidi."

BTW: když už jsme u nevyžádaných scanů, spíš bych nadával někde jinde. Zrovna předevšírem, na nějaký test jsem si udělal server, hostname nikdy nikde nebyl zveřejněný, přístupný jen přes SNI, zone transfer zakázaný etc.
Pak šup ./getssl.sh, přišlo pár connectů od Letsencrypt...

... a během dvou minut už request někde z Panamských ostrovů a z Digital Ocean na to konkrétní SNI. Něco mi říká, k čemu vlastně máme NSEC3 a proč není .cz veřejná, když si google prosadil CT v té podobě v jaké je :-(
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2020 14:58

Filip Jirsák

Stříbrný podporovatel

Ne všechna doménová jména musí mít vydaný certifikát. A snad se jednou dočkáme nahrazení DV certifikátů DANE, takže se jména nebudou muset objevovat v CT. Takže bych kvůli implementaci CT nezatracoval NESC3 a skrytí obsahu domény .cz – bude pořád jednodušší opravit jednu věc, CT, než opravovat spoustu dalších.

Ale jinak souhlasím, crawler, který se chová slušně, respektuje standard pro roboty (na HTTP/HTTPS robots.txt) a nepřetěžuje server, mi nijak nevadí – nedělá nic jiného, než co by mohl dělat kterýkoli člověk.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2020 15:23

SB

„Pardon, ale nebyl internet prakticky od začátku veřejný s tím, že když někam lidi nechci pustit, tak je tam prostě nepustím (firewall, login, ...)“

Tak jednoduché to nebude. Když vám někdo udělá DoS, nebo hůře DDoS, formálně nic nelegálního nedělá, protože se připojuje na veřejnou službu, ale sám cítíte, že to asi není v pořádku. Je to to samé jako zvonek u baráku/bytu - zazvonit může kdokoliv (od toho tam ten zvonek je), ale když bude pořád někdo zvonit nebo to zneužívat, taky vás to bude defekovat.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2020 15:35

J ouda (neregistrovaný)

Od toho je Netiquette, která je tu s námi snad skoro tak dlouho jako Internet sám (Usenet určitě)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2020 9:46

SB

A je povinná? Společnost má taky pravidla slušného chování, na rozdíl od zákonu ale nepovinná.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 13:04

Miroslav Šilhavý

Možná jen protože nevíte o spoustě užitečných crawlerů, které fungují a nepáchají škody. V médiích se píše jen "o těch zlých". :)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 13:34

Rhinox

Podival ste se co tenhle "uzitecnej crawler" sbira? To neni zadnej "DNS crawler", spis velice obecne zamerenej crawler. Krom informaci z dn-serveru taky sbira info z web-serveru a mail-serveru. A pekne mnozstvi...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 14:18

Miroslav Šilhavý

No a? Jsou to přeci zveřejněné informace.
Důležité je, jak a k čemu s nimi nakládají. To sdělili, naprosto dobrovolně a otevřeně. Nemuseli ani to.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 12:49

pepa

Uvital bych moznost opt-out, napr. pres TXT zaznam _dns-crawler.DOMAIN IN TXT "P1550FF". Neco podobnyho, jako je robots.txt u HTTP.

To, ze neco zpristupnuju verejne jeste neznamena, ze davam souhlas s tim, aby si to nekdo nekde ukladal, dale a tim pracoval a analyzoval.
1. 6. 2020, 12:50 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 14:13

Ladislav Lhotka

Tím by se ale negoval jeden ze záměrů projektu - např. všechny fake e-shopy by si pak mohly přidat takový TXT záznam a byly by v pohodě.

Na stránce https://www.csirt.cz/cs/dns-crawler/ jsme sepsali podmínky ukládání dat, z nichž je snad zřejmé, že s výjimkou bezpečnostních incidentů nebudeme s informacemi pracovat adresně, tedy ve vazbě na konkrétní doménu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 18:28

Martin X (neregistrovaný)

Fake e-shopy si tie 4 resp. 8 IP adries zablokuju na FW.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 14:35

Jaroj

Pokud se dobře dívám do config.yml tak useragent bude "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36".
Proč není nějak standardně, např: "DNScrawler/1.0 (https://csirt.cz/cs/dns-crawler/)", či podobně?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 16:39

Vladimír Čunát

Třeba kvůli těm falešným e-shopům a malwaru mi přijde žádoucí tvářit se co nejvíce jako normální prohlížeč. I když pokud někdo ví o tomto konkrétním crawleru, může ho stejně poznat podle IP adresy :-)
1. 6. 2020, 16:40 editováno autorem komentáře
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 17:17

Jaroj

Pokud se tvářím falešně (například tvrdím useragentem že jsem prohlížeč, nebo ještě hůře, podepíšu se jak nějaký známý robot) dojde velice brzo k blokování IP adres. Poslat falešný useragent je jednoduché, ale skutečné chování prohlížeče (na tož člověka) to nebude.
Za mě je libovolný takovýto robot "web scraper" a zaslouží zablokovat.

Mimochodem, jak koukám, jednu IP adresu z uvedených již používají s tímto useragentem (předtím to byla doměnka z uvedených zdrojáků).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 19:58

Vladimír Čunát

Evidentně ale chcete podobné crawlery blokovat nehledě na to zda se "tváří falešně". V tomto případě to máte dokonce usnadněné IP adresou, takže nevidím v čem je problém.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 20:54

Ladislav Lhotka
Jasně, a pokud by někdo náhodou nečetl root.cz, tak to má i zde:

$ dig txt crawler-1.labs.nic.cz +short "DNS crawler for the .CZ zone"
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 16:45

helb

Tento User-Agent (a pár dalších hlaviček) posíláme, protože chceme analyzovat stejný obsah, jaký vidí prohlížeče a uživatelé, jen tedy bez interpretace JS.
Přidat třeba na konec odkaz na informace o provozu není špatný nápad, ale při té frekvenci skenování — jednou týdně HEAD, jednou měsíčně GET — se to asi u většiny živých webů ztratí v šumu…
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2020 3:53

Jaroj

Nemyslím, že se to ztratí, naopak. Bylo by to výborné.
Tedy něco jako:
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36 DNScrawler/1.0 (https://csirt.cz/cs/dns-crawler/)"
nebo:
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko; DNScrawler/1.0 +https://csirt.cz/cs/dns-crawler/) Chrome/74.0.3729.131 Safari/537.36"
A podobně.

Děkuji
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
3. 6. 2020 11:22

helb

Přidáno do produkčního konfiguráku:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36 dns-crawler/<verze> (+https://csirt.cz/cs/dns-crawler)

Zatím bez záruky, že to tak zůstane (ale pokud s tím nebudou nějaké problémy, tak jo).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 14:38

Lol Phirae

No, jsem silně skeptický k podobným projektům od doby, co nám jakási parta univerzitních pošuků začala "crawlovat" firemní mailserver každou hodinu z cca 15 různých míst s úmyslem výzkumu souladu TLSA záznamů s certifikáty na serveru apod., čímž bohužel prakticky znemožnila nějaké rozumné debugovaní reálných problémů se zabezpečeným odesíláním/příjmem emailů. "Crawler" byl navíc prudce "inteligentní", např. na zákaz STARTTLS pro dané IP adresy reagoval tím, že začal otravovat z adres sousedních.

:-X
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 16:18

Ladislav Lhotka

Aspoň vidíte, že podobně věci může v menším či větším rozsahu dělat v podstatě každý, a leckdo taky dělá. Jsme si vědomi toho, že v našem případě jde o plošnou akci, a tak se budeme maximálně snažit, abychom neovlivňovali normální provoz a nezatěžovali sítě a servery. Na výše uvedené webové stránce jsou uvedeny také kontaktní informace. Prosím tímto každého, kdo s námi chce spolupracovat, aby nám případné problémy ohlásil.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 17:24

David

Když už, tak bych uvítal z toho mít jako správce domény zpětný report - co mám špatně, co mohu zlepšit apod.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 20:50

Ladislav Lhotka

Pokud jde o DNS data, tak s tím počítáme, je to popsáno ve výše uvedeném dokumentu (Pravidla pro použití dat, bod 1).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
1. 6. 2020 23:47

EthernetLord (neregistrovaný)

Takových botů chodí po internetu mnoho, takže si nemyslím, že by se kvůli jednomu dalšímu musel dělat humbuk, zvláště když jde o CZ.NIC. Veřejné informace jsou veřejné informace.
Diskutabilní by mohlo být akorát připojování se na TCP porty 465 a 587. Myslím si, že Submission není úplně jednou z veřejných služeb, kterou by servery poskytovaly každému "kolemjdoucímu". Na druhou stranu, pokud ji takto poskytují, tak je něco špatně a jestliže v takovémto případě budou správci nějak upozorněni, jsem rozhodně pro.