Reknu to takhle: kdyby nekdo prisel z ulice k meho domu a zacal pres okno fotit vsechno co je vevnitr, taky by mi to vadilo. I kdyz pravne by to mozna bylo v poradku (kdyz by neprekrocil hranici meho pozemku).
Jednoduse u nekterych veci se (pripoustim, ze asi naivne) spoleham na slusnost. A rozhodne nepovazuju za slusne aby nekdo furt cenichal kolem myho dn-serveru, web-serveru a mail-serveru, a sbiral vse na co jeho drapy dosahnou. Zejmena kdyz z toho ja nemam vubec zadnej osoh, stejne jako z toho vaseho crawleru (na rozdil treba od internetoveho vyhledavace)...
Tenhle robot, a drtivá většina ostatních, ale nesbírá nic zevnitř. Jediné neveřejné údaje, které má tenhle robot, je seznam domén druhé úrovně pod TLD .cz.
A rozhodne nepovazuju za slusne aby nekdo furt cenichal kolem myho dn-serveru, web-serveru a mail-serveru, a sbiral vse na co jeho drapy dosahnou.
Tohle rozhodně není popis chování toho crawlera od CZ.NIC. Roboti vyhledávašů sbírají mnohem víc informací, ale ani na ně zdaleka neplatí „sbiral vse na co jeho drapy dosahnou“.
Zejmena kdyz z toho ja nemam vubec zadnej osoh
Já nemám žádný užitek ani z robotů Seznamu nebo Microsoftu, přesto bych se neodvážil tvrdit, že jsou to neužiteční roboti.
Ale mně šlo jenom o to, zda jenom píšete silácké komentáře, nebo jestli se podle nich také řídíte. To už jsme se myslím dozvěděli, mně to stačí.
Jak už bylo řečeno níže, nejde o focení přes okno. Viděl jste už někdy auto fotící pro Google? Nebo podobné auto dodávající data Seznamu? Letadlo fotící váš barák shora? CZ.NIC bude vypravovat jen další auto v řadě. A bude k tomu sbírat i informace, jako třeba kdo má děravý okap a jakou barvu má schránka. A když auto najde nějaký veliký problém, tak může majitele baráku upozornit.
Zlouni vypraví takové auto v tichosti, nebudou o tom psát články na root a detailní popis.
1. 6. 2020, 15:07 editováno autorem komentáře
„CZ.NIC bude vypravovat jen další auto v řadě.“
Pozor, tohle je argumentační klam - to, že není první či je jen jedním z mnoha, neznamená, že je automaticky přijatelný.
„A když auto najde nějaký veliký problém, tak může majitele baráku upozornit.“
A nebude to majitele obtěžovat?
Osobně ale na společenskou přijatelnost slídičů nemám vyhraněný názor.
Pardon, ale nebyl internet prakticky od začátku veřejný s tím, že když někam lidi nechci pustit, tak je tam prostě nepustím (firewall, login, ...)
Pardon za ostřejší slova, ale tohle mě připomíná Cimrmanovo "Postavil si hospodu na rozcestí. Ale chodili mu tam lidi."
BTW: když už jsme u nevyžádaných scanů, spíš bych nadával někde jinde. Zrovna předevšírem, na nějaký test jsem si udělal server, hostname nikdy nikde nebyl zveřejněný, přístupný jen přes SNI, zone transfer zakázaný etc.
Pak šup ./getssl.sh, přišlo pár connectů od Letsencrypt...
... a během dvou minut už request někde z Panamských ostrovů a z Digital Ocean na to konkrétní SNI. Něco mi říká, k čemu vlastně máme NSEC3 a proč není .cz veřejná, když si google prosadil CT v té podobě v jaké je :-(
Ne všechna doménová jména musí mít vydaný certifikát. A snad se jednou dočkáme nahrazení DV certifikátů DANE, takže se jména nebudou muset objevovat v CT. Takže bych kvůli implementaci CT nezatracoval NESC3 a skrytí obsahu domény .cz – bude pořád jednodušší opravit jednu věc, CT, než opravovat spoustu dalších.
Ale jinak souhlasím, crawler, který se chová slušně, respektuje standard pro roboty (na HTTP/HTTPS robots.txt) a nepřetěžuje server, mi nijak nevadí – nedělá nic jiného, než co by mohl dělat kterýkoli člověk.
„Pardon, ale nebyl internet prakticky od začátku veřejný s tím, že když někam lidi nechci pustit, tak je tam prostě nepustím (firewall, login, ...)“
Tak jednoduché to nebude. Když vám někdo udělá DoS, nebo hůře DDoS, formálně nic nelegálního nedělá, protože se připojuje na veřejnou službu, ale sám cítíte, že to asi není v pořádku. Je to to samé jako zvonek u baráku/bytu - zazvonit může kdokoliv (od toho tam ten zvonek je), ale když bude pořád někdo zvonit nebo to zneužívat, taky vás to bude defekovat.
Uvital bych moznost opt-out, napr. pres TXT zaznam _dns-crawler.DOMAIN IN TXT "P1550FF". Neco podobnyho, jako je robots.txt u HTTP.
To, ze neco zpristupnuju verejne jeste neznamena, ze davam souhlas s tim, aby si to nekdo nekde ukladal, dale a tim pracoval a analyzoval.
1. 6. 2020, 12:50 editováno autorem komentáře
Tím by se ale negoval jeden ze záměrů projektu - např. všechny fake e-shopy by si pak mohly přidat takový TXT záznam a byly by v pohodě.
Na stránce https://www.csirt.cz/cs/dns-crawler/ jsme sepsali podmínky ukládání dat, z nichž je snad zřejmé, že s výjimkou bezpečnostních incidentů nebudeme s informacemi pracovat adresně, tedy ve vazbě na konkrétní doménu.
Pokud se dobře dívám do config.yml tak useragent bude "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36".
Proč není nějak standardně, např: "DNScrawler/1.0 (https://csirt.cz/cs/dns-crawler/)", či podobně?
Pokud se tvářím falešně (například tvrdím useragentem že jsem prohlížeč, nebo ještě hůře, podepíšu se jak nějaký známý robot) dojde velice brzo k blokování IP adres. Poslat falešný useragent je jednoduché, ale skutečné chování prohlížeče (na tož člověka) to nebude.
Za mě je libovolný takovýto robot "web scraper" a zaslouží zablokovat.
Mimochodem, jak koukám, jednu IP adresu z uvedených již používají s tímto useragentem (předtím to byla doměnka z uvedených zdrojáků).
Tento User-Agent (a pár dalších hlaviček) posíláme, protože chceme analyzovat stejný obsah, jaký vidí prohlížeče a uživatelé, jen tedy bez interpretace JS.
Přidat třeba na konec odkaz na informace o provozu není špatný nápad, ale při té frekvenci skenování — jednou týdně HEAD, jednou měsíčně GET — se to asi u většiny živých webů ztratí v šumu…
Nemyslím, že se to ztratí, naopak. Bylo by to výborné.
Tedy něco jako:
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36 DNScrawler/1.0 (https://csirt.cz/cs/dns-crawler/)"
nebo:
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko; DNScrawler/1.0 +https://csirt.cz/cs/dns-crawler/) Chrome/74.0.3729.131 Safari/537.36"
A podobně.
Děkuji
No, jsem silně skeptický k podobným projektům od doby, co nám jakási parta univerzitních pošuků začala "crawlovat" firemní mailserver každou hodinu z cca 15 různých míst s úmyslem výzkumu souladu TLSA záznamů s certifikáty na serveru apod., čímž bohužel prakticky znemožnila nějaké rozumné debugovaní reálných problémů se zabezpečeným odesíláním/příjmem emailů. "Crawler" byl navíc prudce "inteligentní", např. na zákaz STARTTLS pro dané IP adresy reagoval tím, že začal otravovat z adres sousedních.
:-X
Aspoň vidíte, že podobně věci může v menším či větším rozsahu dělat v podstatě každý, a leckdo taky dělá. Jsme si vědomi toho, že v našem případě jde o plošnou akci, a tak se budeme maximálně snažit, abychom neovlivňovali normální provoz a nezatěžovali sítě a servery. Na výše uvedené webové stránce jsou uvedeny také kontaktní informace. Prosím tímto každého, kdo s námi chce spolupracovat, aby nám případné problémy ohlásil.
Takových botů chodí po internetu mnoho, takže si nemyslím, že by se kvůli jednomu dalšímu musel dělat humbuk, zvláště když jde o CZ.NIC. Veřejné informace jsou veřejné informace.
Diskutabilní by mohlo být akorát připojování se na TCP porty 465 a 587. Myslím si, že Submission není úplně jednou z veřejných služeb, kterou by servery poskytovaly každému "kolemjdoucímu". Na druhou stranu, pokud ji takto poskytují, tak je něco špatně a jestliže v takovémto případě budou správci nějak upozorněni, jsem rozhodně pro.