Reknu to takhle: kdyby nekdo prisel z ulice k meho domu a zacal pres okno fotit vsechno co je vevnitr, taky by mi to vadilo. I kdyz pravne by to mozna bylo v poradku (kdyz by neprekrocil hranici meho pozemku).
Jednoduse u nekterych veci se (pripoustim, ze asi naivne) spoleham na slusnost. A rozhodne nepovazuju za slusne aby nekdo furt cenichal kolem myho dn-serveru, web-serveru a mail-serveru, a sbiral vse na co jeho drapy dosahnou. Zejmena kdyz z toho ja nemam vubec zadnej osoh, stejne jako z toho vaseho crawleru (na rozdil treba od internetoveho vyhledavace)...
Tenhle robot, a drtivá většina ostatních, ale nesbírá nic zevnitř. Jediné neveřejné údaje, které má tenhle robot, je seznam domén druhé úrovně pod TLD .cz.
A rozhodne nepovazuju za slusne aby nekdo furt cenichal kolem myho dn-serveru, web-serveru a mail-serveru, a sbiral vse na co jeho drapy dosahnou.
Tohle rozhodně není popis chování toho crawlera od CZ.NIC. Roboti vyhledávašů sbírají mnohem víc informací, ale ani na ně zdaleka neplatí „sbiral vse na co jeho drapy dosahnou“.
Zejmena kdyz z toho ja nemam vubec zadnej osoh
Já nemám žádný užitek ani z robotů Seznamu nebo Microsoftu, přesto bych se neodvážil tvrdit, že jsou to neužiteční roboti.
Ale mně šlo jenom o to, zda jenom píšete silácké komentáře, nebo jestli se podle nich také řídíte. To už jsme se myslím dozvěděli, mně to stačí.
Jak už bylo řečeno níže, nejde o focení přes okno. Viděl jste už někdy auto fotící pro Google? Nebo podobné auto dodávající data Seznamu? Letadlo fotící váš barák shora? CZ.NIC bude vypravovat jen další auto v řadě. A bude k tomu sbírat i informace, jako třeba kdo má děravý okap a jakou barvu má schránka. A když auto najde nějaký veliký problém, tak může majitele baráku upozornit.
Zlouni vypraví takové auto v tichosti, nebudou o tom psát články na root a detailní popis.
1. 6. 2020, 15:07 editováno autorem komentáře
„CZ.NIC bude vypravovat jen další auto v řadě.“
Pozor, tohle je argumentační klam - to, že není první či je jen jedním z mnoha, neznamená, že je automaticky přijatelný.
„A když auto najde nějaký veliký problém, tak může majitele baráku upozornit.“
A nebude to majitele obtěžovat?
Osobně ale na společenskou přijatelnost slídičů nemám vyhraněný názor.
Pardon, ale nebyl internet prakticky od začátku veřejný s tím, že když někam lidi nechci pustit, tak je tam prostě nepustím (firewall, login, ...)
Pardon za ostřejší slova, ale tohle mě připomíná Cimrmanovo "Postavil si hospodu na rozcestí. Ale chodili mu tam lidi."
BTW: když už jsme u nevyžádaných scanů, spíš bych nadával někde jinde. Zrovna předevšírem, na nějaký test jsem si udělal server, hostname nikdy nikde nebyl zveřejněný, přístupný jen přes SNI, zone transfer zakázaný etc.
Pak šup ./getssl.sh, přišlo pár connectů od Letsencrypt...
... a během dvou minut už request někde z Panamských ostrovů a z Digital Ocean na to konkrétní SNI. Něco mi říká, k čemu vlastně máme NSEC3 a proč není .cz veřejná, když si google prosadil CT v té podobě v jaké je :-(
Ne všechna doménová jména musí mít vydaný certifikát. A snad se jednou dočkáme nahrazení DV certifikátů DANE, takže se jména nebudou muset objevovat v CT. Takže bych kvůli implementaci CT nezatracoval NESC3 a skrytí obsahu domény .cz – bude pořád jednodušší opravit jednu věc, CT, než opravovat spoustu dalších.
Ale jinak souhlasím, crawler, který se chová slušně, respektuje standard pro roboty (na HTTP/HTTPS robots.txt) a nepřetěžuje server, mi nijak nevadí – nedělá nic jiného, než co by mohl dělat kterýkoli člověk.
„Pardon, ale nebyl internet prakticky od začátku veřejný s tím, že když někam lidi nechci pustit, tak je tam prostě nepustím (firewall, login, ...)“
Tak jednoduché to nebude. Když vám někdo udělá DoS, nebo hůře DDoS, formálně nic nelegálního nedělá, protože se připojuje na veřejnou službu, ale sám cítíte, že to asi není v pořádku. Je to to samé jako zvonek u baráku/bytu - zazvonit může kdokoliv (od toho tam ten zvonek je), ale když bude pořád někdo zvonit nebo to zneužívat, taky vás to bude defekovat.
Uvital bych moznost opt-out, napr. pres TXT zaznam _dns-crawler.DOMAIN IN TXT "P1550FF". Neco podobnyho, jako je robots.txt u HTTP.
To, ze neco zpristupnuju verejne jeste neznamena, ze davam souhlas s tim, aby si to nekdo nekde ukladal, dale a tim pracoval a analyzoval.
1. 6. 2020, 12:50 editováno autorem komentáře
Tím by se ale negoval jeden ze záměrů projektu - např. všechny fake e-shopy by si pak mohly přidat takový TXT záznam a byly by v pohodě.
Na stránce https://www.csirt.cz/cs/dns-crawler/ jsme sepsali podmínky ukládání dat, z nichž je snad zřejmé, že s výjimkou bezpečnostních incidentů nebudeme s informacemi pracovat adresně, tedy ve vazbě na konkrétní doménu.