Pokud se dobře dívám do config.yml tak useragent bude "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36".
Proč není nějak standardně, např: "DNScrawler/1.0 (https://csirt.cz/cs/dns-crawler/)", či podobně?
Pokud se tvářím falešně (například tvrdím useragentem že jsem prohlížeč, nebo ještě hůře, podepíšu se jak nějaký známý robot) dojde velice brzo k blokování IP adres. Poslat falešný useragent je jednoduché, ale skutečné chování prohlížeče (na tož člověka) to nebude.
Za mě je libovolný takovýto robot "web scraper" a zaslouží zablokovat.
Mimochodem, jak koukám, jednu IP adresu z uvedených již používají s tímto useragentem (předtím to byla doměnka z uvedených zdrojáků).
Tento User-Agent (a pár dalších hlaviček) posíláme, protože chceme analyzovat stejný obsah, jaký vidí prohlížeče a uživatelé, jen tedy bez interpretace JS.
Přidat třeba na konec odkaz na informace o provozu není špatný nápad, ale při té frekvenci skenování — jednou týdně HEAD, jednou měsíčně GET — se to asi u většiny živých webů ztratí v šumu…
Nemyslím, že se to ztratí, naopak. Bylo by to výborné.
Tedy něco jako:
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36 DNScrawler/1.0 (https://csirt.cz/cs/dns-crawler/)"
nebo:
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko; DNScrawler/1.0 +https://csirt.cz/cs/dns-crawler/) Chrome/74.0.3729.131 Safari/537.36"
A podobně.
Děkuji