Googlebot navštěvuje stránky proto, aby je zaindexoval a pak nabízel ve výsledcích vyhledávání. Pokud nějakou stránku nechce indexovat, nebude ji zbytečně stahovat.
Zpochybnit ten „fakt“ lze velmi snadno. Stačí vytvořit hostname, zprovoznit na něm HTTPS server, vystavit k němu důvěryhodný certifikát (na konkrétní jméno, ne hvězdičkový), a pak už jen sledovat logy, jestli se tam Googlebot ukáže.
Certifikát byl vystaven v Feb 3 09:59 2024 GMT.
IP adresy a User-Agent hlavičky máte tady: https://pastebin.com/DFZ4LvUJ Můžete zkusit tam Googlebota najít.
Zatím od vystavení certifikátu uplynuly jen dvě hodiny, třeba je to brzo. Zítra sem dám aktualizaci logu.
Mimochodem, jiné adresy na témže serveru Googlebot mezitím shodou okolností navštívil, takže na firewallu jeho IP adresa zablokována není, kdybyste třeba pochyboval.
Log na uvedeném odkazu jsem aktualizoval, Googlebot tam stále není. Ale VPS u Contabo, kde je web server pro danou doménu, měl jak na potvoru dnes výpadek (poprvé za dobu, co je hostován u Contabo). Tak bych tomu dal ještě čas, než budeme moci definitivně považovat za vyvrácené tvrzení, že Googlebot navštěvuje stránky na základě certifikátů vystavených v Certificate Transparency listu.
No neni to tak davno, co jsem resil ne uplne zvane navstevy z jednoho stroje z CESNETu, kdy provozovatel daneho systemu ospravedlnoval sve pokusy o AXFR na ruzne domeny mj. tim, ze se tyto objevily v CT logu... a tedy ze jde o verejny zdroj :-) Plus ten pan (kde i ze stylu registrace PA v RIPE bylo zrejme, ze jde asi o letitou one-man show) argumentoval tim, ze to dela kvuli bezpecnosti a pravidlum uziti site CESNET.... asi tak 25 let starym - fakt se na ne odkazal... :-) ATM, 34 Mbit... krasne to casy :D
Aneb nejen ten Google vyuzije data z CT zpusobem, ktery ne uplne cekate.