Zrovna u FSF a dalších nevidím důvod, proč by si většinu hodnotných obsahů nemohli prostě stáhnout AI firmy k sobě, představuju si, že by to měli celkově efektivnější. Dobrá zásada je, že když od někoho něco chci skoro za nic, tak je dobré nedráždit.
Vedlejší efekt takových prohlášení je, že je to výborná reklama na různé CDN, Cloudflare apod. ke kterým si představuji má RMS a další řadu výhrad.
Také tomu nerozumím. Já jsem si musel posekat osobní web, protože mi tyhle crawlery udělaly DDoS na GitWeb a DokuWiki.
Pomohla tomu nešťastná konstrukce URL: záložky jako "media" umožňují z každé stránky procházet všechny obrázky, a v URL je pořád ta původní stránka. Příklad jak vypadá takové crawlování DokuWiki:
/w/3g?tab_details=edit&do=media&tab_files=search&image=cvut.1.jpg&ns= /w/3g?tab_files=files&do=media&tab_details=history&image=gmp-proxy.png&ns= /w/krokodil?tab_details=history&do=media&tab_files=upload&image=gmp-proxy.png&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=kalibrate.png&ns=wiki /w/krokodil?tab_details=view&do=media&tab_files=files&image=klavesy.png&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=klavesy.png&ns=wiki /w/krokodil?tab_details=view&do=media&tab_files=files&image=kukuruku.jpg&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=kukuruku.jpg&ns=wiki /w/krokodil?tab_details=view&do=media&tab_files=files&image=screensaver.png&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=screensaver.png&ns=wiki /w/krokodil?tab_details=view&do=media&tab_files=files&image=sdrplay.jpg&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=sdrplay.jpg&ns=wiki
U GitWebu podobně, jdou přes všechny commity ve všech repozitářích, bez jakéhokoli pokusu o deduplikaci.
robots.txt to samozřejmě nerespektuje, takže jsem pro DokuWiki natvrdo začal vracet 403 pro všechny stránky co mají v query stringu do=media, a gitweb jsem vypnul úplně a nechal jsem tam jenom možnost vyklonovat si ty repozitáře běžným gitem. Bohužel, stejně ty svoje staré osobní projekty neudržuju, tak to není žádná škoda.
Ale přece proboha někdo neučí AI na procházení media manageru DokuWiki a na procházení jednotlivých commitů tak jak jsou vidět na GitWebu. Kdybych to psal já, tak si udělám pluginy pro detekci populárních druhů webů, a obsah si stáhnu v čisté formě. Jistě chápete, že jak DokuWiki, tak veřejný GitWeb tohle umožňuje.