Zrovna u FSF a dalších nevidím důvod, proč by si většinu hodnotných obsahů nemohli prostě stáhnout AI firmy k sobě, představuju si, že by to měli celkově efektivnější. Dobrá zásada je, že když od někoho něco chci skoro za nic, tak je dobré nedráždit.
Vedlejší efekt takových prohlášení je, že je to výborná reklama na různé CDN, Cloudflare apod. ke kterým si představuji má RMS a další řadu výhrad.
Také tomu nerozumím. Já jsem si musel posekat osobní web, protože mi tyhle crawlery udělaly DDoS na GitWeb a DokuWiki.
Pomohla tomu nešťastná konstrukce URL: záložky jako "media" umožňují z každé stránky procházet všechny obrázky, a v URL je pořád ta původní stránka. Příklad jak vypadá takové crawlování DokuWiki:
/w/3g?tab_details=edit&do=media&tab_files=search&image=cvut.1.jpg&ns= /w/3g?tab_files=files&do=media&tab_details=history&image=gmp-proxy.png&ns= /w/krokodil?tab_details=history&do=media&tab_files=upload&image=gmp-proxy.png&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=kalibrate.png&ns=wiki /w/krokodil?tab_details=view&do=media&tab_files=files&image=klavesy.png&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=klavesy.png&ns=wiki /w/krokodil?tab_details=view&do=media&tab_files=files&image=kukuruku.jpg&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=kukuruku.jpg&ns=wiki /w/krokodil?tab_details=view&do=media&tab_files=files&image=screensaver.png&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=screensaver.png&ns=wiki /w/krokodil?tab_details=view&do=media&tab_files=files&image=sdrplay.jpg&ns= /w/krokodil?tab_details=view&do=media&tab_files=files&image=sdrplay.jpg&ns=wiki
U GitWebu podobně, jdou přes všechny commity ve všech repozitářích, bez jakéhokoli pokusu o deduplikaci.
robots.txt to samozřejmě nerespektuje, takže jsem pro DokuWiki natvrdo začal vracet 403 pro všechny stránky co mají v query stringu do=media, a gitweb jsem vypnul úplně a nechal jsem tam jenom možnost vyklonovat si ty repozitáře běžným gitem. Bohužel, stejně ty svoje staré osobní projekty neudržuju, tak to není žádná škoda.
Ale přece proboha někdo neučí AI na procházení media manageru DokuWiki a na procházení jednotlivých commitů tak jak jsou vidět na GitWebu. Kdybych to psal já, tak si udělám pluginy pro detekci populárních druhů webů, a obsah si stáhnu v čisté formě. Jistě chápete, že jak DokuWiki, tak veřejný GitWeb tohle umožňuje.
Tak toto je sila. Koľko energie a úsilia dali ľudia a prevádzkovatelia webov, aby ten obsah doručili reálnym ľuďom. Teraz príde AI a scucne údaje. A tieto údaje použije na svoj rast. A potom servíruje obsah ľuďom, ktorý je upravený presne podľa tých, ktorý to AI ponúkajú verejnosti a to najlepšie ponúkajú ľuďom za peniaze.
Všetci tí ktorí majú weby a je tam hodnotný obsah, by mali použiť cloudflare na ochranu dát. A sprístupniť iba 1/3 webu, aby google bot získal obsah pre indexáciu. A zvyšne dve tretiny skryť za registráciu, ktorú oni sami vyvinú a nie žiadne prihlasovanie sa pomocou google účtu.
Treba AI vykázať z webov. Ale ľudia sú leniví a leniví sa niečo nové naučiť, ako efektívne vykázať AI z webov. Takto ľudia prevádzkovatelia webov stratia aj 80% návštevnosti.
Toto je krádež autorského obsahu za bieleho dňa!
Takže nie paywall ale premyslený custom AIWALL - toto treba urobiť a to čo najrýchlejšie.Je to krádež a potom je to cenzúra. Ak ľudia chcú hodnotné info, tak nech sa registrujú, aby sa dostali k hodnotnému obsahu. Tým zm*d*m s AI treba sťažiť kradnutie, tak ako sa len dá.
To je môj názor!!! A ja mám weby, a AI tam nepustím, respektíve im to sťažim na možné maximum!!!
Pro vsechny boty bych vyzadoval v UA nebo cookie sdeleni "intention of use" - zda jde o fulltext, tak budiz.. a pak maj respekovat dany rate limit a revisit time.
Pokud je uziti dat komercni - at uz jde o AI, nebo ruzne data mining sajty co zverejnuji data z rejstriku a pridavaj k nim wtf analytiku a nesmyslne odhady, bych to videl na:
HTTP 402 - Payment Required
https://en.wikipedia.org/wiki/HTTP_402
Jak proziravy byl autor HTTP protokolu :)