taky tam říkal, že AI crawlery jim zatěžují (přetěžují) infrastrukturu (15:55). Zajímavej talk, Linus tam byl hodně klidnej, i ohledně NVidie :-)
A nejde udelat distribuovanou detekci (sdilenej monitoring), a odvodit hrisne site / AS, na ktere se pak nasledne nasadi urcity rate limiting / blokace, pokud nebudou postupovat akceptovatelnou pomalosti ?
Proste jsme tam, kde se spamem pred X lety.. jen smer toku dat je opacnej. Nevyzadane vysosavani :D
Jen se obavam, ze po zablokovani serverovych AS, nekoho napadne distribuovat prohlizec/vpn s pridanou sluzbou, ktera bude nest skryte proxy pro vysosavani.. takze pak ty uzivatelske AS odpojit / blokovat nebude mozne :(
Ono to není jen o vysávání pro trénování. Tímhle zablokuješ i AI agenty, a to je pak otázka, jestli se opravdu chceš připravit o to, co možná bude hlavní cesta, jak k sobě nějakého návštěvníka dostat. Asi jako kdyby si někdo zablokoval search engine crawlery, a pak naříkal, že ho nikdo nenajde na Google. Možná chceš, možná ne... Obzvlášť, když jsi třeba obchod nebo restaurace.
Tak zrovna ty restaurace a podniky se statickou PREZENTACI to ten botovej pristup nepolozi, a pokud tam ma fungovat AI agentovatelnost skrze nejake API, tak to asi tak chteji (treba rezervace v hotelierstvi).
Problem je to nyni jen pro ruzne kosate weby s dynamickym OBSAHEM - typicky diskuzni fora. Tam se setkava nejenze potreba to vysosat cely, ale casto potreba to delat opakovane, aby to bylo up to date. A jak moderni platformy nehledi na kB/MB html.. tak si za nadmernou zatez ponekud muzou ty sluzby sami (tim jako nesouhlasim s vysavanim pro ucely AI... pro obcasny update od googlu se to jeste akceptovat da - to obcas nove navstevniky prinese ... uz k tak velike uzivatelske zakladne co mi ty data tam nasazela).
Bohuzel hromada zajimaveho obsahu mizi z volneho internetu - treba uzavrene neprohledatelne Discord site, ty aspiruji na krale darknetu v nynejsi dobe.
A pak taky ze cely zaplnuje sum... bejvavalo SEO.. nyni je to generativni AI. Holt nektere technologie si rezou vetev pod sebou - a to vse jen pro malej drobak.
Jsem zvedav zda nekdo z internetu bude mit koule jako dnesni MTV - ze proste zavrou kram, sbohem a satecek, protoze zjisti ze uz presluhuji a svuj ucel to neplni.
Obchod je taky dynamický web, a zároveň víc a víc lidí bude chatboty používat k asistenci při nákupu. Heureka má problém, když ten chatbot mi dokáže na "chci si koupit produkt X v ČR, najdi mi obchody, kde je ve slevě," dát rozumnou odpověď a odkaz na konkrétní obchod a produkt. I když na druhou stranu, taky mi říká, že jestli chci slevu, tak dobrý tip je kontrolovat Heureku... :D Ale obchod, co bude AI blokovat, se tam nejspíš neobjeví, protože na něj nebude moct ten bot vlézt a zkontrolovat aktuální cenu.
Ty uzavřené skupiny a podobně považuji za mnohem větší problém, než nějaké crawlery - které jsou problém, ale mnohem snáz technicky řešitelný. Studenti VUT FIT, co zažili jak zlatá léta fóra Fitušky, kde se dalo krásně hledat a procházet, tak přesun na Facebook, kde se dalo akorát tak zeptat se znovu, protože dva dny staré vlákno je už navždy v šumu ztracené, můžou povídat.
Ale s tím vysáváním a crawlery si myslím, že se to vyřeší nějak organicky. Nejspíš nějakou kombinací různých faktorů, že to nakonec bude takový ten otravný problém na pozadí, jako je podíl spamu na emailech, nebo podzimní chřipka, který se ale většinou dá ignorovat.
Pokud to chce clovek resit v self-hosted rezimu, tak Anubis zas tak spatne reseni neni. Ostatne na nas na mnoha opensource projektech vybafne :-) Nalepit to treba do NGINXu neni vubec tezke. Nekdy je potreba lehce (dle aplikace) hrabnout do toho konfiguracniho yaml... ale dost casto staci i ten default. A je to hodne zivy projekt.
Hrisne site to nejak i zohlednuje (nevyhoda je, ze neco je toho casu v "paid' modelu), ale v dnesni dobe to samo o sobe uz beztak neni vseobjimajici reseni, pokud clovek nechce s vanickou vylejvat i dite :-) Ono obecne se i ty "nechtene" traffic-patterny proste vylepsuji a tradicni techniky "z mladu" uz prestavaji fungovat.
This document specifies and extends the "Robots Exclusion Protocol" method originally defined by Martijn Koster in 1994 for service owners to control how content served by their services may be accessed, if at all, by automatic clients known as crawlers. Specifically, it adds definition language for the protocol, instructions for handling errors, and instructions for caching.
Crawlers are automated clients. Search engines, for instance, have crawlers to recursively traverse links for indexing as defined in [RFC8288].
25. 11. 2025, 12:30 editováno autorem komentáře