taky tam říkal, že AI crawlery jim zatěžují (přetěžují) infrastrukturu (15:55). Zajímavej talk, Linus tam byl hodně klidnej, i ohledně NVidie :-)
Tak to je tak nejak vseobecny problem posledni dobou, co neni specificky jen pro kernelovy veci. Vsak je to vide i na tom, ze nejaka forma obrany se objevuje na rozlicnich git repozitarich.
A nejde udelat distribuovanou detekci (sdilenej monitoring), a odvodit hrisne site / AS, na ktere se pak nasledne nasadi urcity rate limiting / blokace, pokud nebudou postupovat akceptovatelnou pomalosti ?
Proste jsme tam, kde se spamem pred X lety.. jen smer toku dat je opacnej. Nevyzadane vysosavani :D
Jen se obavam, ze po zablokovani serverovych AS, nekoho napadne distribuovat prohlizec/vpn s pridanou sluzbou, ktera bude nest skryte proxy pro vysosavani.. takze pak ty uzivatelske AS odpojit / blokovat nebude mozne :(
Ono to není jen o vysávání pro trénování. Tímhle zablokuješ i AI agenty, a to je pak otázka, jestli se opravdu chceš připravit o to, co možná bude hlavní cesta, jak k sobě nějakého návštěvníka dostat. Asi jako kdyby si někdo zablokoval search engine crawlery, a pak naříkal, že ho nikdo nenajde na Google. Možná chceš, možná ne... Obzvlášť, když jsi třeba obchod nebo restaurace.
Tak zrovna ty restaurace a podniky se statickou PREZENTACI to ten botovej pristup nepolozi, a pokud tam ma fungovat AI agentovatelnost skrze nejake API, tak to asi tak chteji (treba rezervace v hotelierstvi).
Problem je to nyni jen pro ruzne kosate weby s dynamickym OBSAHEM - typicky diskuzni fora. Tam se setkava nejenze potreba to vysosat cely, ale casto potreba to delat opakovane, aby to bylo up to date. A jak moderni platformy nehledi na kB/MB html.. tak si za nadmernou zatez ponekud muzou ty sluzby sami (tim jako nesouhlasim s vysavanim pro ucely AI... pro obcasny update od googlu se to jeste akceptovat da - to obcas nove navstevniky prinese ... uz k tak velike uzivatelske zakladne co mi ty data tam nasazela).
Bohuzel hromada zajimaveho obsahu mizi z volneho internetu - treba uzavrene neprohledatelne Discord site, ty aspiruji na krale darknetu v nynejsi dobe.
A pak taky ze cely zaplnuje sum... bejvavalo SEO.. nyni je to generativni AI. Holt nektere technologie si rezou vetev pod sebou - a to vse jen pro malej drobak.
Jsem zvedav zda nekdo z internetu bude mit koule jako dnesni MTV - ze proste zavrou kram, sbohem a satecek, protoze zjisti ze uz presluhuji a svuj ucel to neplni.
Obchod je taky dynamický web, a zároveň víc a víc lidí bude chatboty používat k asistenci při nákupu. Heureka má problém, když ten chatbot mi dokáže na "chci si koupit produkt X v ČR, najdi mi obchody, kde je ve slevě," dát rozumnou odpověď a odkaz na konkrétní obchod a produkt. I když na druhou stranu, taky mi říká, že jestli chci slevu, tak dobrý tip je kontrolovat Heureku... :D Ale obchod, co bude AI blokovat, se tam nejspíš neobjeví, protože na něj nebude moct ten bot vlézt a zkontrolovat aktuální cenu.
Ty uzavřené skupiny a podobně považuji za mnohem větší problém, než nějaké crawlery - které jsou problém, ale mnohem snáz technicky řešitelný. Studenti VUT FIT, co zažili jak zlatá léta fóra Fitušky, kde se dalo krásně hledat a procházet, tak přesun na Facebook, kde se dalo akorát tak zeptat se znovu, protože dva dny staré vlákno je už navždy v šumu ztracené, můžou povídat.
Ale s tím vysáváním a crawlery si myslím, že se to vyřeší nějak organicky. Nejspíš nějakou kombinací různých faktorů, že to nakonec bude takový ten otravný problém na pozadí, jako je podíl spamu na emailech, nebo podzimní chřipka, který se ale většinou dá ignorovat.
Po přechodu FITu na Discord je to lepší/organizovanější/prohledatelnější (chaty podle předmětů/zájmů/ročníků) než Facebook, ale byla bych radši za phpBB (Fitušku). Navíc je na Discordu teď neskutečný shitpost, resp. objem bezvýznamných zpráv.
Ano, vysávání pro AI se dost omezí, až bublina praskne. Podobně jako když v kovidové kryptohorečce nebyly GPU, ale teď už zas jsou (díky omezení herních na příliš málo VRAM nejsou vhodné pro učení AI).
Pokud to chce clovek resit v self-hosted rezimu, tak Anubis zas tak spatne reseni neni. Ostatne na nas na mnoha opensource projektech vybafne :-) Nalepit to treba do NGINXu neni vubec tezke. Nekdy je potreba lehce (dle aplikace) hrabnout do toho konfiguracniho yaml... ale dost casto staci i ten default. A je to hodne zivy projekt.
Hrisne site to nejak i zohlednuje (nevyhoda je, ze neco je toho casu v "paid' modelu), ale v dnesni dobe to samo o sobe uz beztak neni vseobjimajici reseni, pokud clovek nechce s vanickou vylejvat i dite :-) Ono obecne se i ty "nechtene" traffic-patterny proste vylepsuji a tradicni techniky "z mladu" uz prestavaji fungovat.
Možná by pro začátek stačilo, kdyby respektovali robots.txt a meta name="robots" content="noindex, nofollow"
Spíš mi připadá, že velké procento vývojářů a správců na existenci robots.txt zapomnělo nebo mu nepřikládají takovou váhu jako kdysi.
Autori AI modelu pouzivaji crawlery obdobne jako tvurci vyhledavacu. A neni zadne nepochopeni, proste se na to vykaslali, to je tak nejak oblibene reseni v dnesni dobe - v ramci "uspor na sve strane" neco neimplementovat.
This document specifies and extends the "Robots Exclusion Protocol" method originally defined by Martijn Koster in 1994 for service owners to control how content served by their services may be accessed, if at all, by automatic clients known as crawlers. Specifically, it adds definition language for the protocol, instructions for handling errors, and instructions for caching.
Crawlers are automated clients. Search engines, for instance, have crawlers to recursively traverse links for indexing as defined in [RFC8288].
25. 11. 2025, 12:30 editováno autorem komentáře
Jejich chyba, že nebyli na světě a nedostali memo o novém RFC.
25. 11. 2025, 13:36 editováno autorem komentáře
S co ti asi mám říkat na blábol, že se to na A"I" nevztahuje následovaný "argumentem", že někteří vývojáři jsou zajíčci?
Možná by bylo ideální, kdybys před tím nešířil hovadiny jako Robots.txt je pro web search. Pro AI zatím nic vymyšleno nebylo a už je pozdě. a nerozpatlával je dál.
A která (skutečná) autorita tvrdí, že je to jinak? Ale dál to rozpatlávej...
25. 11. 2025, 14:45 editováno autorem komentáře
Což je zavádějící. Ale i kdyby to bylo dokonake výstižné, tak to z "Robots.txt je pro web search. Pro AI zatím nic vymyšleno nebylo a už je pozdě." pravdu neudělá.
robots.txt se na A"I" roboty vztahuje úplně stejně jako na všechny další včetně těch search crawlerů
Jejich chyba, že nebyli na světě a nedostali memo o novém RFC.
Proč by o něm měli dostávat nějaké memo? Umějí ty crawlery pro AI používat TCP/IP, DNS, HTTP? To všechno je také definováno v RFC, které vznikly už dávno.
Ladis: Pokud neznají základní standardy, které se týkají toho, co implementují, je to problém. A každopádně to není omluva. Každopádně pokud se těmi standardy nebudou řídit, nemůžou se pak divit, že je někdo kompletně odstřihne.
Zatím je nikdo neodstřihl a ještě do nich leje další peníze. Takže si asi myslí, že jednají správně.
1) odstřihl (resp. snažil se, co např. Anubis stačil). Ale bad actors (tvůrce LLM) není zas tak jednoduché zastavit
2) ano, kopec lidí a firem do bubliny leje peníze, což stále neznamená to, že by ta blbost s robots.txt byla pravda