Neni bot jako bot. Ja treba uz pouzivam browser docela omezene a na vetsinu veci poslu meho agenta. Coz je uplne stejne jako bych tam prisel ja sam, jen nemusim klikat na otravnych webech a online veci vyresim z pohodli terminalu. Pokud meho agenta vyblokujes tak automaticky ztracis zakaznika..
To jsi jako přidal tento příspěvek z terminálu? To by mne zajímalo, jak se to pohodlně bez browseru dělá... (CURL není moc pohodlný).
Coz je uplne stejne jako bych tam prisel ja sam
Hodně zcestná představa... Třeba by mě zajímalo, jak ten bot interaguje s reklamou a tudíž jak zvládá generovat provozní zisk těch webů, jako je třeba root.cz - z profilu nevidím, že byste na provoz rootu přispíval jiným způsobem. Nezpochybňuju, že nechat si vstupy předžvýkat asistentem má z hlediska efektivity mnohé výhody, je ale nesmysl zastírat, že to má i negativa a že to rozhodně není totéž, jako osobní přístup.
Jinak se nedivím webům, které ochotně ztrácí zákazníka, který jim kvůli neosobnímu přístupu generuje nedostatečný zisk. Spíš se divím webům, které se tomu nebrání.
"Hodně zcestná představa..."
Pravda, ale tu zcestnou predstavu mas ty. Ten bot bude narozdil od cloveka tu reklamu stahovat a klikat na ni. Clovek ji zablokuje a nikdy neuvidi. Takze pokud je nekdo ziv z reklamy, boti jsou pro nej pozehannim, muze se pak chlubit, ze ma na webu miliony navstev a podle toho inkasovat ...
Jasně a zadavatelé reklamy budou ochotně solit statisíce aniž by prodali jediný kus zboží. Tak a teď tu o červené karkulce...
A jaký máte tedy doporučený postup pro provozovatele webů ? Budete jim posílat měsíčně poplatek aby si koupili řádově lepší HW ? Pokud provozovatel nic neudělá, tak web bude tak či tak nedostupný, takže o vás stejně přijde.
Berme třeba komunitní weby zabývající se technickými tématy. Negenerují zisk, neobtěžují uživatele reklamou. Ale pro AI roboty je to velice chutné sousto plné informací.
To je beztak nekonecny souboj (cimz nerikam, ze se clovek nema branit). Ale s tim, jak vznikaji a rozsiruji se ruzne techniky na obrany proti botum vedle vznikaji i nastroje na obchazeni tech ochran. Pro priklad netreba behat daleko... jak se na youtube brani strojovemu strahovani, vedle nam vznikaji nastroje, co nam emuluji chovani klienta vc. javascript runtime (aka ejs).
Nastavit moderni ochrany typu Anubis je v podstate podobna magie, jako nastaveni WAF - nestaci jen vzit krabicove reseni a jit po peti minutach od toho, musite ho vzdy umet parametricky ohnout dle potreb te vasi webove aplikace... a proste se o to starat, a treba v reakci na realne problemy umet whitelistovat (kdy vstupem muze byt klidne report od klienta). Dalsi je to tamagotchi. Coz mj. znamena, ze jako provozovatel nekde tu zpetnou vazbu umoznite :-) Ale samozrejme to chce soucinnost i z druhe strany, tzn. ten kdo chce mit toho sveho "neskodiciho" bota musi pouzit hlavu a treba ten problem nahlasit...
K tomu komunitní weby zabývající se technickými tématy - třeba LWN dost psalo o zkušenostech a obraně (a na mastodontu průběžně)
5. 2. 2026, 08:16 editováno autorem komentáře
Z mojí zkušenosti můžu doporučit spíše CIDRAM než Go-away, protože není potřeba mít ani přístup k serveru. Jde o PHP skript s ovládacím panelem, který již má přednastaveno blokování hostingových a cloudových poskytovatelů. Kterým může volitelně zobrazit captcha. Někteří lidé používají VPN nebo Tor, takže je vhodné těmto zobrazit Captcha a umožnit přístup. Ve výchozím stavu umožňuje přístup známým botům jako je Google, Bing atd.
https://github.com/CIDRAM/CIDRAM/
https://internetlifeforum.com/showthread.php?30995-How-to-install-CIDRAM-on-a-website-to-block-crawlers-and-useless-robots
Také mohu doporučit blocklist botů na základě User Agenta na úrovni .htaccess https://perishablepress.com/ultimate-ai-block-list/
Pěkná hračka, která už ale z principu svého fungování má trošku omezené funkce a výsledky.
I autoři to pak uvádí na patřičných místech v dokumentaci:
"rate_limiting" (Category)
Configuration for rate limiting (not recommended for general use).
...
Záleží tedy na tom, co se řeší - kontrola zdrojových IP adres a http hlaviček? Nebo obecná kontrola přístupů s větší možností konfigurace?
Navíc to je svázané s php - co když jsou věci na jiných technologiích, co když jen poskytuji static content?
Nejsem si úplně jistý, že blokovat na úrovni .htaccess je dobrý nápad. Pokud se dobře pamatuji, tak .htaccess musí Apache zpracovat při každém požadavku a při větším objemu požadavků a zároveň větším množství pravidel, to je generuje nějaké CPU.
Souhlasím s tím, že pokud nemáte k dispozici přístup k serveru, tak moc možností nemáte a blokování v PHP či .htaccess existuje.
Obvyklý způsob, jak tyto nástroje fungují je zaslání nějaké výpočetně náročnější úlohy, kterou musí prohlížeč vyřešit, než mu je povolen přístup k obsahu. Typicky se jedná o spočítání inverze nějakého haše (kryptografckého otisku). Protože spočítání úlohy trvá nějakou krátkou dobu (třeba půl sekundy), roboti, kteří by chtěli stahovat velké množství obsahu, jsou tím poněkud zdrženi.
Proč nechat počítat zbytný hash, proč nepočítat zlomek nějaké kryproměny… Oh wait, to už se vlastně děje!
Takové tvrdé (nebo i měkké - například captcha) blokování může být porušením zákona. Na druhou stranu vím, že firmy ani úřady si s tím hlavu moc nelámou. Například dobré špatné příklady jsou https://www.leroymerlin.fr/ nebo https://www.hiperdino.es/
Nadměrné vytěžování serverů taky není OK a v některých případech může být trestným činem (objednání DDOS na konkurenci)
Osobně nemám řešení typu CAPTCHA vůbec v oblibě - zejména pokud na ně narazím na webu, kam prostě musím.
Například při přihlašování dítka na střední školu jsem byl vyoutován už při přihlašování sebe do dipsy
. (Ale je teprve čtvrtého, tak to snad stihnu...)
> Běžný uživatel toto zpoždění většinou zaznamená pouze během prvního přístupu na web. Při první návštěvě se mu do cookie uloží podepsaný token, kterým prokáže, že už úlohu vyřešil a při následných přístupech už je mu přístup povolen bez dalšího zdržování.
Z tohoto jsem zmateny -- ukladat cookie pri scrapingu neni zase tak velky problem v dnesni dobe...
Ale pak je poznat že přístupy z různých IP jsou stejná farma, a dá se na to cookie aplikovat rate limiting.
Ono ale take nemusi jit jen o to ze vam AI crawleri zerou prostredky ale i na webu obsazene informace a vy z toho nic nemate (treba vynosy z reklam a povedomi o vasem webu)
Nepodceňoval bych to "pár" crawlerech. Na webu školy v access logu je obvykle problém najít záznam, který by vykazoval znaky živého uživatele. Nemám to spočítané (asi by stálo za to tu statistiku udělat), ale namátkovým prohlédnutím logu bych řekl, že různé boty tvoří minimálně 90 % návštěvnosti.
Na mé domácí RPi šlo s otevřeným portem 80 v průměru 5 dotazů za sekundu, žádný z nich nebyl validní - všechno pokusy o narušení phpMyAdmina, WordPressu a podobných služeb nebo crawlování. To už je imho významný nadarmo spálený výkon.
Jsou dokumentované případy, kdy boti stáli jednoho člověka 5000 dolarů za měsíc jenom na trafficu. Za přístup na jeho statický blog. To fakt není pár crawlerů. Dokud to nezažijete, tak nepochopíte. Ty boti jsou jak blbý, furt dokola třeba navšťěvují stejnou stránku. I když dává 404. Ignorují robots.txt. Nemají žádný ratelimit. Jde to srovnat s DOSem. Pokud si vaší stránky nevšimli, tak buďte rád. Ják si vás všimnou, tak začnou posílat requesty pořád dokola. My jsme postupně museli zvedat VM až na 64 CPU a furt to nestačilo. Nasadili jsme Anubise a mohli jsme se vrátit k původním 4 CPU.
Podle toho co ruzne sleduju a googlim to neni jen o tom, ze AI se na tech datech cvici, ale i o tom, ze ji nekdo zada dotaz, ktery se rozpadne do 1000 vlaken a kazde z nich si nezavisle ziskava podklady. Takze na web kam prijde realne 10 lidi za den se behem 10 sekund navali 1000 pozadavku na maxwellovy rovnice z jednoho rozsahu /24 a vsechny si sahnou na tu samou stranku. Kdyz to server neda, tak za 20 sekund prijde ta sama vlna dotazu na to same URL. A tohle vidim vsude, znicehonic se 5000 lidi z AWS rozhodne koupit Skodu Superb rok vyroby 2023 v jedne a te same sekunde. To se vubec neda rozeznat od DoS utoku. Vy vlastne nevite, jestli to fakt nebyl zaplaceny DoS konkurentem a nebo jestli investujete 20x tolik do serveru a prepsani aplikace aby takovy napor zvladla a odmenou bude, ze prijde nekdo a rekne: "Nasel jsem na chatgpt ze mate nejmensi marze, takze si jdu koupit Superba k vam." A kolik tech superbu se vubec bude muset prodat, aby se vratila ta investice do onlne prezentace.
Ti roboti jsou pritiom uplne blbi a nic si nepamatuji, nerespektuji zadne limity, neda se s nima komunikovat. S googlem se domluvite, ze vas nebude pretezovat, ale s timhle neni zadna sance. A kdyz se nejak uridi provoz jednoho bota, zitra vznikne novy, ktery to bude delat uplne stejne spatna jako jeho predchudce.