Nepodceňoval bych to "pár" crawlerech. Na webu školy v access logu je obvykle problém najít záznam, který by vykazoval znaky živého uživatele. Nemám to spočítané (asi by stálo za to tu statistiku udělat), ale namátkovým prohlédnutím logu bych řekl, že různé boty tvoří minimálně 90 % návštěvnosti.
Na mé domácí RPi šlo s otevřeným portem 80 v průměru 5 dotazů za sekundu, žádný z nich nebyl validní - všechno pokusy o narušení phpMyAdmina, WordPressu a podobných služeb nebo crawlování. To už je imho významný nadarmo spálený výkon.
Jsou dokumentované případy, kdy boti stáli jednoho člověka 5000 dolarů za měsíc jenom na trafficu. Za přístup na jeho statický blog. To fakt není pár crawlerů. Dokud to nezažijete, tak nepochopíte. Ty boti jsou jak blbý, furt dokola třeba navšťěvují stejnou stránku. I když dává 404. Ignorují robots.txt. Nemají žádný ratelimit. Jde to srovnat s DOSem. Pokud si vaší stránky nevšimli, tak buďte rád. Ják si vás všimnou, tak začnou posílat requesty pořád dokola. My jsme postupně museli zvedat VM až na 64 CPU a furt to nestačilo. Nasadili jsme Anubise a mohli jsme se vrátit k původním 4 CPU.
Podle toho co ruzne sleduju a googlim to neni jen o tom, ze AI se na tech datech cvici, ale i o tom, ze ji nekdo zada dotaz, ktery se rozpadne do 1000 vlaken a kazde z nich si nezavisle ziskava podklady. Takze na web kam prijde realne 10 lidi za den se behem 10 sekund navali 1000 pozadavku na maxwellovy rovnice z jednoho rozsahu /24 a vsechny si sahnou na tu samou stranku. Kdyz to server neda, tak za 20 sekund prijde ta sama vlna dotazu na to same URL. A tohle vidim vsude, znicehonic se 5000 lidi z AWS rozhodne koupit Skodu Superb rok vyroby 2023 v jedne a te same sekunde. To se vubec neda rozeznat od DoS utoku. Vy vlastne nevite, jestli to fakt nebyl zaplaceny DoS konkurentem a nebo jestli investujete 20x tolik do serveru a prepsani aplikace aby takovy napor zvladla a odmenou bude, ze prijde nekdo a rekne: "Nasel jsem na chatgpt ze mate nejmensi marze, takze si jdu koupit Superba k vam." A kolik tech superbu se vubec bude muset prodat, aby se vratila ta investice do onlne prezentace.
Ti roboti jsou pritiom uplne blbi a nic si nepamatuji, nerespektuji zadne limity, neda se s nima komunikovat. S googlem se domluvite, ze vas nebude pretezovat, ale s timhle neni zadna sance. A kdyz se nejak uridi provoz jednoho bota, zitra vznikne novy, ktery to bude delat uplne stejne spatna jako jeho predchudce.