Neni bot jako bot. Ja treba uz pouzivam browser docela omezene a na vetsinu veci poslu meho agenta. Coz je uplne stejne jako bych tam prisel ja sam, jen nemusim klikat na otravnych webech a online veci vyresim z pohodli terminalu. Pokud meho agenta vyblokujes tak automaticky ztracis zakaznika..
To jsi jako přidal tento příspěvek z terminálu? To by mne zajímalo, jak se to pohodlně bez browseru dělá... (CURL není moc pohodlný).
Z mojí zkušenosti můžu doporučit spíše CIDRAM než Go-away, protože není potřeba mít ani přístup k serveru. Jde o PHP skript s ovládacím panelem, který již má přednastaveno blokování hostingových a cloudových poskytovatelů. Kterým může volitelně zobrazit captcha. Někteří lidé používají VPN nebo Tor, takže je vhodné těmto zobrazit Captcha a umožnit přístup. Ve výchozím stavu umožňuje přístup známým botům jako je Google, Bing atd.
https://github.com/CIDRAM/CIDRAM/
https://internetlifeforum.com/showthread.php?30995-How-to-install-CIDRAM-on-a-website-to-block-crawlers-and-useless-robots
Také mohu doporučit blocklist botů na základě User Agenta na úrovni .htaccess https://perishablepress.com/ultimate-ai-block-list/
Pěkná hračka, která už ale z principu svého fungování má trošku omezené funkce a výsledky.
I autoři to pak uvádí na patřičných místech v dokumentaci:
"rate_limiting" (Category)
Configuration for rate limiting (not recommended for general use).
...
Záleží tedy na tom, co se řeší - kontrola zdrojových IP adres a http hlaviček? Nebo obecná kontrola přístupů s větší možností konfigurace?
Navíc to je svázané s php - co když jsou věci na jiných technologiích, co když jen poskytuji static content?
Nejsem si úplně jistý, že blokovat na úrovni .htaccess je dobrý nápad. Pokud se dobře pamatuji, tak .htaccess musí Apache zpracovat při každém požadavku a při větším objemu požadavků a zároveň větším množství pravidel, to je generuje nějaké CPU.
Souhlasím s tím, že pokud nemáte k dispozici přístup k serveru, tak moc možností nemáte a blokování v PHP či .htaccess existuje.
Obvyklý způsob, jak tyto nástroje fungují je zaslání nějaké výpočetně náročnější úlohy, kterou musí prohlížeč vyřešit, než mu je povolen přístup k obsahu. Typicky se jedná o spočítání inverze nějakého haše (kryptografckého otisku). Protože spočítání úlohy trvá nějakou krátkou dobu (třeba půl sekundy), roboti, kteří by chtěli stahovat velké množství obsahu, jsou tím poněkud zdrženi.
Proč nechat počítat zbytný hash, proč nepočítat zlomek nějaké kryproměny… Oh wait, to už se vlastně děje!
Takové tvrdé (nebo i měkké - například captcha) blokování může být porušením zákona. Na druhou stranu vím, že firmy ani úřady si s tím hlavu moc nelámou. Například dobré špatné příklady jsou https://www.leroymerlin.fr/ nebo https://www.hiperdino.es/