Ohejbák na rovnák. Tohle je prostě potřeba řešit na nějaké etické globální úrovni. Zaprvé není možné vykrást jedinečný obsah webu a neuvést ani zdroj, zadruhé není možné provozem AI crawlerů přetěžovat weby, které nejsou dělaný na 10 requestů za sekundu, ale za den. Je tu něco moc špatně, což se dá u překotně se rozvíjejícího hype očekávat, proto je potřeba tomu dát nějaký rámec. Ale ne zas ve stylu EU - zakázat, nahlásit, uvěznit.
Myslím si, že ochrana provozu primárních zdrojů bude něco, co bude potřeba řešit i v té Číně, současné USA, budoucí USA, kdekoli. Jde o to, aby se definice a prostředky podařilo vytvořit jednotné, už proto, že internet je globální záležitost a přijde mi uhozené stran něj řešit stejné věci v jiných jurisdikcích jinak. To vytváří pošahané cookies lišty, implementační vopruz kolem nich, když má web globální přesah atd.
Jestli pak někde bude trestem pokuta, Sibiř nebo bičování, to už je pochopitelně záležitost lokálních obyčejů...
Dnes to blokují a za pár let budou stránky bojovat o to, aby se obsah z jejich stránek preferoval před ostatními ... stejně se dnes bojuje o příčky v klasických vyhledávačích.
Nicméně faktem je, že boti procházející weby ( a nejenom AI ) jsou dnes občas opravdu hodně agresivní a bylo by fajn, když by trošku přibrzdili. Způsobuje to reálně problémy s dostupností. Když by ty servery tak nepřetěžovali, tak pro naprostou většinu nebude důvod ty blokace řešit.
Asi bude dost záležet na tom, co daná stránka nabízí. Pokud to bude samotný obsah stránky, tak nevidím nic, co by tyto stránky motivovalo, aby byly zindexované AI. Pokud AI vyhledávače budou uživatelům odpovědi přímo nabízet, návštěvnost, kterou na ty stránky přivedou, bude úplně minimální, taktéž bude minimální ekonomický a reputační přínos pro jejich autory.
Něco jiného jsou stránky, které jen propagují nějaký jiný produkt. Pokud nějaká firma prodává třeba sekačky, tak potřebují, aby se informace o jejich sekačkách dostaly k lidem. A je jim celkem jedno, jestli to bude skrze jejich stránky nebo nějakou AI službu, která se na těch stránkách naučí. Tam si myslím, že ta motivace bude a bude na to vznikat na AI ušité SEO.
Asi jsi nepochopil problem, tak to zkusime polopate: problem je, ze kdyz fy A trenuje svoji AI na datech fy B, tak zpomaluje servery firmy B a firma B musi platit za vetsi provoz/lepsi servery. Tedy firma B doslova financne prispiva na vyvoj firme A aniz by z toho fy B cokoliv mela. A naopak zvyseny provoz skodi fy B, protoze muze zpusobit nedostupnost servery fy B pro zakazniky fy B.
Znas tu o tom ze zadarmo ani kure nehrabe?
A pak jeste pro jistotu tu o tom ze zamestnanci fy B taky chteji svym detem koupit darky na vanoce, a tak fy B musi byt ziskova...
11. 7. 2025, 16:17 editováno autorem komentáře
Je to klasická externalizace nákladů. Příjmy jdou jednomu subjektu, ale náklady zatěžují subjekty okolo. Asi jako když fabrika znečišťuje vzduch a lidi v okolí to musí dýchat. Nejenže to není fér vůči těm lidem, ale navíc dochází k neefektivní alokaci zdrojů, protože do produktu se plně nepromítají náklady, které způsobuje. S AI boty a zatěžováním infrastruktury ostatních to je stejné.
Jinak nejde jen o firmy. Toto je reálný problém i pro ty open-source projekty, které mají často peníze jen ve formě darů od uživatelů, a každý dolar je pro ně důležitý. Těm to prodražuje hosting klidně o tisíce dolarů ročně, aby si na jejich obsahu udělala produkt multimiliardová korporace, která jim ho následně za těžké peníze prodá.
Toto ale ještě není vyřešené.
Dokud to bylo indexování a Google nabídl kliknout na ten web, tak to bylo celkem ok, k čemu mi ale jako autorovi je to, že někdo použije obsah na mojem webu, aby uspokojil dotaz nějakého uživatele, a já z toho vůbec nic nemám?
Toto prostě je další vysávání komunitního obsahu k tvorbě zisku těcho "AI" firem, které žádný obsah netvoří. Nevšiml jsem si, že by tito AI vysávači nějak platili za to, že to dělají, a přitom obsah většinou má nějakou licenci.
11. 7. 2025, 17:52 editováno autorem komentáře
Používají. Ta věta v článku je nesmysl, který platitl před 10+ lety. Tím něříkám, že bot bez js neexistuje, ale je naprostý nesmysl na tohle spoléhat. Spíš naopak - víc a víc se používají upravené headless browsery, které tu detekci obejdou, apod. Což je prostě nutnost, jinak se k těm datůn nedostaneš (nebo budeš dělat scraper na konkrétní api, apod. což je v jejich měřítku nemožné.)
Roboti nepouzivaji JS? Vzhledem k tomu, ze uz jsem "parkrat" nejaky ten webscraping delal, tek jestli je to pravda, tak by roboti dost stranek nevideli. Spoustu stranek neco dotahuje pomoci JS, takze obycejnym scraperem z nich dostanete treba jen pulku nebo taky nic. Znamenalo by to, ze tvurci scraperu jsou hloupi a ze ochrana by byla primitvni. Trochu se mi to nepozdava.
A to se článek vůbec nezmiňuje o trendu mít AI vyhledávač integrovaný rovnou do prohlížeče, nebo celý prohlížeč postavený na AI modelu. Když jsem včera viděl propagaci jednoho takového prohlížeče, hned mě napadlo, jak se proti tomu na straně serveru bránit. Jedna věc je bránit se například openai a druhá bránit se agresi každého uživatele, který pomocí takového prohlížeče navštíví mou stránku.
Buď se nauč česky https://proofreading.cz/cestina-pod-lupou/holt-nebo-hold/ a nebo tu nespamuj s reklamou.
Tak třeba tady: https://www.hostingadvice.com/blog/ai-bots-drain-bandwidth-leaving-hosting-providers-to-pick-up-the-bill/ Jsou dokumentované případy kdy boti vyžrali na trafficu malého soukromého webu 5 tisíc dolarů za den! U velkých webů to může dělat až 50 % trafficu https://www.gadgetreview.com/ai-bots-strain-wikimedia-commons-as-bandwidth-surges-50 Já v práci provozuji mj. frontend pro git a ten se stal díky AI botům totálně nepoužitelný a museli jsme ho vypnout.
O co jde z pohledu uzivatele?
Ze si webscrapper stahuje cely web, aby na nem LLM trenoval? To asi muze delat i pomalu, aby ho nezatezoval, ne?
Nebo ze se uzivatel zepta LLM na nejakou vec, a to stahne cely web, aby melo informace k odpovedi? To docela pouzivam, a kdyz se tomu bude nejaky web branit, bude vlastne sam proti sobe...
Jako webmaster jsem se s tim nesetkal, zadny muj web asi neni dost velky nebo zajimavy. Ale jako uzivatel AI vyhledavani pouzivam. Treba stejne casto jako Google, mozna casteji; na nektere problemy je daleko lepsi. Nedavno zrovna treba na to, jak napsat prikaz pro ffmpeg, a ano, vyuzival k tomu webove zdroje.
Nebo ze se uzivatel zepta LLM na nejakou vec, a to stahne cely web, aby melo informace k odpovedi?
Opravdu to prochází daný web až po položení dotazu? To by bylo dost pomalé a neefektivní. AI vyhledávače projíždějí vlastní databázi, kterou už mají vytvořenou tím indexováním.
a kdyz se tomu bude nejaky web branit, bude vlastne sam proti sobe
A jak přesně je proti sobě? Že se Google na jeho obsahu nenaučí a nenabídne uživateli sám odpověď, přičemž ten web zůstane v nejlepším případě ponořený hluboko v seznamu zdrojů? Já mám celkem dost čtený blog. Na 500 návštěvníků z Googlu tam dojde jeden z AI vyhledávače Perplexity. Zatím AI boty nijak neblokuju, protože mě to výrazně nezatěžuje server, ale kdybych je blokoval, o nic nepřijdu. Tvůrci obsahu jsou zpravidla motivovaní tím, že je lidi čtou. Může to být kvůli zisku z reklamy, může to být kvůli reputaci/sociálnímu kapitálu. Když jim AI vyhledávače žádné čtenáře nepřinesou, tak jejich blokováním nemůžou ani o nic přijít.
Hlavní problém udržitelnosti AI je, že závisí na původním obsahu. Zároveň ale ve velkém likviduje motivaci ho tvořit. Přijde mi, že tohle si neuvědomují hlavně ti, kteří žádný původní obsah netvoří a jen konzumují. Myslí si, že ho ti ostatní pro jejich modré oči budou dál dělat a oni to jen budou konzumovat pohodlnější formou skrz AI.