O co jde z pohledu uzivatele?
Ze si webscrapper stahuje cely web, aby na nem LLM trenoval? To asi muze delat i pomalu, aby ho nezatezoval, ne?
Nebo ze se uzivatel zepta LLM na nejakou vec, a to stahne cely web, aby melo informace k odpovedi? To docela pouzivam, a kdyz se tomu bude nejaky web branit, bude vlastne sam proti sobe...
Jako webmaster jsem se s tim nesetkal, zadny muj web asi neni dost velky nebo zajimavy. Ale jako uzivatel AI vyhledavani pouzivam. Treba stejne casto jako Google, mozna casteji; na nektere problemy je daleko lepsi. Nedavno zrovna treba na to, jak napsat prikaz pro ffmpeg, a ano, vyuzival k tomu webove zdroje.
Nebo ze se uzivatel zepta LLM na nejakou vec, a to stahne cely web, aby melo informace k odpovedi?
Opravdu to prochází daný web až po položení dotazu? To by bylo dost pomalé a neefektivní. AI vyhledávače projíždějí vlastní databázi, kterou už mají vytvořenou tím indexováním.
a kdyz se tomu bude nejaky web branit, bude vlastne sam proti sobe
A jak přesně je proti sobě? Že se Google na jeho obsahu nenaučí a nenabídne uživateli sám odpověď, přičemž ten web zůstane v nejlepším případě ponořený hluboko v seznamu zdrojů? Já mám celkem dost čtený blog. Na 500 návštěvníků z Googlu tam dojde jeden z AI vyhledávače Perplexity. Zatím AI boty nijak neblokuju, protože mě to výrazně nezatěžuje server, ale kdybych je blokoval, o nic nepřijdu. Tvůrci obsahu jsou zpravidla motivovaní tím, že je lidi čtou. Může to být kvůli zisku z reklamy, může to být kvůli reputaci/sociálnímu kapitálu. Když jim AI vyhledávače žádné čtenáře nepřinesou, tak jejich blokováním nemůžou ani o nic přijít.
Hlavní problém udržitelnosti AI je, že závisí na původním obsahu. Zároveň ale ve velkém likviduje motivaci ho tvořit. Přijde mi, že tohle si neuvědomují hlavně ti, kteří žádný původní obsah netvoří a jen konzumují. Myslí si, že ho ti ostatní pro jejich modré oči budou dál dělat a oni to jen budou konzumovat pohodlnější formou skrz AI.