Odejde a přijde zpět s jiným "facem". Vtipem je, že na mimo veřejný internet toho je hromady, tudíž může se stát, že nějaký uživatel půjde na web a ono ho to hodí do bludiště (jak tomu bylo předtím), nebo vyrazí.
Todle maskování je známé od roku 2008, kde se to objevilo na PS3. Když si chtěl se přihlásit ze staršího, nebo JB. Stačilo udělat na PC proxy s ID a jel si dál. Pak byl náhodný uživatel navždy zablokovanej.
Historie se prostě opakuje.
O to jde. je to neúčinné, nebo 50/50 produktivní, protože je vedlejší nevyžádaný produkt....
Netuším, jak tohle řeší webové crawlery, ale předpokládám, že destilace užitečného obsahu a detekce těchto pastí (často vzniklých i neúmyslně) musí být vyřešený problém od té doby, co existují fulltextové vyhledávače ("Google"), ne?
Mimochodem, když už jsme u toho, jak se vlastně řeší extrakce užitečného obsahu na stránce, aby se AI netrénovala na různých menu a patičkách? (fulltexty řeší něco podobného, ale tam to asi nebude tak akutní, protože stále se opakující menu automaticky dostane nižší váhu)
Mimochodem, když už jsme u toho, jak se vlastně řeší extrakce užitečného obsahu na stránce, aby se AI netrénovala na různých menu a patičkách?
Nevím, jak přesně to funguje, ale mám dobré zkušenousti s touto Python knihovnou: https://trafilatura.readthedocs.io/en/latest/
Používám například jako preproces článků pro TTS.
Mám pod správou úzce zaměřené profesní weby, vyšší statisíce stránek a AI roboti se mnohdy tak neomaleně dotazují, že vyberou všechny zdroje serveru. Není problém 300 spojení jednoho crawlera a dotazovat se několik týdnů a vlastně stále dokola na to samé.
Nemám v zásadě problém, že se AI naučí ze znalostí jiných a vydělává na tom. Neměla by ale zdroje přetěžovat, protože si na sebe poštve ty, kteří se o servery starají. A než kvůli AI desetkrát nebo stokrát navyšovat výkon, to si raději napíšete nějaký ten honeypot nebo jiný blokátor.
Podívejme se na to z druhé strany, kdy bude stále běžnější, že informace je prezentována pomocí AI a nikoliv přímo ze zdroje. Stejně jako se weby optimalizují pro různé vyhledávače, možná má už teď smysl optimaliovat weby pro AI.
Aby za chvíli všechy weby nevypadaly jako jedna velká captcha, kdy text je rozházený v obrázku, aby to nevyžral robot, a člověk nad tím bude kroutit hlavou.
Stačí se podívat, co některé portály vymýšlejší proti blokátorům reklam...
zajímavé. ale tohle tady asi už mámé. různé clouflare ochrany.
a navíc, to opět používají Strany Zla i Strany dobra.
například phishingové blogy nebo redirectovací zlošinné domény. chovají se tak,, aby při dostatečné náhodném "otevření" provedl redirect koleček na cílovou "fake investiční nabídku" , ale při snaze to posléze "analyzovat" se stránka tváří jako svatoušek, asi používá nějaký timeouty delší než den, má něco jako xt_recent na IP, aby minimalizovala možnosti, aby si na ně někdo posvítíl
Mno on kdyz to ten provozovatel dava verejne, tak proc ne pro AI? A kdyz je to za nejaky paywallem, tak se k tomu ani AI zadara nedostane ze?
Edit: A stejne je 99% vsechno na vsech webe obsano jinde, casto uplne stejnyma technikama i se stejnyma chybama.
28. 1. 2025, 08:59 editováno autorem komentáře