WTF.
Proč si to git nevyklonuje, čímž to dostane všechna data v krásně čistém formátu?
Mastodon je federace, takže nejspíš taky bude existovat způsob jak příspěvky získat realtime a bez nutnosti parsovat HTML.
Protože je git samotnej vůbec nezajímá, je to prostě crawler aka web-spider. O gitu neví nic a v podstatě ho to ani nezajímá, jen je na tom webu prostě hodně linků (každej soubor v každým commitu) ke getnutí.
Btw všechno to chodí z ASN Huawei Cloud (AS136907), takže stačí stáhnout jejich prefixy, bloknout a zapomenout.
18. 8. 2025, 07:21 editováno autorem komentáře
Staré pravidlo říká, že neexistuje ochrana, kterou by nešlo obejít. A ti, kteří je obcházejí, jsou vždy o krok napřed před těmi, kdo je implementují.
Proto řešit tyto věci jen restrikcemi je nesmysl – mnohem lepší je hledat jiné, funkční technické řešení, které bude vyhovovat všem stranám. „Nejde“ neexistuje, jen „zatím to neumím“.
Taky jsem ten Singapurský huawei cloud minulý týden bloknul na více serverech, validních požadavků z těchto končin jsem objevil... přesně nula. Zvažuju kompletní geoip blok pro Čínu, ruSSko, Afriku, Jižní Ameriku, apod. Útoků a botů od nich chodí dost, zákazníky tam nemáme a odbavit ten provoz reálně něco stojí.
18. 8. 2025, 10:49 editováno autorem komentáře
Deprekován (fujky-fujky)? Zřejmě máte na mysli https://www.root.cz/zpravicky/deepmind-poskladal-200-milionu-proteinu
Ale Folding@Home je stále validní a řeší jiné věci, než AlphaFold: https://foldingathome.org/2024/05/02/alphafold-opens-new-opportunities-for-foldinghome/
Co nechat Anubis těžit nějaké crypto a tím vlastně získat od AI crawlerů nějaké finance na provoz? Zároveň se to těm AI crawlerům prodraží a budou si vybírat, co jim za to stojí a co ne. Teď prostě berou vše.
Na AI se musí AI.
Podle mě by se měla první načíst stránka co obsahuje nesmysly (prostě věty pozměněné AI) a ty by se potom "opravily" tím řešením té ochrany. Crawler by pak nevěděl jestli to co má je správné nebo ne.
Toto ale nakonec bude jak boj se spamem a vším dalším.
Možná by pomohlo mít na stránkách licenci, která by zakazovala AI, atd...
Fakt vlastně nevím jak se toto dá řešit,, já asi viděl "vektory" jako index v DB. Všechno co to požere by mělo licenčně infikovat ten výstup, protože to na něj má vliv.
18. 8. 2025, 10:24 editováno autorem komentáře