Vlákno názorů k článku
Blokování AI v bludišti od Jan Hrach - Netuším, jak tohle řeší webové crawlery, ale předpokládám,...

Článek je starý, nové názory již nelze přidávat.

24. 1. 2025 22:27

Jan Hrach

Stříbrný podporovatel

Netuším, jak tohle řeší webové crawlery, ale předpokládám, že destilace užitečného obsahu a detekce těchto pastí (často vzniklých i neúmyslně) musí být vyřešený problém od té doby, co existují fulltextové vyhledávače ("Google"), ne?

Mimochodem, když už jsme u toho, jak se vlastně řeší extrakce užitečného obsahu na stránce, aby se AI netrénovala na různých menu a patičkách? (fulltexty řeší něco podobného, ale tam to asi nebude tak akutní, protože stále se opakující menu automaticky dostane nižší váhu)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 1. 2025 7:08

nettreg

Mimochodem, když už jsme u toho, jak se vlastně řeší extrakce užitečného obsahu na stránce, aby se AI netrénovala na různých menu a patičkách?

Nevím, jak přesně to funguje, ale mám dobré zkušenousti s touto Python knihovnou: https://trafilatura.readthedocs.io/en/latest/

Používám například jako preproces článků pro TTS.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
28. 1. 2025 8:56

bez prezdivky ...

Uzitecnej text bude mit typicky aspon nekolik slov v odstavci a typicky ten odstavec nebude jeden. I takhle primitivni detekce ti bude ve valny vetsine pripadu stacit.

U vetsich webu se to na to pak proste manualne udelaji sablony.

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Vlákno názorů k článku Blokování AI v bludišti od Jan Hrach - Netuším, jak tohle řeší webové crawlery, ale předpokládám,...

Komerční sdělení

Praktické tipy z UX: Od redesignu k optimalizaci výkonu

Dále u nás najdete

MeshCore je bezdrátová síť nejen pro mimořádné události

Daňové přiznání 2026: Termíny, novinky a změny

Strojové učení slibuje rychlejší a levnější vývoj baterií

Analýza rozebrala moderování Jílkové v Máte slovo

Notepad++ opravil chybu zneužívanou k šíření malware

Vývojáři už kód nepíší, kočírují smečky AI agentů

Malware, ransomware a další online hrozby: Jak se liší?

Navazující a souběžná zaměstnání pro účely JMHZ

U dědečkova stavu našla smysl a teď oživuje unikátní tkaní

Spropitné v restauracích se nebude muset danit ani evidovat v EET

Kdo se bude moct vyhnout EET a co bude muset splnit?

Zahrávají si ČEZ či E.ON s čínským ohněm?

Školkovné se vrací. S jakou obměnou?

Deset kroků pro maximální zabezpečení Google účtu

Z evropského koláče chytrých telefonů ukusují Apple a Honor

T-Mobile má za sebou v tuzemsku pozitivní rok, rostly tržby i zisk

EET není český výmysl. Zjistěte, kde za účtenku můžete vyhrát auto

AI se snaží promlouvat i do stavebnictví

Proč mají vysavače mikrofony? Omylem ovládl tisíce vysavačů DJI

10 důvodů, proč lidi nenakoupí na vašem e-shopu

Vlákno názorů k článku
Blokování AI v bludišti od Jan Hrach - Netuším, jak tohle řeší webové crawlery, ale předpokládám,...