Netuším, jak tohle řeší webové crawlery, ale předpokládám, že destilace užitečného obsahu a detekce těchto pastí (často vzniklých i neúmyslně) musí být vyřešený problém od té doby, co existují fulltextové vyhledávače ("Google"), ne?
Mimochodem, když už jsme u toho, jak se vlastně řeší extrakce užitečného obsahu na stránce, aby se AI netrénovala na různých menu a patičkách? (fulltexty řeší něco podobného, ale tam to asi nebude tak akutní, protože stále se opakující menu automaticky dostane nižší váhu)
Mimochodem, když už jsme u toho, jak se vlastně řeší extrakce užitečného obsahu na stránce, aby se AI netrénovala na různých menu a patičkách?
Nevím, jak přesně to funguje, ale mám dobré zkušenousti s touto Python knihovnou: https://trafilatura.readthedocs.io/en/latest/
Používám například jako preproces článků pro TTS.