Tato pipeline v současné verzi pdf souboru dá správný výstup
To je právě ten problém. Není dána struktura, takže co verze, to nový skript. To už je jednodušší to (zatím) sázet ručně.
Další problém nastane, až se v tom dokumentu budou také ty domény invalidovat (viz sloupec "Výmaz zveřejněných údajů"). Pak bude skript dost těžko domýšlet, jestli doména co vytáhl je k zablokování nebo k odblokování.
A to ne nebavím o tom, že v tom vašem "filtru" neprojde hromada jiných domén a navíc si udržujete ruční whitelist, který se třeba bude taky zvětšovat.
Tohle prostě nejsou strojově zpracovatelná data pro daný úkol.