> Například Perplexity je explicitně zakázán u National Geographic a články jsou navíc za pay-wallem. I tak Perplexity správně určilo všech 10 článků tohoto vydavatele.
Znamená to něco právně?
No robots.txt je RFC (https://datatracker.ietf.org/doc/rfc9309/) myslím, že není nijak závazné jak už to u RFC bývá.
Takže by to obecně nemělo vadit, navíc v robots.txt mohl být povolený jiný vyhledávač, který té AI poskytl vstupy (indexační DB), což je velmi pravděpodobné - že se ta AI zkrátka jen učí na DB nějakého search engine a sama crawling neprovádí.
Co se týká překonání paywall při indexaci, bude to asi podobné, mohl to naindexovat nějaký jiný engine z jehož dat byla AI natrénována, a k tomu paywall -zde to záleží na tom jak je postavena smlouva o přístupu, zda AI explicitně zakazuje, pokud ne, tak je vše v pořádku, protože co není zakázáno je ... dovoleno ne?