Soubor robots.txt a blokování AI

19. 2. 2024

Sdílet

Umělá inteligence, robot, AI Autor: PCWorld s využitím DALL-E

Soubor robots.txt (Robots Exclusion Protocol) navrhl Martijn Koster v únoru 1994, tedy před 30 lety. Původně měl za úkol bránit robotům, co procházeli a indexovali internet pro vyhledávače jako byla AltaVista, Lycos či WebCrawler. Důvodem tenkrát bylo většinou slabé internetové spojení, které mohlo mnoho robotů, nebo špatně napsaný robot zahltit.

S průběhem času soubor robots.txt respektovala většina vyhledávačů. Autoři stránek mají díky vyhledávačům více návštěvníků a vyhledávače také mohou vydělávat na reklamě. Změna přišla s AI a velkými jazykovými modely, které berou texty volně dostupné na internetu, ale autoři stránek z nich nemají žádný užitek.

Soubor robots.txt lze využít i pro blokování AI, bohužel toto blokování není nijak závazné. Ben Welsh zkoumal robots.txt 1156 stránek se zprávami a 621 z nich zakazovalo AI. Z toho 53 % zakazovalo OpenAI, 39 % Google AI a 41 % Common Crawl.

(zdroj: TheVerge)

Co blokujete na svých stránkách?

Našli jste v článku chybu?

Autor zprávičky

První linux nainstaloval kolem roku 1994 a u něj zůstal. Později vystudoval fyziku a získal doktorát.