Soubor robots.txt a blokování AI

19. 2. 2024

Sdílet

Umělá inteligence, robot, AI Autor: PCWorld s využitím DALL-E

Soubor robots.txt (Robots Exclusion Protocol) navrhl Martijn Koster v únoru 1994, tedy před 30 lety. Původně měl za úkol bránit robotům, co procházeli a indexovali internet pro vyhledávače jako byla AltaVista, Lycos či WebCrawler. Důvodem tenkrát bylo většinou slabé internetové spojení, které mohlo mnoho robotů, nebo špatně napsaný robot zahltit.

S průběhem času soubor robots.txt respektovala většina vyhledávačů. Autoři stránek mají díky vyhledávačům více návštěvníků a vyhledávače také mohou vydělávat na reklamě. Změna přišla s AI a velkými jazykovými modely, které berou texty volně dostupné na internetu, ale autoři stránek z nich nemají žádný užitek.

Soubor robots.txt lze využít i pro blokování AI, bohužel toto blokování není nijak závazné. Ben Welsh zkoumal robots.txt 1156 stránek se zprávami a 621 z nich zakazovalo AI. Z toho 53 % zakazovalo OpenAI, 39 % Google AI a 41 % Common Crawl.

(zdroj: TheVerge)

Co blokujete na svých stránkách?

  • Vyhledávače
    7 %
  • AI
    4 %
  • Vyhledávače i AI
    3 %
  • Nemám robots.txt
    17 %
  • Nemám stránky
    29 %
  • Nic neblokuju
    24 %
  • Badboty
    7 %
  • Badboty a vyhledávače
    1 %
  • Badboty a AI
    2 %
  • Badboty, vyhledávače i AI
    5 %
Našli jste v článku chybu?

Autor zprávičky

První linux nainstaloval kolem roku 1994 a u něj zůstal. Později vystudoval fyziku a získal doktorát.