Hlavní navigace

Archive.org zřejmě bude ignorovat robots.txt

Roman Bořánek

Internetový archiv Archive.org na svém blogu informuje, že plánuje změnit politiku týkající se přístupu k robots.txt. Jak asi víte, autor webové stránky pomocí tohoto souboru může říct, že si nepřeje, aby ho roboti indexovali. Tento přístup se využívá hlavně kvůli vyhledávačům. Dosud se podle něj řídil také internetový archiv, ale to se zřejmě změní.

Cílem archivu je vytvořit kompletní snímky webových stránek včetně duplikovaného obsahu nebo velkých verzí souborů, píše ředitel archivu Mark Graham. Problém byl také v tom, že Archive.org byl až natolik přívětivý, že po úpravě robots.txt stránky smazal i dříve archivované stránky dané domény. Změna by měla být postupná, zatím bude aplikována hlavně na velkých a významných stránkách (už pár měsíců např. stránky americké vlády).

Našli jste v článku chybu?