Hlavní navigace

Dvacet let mizejících článků a nefunkčních odkazů

Ondřej Caletka

Říká se, že internet nezapomíná. Co na něj jednou dáte, už tam navždycky bude. Zdá se, že to ale platí jen o těch nepříjemných osobních informacích. Za posledních dvacet let z internetu spousta věcí nenávratně zmizela.

Doba čtení: 8 minut

Tomu jevu se obecně říká obsolence, tedy zastarávání. V souvislosti s digitální technikou mluvíme o digitální obsolenci, nebo chcete-li digitálním zastarávání. Většinou se tím myslí nedostupnost informací, které jsou uloženy na nějakém obskurním médiu a/nebo v nějakém obskurním formátu, takže fakticky nejsou ztraceny, ale jejich získání je čím dál obtížnější.

Tím asi nejvíce skloňovaným příkladem je projekt BBC zvaný Domesday, sada unikátního hardwaru a softwaru vydaného v roce 1986 u příležitosti výročí 900 let od dokončení knihy Posledního soudu, významného dokumentu britské historie. Jednalo se o multimediální projekt, běžící na osmibitovém počítači BBC Master, doplněném o rozhraní SCSI a unikátní LV-ROM mechaniku. Data byla totiž uložena na nosiči zvaném LaserDisc, předchůdci kompaktních disků o velikosti gramofonové desky.

Projekt BBC Domesday
Autor: Regregex, Wikimedia commons, podle licence: CC BY-SA 3.0

Projekt BBC Domesday

Zůstaneme-li u hardwarového zastarávání, je až děsivé, kam jsme se za posledních dvacet let posunuli. Zatímco na konci devadesátých let nás mohla trápit nedostupnost dat uložených na osmi a pět-a-čtvrt palcových disketách, případně audiokazetách či magnetofonových kotoučích, dnešní zastaralá média jsou mnohem sofistikovanější. Dokážu si představit, jak někdo pomocí Arduina a 3D tisku vytvoří repliku staré disketové mechaniky, aby přečetl data ze starých disket, nedokážu si ale moc představit, že by někdo dokázal stejným způsobem zkonstruovat čtečku ZIP kazet, disket LS-120, nebo třeba Minidisků.

Minidisc, magneto-optické médium pro digitální záznam zvuku

Minidisc, magneto-optické médium pro digitální záznam zvuku

A bude hůř. Už víc než pět let můj laptop nemá žádnou mechaniku pro čtení optických disků, skoro rok už nemá ani žádný konektor USB typu A. Za dvacet let budu mít nepochybně velký problém přečíst jak archivní CD či DVD, tak i staré flash disky.

Generální partner speciálu Žijeme 20 let Linuxem

ACTIVE 24 je tradiční webhostingová společnost s více než dvacetiletou historií. Poskytuje komplexní hostingové služby pro živnostníky, malé a středně velké firmy i jednotlivce. Soustředí se na vysokou technickou úroveň služeb a kvalitní zákaznickou podporu. Pro své servery využívá primárně moderní datové centrum Tower v Praze na Žižkově.

Internet trápí mrtvé odkazy

Zastarávání hardwaru není nic proti tomu, jakým způsobem zastarávají informace na internetu. Logicky to souvisí především s tím, jak moc internet proniká do našich běžných životů. Dnes běžně internet používáme místo knih či novin, málokdy si přitom uvědomujeme, že vlastně stále jde o jenom trochu vylepšený telefon.

Takže zatímco jednou vydané knihy už nikdy nikdo nezedituje, pro čtení na internetu musí náš počítač pokaždé zatelefonovat do redakce a vyžádat si aktuální kopii. Když redakce skončí, nebo se rozhodne danou informaci neposkytovat, či poskytovat upravenou, původní informace se nedočkáme. Tomuto jevu se obecně říká link rot, tedy zastarávání, nebo chcete-li zahnívání odkazů.

Zachováme obsah, nikoli však formu

Mnoho redakcí, včetně serveru Root.cz, poctivě zachovává kompletní archiv článků ve více-méně nezměněné formě. Přesto si dnes jen stěží prohlédneme, jak vypadal úplně první článek před dvaceti lety. Jeho text sice zůstal, ale všechno kolem prošlo mnoha změnami, včetně dvojí změny celého designu stránky, přidání perexových obrázků, nebo třeba proměně stylu diskuzí pod článkem. Jedinou možností tak jsou jen služby jako Wayback Machine, nebo české Muzeum Internetu Jiřího Peterky. Prvnímu článku nezůstala ani stejná adresa URL, ta původní byla http://root.cz/clanek.phtml?id=1 .

V redakčním systému bylo později zprovozněno přesměrování, takže i staré odkazy na články jsou stále funkční – s výjimkou výše uvedeného úplně prvního, který při migraci dostal identifikační číslo 615. Jinde ale odkazy takové štěstí nemají.

Nedetekovatelná hniloba českého e-governmentu

Když v roce 2003 ministr informatiky spouštěl portál veřejné správy, šlo o velký krok v elektronizaci veřejné správy. Portál nabízel adresy úřadů, návody k řešení nejrůznějších životních situací, nebo třeba plné texty zákonů a zákonných předpisů v aktuálním znění. Součástí stránek byl i návod, jak vyrábět trvalé odkazy na konkrétní texty zákonů.

V roce 2018 byl portál veřejné správy přetvořen v portál občana. Všechny permanentní odkazy na zákonné předpisy vrací stejný generický text, informující o tom, že portál přechází na nový koncept řešení, v němž se s texty zákonů už nepočítá. Texty zákonů jsou tedy nově dostupné pouze v aplikaci sbírka zákonů a to ve formátu PDF, ze kterého nelze kopírovat text. Vítejte na webu české státní správy v roce 2019.

Kromě vlastního problému nedostupnosti zákonných předpisů na webu, je zde v kontextu tohoto článku i nepříjemný problém nedetekovatelnosti nefunkčních odkazů. Jestliže jakýkoli dříve permanentní odkaz nyní vrací stavový kód 200 OK, není vůbec snadné automaticky detekovat, že původní informace z webu zmizela.

Prokletí bezplatných anonymních hostingů

Chcete zaručený recept na dva způsoby, jak internet obohatit o mnoho nefunkčních odkazů? Začněte použitím bezplatného anonymního hostingu multimediálních dat. Zejména v době, kdy nejrůznější fóra nebo platformy jako Twitter neuměly hostovat obrázky, bylo takových služeb mnoho. Jejich obchodní model buď neexistoval – někdo danou službu provozoval k řešení své vlastní potřeby – nebo byl založen na zobrazování reklamy vedle nahraného obsahu.

Pak se platformy v čele s Twitterem naučily obrázky hostovat nativně a poptávka po podobných službách klesla, čímž klesly i výnosy z reklam. Naopak s postupem času nepochybně rostl počet stížností na nelegální sdílení autorsky chráněného obsahu. Logickým důsledkem byl konec spousty takových služeb a ztráta dat bez náhrady. Ostatně pokud byl hosting anonymní, neměl ani jak své uživatele informovat o tom, že končí.

Druhá část receptu spočívá v použití zkracovačů URL. Opět jde o velmi jednoduchou službu, která se stala populární zejména díky mikroblogovacím službám s omezenou délkou příspěvku, ale i pro sdílení odkazů v reálném světě či prostřednictvím QR kódů. Jde svým způsobem také o bezplatný anonymní hosting, jen hostovanou komoditou je v tomto případě pouze dlouhá adresa URL. Protože naprogramovat takovou službu je velmi jednoduché, existuje podobných zkracovačů velké množství. Jen málo z nich jich však přežilo delší dobu.

Ideální recept na ztracený obsah je pak kombinace obojího, tedy odkázat na obskurní bezplatný hosting pomocí obskurního zkracovače odkazů. Tím byl před necelými devíti lety, když jsem psal své první tweety, zkracovač na adrese http://to./. No uznejte, může existovat něco ještě kratšího než zkracovač přímo na dvojpísmenné TLD? Nemůže. A nejspíš proto už ani tento neexistuje. Prostě zmizel beze stopy.

Vůle autora nade vše

Zastarávání odkazů nemusí úplně nutně souviset s jejich stářím. Některé odkazy dokážou zastarat i během několika hodin. Například, když jsem nedávno objevil zajímavou anekdotu o iPhonech, které přestanou fungovat po styku s heliem, přiložil k ní její autor i video, na kterém zaseknutí iPhonu prakticky demonstruje. Video jsem vložil do zprávičky, hned druhý den ale přestalo být dostupné – jeho autor se ho z nějakého důvodu rozhodl smazat.

Videí zobrazujících iPhone v igelitovém sáčku vzniklo několik. To původní je ale nenávratně pryč.

Původní zprávička tím přišla o celkem podstatnou část obsahu. V tomto ohledu dává mnohem větší smysl praxe spousty mediálních domů, které pod krytím zpravodajské licence podobný obsah stahují z původních zdrojů a publikují na své vlastní video platformě, často obalené svými vlastními reklamami. Ač jde o praktiku přinejmenším neetickou, z hlediska zachování celistvosti archivu jde o jednoznačné plus.

Jetpac si na emulátoru legálně snadno nezahrajete.

Autorská práva jsou vůbec velkou překážkou při snaze o zachovávání digitálních vzpomínek. Kromě v úvodu zmíněného projektu Domesday, na kterém se podílelo přes milion lidí, od kterých je prakticky nemožné získat jakýkoli dodatečný souhlas, trápí třeba i provozovatele stránek, jako je World Of Spectrum. To je už dlouhá léta velký a přehledný archiv všeho souvisejícího s legendárními osmibitovými mikropočítači ZX Spectrum. Je zde archivována většina softwaru, včetně mnoha tisíc her, které pro tento počítač vznikly. Jeho autoři si dali práci a pokusili se kontaktovat původní držitele práv. Většina s archivováním neměla problém, najdou se však i výjimky, jako autoři velmi známých her z dílny Ultimate Play The Game, kteří s archivováním nesouhlasí. To přesto, že tato značka zanikla už před víc než třiceti lety.

Jak zachovávat pro budoucí generace

Co dělat, chceme-li svá digitální data chránit před zmizením v nenávratnu? Především je třeba vzít v potaz pomíjivost všeho, včetně našich vlastních životů. Vlastní server v datacentru hostující náš vlastní obsah na naší vlastní doméně je z mnoha ohledů skvělá věc, ale je třeba si položit otázku: co se stane, až tu nebudeme? Bude někdo platit datacentrum a prodlužovat platnost domény? Nejspíš ne. A máme-li navíc všechno poctivě zašifrováno, jak nám často radí, může to skončit i velkým průšihem, jaký se třeba nedávno stal kanadské kryptoměnové burze QuadrigaX.

Tou jednodušší a levnější možností je publikovat na nějaké ideálně bezplatné službě. Vybereme-li službu od někoho opravdu velkého, stačí už jen trochu štěstí a náš obsah nás bez problému přežije. Například blog Výzkumného Ústavu Čar a Kouzel na platformě Wordpress.com bez větších problémů přežívá už víc než sedm let po smrti Eduarda Ecka, jeho jediného autora.

Jak ale můžeme sledovat při právě probíhajícím vypínání sítě Google Plus, i velké služby čas od času skončí a smažou všechna data. V případě Google však ani toto nemusí být fatální díky službě zvané Správce neaktivních účtů. Ta umožňuje každému vyplnit jakousi digitální závěť a určit správce, který bude oprávněn nakládat jménem původního majitele účtu.

Klíčem je správná licence

Zachování obsahu můžeme také výrazně pomoci použitím správné licence. Publikujeme-li svá díla pod licencí umožňující bezplatné šíření, stačí, aby naše dílo bylo opravdu zajímavé; o zbytek se postará internet sám. Příkladem může být třeba osud děl Marka Pilgrima. Ten se v roce 2011 rozhodl spáchat informační sebevraždu – vymazal všechny účty na sociálních sítích a všechny jeho webové projekty začaly vracet návratový kód 410 Gone. Díky licenci Creative Commons ale jeho texty žijí dál; dva z nich se dočkaly i překladu do češtiny a vydání v edici CZ.NIC. Ten druhý přitom vyšel až v roce 2014, tedy tři roky po odchodu autora z internetu.


Autor: Cyanide and Happiness

Kdo nezná svou minulost, je odsouzen ji opakovat.

Svět počítačů i internet se za posledních dvacet let změnil k nepoznání. I když pozorujeme jakési trendy, budoucnost nás stejně nakonec překvapí. Přesto si myslím, že i za dvacet dalších let tu stále bude něco obdobného službě World Wide Web. Snad v nadcházející době přijdeme i na způsob, jak současný on-line obsah trvale a dlouhodobě uchovávat jako poselství budoucím generacím.

Našli jste v článku chybu?