Hlavní navigace

Akta X: Hledání významu

Petr Cimprich 27. 6. 2007

Stále se množí snahy doplňovat webové dokumenty o další informace, ať už určené lidskému oku nebo strojovému zpracování. Spontánně se objevila celá armáda mikroformátů, které s sebou nesou všechny výhody i nevýhody formátů vytvořených uživateli. Se svým příspěvkem přišlo i W3C v podobě standardu GRDDL.

O specifikaci GRDDL (správná výslovnost je „gridl“) jsem na těchto stránkách už psal a chtěl jsem se k tomuto tématu ještě vrátit. Mimo jiné proto, že první pracovní verze z října 2006 na poměry W3C nebývale rychle dospěla do stavu kandidáta na doporučení. Dalším důvodem pro mě byla inspirující přednáška Ucheho Ogbuji na XML Prague, která se primárně věnovala mikroformátům, ale nabídla také zajímavý pohled na GRDDL.

Specifikace GRDDL je pokusem vlít novou krev do žil skomírajícím snahám o nastartování sémantického webu. O sémantickém webu se už roky hodně mluví, ale v praxi se zatím nic moc nekoná. Snad za to může širokou veřejností nepříliš oblíbený formát RDF a zejména jeho těžkopádná vazba na XML (RDF/XML). Model RDF si vydobyl své postavení v akademických kruzích a mezi znalostními teoretiky, ale na webu se informace v RDF/XML zatím objevují jen minimálně. GRDDL je snahou obejít potřebu publikovat na webu informace primárně jako RDF. Stačí k tomu jednoduchý trik – ke každému dokumentu XML je možné připojit transformaci XSLT, která vybrané informace z tohoto dokumentu tranformuje do RDF/XML.

GRDDL je minimalistický formát, o jehož užitečnosti prakticky nikdo nepochybuje. Diskuse uvnitř W3C se omezuje na technické podrobnosti a upřesňování mezních situací, jako například jak postupovat, když se nepodaří načíst stylesheet XSLT, když transformace skončí chybou nebo když výsledkem není RDF/XML. GRDDL sdílí mnohé atributy mikroformátů – zavádí co nejméně nových konstrukcí a maximálně využívá již existující technologie (XHTML, XSLT, RDF/XML). Nápadná je i syntaktická podoba s některými mikroformáty. V případě validních dokumentů XHTML může GRDDL odkazovat na transformační šablonu pomocí odkazu s atributem rel, což je oblíbený prostředek mnoha mikroformátů. Shoda je i v tom, že jak GRDDL tak mikroformáty upřesňují význam informací obsažených v běžných webových stránkách.

Tím ale podoba končí. Mikroformáty se vždy zaměřují na jeden jediný specifický účel. Jeden mikroformát obvykle umí přidávat k hostitelskému dokumentu vždy jen informaci jednoho druhu. Mikroformát rel-tag například říká, že cíl určitého odkazu má pro webovou stránku nebo její část obsahující tento odkaz význam klíčového slova (tagu). Celý tento mikroformát se zdá být ušit na míru serveru Technorati.

<a href="http://technorati.com/tag/tech" rel="tag">tech</a>

To, že jsou mikroformáty striktně jednoúčelové, nemusí ničemu vadit. Koneckonců, dělat jednu věc dobře s minimálními prostředky není vůbec k zahození. Slabou stránkou mikroformátů je, že svůj hostitelský dokument používají způsobem, se kterým nikdo předem nepočítal. V některých případech, například u většiny rel-* mikroformátů, je rozšíření vcelku logické a v intencích jazyka (X)HTML. U složitějších mikroformátů typu XOXO či u strukturovaných mikroformátů využívajících atribut class působí nové použití přinejmenším násilně. Horší ale je, že syntaxe a hlavně sémantika mikroformátů jsou často nedostatečně specifikované, což v praxi vždy přináší potíže.

Použití mikroformátů a GRDDL se pochopitelně nevylučuje. Naopak, GRDDL může doplnit chybějící významovou přesnost.

<html xmlns="http://www.w3.org/1999/xhtml">
  <head profile="http://www.w3.org/2003/g/data-view">
    <title>Some Document</title>

    <link rel="transformation"
       href="http://www.somedomain.org/extract-tags.xsl" />

    [...]

    <a href="http://technorati.com/tag/tech" rel="tag">tech</a>

    [...]

Bude-li stylesheet extract-tags.xsl obsahovat něco jako

<xsl:template match="xhtml:a[@rel='tag']">

  <rdf:Description rdf:about="" xmlns:tr="http://technorati.com/">
    <tr:tag>
      <xsl:value-of select="text()"/>
    </tr:tag>
  </rdf:Description>

</xsl:template>

bude informace dodaná mikroformátem převedena na triplet říkající, že aktuálnímu dokumentu je jako klíčové slovo (v přesném významu používaném na serveru Technorati) přiřazen literál „tech“.

Standard GRDDL si ponechává to lepší z mikroformátů a k tomu přidává možnost univerzálního použití a solidní specifikaci. Informace převedené do modelu RDF mohou být uloženy a zpracovány s použitím standardních technologií (SPARQL, OWL) a existujícího softwaru. To jsou důvody, proč by formát GRDDL mohl rozčeřit stojaté vody sémantického webu.

Našli jste v článku chybu?

27. 6. 2007 21:02

WildWire (neregistrovaný)
No nevim jak Vam ale me tento odkaz v mem starsim Firefoxu funguje bez problemu. Co byste nam ostatnim jakozto stoprocentni expert poradil za webovy prohlizec?

27. 6. 2007 14:48

uživatel si přál zůstat v anonymitě
Tak jsem si klikl na "inspirující odkaz" a co nevidím. Na www.xmlprague.cz dávavají pro všechny neznámé typy text/plain. Ale takhle se přece nedají ukládat soubory na Web. Když nevím, tam alespoň musím zajistit application/octet-stream Ale co, všichni tito experti stejně umějí používat jenom Internet Explorer, a ten už ví, text/plain bude nejspíše blbě. (Nejhorší je, když skutečně potřebujete přinutit MSIE, aby textově zobrazoval soubor, který nemá koncovku .txt )
Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Vitalia.cz: To není kašel! Správná diagnóza zachrání život

To není kašel! Správná diagnóza zachrání život

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Podnikatel.cz: EET: Totálně nezvládli metodologii projektu

EET: Totálně nezvládli metodologii projektu

DigiZone.cz: Ohrozí Freedom TV přechodové sítě?

Ohrozí Freedom TV přechodové sítě?

Lupa.cz: Co se dá měřit přes Internet věcí

Co se dá měřit přes Internet věcí

Lupa.cz: Seznam mění vedení. Pavel Zima v čele končí

Seznam mění vedení. Pavel Zima v čele končí

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Lupa.cz: Teletext je „internetem hipsterů“

Teletext je „internetem hipsterů“

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Vitalia.cz: Jsou čajové sáčky toxické?

Jsou čajové sáčky toxické?

120na80.cz: Jak oddálit Alzheimera?

Jak oddálit Alzheimera?

Root.cz: Certifikáty zadarmo jsou horší než za peníze?

Certifikáty zadarmo jsou horší než za peníze?

DigiZone.cz: ČT má dalšího zástupce v EBU

ČT má dalšího zástupce v EBU

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

120na80.cz: Horní cesty dýchací. Zkuste fytofarmaka

Horní cesty dýchací. Zkuste fytofarmaka

Podnikatel.cz: Na poslední chvíli šokuje výjimkami v EET

Na poslední chvíli šokuje výjimkami v EET

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Měšec.cz: Jak vymáhat výživné zadarmo?

Jak vymáhat výživné zadarmo?