Hlavní navigace

Akta X: Sběr informací s GRDDL

Petr Cimprich

Současný web obsahuje ohromné množství informací, ale jejich automatické využití není vůbec snadné. Čtenář si je umí zařadit do správného kontextu, ale stroje zatím ne. Mikroformát GRDDL nabízí možnost převádět obrovské množství informací, které jsou již dnes na webu k dispozici, do RDF, a tím je zapojit do konceptu sémantického webu.

Specifikace GRDDL (Gleaning Resource Descriptions from Dialects of Languages), jejíž první pracovní verze byla zveřejněna koncem října, definuje mechanismus, jak z běžného dokumentu XHTML či XML získat významově jednoznačné informace v podobě použitelné pro sémantický web.

Současný web obsahuje ohromné množství informací, ale jejich automatické využití není vůbec snadné. Drtivá většina informací na webu je určena živému čtenáři, který si dokáže informace zařadit do správného kontextu. To zatím stroje neumí. Algoritmy vyhledávačů dnes dokáží posoudit kvalitu informace a její relevanci vzhledem k zadanému výrazu, ale o samotném významu si „nic nemyslí”. S tím si stále zatím musí poradit člověk. O automatické vyhodnocení významu se už dlouho snaží sémantický web s využitím jednoznačně definovaných entit a formátu RDF, avšak informace dostupné v tomto formátu jsou zatím jen kapkou ve webovém moři.

Formát GRDDL nabízí možnost jednoduchým způsobem k dokumentu XML připojit algoritmus, který informace obsažené v dokumentu převádí do RDF. Rozsahem GRDDL patří mezi mikroformáty. Typicky stačí do dokumentu XML přidat jediný atribut ze zvláštního jmenného prostoru s odkazem na transformační algoritmus. Ten pravděpodobně bude ve většině případů vyjádřen transformací XSLT, ale mohl by to být například také libovolný skript.

<root-element xmlns:grddl="http://www.w3.org/2003/g/data-view#"
  grddl:transformation="http://example.com/grddl/xslt/something2RDF.xsl">
  ...

V případě validního dokumentu XHTML, kde není možné přidávat vlastní atributy, lze použít alternativní způsob připojení transformace GRDDL.

<link rel="transformation"
  href="http://example.com/grddl/xslt/something2RDF.xsl" />

Pomocí GRDDL bude možné existující webový obsah v různých formátech jako XHTML, Atom nebo RSS využít pro potřeby sémantického webu. Výchozí informace může mít různou podobu, ale musí být dostatečně jasně vyjádřena. GRDDL může do RDF převést i nestrukturovanou informaci, například prostou větu, ale v takovém případě by bylo třeba ušít transformaci na míru jednomu konkrétnímu dokumentu a doplnit v této transformaci jednoznačnou identifikaci všech entit. Daleko běžnější asi v praxi bude příklad, kdy informace už bude strukturovaná a jednoznačná, pouze v jiném formátu než RDF. Příkladem může být tato hlavička dokumentu XHTML:

<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    <title>Transforming XML</title>

    <meta name="keywords" content="XML, XSLT, XQuery" />
    ...

S využitím standardního popisu metadat Dublin Core můžeme tuto informaci přeformulovat do RDF:

<rdf:RDF xmlns:dc="http://purl.org/dc/elements/1.1/"
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
  <rdf:Description rdf:about="">

    <dc:title>Transforming XML</dc:title>
    <dc:subject>XML, XSLT, XQuery</dc:subject>
  </rdf:Description>
</rdf:RDF>

S tímto převodem si XSLT snadno poradí a dobře napsanou transformaci můžeme uplatnit na všechny validní dokumenty XHTML. Pokud bychom v našem dokumentu měli ještě informaci o autorovi, například v této podobě

<p><b>author:</b>Jan Novák</p>

nebo dokonce takto

<p>Jan Novák is the author of this document.</p>

převod do RDF by vyžadoval znalost obsahu konkrétního dokumentu, byl by málo spolehlivý a nepoužitelný pro další dokumenty XHTML. V tomto případě by se vyplatilo přidat informaci o autorovi do hlavičky:

<meta name="DC.Creator" content="Jan Novák" />

Pak by převod do RDF byl stejně snadný a obecný jako v předešlých případech.

<rdf:Description rdf:about="">
  <dc:creator>Jan Novák</dc:creator>

</rdf:Description>

Kromě XHTML se na webu vyskytuje ještě několik dalších jazyků XML, u nichž má smysl uvažovat o překladu do RDF, přinejmenším u metadat. Sem patří například Atom, RSS 2.0, DocBook, ODF či TEI. Smysl může mít i spojení GRDDL s jazyky W3C XML Schema a Relax NG. Pomocí GRDDL by se mohlo podařit začít využívat značné množství existujících informací nástroji určenými pro sémantický web, pro který by podstatné rozšíření datové základny mělo znamenat významný impulz pro další rozvoj.

Našli jste v článku chybu?

11. 11. 2006 0:14

&#1576;&#1591;&#1585;&#1587; (neregistrovaný)
tak me prijde, ze tohle je k nicemu. Daleko uzitecnejsi, nez prevadet metadata do webovych strankach do RDF by bylo nadefinovat jednotny zpusob definice dat ulozenych primo na strankach (nebo jeste lip zahrnout RDF do HTML).

(Dobrym pocinem jsou v tomto mikroformaty, ktere umoznuji definovat, co je napr. adresa, a co v ni telefonni cislo. Ale RDF by bylo samozrejme lepsi, protoze by se napr. dalo rict, ze urcita adresa patri te, ci one organizaci, atd...)

Vitalia.cz: Nestlé vyvinulo nový typ „netloustnoucího“ cukru

Nestlé vyvinulo nový typ „netloustnoucího“ cukru

Podnikatel.cz: EET: Totálně nezvládli metodologii projektu

EET: Totálně nezvládli metodologii projektu

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

Lupa.cz: Kdo pochopí vtip, může jít do ČT vyvíjet weby

Kdo pochopí vtip, může jít do ČT vyvíjet weby

Vitalia.cz: Mondelez stahuje rizikovou čokoládu Milka

Mondelez stahuje rizikovou čokoládu Milka

120na80.cz: Na ucho teplý, nebo studený obklad?

Na ucho teplý, nebo studený obklad?

Vitalia.cz: Jmenuje se Janina a žije bez cukru

Jmenuje se Janina a žije bez cukru

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

Měšec.cz: mBank cenzuruje, zrušila mFórum

mBank cenzuruje, zrušila mFórum

Lupa.cz: Co se dá měřit přes Internet věcí

Co se dá měřit přes Internet věcí

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

120na80.cz: Co všechno ovlivňuje ženskou plodnost?

Co všechno ovlivňuje ženskou plodnost?

Vitalia.cz: Taky věříte na pravidlo 5 sekund?

Taky věříte na pravidlo 5 sekund?

Lupa.cz: Teletext je „internetem hipsterů“

Teletext je „internetem hipsterů“

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

DigiZone.cz: Rádio Šlágr má licenci pro digi vysílání

Rádio Šlágr má licenci pro digi vysílání

Podnikatel.cz: Zavře krám u #EET Malá pokladna a Teeta?

Zavře krám u #EET Malá pokladna a Teeta?

Lupa.cz: Insolvenční řízení kvůli cookies? Vítejte v ČR

Insolvenční řízení kvůli cookies? Vítejte v ČR

Podnikatel.cz: Podnikatelům dorazí varování od BSA

Podnikatelům dorazí varování od BSA