Outils personnels
User menu

Documentation

De Dbpedia.fr.

Version du 3 juillet 2012 à 11:51 par Julien.Cojan (discuter | contributions)
(diff) ← Version précédente | Voir la version courante (diff) | Version suivante → (diff)

Sommaire

Processus d'extraction des données de Wikipédia

Chaque page de Wikipédia est parcourue par un ensemble d'. Chaque extracteur identifie un élément de la page et génère de données en fonction de son contenu.

Par exemple, la figure suivante présente les données extraites à partir de différents éléments de la page du Musée du Louvre. Extraction page wikipedia.png

Les données générées sont des triplets RDF (format standard du W3C pour la représentation des données).

La liste des extracteurs est données sur cette, la page correspondante à chacun des extracteurs décrit les données générées.

La page Extraction du 27 Aout 2013 donne le volume des dernières données générées.

Les outils d'extraction sont maintenus par la communauté DBpedia, la documentation originale est accessible à cette adresse : http://wiki.dbpedia.org/Documentation. Une version traduite est disponible ici: Installation_des_outils_d'extraction.


Accès aux données

Téléchargement des données

Les "dumps", c'est-à-dire les fichiers contenant l'ensemble des données générées pour une image de Wikipédia à un instant donné, peuvent être téléchargés à cette adresse : http://fr.dbpedia.org/download/ .

Accès par déréférencement

Suivant les principes de Linked Data, les ressources sont identifiées par des URIs déréférençables, c'est-à-dire qu'elles sont accessibles par http.


Requêtes SPARQL

SPARQL est un language de requêtes sur des données RDF défini par le W3C.

Un service SPARQL est accessible à l'adresse http://fr.dbpedia.org/sparql. Une interface html permet d'exécuter des requêtes directement. Il est aussi possible d'effectuer les requêtes par GET/POST en passant la requête en paramètre "query".


Installation et configuration d'un serveur Virtuoso

L'installation et la configuration d'un serveur Virtuoso pour servir les données extraites sont détaillées dans les pages suivantes :