Outils personnels
User menu

Ajout d'identifiants pérennes

De Dbpedia.fr.

Version du 8 août 2012 à 13:46 par Julien.Cojan (discuter | contributions)
(diff) ← Version précédente | Voir la version courante (diff) | Version suivante → (diff)

Sommaire

Problème des identifiants non pérennes

TODO:

  • évaluation du nombre de ressources qui disparaissent d'une publication de DBpedia à l'autre.
  • analyse des causes (redirection, suppression pure et simple)

La disparition d'identifiants de ressources pose problème pour les références externes aux données de DBpedia en français. C'est le cas notamment lorsque des données externes sont mises en correspondance avec des ressources de DBpedia. Il est donc important de fournir des identifiants pérennes pour rendre DBpedia en français exploitables par des applications externes.


Solution envisagée

La solution envisagée reprend l'approche de DBpedia lite. Il s'agit de produire des identifiants construits à partir du numéro d'identification de la page Wikipedia. Ce numéro ne change pas lors de la redirection d'une page. Les identifiants envisagés auront la forme suivante :

http://fr.dbpedia.org/resourceById/[numéro identication Wikipedia]

Les identifiants actuels, construits à partir des noms de pages Wikipédia doivent être conservés pour maintenir la compatibilité avec les autres chapitres de DBpedia et pour un accès plus naturel pour les utilisateurs.


État de la réalisation

Modification des outils d'extraction

Pour chaque page [NomPage] d'identifiant [numId], les triplets suivants ont été inclus dans l'[extraction du 06 août 2012] :

<http://fr.dbpedia.org/ressourceById/[numId]> <http://www.w3.org/2002/07/owl#sameAs> 
<http://fr.wikipedia.org/wiki/[NomPage]>

À faire :

<http://fr.dbpedia.org/ressource/[NomPage]> <http://www.w3.org/2002/07/owl#sameAs> 
<http://fr.dbpedia.org/ressourceById/[numId]>


Mise en place du déréférencement

Les adresse obtenues (http://fr.dbpedia.org/resourceById/[numId]) sont déréférençables (attention, ici il n'y a pas e faute de frappe sur 'resourceById').

Actuellement:

  • seul un format de données est disponible : XML/RDF
  • il ne contient que le triplet généré lors de l'extraction.

À faire :