Ajout d'identifiants pérennes
De Dbpedia.fr.
Sommaire |
Problème des identifiants non pérennes
TODO:
- évaluation du nombre de ressources qui disparaissent d'une publication de DBpedia à l'autre.
- analyse des causes (redirection, suppression pure et simple)
La disparition d'identifiants de ressources pose problème pour les références externes aux données de DBpedia en français. C'est le cas notamment lorsque des données externes sont mises en correspondance avec des ressources de DBpedia. Il est donc important de fournir des identifiants pérennes pour rendre DBpedia en français exploitables par des applications externes.
Solution envisagée
La solution envisagée reprend l'approche de DBpedia lite. Il s'agit de produire des identifiants construits à partir du numéro d'identification de la page Wikipedia. Ce numéro ne change pas lors de la redirection d'une page. Les identifiants envisagés auront la forme suivante :
http://fr.dbpedia.org/resourceById/[numéro identication Wikipedia]
Les identifiants actuels, construits à partir des noms de pages Wikipédia doivent être conservés pour maintenir la compatibilité avec les autres chapitres de DBpedia et pour un accès plus naturel pour les utilisateurs.
État de la réalisation
Modification des outils d'extraction
Pour chaque page [NomPage] d'identifiant [numId], les triplets suivants ont été inclus dans l'[extraction du 06 août 2012] :
<http://fr.dbpedia.org/ressourceById/[numId]> <http://www.w3.org/2002/07/owl#sameAs> <http://fr.wikipedia.org/wiki/[NomPage]>
À faire :
- deux choses à corriger :
- ressourceById -> resourceById
- <http://fr.wikipedia.org/wiki/[NomPage]> -> <http://fr.dbpedia.org/resource/[NomPage]>
- il manque aussi la relation symétrique:
<http://fr.dbpedia.org/ressource/[NomPage]> <http://www.w3.org/2002/07/owl#sameAs> <http://fr.dbpedia.org/ressourceById/[numId]>
Mise en place du déréférencement
Les adresse obtenues (http://fr.dbpedia.org/resourceById/[numId]) sont déréférençables (attention, ici il n'y a pas e faute de frappe sur 'resourceById').
Actuellement:
- seul un format de données est disponible : XML/RDF
- il ne contient que le triplet généré lors de l'extraction.
À faire :
- fournir les mêmes formats de données que pour les adresse commençant par http://fr.dbpedia.org/resource/.
- propager les données portant sur les instances <http://fr.dbpedia.org/resource/[NomPage]> aux instances <http://fr.dbpedia.org/ressourceById/[numId]> correspondantes.