Extraction des données de Wikipedia
De Dbpedia.fr.
L'installation des outils d'extraction est expliquée sur la page dédiée
Paramètres à ajuster
Redirections entre Modèles
Les mappings sont définis à partir des pages de l'espace "Modèle:". Il arrive qu'il y ait des redirections.
Par exemple:
- Modèle:Infobox Communes de France a été renommé en Modèle:Infobox Commune de France. Le 27 avril, la page Paris utilisait encore le modèle Modèle:Infobox Communes de France.
- Infobox Club de football a été fusionné avec Infobox Club sportif. Le 27 avril, la page Ajax Amsterdam utilisait encore le modèle Infobox Club de football.
Dans les deux cas, l'extracteur MappingExtractor doit utiliser le mapping correspondant au nouveau modèle. Pour retrouver le bon mapping, la classe org.dbpedia.extraction.mappings.Redirects gère un cache des redirections entre Modèles. Ce cache n'est pas mise à jour automatiquement, pour le faire, il faut supprimer le fichier core/src/main/resources/redirects_fr et décommenter les lignes de org.dbpedia.extraction.mappings.Redirects.load suivant le "Todo: Write redirects to the cache" et si nécessaire modifier la variable cacheFile pour indiquer un répertoire où m'écriture est possible. Il suffit ensuite de compiler le package core et exécuter l'extraction, l'absence du fichier cache devrait provoquer la lecture des redirections depuis le dump des articles Wikipedia (après le chargement de l'ontologie et des mappings et avant le processus d'extraction).
- Dernière modification de cette page le 27 avril 2012 à 14:22.
- Cette page a été consultée 509 fois.