Outils personnels
User menu

AbstractExtractor

De Dbpedia.fr.

Génère deux triplets par articles correspondant à un résumé court et un résumé long de l'article.


Sommaire

Triplets générés

short_abstract_fr.nt
dbr:[NomPage] rdfs:comment texte
long_abstract_fr.nt
dbr:[NomPage] dbpedia-owl:abstract texte


Mode d'emploi

Pour fonctionner cet extracteur doit interroger l'API mediawiki d'une image de wikipédia. De par le nombre d'appels à l'API (une par article), il n'est pas possible d'interroger l'API de fr.wikipédia.org, il faut installer une version locale.

Les explications sont fournies dans le répertoire abstractExtraction du dépôt dbpedia.hg.sourceforge.net/hgweb/dbpedia/dbpedia/


Installation

Installer


Chargement des données dans le wiki

  • Charger les outils fournis par DBpedia (peu importe le répertoire)
hg clone http://dbpedia.hg.sourceforge.net:8000/hgroot/dbpedia/dbpedia
  • Si ce n'est pas déjà fait, télécharger les dumps de wikipedia, les fichiers suivants sont nécessaires:
    • frwiki-YYYYMMDD-pages-articles.xml.bz2
    • frwiki-20120627-categorylinks.sql.gz
    • frwiki-20120627-imagelinks.sql.gz
    • frwiki-20120627-image.sql.gz
    • frwiki-20120627-langlinks.sql.gz
    • frwiki-20120627-templatelinks.sql.gz

TODO: expliquer l'utilisation de clean.sh et import.sh

$ ./clean.sh [repertoire racine dumps] fr
$ ./import.sh '[repertoire racine dumps]' '' 
'user=[compteMysql]&password=[mdpCompteMysql]' 
'--user=[compteMysql] --password=[mdpCompteMysql]' '[BDMysql]' 'fr'


Installation du Wiki

  • décompresser le fichier [rep depôt dbpedia]/bstractExtraction/mw-modified.tar.gz dans un répertoire accessible par le serveur web.
  • TODO: vérifier les droits d'accès aux fichiers
  • TODO: Ajuster les paramètres de Localhost.php