Outils personnels
User menu

AbstractExtractor

De Dbpedia.fr.

(Différences entre les versions)
(Mode d'emploi)
Ligne 28 : Ligne 28 :
De par le nombre d'appels à l'API (une par article), il n'est pas possible d'interroger l'API de fr.wikipédia.org, il faut installer une version locale.
De par le nombre d'appels à l'API (une par article), il n'est pas possible d'interroger l'API de fr.wikipédia.org, il faut installer une version locale.
 +
Les explications sont fournies dans le répertoire ''abstractExtraction'' du dépôt ''<nowiki>dbpedia.hg.sourceforge.net/hgweb/dbpedia/dbpedia/</nowiki>''
-
=== Prérequis ===
 
 +
=== Installation  ===
 +
 +
Installer
* [http://www.mediawiki.org/ Médiawiki] (testé avec les version 1.18.0 et 1.19.0), mieux vaut prendre la version utilisée par fr.wikipedia.org.
* [http://www.mediawiki.org/ Médiawiki] (testé avec les version 1.18.0 et 1.19.0), mieux vaut prendre la version utilisée par fr.wikipedia.org.
* [https://www.mediawiki.org/wiki/Extension:ParserFunctions Extension ParserFunctions] de mediawiki (testé avec la version 1.4.1).
* [https://www.mediawiki.org/wiki/Extension:ParserFunctions Extension ParserFunctions] de mediawiki (testé avec la version 1.4.1).
* [https://www.mediawiki.org/wiki/Extension:ExpandTemplates Extension ExpandTemplates] de mediawiki (testé avec la version 1.14 alpha).
* [https://www.mediawiki.org/wiki/Extension:ExpandTemplates Extension ExpandTemplates] de mediawiki (testé avec la version 1.14 alpha).
 +
 +
 +
=== Chargement des données dans le wiki ===
 +
 +
* Charger les outils fournis par DBpedia (peu importe le répertoire)
 +
<nowiki>hg clone http://dbpedia.hg.sourceforge.net:8000/hgroot/dbpedia/dbpedia</nowiki>
 +
* Si ce n'est pas déjà fait, télécharger les [http://dumps.wikimedia.org/frwiki/ dumps de wikipedia], les fichiers suivants sont nécessaires:
 +
** frwiki-YYYYMMDD-pages-articles.xml.bz2
 +
** frwiki-20120627-categorylinks.sql.gz
 +
** frwiki-20120627-imagelinks.sql.gz
 +
** frwiki-20120627-image.sql.gz
 +
** frwiki-20120627-langlinks.sql.gz
 +
** frwiki-20120627-templatelinks.sql.gz
 +
 +
TODO: expliquer l'utilisation de ''clean.sh'' et ''import.sh''
 +
<nowiki>$ ./clean.sh [repertoire racine dumps] fr</nowiki>
 +
<nowiki>$ ./import.sh '[repertoire racine dumps]' ''
 +
'user=[compteMysql]&password=[mdpCompteMysql]'
 +
'--user=[compteMysql] --password=[mdpCompteMysql]' '[BDMysql]' 'fr'</nowiki>
 +
 +
 +
=== Installation du Wiki ===
 +
 +
* décompresser le fichier ''[rep depôt dbpedia]/bstractExtraction/mw-modified.tar.gz'' dans un répertoire accessible par le serveur web.
 +
* TODO: vérifier les droits d'accès aux fichiers
 +
* TODO: Ajuster les paramètres de Localhost.php

Version du 18 septembre 2012 à 15:56

Génère deux triplets par articles correspondant à un résumé court et un résumé long de l'article.


Sommaire

Triplets générés

short_abstract_fr.nt
dbr:[NomPage] rdfs:comment texte
long_abstract_fr.nt
dbr:[NomPage] dbpedia-owl:abstract texte


Mode d'emploi

Pour fonctionner cet extracteur doit interroger l'API mediawiki d'une image de wikipédia. De par le nombre d'appels à l'API (une par article), il n'est pas possible d'interroger l'API de fr.wikipédia.org, il faut installer une version locale.

Les explications sont fournies dans le répertoire abstractExtraction du dépôt dbpedia.hg.sourceforge.net/hgweb/dbpedia/dbpedia/


Installation

Installer


Chargement des données dans le wiki

  • Charger les outils fournis par DBpedia (peu importe le répertoire)
hg clone http://dbpedia.hg.sourceforge.net:8000/hgroot/dbpedia/dbpedia
  • Si ce n'est pas déjà fait, télécharger les dumps de wikipedia, les fichiers suivants sont nécessaires:
    • frwiki-YYYYMMDD-pages-articles.xml.bz2
    • frwiki-20120627-categorylinks.sql.gz
    • frwiki-20120627-imagelinks.sql.gz
    • frwiki-20120627-image.sql.gz
    • frwiki-20120627-langlinks.sql.gz
    • frwiki-20120627-templatelinks.sql.gz

TODO: expliquer l'utilisation de clean.sh et import.sh

$ ./clean.sh [repertoire racine dumps] fr
$ ./import.sh '[repertoire racine dumps]' '' 
'user=[compteMysql]&password=[mdpCompteMysql]' 
'--user=[compteMysql] --password=[mdpCompteMysql]' '[BDMysql]' 'fr'


Installation du Wiki

  • décompresser le fichier [rep depôt dbpedia]/bstractExtraction/mw-modified.tar.gz dans un répertoire accessible par le serveur web.
  • TODO: vérifier les droits d'accès aux fichiers
  • TODO: Ajuster les paramètres de Localhost.php