Outils personnels
User menu

AbstractExtractor

De Dbpedia.fr.

(Différences entre les versions)
(Mode d'emploi)
Ligne 30 : Ligne 30 :
Les explications sont fournies dans le répertoire ''abstractExtraction'' du dépôt ''<nowiki>dbpedia.hg.sourceforge.net/hgweb/dbpedia/dbpedia/</nowiki>''
Les explications sont fournies dans le répertoire ''abstractExtraction'' du dépôt ''<nowiki>dbpedia.hg.sourceforge.net/hgweb/dbpedia/dbpedia/</nowiki>''
-
 
-
=== Installation  ===
 
-
 
-
Installer
 
-
* [http://www.mediawiki.org/ Médiawiki] (testé avec les version 1.18.0 et 1.19.0), mieux vaut prendre la version utilisée par fr.wikipedia.org.
 
-
* [https://www.mediawiki.org/wiki/Extension:ParserFunctions Extension ParserFunctions] de mediawiki (testé avec la version 1.4.1).
 
-
* [https://www.mediawiki.org/wiki/Extension:ExpandTemplates Extension ExpandTemplates] de mediawiki (testé avec la version 1.14 alpha).
 
Ligne 43 : Ligne 36 :
* Charger les outils fournis par DBpedia (peu importe le répertoire)
* Charger les outils fournis par DBpedia (peu importe le répertoire)
  <nowiki>hg clone http://dbpedia.hg.sourceforge.net:8000/hgroot/dbpedia/dbpedia</nowiki>
  <nowiki>hg clone http://dbpedia.hg.sourceforge.net:8000/hgroot/dbpedia/dbpedia</nowiki>
-
* Si ce n'est pas déjà fait, télécharger les [http://dumps.wikimedia.org/frwiki/ dumps de wikipedia], les fichiers suivants sont nécessaires:
+
* Télécharger les fichiers suivants dans un répertoire ''[racine dumps]/frwiki/[YYYYMMDD]/'' et les décompresser :
-
** frwiki-YYYYMMDD-pages-articles.xml.bz2
+
** ''frwiki-[YYYYMMDD]-pages-articles.xml.bz2''
-
** frwiki-20120627-categorylinks.sql.gz
+
** ''frwiki-[YYYYMMDD]-categorylinks.sql.gz''
-
** frwiki-20120627-imagelinks.sql.gz
+
** ''frwiki-[YYYYMMDD]-imagelinks.sql.gz''
-
** frwiki-20120627-image.sql.gz
+
** ''frwiki-[YYYYMMDD]-image.sql.gz''
-
** frwiki-20120627-langlinks.sql.gz
+
** ''frwiki-[YYYYMMDD]-langlinks.sql.gz''
-
** frwiki-20120627-templatelinks.sql.gz
+
** ''frwiki-[YYYYMMDD]-templatelinks.sql.gz''
 +
Ces fichiers se trouvent à l'adresse ''http://dumps.wikimedia.org/frwiki/[YYYYMMDD] où [YYYYMMDD]'' représente une date, p.ex. 20120917 représente le 17 septembre 2012.
 +
*Pour initialiser les tables de la base de données de Wikimédia, il faut aussi télécharger le fichier ''http://svn.wikimedia.org/svnroot/mediawiki/trunk/phase3/maintenance/tables.sql'' dans ''[racine dumps]''.
TODO: expliquer l'utilisation de ''clean.sh'' et ''import.sh''
TODO: expliquer l'utilisation de ''clean.sh'' et ''import.sh''
-
  <nowiki>$ ./clean.sh [repertoire racine dumps] fr</nowiki>
+
  <nowiki>$ ./clean.sh [racine dumps] fr</nowiki>
  <nowiki>$ ./import.sh '[repertoire racine dumps]' ''  
  <nowiki>$ ./import.sh '[repertoire racine dumps]' ''  
'user=[compteMysql]&password=[mdpCompteMysql]'  
'user=[compteMysql]&password=[mdpCompteMysql]'  
'--user=[compteMysql] --password=[mdpCompteMysql]' '[BDMysql]' 'fr'</nowiki>
'--user=[compteMysql] --password=[mdpCompteMysql]' '[BDMysql]' 'fr'</nowiki>
 +
 +
'''Remarque''': Pour obtenir du texte à partir du code wiki des articles de wikipédia, l'extracteur interroge le parseur de mediawiki. Il n'est pas nécessaire que l'article lui-même soit chargé dans le mediawiki interrogé. En revanche si des modèles sont utilisés, il est nécessaire que les pages modèles correspondantes aient été chargées pour que le mediawiki puisse générer leur rendu.
 +
 +
&Aacute; vérifier, mais à priori, il suffit juste de charger les pages de modèles (pages dont le titre commence par ''Modèle:'', ''Template:'' en anglais) dans le wiki pour que l'extraction des abstracts fonctionne.
 +
Pour cela substituer le fichier ''frwiki-[YYYYMMDD]-pages-articles.xml'' par le résultat de l'extraction des page modèles à l'aide de [[Outil:WPDumpExtraction]]:
 +
<nowiki>$ mv frwiki-[YYYYMMDD]-pages-articles.xml /
 +
frwiki-[YYYYMMDD]-pages-articles-complete.xml
 +
$./WPDumpExtraction.pl "<title>Modèle:" 0 0 /
 +
frwiki-[YYYYMMDD]-pages-articles-complete.xml > frwiki-[YYYYMMDD]-pages-articles.xml
 +
</nowiki>
=== Installation du Wiki ===
=== Installation du Wiki ===

Version du 19 septembre 2012 à 14:51

Génère deux triplets par articles correspondant à un résumé court et un résumé long de l'article.


Sommaire

Triplets générés

short_abstract_fr.nt
dbr:[NomPage] rdfs:comment texte
long_abstract_fr.nt
dbr:[NomPage] dbpedia-owl:abstract texte


Mode d'emploi

Pour fonctionner cet extracteur doit interroger l'API mediawiki d'une image de wikipédia. De par le nombre d'appels à l'API (une par article), il n'est pas possible d'interroger l'API de fr.wikipédia.org, il faut installer une version locale.

Les explications sont fournies dans le répertoire abstractExtraction du dépôt dbpedia.hg.sourceforge.net/hgweb/dbpedia/dbpedia/


Chargement des données dans le wiki

  • Charger les outils fournis par DBpedia (peu importe le répertoire)
hg clone http://dbpedia.hg.sourceforge.net:8000/hgroot/dbpedia/dbpedia
  • Télécharger les fichiers suivants dans un répertoire [racine dumps]/frwiki/[YYYYMMDD]/ et les décompresser :
    • frwiki-[YYYYMMDD]-pages-articles.xml.bz2
    • frwiki-[YYYYMMDD]-categorylinks.sql.gz
    • frwiki-[YYYYMMDD]-imagelinks.sql.gz
    • frwiki-[YYYYMMDD]-image.sql.gz
    • frwiki-[YYYYMMDD]-langlinks.sql.gz
    • frwiki-[YYYYMMDD]-templatelinks.sql.gz

Ces fichiers se trouvent à l'adresse http://dumps.wikimedia.org/frwiki/[YYYYMMDD] où [YYYYMMDD] représente une date, p.ex. 20120917 représente le 17 septembre 2012.

TODO: expliquer l'utilisation de clean.sh et import.sh

$ ./clean.sh [racine dumps] fr
$ ./import.sh '[repertoire racine dumps]' '' 
'user=[compteMysql]&password=[mdpCompteMysql]' 
'--user=[compteMysql] --password=[mdpCompteMysql]' '[BDMysql]' 'fr'


Remarque: Pour obtenir du texte à partir du code wiki des articles de wikipédia, l'extracteur interroge le parseur de mediawiki. Il n'est pas nécessaire que l'article lui-même soit chargé dans le mediawiki interrogé. En revanche si des modèles sont utilisés, il est nécessaire que les pages modèles correspondantes aient été chargées pour que le mediawiki puisse générer leur rendu.

Á vérifier, mais à priori, il suffit juste de charger les pages de modèles (pages dont le titre commence par Modèle:, Template: en anglais) dans le wiki pour que l'extraction des abstracts fonctionne. Pour cela substituer le fichier frwiki-[YYYYMMDD]-pages-articles.xml par le résultat de l'extraction des page modèles à l'aide de Outil:WPDumpExtraction:

$ mv frwiki-[YYYYMMDD]-pages-articles.xml /
frwiki-[YYYYMMDD]-pages-articles-complete.xml
$./WPDumpExtraction.pl "<title>Modèle:" 0 0 /
frwiki-[YYYYMMDD]-pages-articles-complete.xml > frwiki-[YYYYMMDD]-pages-articles.xml

Installation du Wiki

  • décompresser le fichier [rep depôt dbpedia]/bstractExtraction/mw-modified.tar.gz dans un répertoire accessible par le serveur web.
  • TODO: vérifier les droits d'accès aux fichiers
  • TODO: Ajuster les paramètres de Localhost.php