Installation des outils d'extraction

De Dbpedia.fr.

Les outils d'extraction sont fournis par dbpedia.org.

Cette page est une fiche récapitulative pour l'installation des outils d'extraction. Elle reprend des éléments de la documentation originale, en anglais.

Sommaire

1 Dépendances
2 Exécution
3 Installation sur REHL
- 3.1 Installation de Scala
- 3.2 Exécution des outils d'extraction

Dépendances

Java jdk 1.7
Scala (j'ai testé avec la version 2.9.1)
Maven (j'ai testé avec la version 3.0.3)
Git, les sources sont hébergées sur https://github.com/dbpedia/extraction-framework

Voir #Installation sur REHL, pour l'installation des dépendances hors gestionnaire de package.

Exécution

Compilation du code

Charger le code depuis le dépot mercurial

   git clone https://github.com/dbpedia/extraction-framework.git

Exécuter la commande mvn install à partir du répertoire extraction_Framework.

Configuration

Un exemple de configuration est donnée dans le fichier dump/config.default.properties. Faites une copie config.properties et ajustez les paramètres suivants :

base-dir : dossier dans lequel se trouvent des dumps (voir #Préparation des données)
languages=fr pour limiter l'extraction à Wikipedia en français. Rq.: dernièrement cette option ne semblait pas marcher, commenter en plus les entrées extractors.xx pour toutes les langues sauf le français.
extractors et extractors.fr, ce sont les listes de extracteurs qui seront exécutés. La première liste est pour les extracteurs qui n'ont pas besoin de configuration par langue, la deuxième liste est propre à chaque langue. Tous les extracteurs devraient y être, pour commencer, il est peut-être utile d'en désactiver certains. En particulier l'extracteur AbstractExtractor demande l'installation d'une image de Wikipedia (voir AbstractExtractor#installation pour les instructions d'installation).

Préparation des données

Télécharger les dumps de pages wikipedia et wikimedia commons :
- placer le dump des pages wikipedia dans [base-dir]\fr\[date, ex 20120117]\frwiki-[date]-pages-articles.xml
- placer le dump des pages commons dans [base-dir]\commons\[date]\commonswiki-[date]-pages-articles.xml

Lancer l'extraction

Exécuter la commande suivante à partir du répertoire dump:

 mvn scala:run -Dlauncher=extraction -DaddArgs=extraction.properties

Installation sur REHL

Installation de Scala

Pour être générique, le dossier d'installation est noté [REP_INSTALL] dans la suite, par exemple $HOME\Appli\. On suppose que l'écriture dans ce dossier ne nécessite pas de droits particuliers.

cd [REP_INSTALL].
Télécharger la dernière version stable de Scala à http://www.scala-lang.org/downloads (dernière version testée 2.9.0, fichier téléchargé scala-2.9.2.tgz).

wget http://www.scala-lang.org/downloads/distrib/files/scala-2.9.2.tgz

Décompresser dans le répertoire d'installation.

tar -xvf scala-2.9.2.tgz
ln -s scala-2.9.2/ scala

Ajouter ce répertoire dans la variable PATH, ajouter la ligne suivante dans $HOME\.bash_profile :

export PATH=$PATH:[REP_INSTALL]/scala/bin

Exécution des outils d'extraction

La méthode utilisée pour Fedora demande plusieurs librairies pour charger les sources, les compiler et les exécuter avec maven.

Une solution simple pour ne pas avoir à tout réinstaller sur RHEL, consiste à compiler les outils d'extractions sur une autre machine (Fedora) et à les excécuter sur RedHat. Il est juste nécessaire d'avoir installé Java et Scala.

Récupérer les exécutables (sur la machine où sont compilées les sources )

Maven enregistre les exécutables dans le répertoire

~/.m2/repository/[hierarchie de package]/[version].

Pour l'extraction de DBpedia, nous n'avons besoin que des packages dore et dump, la version est donnée dans le fichier pom.xml à la racine du dépôt de DBpedia, dans la balise <version>.

Dans cet exemple, la version est 3.8, les fichiers à récupérer sont alors :

~/.m2/repository/org/dbpedia/extraction/core/3.8/core-3.8.jar
~/.m2/repository/org/dbpedia/extraction/dump/3.8/dump-3.8.jar

Le fichier de configuration de l'extraction extract.properties est aussi nécessaire. Il se trouve dans le répertoire dump du dépôt DBpedia.

Pré-charger l'ontologie et les mappings

Celà peut-être utile en cas d'extractions rapprochées, pour éconolmiser le temps de téléchargement.

charger les mappings:

scala -cp [chemin/vers/core-3.8.jar]:[chemin/vers/dump-3.8.jar] 
org.dbpedia.extraction.util.MappingsDownloader [répertoire/cible]

Les mappings seront enregistrés dans [répertoire/cible], c'est le répertoire à mettre dans l'entrée mappings de dump/pom.xml.

Exécutions (sous RHEL)

Copier ces trois fichiers dans un répertoire local.

Télécharger les derniers dumps de Wikipédia dans un répertoire de travail (noté [Rep_Dump] dans la suite).

Éditer le fichier extract.properties pour mettre la valeur [Rep_Dump] dans l'entrée dir.

Exécuter la commande suivante dans le répertoire contenant les fichiers .jar et extract.properties :

scala -cp core-3.8.jar:dump-3.8.jar \
    org.dbpedia.extraction.dump.extract.Extract extract.properties

Pour avoir de meilleures performances, il vaut mieux augmenter la mémoire allouée à java, avant d'éxécuter la commande précédante :

export JAVA_OPTS='-XMx1024'

Dernière modification de cette page le 6 septembre 2013 à 14:00.
Cette page a été consultée 7 315 fois.

Outils personnels