Installation des outils d'extraction
De Dbpedia.fr.
Version du 4 juillet 2012 à 14:56 par Julien.Cojan (discuter | contributions)
Les outils d'extraction sont fournis par dbpedia.org.
Cette page est une fiche récapitulative pour l'installation des outils d'extraction. Elle reprend des éléments de la documentation originale, en anglais.
Sommaire |
Dépendances
- Java jdk (j'ai testé avec la version 1.6)
- Scala (j'ai testé avec la version 2.9.1)
- Maven (j'ai testé avec la version 3.0.3)
Les sources sont hébergées dans un dépôt mercurial :
- Mercurial (hg), testé avec la version 2.0.1
Installation sur REHL
TODO
Installation de Scala
Pour être générique, le dossier d'installation est noté [REP_INSTALL] dans la suite, par exemple $HOME\Appli\. On suppose que l'écriture dans ce dossier ne nécessite pas de droits particuliers.
- cd [REP_INSTALL].
- Télécharger la dernière version stable de Scala à http://www.scala-lang.org/downloads (dernière version testée 2.9.0, fichier téléchargé scala-2.9.2.tgz).
wget http://www.scala-lang.org/downloads/distrib/files/scala-2.9.2.tgz
- Décompresser dans le répertoire d'installation.
tar -xvf scala-2.9.2.tgz ln -s scala-2.9.2/ scala
- Ajouter ce répertoire dans la variable PATH, ajouter la ligne suivante dans $HOME\.bash_profile :
export PATH=$PATH:[REP_INSTALL]/scala/bin
Installation sur Fedora 16
A revoir, premier jet :
- Charger le code depuis le dépot mercurial
hg clone http://dbpedia.hg.sourceforge.net/hgweb/dbpedia/extraction_framework
- Télécharger les dumps de pages wikipedia et wikimedia commons :
- placer le dump des pages wikipedia dans $DUMP_FOLDER\fr\[date, ex 20120117]\frwiki-[date]-pages-articles.xml
- placer le dump des pages commons dans $DUMP_FOLDER\commons\[date]\commonswiki-[date]-pages-articles.xml
- Configurer le fichier dump/config.properties :
updateDumps=false (pour utiliser les dumps téléchargés) languages=en (pour restreindre l’extraction aux pages anglaises) Rq : Il y a une erreur dans le fichier, il faut remplacer "InterLanguageLinksExtractorExtractor" par "InterLanguageLinksExtractor";
- Exécuter la commande mvn install à partir du répertoire “extraction_Framework”
Rq : 2 erreurs sont signalées : error: error while loading QueryResultIterator, Missing dependency 'class val', required by /home/cojanjul/Projet/DBpediaFr/extraction_framework/live/target/ classes/org/dbpedia/utils/sparql/QueryResultIterator.class /home/cojanjul/Projet/DBpediaFr/extraction_framework/live/src/main/scala/ org/dbpedia/utils/sparql/QueryCollection.scala:20: error: org.dbpedia.utils.sparql.QueryResultIterator does not have a constructor
- Exécuter la commande mvn scala:run dans le répertoire dump:
cd dump/; mvn scala:run