Installation des outils d'extraction
De Dbpedia.fr.
Version du 26 janvier 2012 à 16:33 par Julien.Cojan (discuter | contributions)
Les outils d'extraction sont fournis par dbpedia.org.
Cette page est une fiche récapitulative pour l'installation des outils d'extraction. Elle reprend des éléments de la documentation originale, en anglais.
Dépendances
- Java jdk (j'ai testé avec la version 1.6)
- Scala (j'ai testé avec la version 2.9.1)
- Maven (j'ai testé avec la version 3.0.3)
Les sources sont hébergées dans un dépôt mercurial :
- Mercurial (hg), testé avec la version 2.0.1
Installation sur REHL
TODO
Installation sur Fedora 16
A revoir, premier jet :
- Charger le code depuis le dépot mercurial
hg clone http://dbpedia.hg.sourceforge.net/hgweb/dbpedia/extraction_framework
- Télécharger les dumps de pages wikipedia et wikimedia commons :
- placer le dump des pages wikipedia dans $DUMP_FOLDER\fr\[date, ex 20120117]\frwiki-[date]-pages-articles.xml
- placer le dump des pages commons dans $DUMP_FOLDER\commons\[date]\commonswiki-[date]-pages-articles.xml
- Configurer le fichier dump/config.properties :
updateDumps=false (pour utiliser les dumps téléchargés) languages=en (pour restreindre l’extraction aux pages anglaises) Rq : Il y a une erreur dans le fichier, il faut remplacer "InterLanguageLinksExtractorExtractor" par "InterLanguageLinksExtractor";
- Exécuter la commande mvn install à partir du répertoire “extraction_Framework”
Rq : 2 erreurs sont signalées : error: error while loading QueryResultIterator, Missing dependency 'class val', required by /home/cojanjul/Projet/DBpediaFr/extraction_framework/live/target/classes/org/dbpedia/utils/sparql/QueryResultIterator.class /home/cojanjul/Projet/DBpediaFr/extraction_framework/live/src/main/scala/org/dbpedia/utils/sparql/QueryCollection.scala:20: error: org.dbpedia.utils.sparql.QueryResultIterator does not have a constructor
- Exécuter la commande mvn scala:run dans le répertoire dump:
cd dump/; mvn scala:run