Outils personnels
User menu

Lookup

De Dbpedia.fr.

(Différences entre les versions)
m (Générer l'index Lookup : suffixe langue noms fichiers)
 
(2 versions intermédiaires masquées)
Ligne 23 : Ligne 23 :
* Extraire les lexicalisations :
* Extraire les lexicalisations :
-
  <nowiki>grep "lexvo" lexicalisation | \
+
  <nowiki>grep "lexvo" lexicalisation > surface_forms.nq
-
  rapper -i trig -o ntriples | sort | uniq > \
+
rapper -i trig -o ntriples surface_forms.nq | sort | uniq > surface_forms.nt</nowiki>
-
  surface_forms.nt</nowiki>
+
* Extraire le decompte des liens entrants :
* Extraire le decompte des liens entrants :
  <nowiki>grep uriCount lexicalisation | \
  <nowiki>grep uriCount lexicalisation | \
   sed "s/<http:\/\/dbpedia.org\/spotlight\/score#uriCount>/<http:\/\/dbpedia.org\/property\/refCount>/" > \
   sed "s/<http:\/\/dbpedia.org\/spotlight\/score#uriCount>/<http:\/\/dbpedia.org\/property\/refCount>/" > \
-
   refCount.nt</nowiki>
+
   ref_counts.nt</nowiki>
* Grouper le tout dans un fichier '''data-to-be-indexed.nt''':
* Grouper le tout dans un fichier '''data-to-be-indexed.nt''':
  <nowiki>cat ref_counts.nt \
  <nowiki>cat ref_counts.nt \
       surface_forms.nt \
       surface_forms.nt \
-
       instance_types_en.nt \
+
       instance_types_fr.nt \
-
       short_abstracts_en.nt \
+
       short_abstracts_fr.nt \
-
       article_categories_en.nt | sort >data-to-be-indexed.nt</nowiki>
+
       article_categories_fr.nt | sort >data-to-be-indexed.nt</nowiki>
* Lancer l'indexation :  
* Lancer l'indexation :  
  <nowiki>mvn scala:run -Dlauncher=Indexer \
  <nowiki>mvn scala:run -Dlauncher=Indexer \
     "-DaddArgs=[repertoire cible]|[dump redirects]|[data-to-be-indexed.nt]"</nowiki>
     "-DaddArgs=[repertoire cible]|[dump redirects]|[data-to-be-indexed.nt]"</nowiki>
-
 
== Lancer le service Lookup ==
== Lancer le service Lookup ==
Ligne 48 : Ligne 46 :
Le serveur devrait tourner sur le port 1111. Voir https://github.com/dbpedia/lookup pour le guide d'utilisation.
Le serveur devrait tourner sur le port 1111. Voir https://github.com/dbpedia/lookup pour le guide d'utilisation.
 +
 +
 +
== Todo ==
 +
 +
* Régler pb de rapper qui remplace les caractères non ascci par des codes \uXXXX
 +
* Tester la prise en compte des redirects

Version actuelle en date du 22 février 2013 à 16:00

Page officielle : https://github.com/dbpedia/lookup

Ancienne page : http://wiki.dbpedia.org/lookup


Sommaire

Générer l'index

Procédé reconstitué à partir de différentes sources :


Générer les surfaces à l'aide de SpotLight

  • Charger le code de Spotlight
  • Ajuster les paramètres du fichier conf/indexing.properties
  • Ajuster les paramètres DBPEDIA_WORKSPACE et INDEX_CONFIG_FILE du fichier bin/index.sh
  • Exécuter bin/index.sh
  • Exécuter la classe org.dbpedia.spotlight.util.CreateLexicalizations (répertoire core) avec comme premier paramètre un nom du fichier de sortie (p.ex. lexicalisation) et en second paramètre le chemin d'accès au fichier surfaceForms-fromOccs.count généré à l'aide de bin/index.sh


Générer l'index Lookup

  • Extraire les lexicalisations :
grep "lexvo" lexicalisation > surface_forms.nq
rapper -i trig -o ntriples surface_forms.nq | sort | uniq > surface_forms.nt
  • Extraire le decompte des liens entrants :
grep uriCount lexicalisation | \
  sed "s/<http:\/\/dbpedia.org\/spotlight\/score#uriCount>/<http:\/\/dbpedia.org\/property\/refCount>/" > \
  ref_counts.nt
  • Grouper le tout dans un fichier data-to-be-indexed.nt:
cat ref_counts.nt \
      surface_forms.nt \
      instance_types_fr.nt \
      short_abstracts_fr.nt \
      article_categories_fr.nt | sort >data-to-be-indexed.nt
  • Lancer l'indexation :
mvn scala:run -Dlauncher=Indexer \
    "-DaddArgs=[repertoire cible]|[dump redirects]|[data-to-be-indexed.nt]"

Lancer le service Lookup

  • Mettre l'adresse [repertoire cible] dans le fichier default_index_path (seul contenu du fichier).
  • Lancer le serveur :
mvn scala:run

Le serveur devrait tourner sur le port 1111. Voir https://github.com/dbpedia/lookup pour le guide d'utilisation.


Todo

  • Régler pb de rapper qui remplace les caractères non ascci par des codes \uXXXX
  • Tester la prise en compte des redirects
  • Dernière modification de cette page le 22 février 2013 à 16:00.
  • Cette page a été consultée 1 287 fois.