Lookup
De Dbpedia.fr.
(Différences entre les versions)
m (→Générer l'index Lookup : suffixe langue noms fichiers) |
|||
(3 versions intermédiaires masquées) | |||
Ligne 9 : | Ligne 9 : | ||
* http://sourceforge.net/mailarchive/message.php?msg_id=30114800 | * http://sourceforge.net/mailarchive/message.php?msg_id=30114800 | ||
* http://dbpedia.org/spotlight/technicaldocumentation#h140-7 | * http://dbpedia.org/spotlight/technicaldocumentation#h140-7 | ||
+ | |||
=== Générer les surfaces à l'aide de SpotLight === | === Générer les surfaces à l'aide de SpotLight === | ||
Ligne 17 : | Ligne 18 : | ||
* Exécuter bin/index.sh | * Exécuter bin/index.sh | ||
* Exécuter la classe org.dbpedia.spotlight.util.CreateLexicalizations (répertoire core) avec comme premier paramètre un nom du fichier de sortie (p.ex. '''lexicalisation''') et en second paramètre le chemin d'accès au fichier '''surfaceForms-fromOccs.count''' généré à l'aide de bin/index.sh | * Exécuter la classe org.dbpedia.spotlight.util.CreateLexicalizations (répertoire core) avec comme premier paramètre un nom du fichier de sortie (p.ex. '''lexicalisation''') et en second paramètre le chemin d'accès au fichier '''surfaceForms-fromOccs.count''' généré à l'aide de bin/index.sh | ||
+ | |||
+ | |||
+ | === Générer l'index Lookup === | ||
+ | |||
+ | * Extraire les lexicalisations : | ||
+ | <nowiki>grep "lexvo" lexicalisation > surface_forms.nq | ||
+ | rapper -i trig -o ntriples surface_forms.nq | sort | uniq > surface_forms.nt</nowiki> | ||
+ | * Extraire le decompte des liens entrants : | ||
+ | <nowiki>grep uriCount lexicalisation | \ | ||
+ | sed "s/<http:\/\/dbpedia.org\/spotlight\/score#uriCount>/<http:\/\/dbpedia.org\/property\/refCount>/" > \ | ||
+ | ref_counts.nt</nowiki> | ||
+ | * Grouper le tout dans un fichier '''data-to-be-indexed.nt''': | ||
+ | <nowiki>cat ref_counts.nt \ | ||
+ | surface_forms.nt \ | ||
+ | instance_types_fr.nt \ | ||
+ | short_abstracts_fr.nt \ | ||
+ | article_categories_fr.nt | sort >data-to-be-indexed.nt</nowiki> | ||
+ | * Lancer l'indexation : | ||
+ | <nowiki>mvn scala:run -Dlauncher=Indexer \ | ||
+ | "-DaddArgs=[repertoire cible]|[dump redirects]|[data-to-be-indexed.nt]"</nowiki> | ||
+ | |||
+ | == Lancer le service Lookup == | ||
+ | |||
+ | * Mettre l'adresse [repertoire cible] dans le fichier '''default_index_path''' (seul contenu du fichier). | ||
+ | * Lancer le serveur : | ||
+ | <nowiki>mvn scala:run</nowiki> | ||
+ | |||
+ | Le serveur devrait tourner sur le port 1111. Voir https://github.com/dbpedia/lookup pour le guide d'utilisation. | ||
+ | |||
+ | |||
+ | == Todo == | ||
+ | |||
+ | * Régler pb de rapper qui remplace les caractères non ascci par des codes \uXXXX | ||
+ | * Tester la prise en compte des redirects |
Version actuelle en date du 22 février 2013 à 16:00
Page officielle : https://github.com/dbpedia/lookup
Ancienne page : http://wiki.dbpedia.org/lookup
Sommaire |
Générer l'index
Procédé reconstitué à partir de différentes sources :
- http://sourceforge.net/mailarchive/message.php?msg_id=30114800
- http://dbpedia.org/spotlight/technicaldocumentation#h140-7
Générer les surfaces à l'aide de SpotLight
- Charger le code de Spotlight
- Ajuster les paramètres du fichier conf/indexing.properties
- Ajuster les paramètres DBPEDIA_WORKSPACE et INDEX_CONFIG_FILE du fichier bin/index.sh
- Exécuter bin/index.sh
- Exécuter la classe org.dbpedia.spotlight.util.CreateLexicalizations (répertoire core) avec comme premier paramètre un nom du fichier de sortie (p.ex. lexicalisation) et en second paramètre le chemin d'accès au fichier surfaceForms-fromOccs.count généré à l'aide de bin/index.sh
Générer l'index Lookup
- Extraire les lexicalisations :
grep "lexvo" lexicalisation > surface_forms.nq rapper -i trig -o ntriples surface_forms.nq | sort | uniq > surface_forms.nt
- Extraire le decompte des liens entrants :
grep uriCount lexicalisation | \ sed "s/<http:\/\/dbpedia.org\/spotlight\/score#uriCount>/<http:\/\/dbpedia.org\/property\/refCount>/" > \ ref_counts.nt
- Grouper le tout dans un fichier data-to-be-indexed.nt:
cat ref_counts.nt \ surface_forms.nt \ instance_types_fr.nt \ short_abstracts_fr.nt \ article_categories_fr.nt | sort >data-to-be-indexed.nt
- Lancer l'indexation :
mvn scala:run -Dlauncher=Indexer \ "-DaddArgs=[repertoire cible]|[dump redirects]|[data-to-be-indexed.nt]"
Lancer le service Lookup
- Mettre l'adresse [repertoire cible] dans le fichier default_index_path (seul contenu du fichier).
- Lancer le serveur :
mvn scala:run
Le serveur devrait tourner sur le port 1111. Voir https://github.com/dbpedia/lookup pour le guide d'utilisation.
Todo
- Régler pb de rapper qui remplace les caractères non ascci par des codes \uXXXX
- Tester la prise en compte des redirects
- Dernière modification de cette page le 22 février 2013 à 16:00.
- Cette page a été consultée 1 288 fois.