Outils personnels
User menu

InterLanguageLinksExtractor

De Dbpedia.fr.

Lie l’instance avec les instances tirées des pages Wikipedia traitant du même sujet dans d’autres langues.

Fonctionne après une petite modification du code.

Triplets générés

interlanguage_links_en.nt
dbr:[NomPage] owl:sameAs [resource autre langue]:[NomPage autre langue]


Générer les liens owl:SameAs

Les liens interlangues servent à établir les relations d'équivalence entre les ressources de chapitres linguistiques de DBpedia.

Les liens interlangues de wikipédia sont censés relier des pages traitant du même sujet dans différentes langues. En pratique, il arrive qu'il y ait une légère différence de sens. On peut alors se trouver dans le cas où une page A en français est reliée à une page B en anglais qui est elle même reliée à une page C en français. Il ne faut pas établir de relations owl:sameAs entre les ressources correspondantes car cela impliquerait l'équivalence entre les sujets des pages A et C.

Le script [déport extraction_framework]/scripts/shell-scripts/interwiki_links/interwiki_links.sh effectue une vérification de symétrie des liens interlangue avant d'établir les relations owl:sameAs.

  • Copier le fichier [base-dir]/frwiki/[AAAAMMJJ]/frwiki-[AAAAMMJJ]-interlanguage-links.ttl dans [base-dir]/fr/interlanguage_links_fr.nt.
  • Télécharger le fichier interlanguage_links_en.nt et le placer dans le répertoire [base-dir]/en/.
  • S'assurer que les IRIs commençant par "http://fr.dbpedia.org" sont correctement encodées. Si les caractères non ASCII sont échappés par des séquences de la forme \u[hhhh] ([h] pour hexadécimal), remplacer le fichier par la sortie de
native2ascii -encoding UTF-8 -reverse interlanguage_links_en.nt
  • S'assurer que les URIs commençant par "http://dbpedia.org" sont correctement encodées (ce sont des URI, elles ne peuvent donc contenir que des caractères ASCII). Au besoin parser ces lignes en remplaçant les adresses non échappées par des URI avec
import java.net.URI
...
URI uri = new URI([l'adresse]);
uri.toASCIIString();

  • Exécuter le script dans le répertoire [déport extraction_framework]/scripts/shell-scripts/interwiki_links/ :
bash bash interwiki_links.sh 'fr' 'en'
  • Dernière modification de cette page le 14 janvier 2013 à 17:01.
  • Cette page a été consultée 1 890 fois.