InterLanguageLinksExtractor
De Dbpedia.fr.
Lie l’instance avec les instances tirées des pages Wikipedia traitant du même sujet dans d’autres langues.
Fonctionne après une petite modification du code.
Triplets générés
interlanguage_links_en.nt | ||
---|---|---|
dbr:[NomPage] | owl:sameAs | [resource autre langue]:[NomPage autre langue] |
Générer les liens owl:SameAs
Les liens interlangues servent à établir les relations d'équivalence entre les ressources de chapitres linguistiques de DBpedia.
Les liens interlangues de wikipédia sont censés relier des pages traitant du même sujet dans différentes langues. En pratique, il arrive qu'il y ait une légère différence de sens. On peut alors se trouver dans le cas où une page A en français est reliée à une page B en anglais qui est elle même reliée à une page C en français. Il ne faut pas établir de relations owl:sameAs entre les ressources correspondantes car cela impliquerait l'équivalence entre les sujets des pages A et C.
Le script [déport extraction_framework]/scripts/shell-scripts/interwiki_links/interwiki_links.sh effectue une vérification de symétrie des liens interlangue avant d'établir les relations owl:sameAs.
- Copier le fichier [base-dir]/frwiki/[AAAAMMJJ]/frwiki-[AAAAMMJJ]-interlanguage-links.ttl dans [base-dir]/fr/interlanguage_links_fr.nt.
- Télécharger le fichier interlanguage_links_en.nt et le placer dans le répertoire [base-dir]/en/.
- S'assurer que les IRIs commençant par "http://fr.dbpedia.org" sont correctement encodées. Si les caractères non ASCII sont échappés par des séquences de la forme \u[hhhh] ([h] pour hexadécimal), remplacer le fichier par la sortie de
native2ascii -encoding UTF-8 -reverse interlanguage_links_en.nt
--ToDo la suite --