Documentation

De Dbpedia.fr.

(Différences entre les versions)

Version actuelle en date du 7 juin 2013 à 10:03

Sommaire

1 Processus d'extraction des données de Wikipédia
- 1.1 Outils d'extraction
2 Accès aux données
3 Installation et configuration d'un serveur Virtuoso
4 Utilisation de MediaWiki
- 4.1 Création d'un miroir de Wikipédia

Processus d'extraction des données de Wikipédia

Chaque page de Wikipédia est parcourue par un ensemble d'extracteurs. Chaque extracteur identifie un élément de la page et génère des données en fonction de son contenu.

Par exemple, la figure suivante présente les données extraites à partir de différents éléments de la page du Musée du Louvre.

Les données générées sont des triplets RDF (format standard du W3C pour la représentation des données).

La liste des extracteurs est donnée sur cette page, la page correspondante à chacun des extracteurs décrit les données générées.

La page Extraction du 27 Aout 2013 donne le volume des dernières données générées.

Les outils d'extraction sont maintenus par la communauté DBpedia, la documentation originale est accessible à cette adresse : http://wiki.dbpedia.org/Documentation. Une version traduite est disponible ici: Installation_des_outils_d'extraction.

Outils d'extraction

La documentation technique des outils d'extraction est fournie sur le site de dbpedia.org : http://wiki.dbpedia.org/Documentation.

Quelques pages en français :

Installation des outils d'extraction

Accès aux données

Téléchargement des données

Les "dumps", c'est-à-dire les fichiers contenant l'ensemble des données générées pour une image de Wikipédia à un instant donné, peuvent être téléchargés à cette adresse : http://fr.dbpedia.org/download/ .

Accès par déréférencement

Suivant les principes de Linked Data, les ressources sont identifiées par des URIs déréférençables, c'est-à-dire qu'elles sont accessibles par http.

Requêtes SPARQL

SPARQL est un language de requêtes sur des données RDF défini par le W3C, voir les exemples de requêtes SPARQL.

Un service SPARQL est accessible à l'adresse http://fr.dbpedia.org/sparql. Une interface html permet d'exécuter des requêtes directement. Il est aussi possible d'effectuer les requêtes par GET/POST en passant la requête en paramètre "query".

Installation et configuration d'un serveur Virtuoso

L'installation et la configuration d'un serveur Virtuoso pour servir les données extraites sont détaillées dans les pages suivantes :

Utilisation de MediaWiki

Création d'un miroir de Wikipédia

Actuellement, l'extraction des résumés d'articles se fait par appel à l'API de mediawiki. Afin de ne pas surcharger le site fr.wikipedia.org, il faut installer un miroir local. Il faut installer un mediawiki en local et y charger les dumps XML téléchargés sur http://dumps.wikimedia.org/frwiki/. Cette étape est documentée sur la page de mediawiki.

Des notes d'installation sont disponibles en français à la page Chargement des dumps dans MediaWiki.

Dernière modification de cette page le 7 juin 2013 à 10:03.
Cette page a été consultée 5 764 fois.

@@ Ligne 1 : / Ligne 1 : @@
 == Processus d'extraction des données de Wikipédia ==
-Chaque page de Wikipédia est parcourue par un ensemble d'[[Catégorie:Extracteur|extracteurs]].
+Chaque page de Wikipédia est parcourue par un ensemble d'[[:Catégorie:Extracteur|extracteurs]].
-Chaque extracteur identifie un élément de la page et génère de données en fonction de son contenu.
+Chaque extracteur identifie un élément de la page et génère des données en fonction de son contenu.
 Par exemple, la figure suivante présente les données extraites à partir de différents éléments de la page du Musée du Louvre.
@@ Ligne 9 : / Ligne 9 : @@
 Les données générées sont des triplets [http://www.w3.org/RDF/ RDF] (format standard du [http://www.w3.org W3C] pour la représentation des données).
-La liste des extracteurs est données sur cette [[Catégorie:Extracteur|page]], la page correspondante à chacun des extracteurs décrit les données générées.
+La liste des extracteurs est donnée sur cette [[:Catégorie:Extracteur|page]], la page correspondante à chacun des extracteurs décrit les données générées.
 La page {{#ask: [[serveur SPARQL]] | ?loadedData= }} donne le volume des dernières données générées.
@@ Ligne 16 : / Ligne 16 : @@
 Une version traduite est disponible ici: [[Installation_des_outils_d'extraction]].
+=== Outils d'extraction ===
+La documentation technique des outils d'extraction est fournie sur le site de dbpedia.org :
+[http://wiki.dbpedia.org/Documentation http://wiki.dbpedia.org/Documentation].
+Quelques pages en français :
+* [[Installation des outils d'extraction]]
 == Accès aux données ==
@@ Ligne 30 : / Ligne 38 : @@
 === Requêtes SPARQL ===
-[http://www.w3.org/standards/techs/sparql SPARQL] est un language de requêtes sur des données RDF défini par le W3C.
+[http://www.w3.org/standards/techs/sparql SPARQL] est un language de requêtes sur des données RDF défini par le W3C, voir les [[Exemples SPARQL|exemples de requêtes SPARQL]].
 Un service SPARQL est accessible à l'adresse [http://fr.dbpedia.org/sparql http://fr.dbpedia.org/sparql].
 Une interface html permet d'exécuter des requêtes directement. Il est aussi possible d'effectuer les requêtes par GET/POST en passant la requête en paramètre "query".
 == Installation et configuration d'un serveur Virtuoso ==
@@ Ligne 42 : / Ligne 49 : @@
 * [[Configuration_de_Virtuoso|Configuration de Virtuoso pour DBpedia]]
 * [[Chargement des données dans Virtuoso]]
+== Utilisation de MediaWiki ==
+=== Création d'un miroir de Wikipédia ===
+Actuellement, l'extraction des résumés d'articles se fait par appel à l'API de mediawiki.
+Afin de ne pas surcharger le site fr.wikipedia.org, il faut installer un miroir local.
+Il faut installer un mediawiki en local et y charger les dumps XML téléchargés sur [http://dumps.wikimedia.org/frwiki/ http://dumps.wikimedia.org/frwiki/]. Cette étape est documentée sur [http://meta.wikimedia.org/wiki/Data_dumps#mwdumper la page de mediawiki].
+Des notes d'installation sont disponibles en français à la page [[Chargement des dumps dans MediaWiki]].

Outils personnels

Documentation

De Dbpedia.fr.

Version actuelle en date du 7 juin 2013 à 10:03

Sommaire

Processus d'extraction des données de Wikipédia

Outils d'extraction

Accès aux données

Téléchargement des données

Accès par déréférencement

Requêtes SPARQL

Installation et configuration d'un serveur Virtuoso

Utilisation de MediaWiki

Création d'un miroir de Wikipédia

Projet

Documentation

Boîte à outils