Outils personnels
User menu

Home

De Dbpedia.fr.

(Différences entre les versions)
Ligne 1 : Ligne 1 :
-
Le projet DBpedia.fr a pour but de créer une version francophone de la base DBPedia qui est utilisée dans de
+
Le projet DBpedia.fr a pour but de créer une version francophone de la base [http://dbpedia.org DBpedia] qui est utilisée dans de
nombreuses applications anglophones, notamment pour la publication de collections culturelles.
nombreuses applications anglophones, notamment pour la publication de collections culturelles.
 +
<div style="clear:both; overflow:auto;">
 +
<div style="max-width: 400px; float:left; margin-left: 30px;">
 +
<table style="font-size: 95%; border:1px solid grey; max-width: 300px; ">
 +
<tr>
 +
<td colspan="2" align="center" width="270" style="background: #fdbb21; font-size: 110%;">
 +
<p><b><span class="fn org">&Eacute;tat projet</span></b></p>
 +
</td>
 +
</tr>
 +
<tr><td>Statut</td><td>Alpha</td></tr>
 +
<tr><td>Données publiées</td><td>[[Extraction du 16 décembre 2011]]</td></tr>
 +
<tr><td></td><td></td></tr>
 +
</table>
 +
</div>
-
<div style="max-width: 300px; float: right; margin-right: 30px;">
+
<div style="max-width: 400px; float:left; margin-left: 30px;">
-
<table style="font-size: 95%; border:1px solid grey; border-spacing:2 2px; ">
+
<table style="font-size: 95%; border:1px solid grey; border-spacing:2 2px; max-width: 300px;">
<tr>
<tr>
<td align="center" width="270" style="background: #608090; font-size: 110%;">
<td align="center" width="270" style="background: #608090; font-size: 110%;">
Ligne 15 : Ligne 28 :
[[Installation des outils d'extraction]]
[[Installation des outils d'extraction]]
<br/>
<br/>
-
[[Chargement des données dans Virtuoso]]
+
[[Chargement des données dans Virtuoso| Mise en place d'un serveur SPARQL]]
<br/>
<br/>
[[:Category:Extracteur | Extracteurs]]
[[:Category:Extracteur | Extracteurs]]
Ligne 24 : Ligne 37 :
</div>
</div>
-
<div style="max-width: 300px; float: right;  margin-right: 30px; ">
 
-
<table style="font-size: 95%; border:1px solid grey; ">
 
-
<tr>
 
-
<td colspan="2" align="center" width="270" style="background: #fdbb21; font-size: 110%;">
 
-
<p><b><span class="fn org">&Eacute;tat projet</span></b></p>
 
-
</td>
 
-
</tr>
 
-
<tr><td>Statut</td><td>Alpha</td></tr>
 
-
<tr><td>Données publiées</td><td>[[Extraction du 16 décembre 2011]]</td></tr>
 
-
<tr><td></td><td></td></tr>
 
-
</table>
 
</div>
</div>
== Qu’est-ce que DBpedia ? ==
== Qu’est-ce que DBpedia ? ==
-
[http://dbpedia.org DBPedia] est une base de données publique extraite de Wikipédia, projet d’encyclopédie collective
+
Il s'agit d'un effort communautaire ayant pour but d’extraire des informations structurées des pages de [http://wikipedia.org Wikipédia] afin de rendre ces données disponibles sur le Web.
-
sur le Web, fonctionnant sur le principe désormais bien connu du wiki. L’encyclopédie Wikipédia
+
-
offre un contenu librement réutilisable, que chacun peut modifier et améliorer dans les limites d’un
+
-
processus éditorial défini. Elle est essentiellement à destination humaine : seuls des individus
+
-
peuvent véritablement lire et comprendre le contenu de ses pages. Or celles-ci n’en recèlent pas
+
-
moins des données pouvant s’avérer utiles aux applications informatiques, à la condition qu’elles
+
-
leur deviennent accessibles (ex. : dans le contexte croissant de la mobilité, la longitude et la latitude
+
-
des musées et autres monuments...).
+
-
 
+
-
A l’instar de son modèle, DBPedia est également un effort communautaire ayant pour but d’extraire
+
-
des informations structurées de Wikipédia afin de rendre ces données disponibles sur le Web. En
+
-
tant que base de connaissances, DBPedia bénéficie donc du gigantesque corpus de Wikipédia et
+
-
décrit actuellement plus de 3,5 million de d’objets, dont 364 000 personnes, 462 000 lieux, 99 000
+
-
albums de musique, 54 000 films, 17 000 jeux vidéo, 148 000 organisations, 169 000 espèces et 5 200
+
-
maladies. Les données de DBPedia décrivent en outre ces 3,5 millions d’éléments dans 97 langues
+
-
différentes et proposent 1 850 000 liens vers des images et 5 900 000 liens vers des pages Web
+
-
externes.
+
-
 
+
-
En extrayant les données de Wikipédia puis en les publiant conséquemment dans un format
+
-
structuré (standards ouverts du Web Sémantique), DBPedia les rend accessibles à tout un chacun et
+
-
favorise par là même l’émergence de nouvelles applications et de nouveaux usages, dans des
+
-
domaines aussi variés que la recherche, l’industrie ou encore, bien entendu, la culture.
+
-
 
+
-
== A quoi sert DBPedia ? ==
+
-
En tant que base de connaissances, DBPedia a plusieurs avantages sur les bases existantes. Elle
+
En tant que base de connaissances, [http://dbpedia.org DBpedia] a plusieurs avantages sur les bases existantes. Elle
couvre de très nombreux domaines, capture un véritable consensus collectif qui évolue
couvre de très nombreux domaines, capture un véritable consensus collectif qui évolue
automatiquement en fonction des transformations de Wikipédia et peut ainsi suivre les nouvelles
automatiquement en fonction des transformations de Wikipédia et peut ainsi suivre les nouvelles
Ligne 74 : Ligne 53 :
DBPedia permet donc de répondre automatiquement à des requêtes structurées complexes sur les
DBPedia permet donc de répondre automatiquement à des requêtes structurées complexes sur les
données de Wikipédia et de les lier à d'autres ensembles de données sur le Web.
données de Wikipédia et de les lier à d'autres ensembles de données sur le Web.
 +
<!--
 +
En tant que base de connaissances, DBPedia bénéficie donc du gigantesque corpus de Wikipédia et
 +
décrit actuellement plus de 3,5 million de d’objets, dont 364 000 personnes, 462 000 lieux, 99 000
 +
albums de musique, 54 000 films, 17 000 jeux vidéo, 148 000 organisations, 169 000 espèces et 5 200
 +
maladies. Les données de DBPedia décrivent en outre ces 3,5 millions d’éléments dans 97 langues
 +
différentes et proposent 1 850 000 liens vers des images et 5 900 000 liens vers des pages Web
 +
externes. -->
 +
 +
== A quoi sert DBpedia ? ==
-
<!--La figure 1 est un agrandissement de la constellation des sources recensées sur le web de données
+
Les exemples d’application pullulent dans l’espace anglophone. Mentionnons à titre d’exemple les nouveaux
-
(Figure 2).-->
+
-
<!-- insertion de l'illustration -->
+
-
Les exemples d’application pullulent dans l’espace anglophone, aucune autre source de
+
-
données ne bénéficiant à l’heure actuelle d’une pareille centralité. Tout un pan de ces applications
+
-
concerne la culture, et la figure 1 montre des collections liées à DBPedia dans le domaine de la
+
-
musique, de la presse, des documentaires, etc. Mentionnons à titre d’exemple les nouveaux
+
mécanismes de navigation mis en place sur de nombreux sites, comme en témoigne notamment la
mécanismes de navigation mis en place sur de nombreux sites, comme en témoigne notamment la
plateforme consacrée aux documentaires animaliers de la BBC, qui exploite les données et catégories
plateforme consacrée aux documentaires animaliers de la BBC, qui exploite les données et catégories
Ligne 96 : Ligne 78 :
encore le « Museum Finland » dont l’intégration du catalogue à d’autres bases permet notamment la
encore le « Museum Finland » dont l’intégration du catalogue à d’autres bases permet notamment la
navigation en anglais dans une collection finlandaise...
navigation en anglais dans une collection finlandaise...
-
 
Des problématiques et exemples similaires existent tant pour les bibliothèques que les archives
Des problématiques et exemples similaires existent tant pour les bibliothèques que les archives
comme l’INA par exemple. Chaque lien créé entre les bases dégage un accès supplémentaire à la
comme l’INA par exemple. Chaque lien créé entre les bases dégage un accès supplémentaire à la
collection permettant aux utilisateurs et à leurs applications d’y entrer et d’en sortir selon autant de
collection permettant aux utilisateurs et à leurs applications d’y entrer et d’en sortir selon autant de
-
nouveaux parcours. La constellation de la Figure 2 témoigne non seulement de ce que DBPedia joue
+
nouveaux parcours.
-
un rôle pivot vis-à-vis de nombreuses autres bases mais aussi et surtout qu’au-delà, elle offre, en
+
-
définitive, une source de données utiles à une immense variété d’applications sur le Web, et ce quels
+
-
que soient les domaines.
+
Les utilisateurs de DBPedia incluent donc, entre autres, aussi bien les détenteurs d’autres jeux de
Les utilisateurs de DBPedia incluent donc, entre autres, aussi bien les détenteurs d’autres jeux de
Ligne 116 : Ligne 94 :
Dans sa version Française, Wikipédia compte très précisément (au moment où nous écrivons ces
Dans sa version Française, Wikipédia compte très précisément (au moment où nous écrivons ces
-
lignes) 1 114 361 articles traitant de culture2, géographie, histoire, sciences, divertissement, société
+
lignes) 1 210 130 articles traitant de culture, géographie, histoire, sciences, divertissement, société
ou technologie. Malheureusement, DBPedia, centré sur la version anglaise de Wikipédia, ignore par
ou technologie. Malheureusement, DBPedia, centré sur la version anglaise de Wikipédia, ignore par
conséquent les articles en français ne bénéficiant pas d’équivalents anglais et n’en expose donc pas
conséquent les articles en français ne bénéficiant pas d’équivalents anglais et n’en expose donc pas
les données.
les données.
 +
A ce jour, l’Allemagne, la Grèce et la Corée ont toutes trois mis en place des versions de DBPedia
 +
dans leurs langues nationales respectives. La version française est actuellement absente, ce qui
 +
retarde l’intégration de nombreuses collections françaises, comme francophones, au Web de données.
Ainsi, le célèbre quatuor « Les Frères Jacques » n’est pas identifié dans DBPedia car l’article décrivant
Ainsi, le célèbre quatuor « Les Frères Jacques » n’est pas identifié dans DBPedia car l’article décrivant
ces artistes est absent de la version anglaise. Ce défaut signifie que pour toutes les ressources
ces artistes est absent de la version anglaise. Ce défaut signifie que pour toutes les ressources
Ligne 131 : Ligne 112 :
données fondent leur déploiement et leur expansion sur cette base.
données fondent leur déploiement et leur expansion sur cette base.
-
 
+
<!--
== Pourquoi maintenant ? ==
== Pourquoi maintenant ? ==
-
 
-
A ce jour, l’Allemagne, la Grèce et la Corée ont toutes trois mis en place des versions de DBPedia
 
-
dans leurs langues nationales respectives. La version française est actuellement absente, ce qui
 
-
retarde l’intégration de nombreuses collections françaises, comme francophones, au Web de données.
 
Il faut aussi noter l’importance d’une gouvernance publique en première ligne sur ces questions pour  
Il faut aussi noter l’importance d’une gouvernance publique en première ligne sur ces questions pour  
éviter une prise de contrôle par des acteurs ne partageant pas le souci de l’accès ouvert aux données
éviter une prise de contrôle par des acteurs ne partageant pas le souci de l’accès ouvert aux données
relevant de l’utilité publique.  
relevant de l’utilité publique.  
-
 
+
-->
Enfin, en s’inscrivant dans un calendrier à court terme, l’initiative
Enfin, en s’inscrivant dans un calendrier à court terme, l’initiative
pourra bénéficier de la dynamique de Datalift, projet financé par l'Agence Nationale de la Recherche (ANR),  
pourra bénéficier de la dynamique de Datalift, projet financé par l'Agence Nationale de la Recherche (ANR),  

Version du 13 février 2012 à 17:41

Le projet DBpedia.fr a pour but de créer une version francophone de la base DBpedia qui est utilisée dans de nombreuses applications anglophones, notamment pour la publication de collections culturelles.

Qu’est-ce que DBpedia ?

Il s'agit d'un effort communautaire ayant pour but d’extraire des informations structurées des pages de Wikipédia afin de rendre ces données disponibles sur le Web.

En tant que base de connaissances, DBpedia a plusieurs avantages sur les bases existantes. Elle couvre de très nombreux domaines, capture un véritable consensus collectif qui évolue automatiquement en fonction des transformations de Wikipédia et peut ainsi suivre les nouvelles tendances, pierre d’achoppement de la plupart des référentiels et autres thésaurus peuplant les systèmes d’information traditionnels. Elle fournit dès lors un large référentiel vivant pour d’autres collections de ressources sur le Web et rend possible, entre autre et dans le désordre : leur identification, indexation, références croisées, intégration, interrogation structurée, et même certaines formes de raisonnement automatique utiles, par exemple, à la recherche d’information. DBPedia permet donc de répondre automatiquement à des requêtes structurées complexes sur les données de Wikipédia et de les lier à d'autres ensembles de données sur le Web.

A quoi sert DBpedia ?

Les exemples d’application pullulent dans l’espace anglophone. Mentionnons à titre d’exemple les nouveaux mécanismes de navigation mis en place sur de nombreux sites, comme en témoigne notamment la plateforme consacrée aux documentaires animaliers de la BBC, qui exploite les données et catégories de DBPedia afin de proposer une meilleure structuration de ses contenus et une navigation enrichie.

En s’appuyant sur DBPedia les institutions culturelles voient désormais s’offrir à elles la possibilité d’ouvrir tout ou partie de leur catalogue et de l’augmenter en même temps avec de nouveaux moyens d’accès. L’expérience “Picture Book Mashup” du Brooklyn Museum associe DBPedia au catalogue du musée pour créer un album interactif et structuré de la collection. De son côté, la collection complète du Musée d’Amsterdam1 est disponible sur le « Linked Open Data » (5 millions de triplets RDF décrivant plus de 70 000 objets du patrimoine culturel lié à la ville d'Amsterdam), fournissant des liens vers un thésaurus (AATNed), une liste d'artistes (ULAN), une base de lieux (Geonames) et les ressources de DBPedia pour en enrichir la structuration et l’exploitation. Citons encore le « Museum Finland » dont l’intégration du catalogue à d’autres bases permet notamment la navigation en anglais dans une collection finlandaise... Des problématiques et exemples similaires existent tant pour les bibliothèques que les archives comme l’INA par exemple. Chaque lien créé entre les bases dégage un accès supplémentaire à la collection permettant aux utilisateurs et à leurs applications d’y entrer et d’en sortir selon autant de nouveaux parcours.

Les utilisateurs de DBPedia incluent donc, entre autres, aussi bien les détenteurs d’autres jeux de données dont la valeur s’accroît dès lors qu’ils pointent vers DBPedia (principe fondateur du Web de données basé sur les externalités positives), que les entreprises dont les développeurs créent des applications consommant des informations destinées à leur permettre de répondre aux besoins de leurs utilisateurs, sans compter les gestionnaires de référentiels en tous genres (classifications bibliothéconomiques, thésauri, etc.), susceptibles d’y puiser de nouveaux descripteurs partagés, à l’échelle du Web.

Pourquoi un DBpedia Français ?

Dans sa version Française, Wikipédia compte très précisément (au moment où nous écrivons ces lignes) 1 210 130 articles traitant de culture, géographie, histoire, sciences, divertissement, société ou technologie. Malheureusement, DBPedia, centré sur la version anglaise de Wikipédia, ignore par conséquent les articles en français ne bénéficiant pas d’équivalents anglais et n’en expose donc pas les données.

A ce jour, l’Allemagne, la Grèce et la Corée ont toutes trois mis en place des versions de DBPedia dans leurs langues nationales respectives. La version française est actuellement absente, ce qui retarde l’intégration de nombreuses collections françaises, comme francophones, au Web de données. Ainsi, le célèbre quatuor « Les Frères Jacques » n’est pas identifié dans DBPedia car l’article décrivant ces artistes est absent de la version anglaise. Ce défaut signifie que pour toutes les ressources culturelles francophones dans le même cas, aucunes données n’existent dans DBPedia qui permettraient de les référencer, de les indexer, de les interroger, etc.

Partant, il est extrêmement important de garantir la pérennité d’un site qui publierait de telles données afin d’assurer la stabilité des liens qu’il autoriserait (dans tous les sens du terme) ; la stabilité constituant la condition sine qua non pour que d’autres applications et d’autres jeux de données fondent leur déploiement et leur expansion sur cette base.

Enfin, en s’inscrivant dans un calendrier à court terme, l’initiative pourra bénéficier de la dynamique de Datalift, projet financé par l'Agence Nationale de la Recherche (ANR), dont le but est de développer une plateforme de publication et d’interconnexion des jeux de données liés (Linked data) sur le Web (outre la publication de données gouvernementales, la spécificité de Data Lift étant la prise en compte des besoins des acteurs de la culture et de la recherche). Datalift propose ainsi un ensemble d'outils facilitant ce processus de publication. Un jeu de données extrait de Wikipédia.fr pourrait donc d’ores et déjà bénéficier de l’infrastructure de cette plateforme pour devenir DBPedia.fr