Outils personnels
User menu

Chargement des données dans Virtuoso

De Dbpedia.fr.

(Différences entre les versions)
(correction d'un lien)
m (Charger les données : rappel lancement isql)
 
(7 versions intermédiaires masquées)
Ligne 1 : Ligne 1 :
-
== Configuration ==
+
== Supprimer les données à remplacer ==
-
* configuration du fichier /etc/odbc.ini :
+
Lors de la suppression d'un volume de données important, Virtuoso peut bloquer voir [http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VirtTipsAndTricksGuideDeleteLargeGraphs la documentation de Virtuoso]. Pour éviter cela, changer le niveau de logs :
-
  <nowiki>[Local Virtuoso]
+
  <nowiki>$ isql-v
-
Driver=/usr/lib64/virtodbc_r.so
+
> log_enable(3,1);</nowiki>
-
Address=127.0.0.1
+
-
Port=1111
+
-
UID=dba</nowiki>
+
-
* configuration du fichier virtuoso.ini (/var/lib/virtuoso/db/virtuoso.ini) :
+
La suppression des données d'un graphe se fait par la commande :
-
suivant les conseils des commentaires : valeurs conseillées pour les paramètres NumberOfBuffers et MaxDirtyBuffers pour 8Go de memoire vive :
+
  <nowiki>$ isql-v
-
  <nowiki>
+
> SPARQL CLEAR GRAPH  <graph-name>;</nowiki>
-
NumberOfBuffers=680000
+
-
MaxDirtyBuffers=500000</nowiki>
+
-
== Essais ==
 
-
=== methode 1 ===
 
-
DB.DBA.TTLP_MT(file_to_string_output('[fichier .nt]'), '', '[nom de graphe]', 255);
+
== Charger les données ==
-
+
-
{|cellpadding="10" cellspacing="0" border="1"
+
-
|'''Machine'''
+
-
|'''RAM'''
+
-
|'''NumberOfBuffers'''
+
-
|'''MaxDirtyBuffers'''
+
-
|'''Temps de chargement'''
+
-
|'''max charge CPU (somme freq)'''
+
-
|'''max RAM utilisée'''
+
-
|-
+
-
|dbpedia.inria.fr, 2CPU
+
-
|8 Go
+
-
|2000
+
-
|1200
+
-
|2225054 msec - 37 min
+
-
|2500 MHz
+
-
|2600 Mo
+
-
|}
+
 +
La fonction rdfloader est préinstallée depuis la version 6.1.5 de Virtuoso. Pour les verions précédentes, importer le sql donné dans ce [http://virtuoso.openlinksw.com/dataspace/dav/wiki/Main/VirtBulkRDFLoaderExampleDbpedia tutoriel]).
-
=== methode 2 ===
+
* Sélectionnez les fichiers à charger :
 +
<nowiki>$ isql-v
 +
> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');</nowiki>
 +
Remarque: selon la documentation, rdfloader est capable de lire directement les données dans des fichiers compressés en gzip, il faut alors remplacer <nowiki>'*.nt'</nowiki> par <nowiki>'*.nt.gz'</nowiki>.
 +
Ca ne marche pas avec des fichiers compressés en bzip2.
-
Avec la librairie rdfloader.sql voir [http://virtuoso.openlinksw.com/dataspace/dav/wiki/Main/VirtBulkRDFLoaderExampleDbpedia tutoriel]
+
Il faut aussi que le ''[répertoire des fichiers à charger]'' soit listé dans l'attribut '''DirsAllowed''' du fichier de configuration '''virtuoso.ini''', sinon un message d'erreur
-
+
* Lancer le chargement des données :
-
{|cellpadding="10" cellspacing="0" border="1"
+
<nowiki>> rdf_loader_run ();</nowiki>
-
|'''Machine'''
+
-
|'''RAM'''
+
-
|'''NumberOfBuffers'''
+
-
|'''MaxDirtyBuffers'''
+
-
|'''Temps de chargement'''
+
-
|'''max charge CPU (somme freq)'''
+
-
|'''max RAM utilisée'''
+
-
|-
+
-
|dbpedia.inria.fr, 2CPU
+
-
|8 Go
+
-
|680000
+
-
|500000
+
-
|190516 msec - 3 min
+
-
|2226 MHz
+
-
|1426 Mo
+
-
|}
+

Version actuelle en date du 4 septembre 2013 à 22:50

Supprimer les données à remplacer

Lors de la suppression d'un volume de données important, Virtuoso peut bloquer voir la documentation de Virtuoso. Pour éviter cela, changer le niveau de logs :

$ isql-v
> log_enable(3,1);

La suppression des données d'un graphe se fait par la commande :

$ isql-v
> SPARQL CLEAR GRAPH  <graph-name>;


Charger les données

La fonction rdfloader est préinstallée depuis la version 6.1.5 de Virtuoso. Pour les verions précédentes, importer le sql donné dans ce tutoriel).

  • Sélectionnez les fichiers à charger :
$ isql-v
> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');

Remarque: selon la documentation, rdfloader est capable de lire directement les données dans des fichiers compressés en gzip, il faut alors remplacer '*.nt' par '*.nt.gz'. Ca ne marche pas avec des fichiers compressés en bzip2.

Il faut aussi que le [répertoire des fichiers à charger] soit listé dans l'attribut DirsAllowed du fichier de configuration virtuoso.ini, sinon un message d'erreur

  • Lancer le chargement des données :
> rdf_loader_run ();
  • Dernière modification de cette page le 4 septembre 2013 à 22:50.
  • Cette page a été consultée 4 179 fois.