Outils personnels
User menu

Chargement des données dans Virtuoso

De Dbpedia.fr.

(Différences entre les versions)
(détail du chargement des données par rdfloader)
m (saut de ligne nécessaire dans la commande SQL)
Ligne 31 : Ligne 31 :
  <nowiki>SQL> load [chemin/vers/]rdfloader.sql;</nowiki>
  <nowiki>SQL> load [chemin/vers/]rdfloader.sql;</nowiki>
Si une erreur du type <nowiki>"Table DB.DBA.load_list already exists"</nowiki> ou <nowiki>"Duplicate index name ll_state"</nowiki>, effacez d'abord les tables <nowiki>DB.DBA.load_list</nowiki> et <nowiki>DB.DBA.ldlock</nowiki> :
Si une erreur du type <nowiki>"Table DB.DBA.load_list already exists"</nowiki> ou <nowiki>"Duplicate index name ll_state"</nowiki>, effacez d'abord les tables <nowiki>DB.DBA.load_list</nowiki> et <nowiki>DB.DBA.ldlock</nowiki> :
-
  <nowiki>SQL> drop table load_list; drop table ldlock;</nowiki>
+
  <nowiki>SQL> drop table load_list;
 +
drop table ldlock;</nowiki>
* Sélectionnez les fichiers à charger :
* Sélectionnez les fichiers à charger :
  <nowiki>SQL> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');</nowiki>
  <nowiki>SQL> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');</nowiki>

Version du 17 février 2012 à 18:08

Essais

methode 1

DB.DBA.TTLP_MT(file_to_string_output('[fichier .nt]'), , '[nom de graphe]', 255);

Machine RAM NumberOfBuffers MaxDirtyBuffers Temps de chargement max charge CPU (somme freq) max RAM utilisée
dbpedia.inria.fr, 2CPU 8 Go 2000 1200 2225054 msec - 37 min 2500 MHz 2600 Mo


methode 2

Avec la librairie rdfloader.sql voir tutoriel :

  • Copier le code donné sur cette page dans un fichier rdfloader.sql (à mettre dans un répertoire figurant dans l'entrée DirsAllowed du fichier virtuoso.ini).
  • Dans isql, tapper :
SQL> load [chemin/vers/]rdfloader.sql;

Si une erreur du type "Table DB.DBA.load_list already exists" ou "Duplicate index name ll_state", effacez d'abord les tables DB.DBA.load_list et DB.DBA.ldlock :

SQL> drop table load_list;
drop table ldlock;
  • Sélectionnez les fichiers à charger :
SQL> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');

Remarque: selon la documentation, rdfloader est capable de lire directement les données dans des fichiers compressés en gzip, il faut alors remplacer '*.nt' par '*.nt.gz'. Ca ne marche pas avec des fichiers compressés en bzip2.

  • Créer un fichier global.graph contenant :
http://fr.dbpedia.org
  • Lancer le chargement des données :
SQL> rdf_loader_run ();


Machine RAM NumberOfBuffers MaxDirtyBuffers Temps de chargement max charge CPU (somme freq) max RAM utilisée
dbpedia.inria.fr, 2CPU 8 Go 680000 500000 190516 msec - 3 min 2226 MHz 1426 Mo
dbpedia.inria.fr, 2CPU 8 Go 2000 1200 542730 msec - 9 min 3179 MHz 2226 Mo