Chargement des données dans Virtuoso
De Dbpedia.fr.
(Différences entre les versions)
(détail du chargement des données par rdfloader) |
m (saut de ligne nécessaire dans la commande SQL) |
||
Ligne 31 : | Ligne 31 : | ||
<nowiki>SQL> load [chemin/vers/]rdfloader.sql;</nowiki> | <nowiki>SQL> load [chemin/vers/]rdfloader.sql;</nowiki> | ||
Si une erreur du type <nowiki>"Table DB.DBA.load_list already exists"</nowiki> ou <nowiki>"Duplicate index name ll_state"</nowiki>, effacez d'abord les tables <nowiki>DB.DBA.load_list</nowiki> et <nowiki>DB.DBA.ldlock</nowiki> : | Si une erreur du type <nowiki>"Table DB.DBA.load_list already exists"</nowiki> ou <nowiki>"Duplicate index name ll_state"</nowiki>, effacez d'abord les tables <nowiki>DB.DBA.load_list</nowiki> et <nowiki>DB.DBA.ldlock</nowiki> : | ||
- | <nowiki>SQL> drop table load_list; drop table ldlock;</nowiki> | + | <nowiki>SQL> drop table load_list; |
+ | drop table ldlock;</nowiki> | ||
* Sélectionnez les fichiers à charger : | * Sélectionnez les fichiers à charger : | ||
<nowiki>SQL> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');</nowiki> | <nowiki>SQL> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');</nowiki> |
Version du 17 février 2012 à 18:08
Essais
methode 1
DB.DBA.TTLP_MT(file_to_string_output('[fichier .nt]'), , '[nom de graphe]', 255);
Machine | RAM | NumberOfBuffers | MaxDirtyBuffers | Temps de chargement | max charge CPU (somme freq) | max RAM utilisée |
dbpedia.inria.fr, 2CPU | 8 Go | 2000 | 1200 | 2225054 msec - 37 min | 2500 MHz | 2600 Mo |
methode 2
Avec la librairie rdfloader.sql voir tutoriel :
- Copier le code donné sur cette page dans un fichier rdfloader.sql (à mettre dans un répertoire figurant dans l'entrée DirsAllowed du fichier virtuoso.ini).
- Dans isql, tapper :
SQL> load [chemin/vers/]rdfloader.sql;
Si une erreur du type "Table DB.DBA.load_list already exists" ou "Duplicate index name ll_state", effacez d'abord les tables DB.DBA.load_list et DB.DBA.ldlock :
SQL> drop table load_list; drop table ldlock;
- Sélectionnez les fichiers à charger :
SQL> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');
Remarque: selon la documentation, rdfloader est capable de lire directement les données dans des fichiers compressés en gzip, il faut alors remplacer '*.nt' par '*.nt.gz'. Ca ne marche pas avec des fichiers compressés en bzip2.
- Créer un fichier global.graph contenant :
http://fr.dbpedia.org
- Lancer le chargement des données :
SQL> rdf_loader_run ();
Machine | RAM | NumberOfBuffers | MaxDirtyBuffers | Temps de chargement | max charge CPU (somme freq) | max RAM utilisée |
dbpedia.inria.fr, 2CPU | 8 Go | 680000 | 500000 | 190516 msec - 3 min | 2226 MHz | 1426 Mo |
dbpedia.inria.fr, 2CPU | 8 Go | 2000 | 1200 | 542730 msec - 9 min | 3179 MHz | 2226 Mo |