Chargement des données dans Virtuoso
De Dbpedia.fr.
(Différences entre les versions)
(partie configuration déplacée vers une nouvelle page) |
(détail du chargement des données par rdfloader) |
||
Ligne 1 : | Ligne 1 : | ||
- | |||
== Essais == | == Essais == | ||
Ligne 27 : | Ligne 26 : | ||
=== methode 2 === | === methode 2 === | ||
- | Avec la librairie rdfloader.sql voir [http://virtuoso.openlinksw.com/dataspace/dav/wiki/Main/VirtBulkRDFLoaderExampleDbpedia tutoriel] | + | Avec la librairie rdfloader.sql voir [http://virtuoso.openlinksw.com/dataspace/dav/wiki/Main/VirtBulkRDFLoaderExampleDbpedia tutoriel] : |
+ | * Copier le code donné sur cette [http://virtuoso.openlinksw.com/dataspace/dav/wiki/Main/VirtBulkRDFLoaderScript#Bulk%20Loader%20Procedures%20and%20Sub-procedures page] dans un fichier '''rdfloader.sql''' (à mettre dans un répertoire figurant dans l'entrée '''DirsAllowed''' du fichier '''virtuoso.ini'''). | ||
+ | * Dans isql, tapper : | ||
+ | <nowiki>SQL> load [chemin/vers/]rdfloader.sql;</nowiki> | ||
+ | Si une erreur du type <nowiki>"Table DB.DBA.load_list already exists"</nowiki> ou <nowiki>"Duplicate index name ll_state"</nowiki>, effacez d'abord les tables <nowiki>DB.DBA.load_list</nowiki> et <nowiki>DB.DBA.ldlock</nowiki> : | ||
+ | <nowiki>SQL> drop table load_list; drop table ldlock;</nowiki> | ||
+ | * Sélectionnez les fichiers à charger : | ||
+ | <nowiki>SQL> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');</nowiki> | ||
+ | Remarque: selon la documentation, rdfloader est capable de lire directement les données dans des fichiers compressés en gzip, il faut alors remplacer <nowiki>'*.nt'</nowiki> par <nowiki>'*.nt.gz'</nowiki>. | ||
+ | Ca ne marche pas avec des fichiers compressés en bzip2. | ||
+ | * Créer un fichier '''global.graph''' contenant : | ||
+ | <nowiki>http://fr.dbpedia.org</nowiki> | ||
+ | * Lancer le chargement des données : | ||
+ | <nowiki>SQL> rdf_loader_run ();</nowiki> | ||
+ | |||
{|cellpadding="10" cellspacing="0" border="1" | {|cellpadding="10" cellspacing="0" border="1" |
Version du 17 février 2012 à 17:56
Essais
methode 1
DB.DBA.TTLP_MT(file_to_string_output('[fichier .nt]'), , '[nom de graphe]', 255);
Machine | RAM | NumberOfBuffers | MaxDirtyBuffers | Temps de chargement | max charge CPU (somme freq) | max RAM utilisée |
dbpedia.inria.fr, 2CPU | 8 Go | 2000 | 1200 | 2225054 msec - 37 min | 2500 MHz | 2600 Mo |
methode 2
Avec la librairie rdfloader.sql voir tutoriel :
- Copier le code donné sur cette page dans un fichier rdfloader.sql (à mettre dans un répertoire figurant dans l'entrée DirsAllowed du fichier virtuoso.ini).
- Dans isql, tapper :
SQL> load [chemin/vers/]rdfloader.sql;
Si une erreur du type "Table DB.DBA.load_list already exists" ou "Duplicate index name ll_state", effacez d'abord les tables DB.DBA.load_list et DB.DBA.ldlock :
SQL> drop table load_list; drop table ldlock;
- Sélectionnez les fichiers à charger :
SQL> ld_dir ('[répertoire des fichiers à charger]', '*.nt', 'http://fr.dbpedia.org');
Remarque: selon la documentation, rdfloader est capable de lire directement les données dans des fichiers compressés en gzip, il faut alors remplacer '*.nt' par '*.nt.gz'. Ca ne marche pas avec des fichiers compressés en bzip2.
- Créer un fichier global.graph contenant :
http://fr.dbpedia.org
- Lancer le chargement des données :
SQL> rdf_loader_run ();
Machine | RAM | NumberOfBuffers | MaxDirtyBuffers | Temps de chargement | max charge CPU (somme freq) | max RAM utilisée |
dbpedia.inria.fr, 2CPU | 8 Go | 680000 | 500000 | 190516 msec - 3 min | 2226 MHz | 1426 Mo |
dbpedia.inria.fr, 2CPU | 8 Go | 2000 | 1200 | 542730 msec - 9 min | 3179 MHz | 2226 Mo |