Job offer: QWANT-INRIA Research Engineer / Post-doc job position

 
EN ----------------------------------------------------------
 
Title: QWANT-INRIA Research Engineer / Post-doc job position
 
Reference: QWANT-INRIA-PL
 
Context:
The ANSWER project is leaded by the QWANT search engine and the INRIA Sophia Antipolis Méditerranée research center. This proposal is the winner of the "Grand Challenges du Numérique" (BPI) and aims to develop the new version of the search engine www.qwant.com with radical innovations in terms of search criteria, indexed content and privacy of users. The scientific and technological challenges addressed by the project address several evolutions of the Web to adapt to them on the one hand (heterogeneity of data) and to anticipate them on the other hand (personalization and respect for privacy, increase in granularity and number of criteria for qualification of Web content). This job description describes one of the open positions within this project.
 
Description:
This position will be attached to Inria and covers both the project management for Inria over its entire duration (project leader for Inria) and the task of researching and developing crawling methods for linked data on the Web.
Indeed, the content of the Web has diversified enormously and not only in terms of multimedia content. Data is now injected inside the pages (RDFa, Microdata, OGP, microformats, etc.) or even published as Linked Open Data directly on the Web using its latest standards (RDF, SPARQL). However, very few crawlers exist to collect these data, although their extraction has been facilitated.
Concerning the technical task we plan the following steps:
A first step will be to carry out the study and comparison of crawling approaches respecting the principles of the linked data on the Web. The various techniques of parsing and collection of linked open data as well as the different possible formats will be taken into account both in terms of indexing and in terms of storage. This step includes the study and benchmarking of existing bricks (e.g. LDSpider, Any23).
A second step will be the proposal of an integrated and robust solution in order to make it available and usable for a mainstream search engine. In particular the design and prototyping of a crawler dedicated to this data.
A third step is the study of the indexing and storage of these data in order to allow a search engine to provide answers beyond a list of pages and to integrate these sources in their indexing and their calculations of relevance or as new types of responses and services provided by the engine.
The idea of the two previous steps is to design a processing chain directly integrated into the crawler, which would allow to only index the open data meeting certain criteria, in order to create a specific index (silo or vertical, to use the terms of the search engines).
The final objective is to prototype a new crawler to collect and index linked open data in its different formats (different RDF syntaxes, etc.). This crawling will: (1) Be robust to variations of publication formats; (2) Scaling up on-line data volumes; (3) Facilitate the integration of data within a single model (RDF); (4) Support integration with results, including the indexing or provision of datasets and APIs on these data.
 
Terms of the position
-    Duration: 36 months.
-    Hosting team: WIMMICS ( http://wimmics.inria.fr/ ) a joint research team (University Côte d’Azur, Inria, CNRS, I3S) in the fields of linked data, semantic Web, graph-oriented knowledge representation for Web-based epistemic communities.
-    Location: Sophia Tech Campus, Sophia Antipolis, France. 
-    Salary: 2600 euros/month (gross salary).
-    Applications : send by email a CV and a cover letter to Fabien.Gandon@inria.fr with the subject “Application QWANT-INRIA-PL”
-    Deadline for applications: November 13th, 2017.
 
 

 

 
FR ----------------------------------------------------------
 
Titre: Poste d’ingénieur de Recherche / Post-doc QWANT-INRIA 
 
Référence: QWANT-INRIA-PL
 
Contexte :
Le projet ANSWER est porté par le moteur de recherche QWANT et le centre de recherche INRIA Sophia Antipolis Méditerranée. Cette proposition est lauréate des Grands Défis du Numérique (BPI) et a pour objectif de développer la nouvelle version du moteur de recherche www.qwant.com en y apportant des innovations radicales tant au niveau des critères de recherche que des contenus indexés et de la vie privée des utilisateurs.  Les verrous technologiques adressés par le projet visent à permettre de suivre ces évolutions du Web d’une part (hétérogénéité des données) et à les anticiper d’autre part (personnalisation et respect de la vie privée ; augmentation de la granularité et du nombre de critères de qualification des contenus Web). Cette fiche décrit l’un des postes ouverts au sein de ce projet. 
 
Description :
Ce poste est rattaché à l’Inria et recouvre à la fois la responsabilité de suivi et d’animation de l’ensemble du projet sur toute sa durée (chef de projet pour Inria) et la tâche de recherche et de développement de méthodes de crawling (moissonnage) de données liées sur le Web.
En effet, le contenu du Web se diversifie énormément et pas uniquement en termes de contenus multimédias. Des données sont maintenant injectées dans les pages (RDFa, Microdata, OGP, microformats, etc.) ou même publiées sous forme de bases de données ouvertes liées (Linked Open Data) directement sur le Web et en reposant sur ses derniers standards (RDF, SPARQL). Cependant très peu de crawlers existent pour récolter ces données dont pourtant l’extraction a été facilitée.
Sur cette tâche technique nous prévoyons les étapes suivantes :
Une première étape sera d’effectuer l’étude et la comparaison des approches de crawling respectant les principes des données liées sur le Web. Les différentes techniques de parsing et de collecte de données ouvertes liées ainsi que les différents formats possibles seront pris en compte à la fois dans une optique d’indexation et de stockage. Cette étape inclut l’étude et le benchmarking de briques existantes (ex. LDSpider, Any23).
Une deuxième étape sera la proposition d’une solution intégrée et robuste dans l’optique de la rendre disponible et utilisable pour un moteur de recherche grand public. En particulier la conception et le prototypage d’un crawler dédié à ces données.
Une troisième étape est l’étude de l’indexation et du stockage de ces données pour permettre à un moteur de recherche de répondre au-delà d’une liste de pages et d’intégrer ces sources dans leur indexation et leurs calculs de pertinence ou comme nouveaux types de réponses et de services fournis. 
L’idée des deux étapes précédentes est de concevoir une chaîne de traitement directement intégrée au crawler, ce qui permettrait d’indexer uniquement les données ouvertes remplissant certains critères, en vue de créer un index spécifique (silo, ou verticale, dans le vocabulaire des moteurs de recherche).
L’objectif final est donc de prototyper un nouveau crawler permettant de collecter et indexer les données ouvertes liées dans leurs différents formats (différentes syntaxes RDF, etc.). Ce crawling devra : (1) Être robuste aux variations de formats de publications ; (2) Passer à l’échelle des volumes de données actuellement en ligne ; (3) Faciliter l’intégration des données au sein d’un modèle unique (RDF) ; (4) Supporter l’intégration aux résultats, notamment avec l’indexation ou la mise à disposition de datasets et d’API sur ces données.
 
Termes contractuels:
-    Durée: 36 mois
-    Equipe d’accueil: Wimmics ( http://wimmics.inria.fr/ ) équipe de recherche commune (Université Côte d’Azur, Inria, CNRS, I3S) dans le domaine des données liées, du Web de données du Web sémantique et de la représentation de connaissances à base de graphes
-    Localisation : Sophia Tech Campus, Sophia Antipolis, France
-    Salaire brut: 2600€ / mois 
-    Candidature: envoyer par mél un CV et une lettre à Fabien.Gandon@inria.fr avec le sujet “Application QWANT-INRIA-PL”
-    Date limite de candidature : 13 Novembre 2017