3. Outils d'interrogation de base de données

3.2. Query (SPARQL)

SPARQL (SPARQL Protocol and RDF Query Language) est un langage de requête sémantique de base de données, basé sur la technologie RDF. Trois projets Wikimedia peuvent être interrogés à l'aide de requêtes SPARQL :

Service Sigle Interface web  API
Wikidata Query Service WDQS query.wikidata.org https://query.wikidata.org/sparql.
Wikimedia Commons Query Service WCQS
commons-query.wikimedia.org https://commons-query.wikimedia.org/sparql
LinguaLibre Query Service LLQS lingualibre.org/bigdata/#query https://lingualibre.org/sparql


Requêtage de Wikidata


Il est possible d'interroger les données de Wikidata via l'endpoint SPARQL, le Wikidata Query Service propulsé par Blazegraph, de deux façons différentes :

Cas d'utilisation. Cet outil n'est pas adapté pour des recherches sur un très grand volume (par exemple comptabiliser le nombre d'hommes et de femmes dans Wikidata).

Supports de formation :
  • Un support de formation pour découvrir le langage SPARQL. La dernière version est téléchargeable sur Zenodo.
  • Un aide mémoire pour maîtriser les requêtes SPARQL. Il présente quelques paramètres spécifiques au duo Wikidata-Blazegraph mais pourra être utile pour d'autres points de terminaison SPARQL. Le cheatsheet a été pensé pour différents niveau de maîtrise du langage de requêtes SPARQL. Une signalétique indique trois niveaux de difficulté (facile, intermédiaire, difficile). La dernière version est téléchargeable sur Zenodo.

Politiques et recommandations. Afin de ne pas surcharger le serveur, il y a un temps d’exécution limité, empêchant certaines requêtes de s’exécuter, comme compter les êtres humains dans Wikidata. Il faut veiller à ne pas utiliser trop de ressources des serveurs Wikimedia. Voici les règles et recommandations :
  • Les politiques relatives aux robots et aux agents utilisateurs s'appliquent.
  • Si votre requête n'aboutit pas, demandez l'aide de la communauté pour l'optimiser (il y a une limite de 60 secodes pour le temps d'exécution de la requête).
  • Si vous obtenez une réponse 429 Too Many Requests, faites une pause.
  • Ajoutez ?timeout=5 (= 5 secondes) pour que la requête se termine plus tôt. Utile dans les cas où une réponse rapide est nécessaire, et où une réponse tardive ne serait de toute façon pas utilisable.
Autres endpoint SPARQL. Il existe d'autres points de terminaison permettant de faire des requêtes SPARQL sur Wikidata. Par exemple, QLever de l'université de Fribourg-en-Brisgau ou Virtuoso de la société OpenLink Software.

Requêtes fédérées. Si les données qui vous intéressent ne se trouvent pas dans Wikidata, il est possible de faire des requêtes fédérées en interrogeant Wikidata et une base de données externes. Les points d’accès pris en charge sont listés sur cette page.
 
Voici un exemple de croisement de données entre celles de Wikidata et celles de MiMoTextBase.


Requêtage de Wikimedia Commons

La sémantisation des 100 millions de fichiers de la médiathèque Wikimedia Commons est débutée. Wikibase, le logiciel de Wikidata, y a été installé afin de proposer les métadonnées de Wikimedia Commons sous la forme de données structurées.
 
Wikimedia Commons présente ainsi le projet : Les données structurées de Wikimedia Commons sont des informations multilingues à propos des fichiers multimédia qui peuvent être comprises par des personnes, et qui sont suffisamment cohérentes pour pouvoir être également traitées de manière uniforme par des programmes informatiques. Les fichiers de Wikimedia Commons peuvent être décrits avec des concepts multilingues issus de la base de connaissance Wikidata.
 
Comme pour Wikidata, un point d'accès SPARQL est proposé afin d'exécuter des requêtes sur le contenu de la médiathèque. Contrairement à Wikidata, il faut un compte Wikimedia pour utiliser le service de requêtes de Wikimedia Commons.