Présentation d'outils d'extraction de données

Site: Callisto Formation
Cours: Corpus et données : comment utiliser les données ouvertes de Wikimedia
Livre: Présentation d'outils d'extraction de données
Imprimé par: Visiteur anonyme
Date: mercredi 2 avril 2025, 16:26

1. Introduction

Des API aux requêtes SQL et SPARQL en passant par des bibliothèques R et Python, les techniques ne manquent pas pour consulter, traiter et récupérer les données des wikis de Wikimedia Foundation. Dans ce chapitre, nous passerons en revue quelques techniques basiques, avant de présenter les outils pour effectuer des requêtes SQL et SPARQL, plusieurs API, et enfin quelques ressources pour Python et R.


Outils par niveau de compétence informatique
Représentation graphique des outils par niveau de compétence informatique

2. Techniques basiques

Dans la suite de ce chapitre, nous présentons quelques méthodes basiques d'extraction de contenu.

2.1. Copier-coller

La façon la plus simple de récupérer le contenu est le bon vieux copier-coller. Wikipedia regorge de tableau de données. Cette technique rudimentaire peut aider à récupérer rapidement les données.

Exemples






2.2. Moteur de recherche

Le moteur de recherche des wikis de Wikimedia Foundation est Elasticsearch via une extension MediaWiki appelée CirrusSearch. Il cherche par défaut dans le texte visible lors de la lecture de l'article, et non dans le wikicode interne des pages (le langage permettant d'écrire les pages de l'encyclopédie).

Pour effectuer une recherche, saisissez le terme recherché dans la boîte de recherche située en haut. Une complétion automatique vous indique quels articles existent. Cliquez sur le terme voulu, le moteur de recherche vous y emmène directement. S'il existe une page portant ce nom exact, vous arrivez directement dessus en cliquant sur « Entrée ». Pour forcer le lancement d'une recherche dans ce contexte, sélectionnez la dernière entrée du menu déroulant, après la liste de suggestions (« Recherche les pages contenant »).

Le recours au moteur de recherche est conseillé lorsqu'il faut chercher une chaîne de caractères ou lorsqu'il faut retrouver un élément Wikidata sans connaître son identifiant. Par contre, pour des recherches complexes, cet outil n'est pas forcément adapté.

Copie d'écran des résultats pour la recherche « wiki »
Recherche par défaut
Copie d'écran de la recherche avancée
Recherche avancée
Disponible sur chaque page d'un wiki, le moteur de recherche est également disponible via URL. Exemples :

Voici un mode d'emploi tiré de la documentation de Wikipédia et de la documentation de MediaWiki. Par défaut, une recherche trouve les pages comprenant tous les mots cherchés. Pour effectuer une recherche plus précise, des opérateurs et des filtres peuvent être utilisés :

Fonctionnalités de base
Symbole
Description
Exemple Explication

Recherche par défaut économie développement
Pages contenant à la fois « économie » et « développement »
"..." Expression exacte "économie du développement" 
Pages contenant l'expression « économie du développement »
OR Obtenir la liste des pages où un des deux termes est présent, ainsi que les pages où les deux termes sont présents travail OR enfants Pages contenant « travail », celles contenant « enfants », et celles contenant les deux termes
- Ignorer un mot
économie -France Pages contenant « économie » mais ne contenant pas « France »
* Remplacer une chaine quelconque, au début ou à la fin d'un mot économi* Renvoie tous les mots commençant par « économi », et *économique ceux finissant par « économique »
~ Recherche approchée
économi~ Renvoie aussi bien « économie » que « économique » ou « économiste »

Fonctionnalités avancées
Filtre
Description
Exemple Explication
intitle Recherche dans le titre intitle:"économie française"
Pages dont le titre contient l'expression exacte « économie française ».
    intitle:économie intitle:française Pages dont le titre contient le terme « économie », et ne contient pas le terme « française ».
    intitle:économie* Pages dont le titre contient un mot commençant par « économie ».
    intitle:/économi[es]\w/ Pages dont tout ou partie du titre correspond au motif de l'expression régulière « /économie[es]\w/ ».
prefix Recherche un mot seulement dans les pages dont le titre commence par le terme souhaité
France prefix:"économi"
Recherche le terme « France » dans les pages débutant par « économi »
insource Recherche dans le wikicode insource:"|date=2023"
Recherche le texte exact indiqué, espaces et caractères spéciaux compris, sensible à la casse.
incategory Recherche dans catégorie
microéconomie incategory:"économie" Recherche le terme dans les pages de la catégorie
deepcategory Recherche dans une catégorie et sous-catégories
microéconomie deepcategory:"économie"

filetype:video deepcategory:"MédiHAL"
Recherche le terme ou des vidéos dans les pages de la catégorie et ses sous-catégories
articletopic Recherche par sujet articletopic:books

"économie" articletopic:biography
Sujet obtenu par apprentissage automatique
neartitle
nearcoord
Recherche géographique neartitle:"Paris"
neartitle:"1km,Nice"
nearcoord:23.70,90.37


  • Via l'interface graphique, il est possible d'afficher jusqu'à 500 résultats max par page.
  • L'URL peut être modifiée pour afficher 5000 résultats max par page (limit=5000).
  • Il n'est pas possible de consulter les résultats au delà du 9999e (offset=10000).

Fonctionnalités spécifiques à Wikidata

La recherche dans Wikidata bénéficie de filtres spécifiques présentés ci-dessous :

Filtre
Description
Exemple Explication
 haswbstatement

Renvoie les éléments qui ont une valeur spécifique dans l'instruction avec une propriété spécifique. La recherche est insensible à la casse.

haswbstatement:P31=Q5 Éléments avec la valeur être humain (Q5) dans la propriété nature de l'élément (P31)


chat haswbstatement:P31=Q3305213 Éléments comprenant chat en libellé et peinture (Q3305213) dans la propriété nature de l'élément (P31)
inlabel Rechercher des éléments par libellé inlabel:duck@en,fr,it Éléments Wikidata dont le libellé en anglais, français et italien est duck
wbstatementquantity Rechercher des éléments auxquels sont associés des déclarations tout en spécifiant les quantités
wbstatementquantity:P999=Q888>5|P999=Q888<8
wbstatementquantity:P999=Q888>5 wbstatementquantity:P999=Q888<8
 
hasdescription Rechercher des éléments dont la description est rédigée dans la langue spécifiée

hasdescription:en
hasdescription:de

Éléments avec des descriptions en anglais ET en allemand
    hasdescription:it,hu Éléments avec une description en italien OU en hongrois
    hasdescription:es
-hasdescription:fr
Éléments avec une description en espagnol et sans description en français
haslabel Similaire à hasdescription, mais pour les libellés

 

Fonctionnalités spécifiques à Wikimedia Commons
La médiathèque Wikimedia Commons possède deux moteurs de recherche : le classique qui se trouve dans chaque wiki et un moteur de recherche présentant les résultats sous forme visuelle. Il est possible de basculer de l'un à l'autre via un lien situé en haut à droite.


2.3. Export XML

Documentation Documentation avancée Outil


Il est relativement simple de récupérer un petit nombre de pages et d’historiques au format XML. Le nombre de versions de l’historique ou de pages à extraire est limité à 1000. Au-delà il faut utiliser l'API ou les dumps de données. La structure d'un fichier en XML est décrite dans la section 4.1 Wikipedia du chapitre 2. Données. Exemples d'utilisation : Extraction d'articles biographies de la Wikipédia en chinois dans le cadre du projet "Elites, networks, and power in modern urban China (1830-1949). Historical “big data” in modern Chinese history".

Il existe plusieurs façons d'exporter des pages en XML :

Méthode n°1 : via l'interface graphique accessible en tapant Special:Export dans le moteur de recherche de n'importe quel wiki de Wikimedia Foundation (les différents résultats proposés par le moteur de recherche renvoient vers la même page spéciale qui nous intéresse).
Exemple de recherche

L'interface graphique propose plusieurs options :
  • Ajouter manuellement des pages ou automatiquement via une catégorie,
  • Exporter la dernière version de la page ou toutes les révisions successives,
  • Inclure ou non les modèles,
  • Afficher le résultat dans le navigateur ou enregistrer le résultat dans un fichier XML.

Interface de l'outil d'export des pages en XML montrant l'ajout de la liste des articles dans une catégorie.


Méthode n°2 : via l'URL, ce qui permet d'utiliser des fonctionnalités avancées non disponibles via l'interface graphique. Voici les paramètres disponibles :
Paramètre Description Exemple
/ Exporter une seule page /chat
pages Exporter plusieurs pages (35 max) pages=chien%0Achat
addcat Exporter le contenu des pages d'une catégorie. S'utilise avec le paramètre catname

catname
Spécifier le nom de la catégorie. S'utilise avec le paramètre addcat
addcat&catname=économiste
addns Spécifier l'espace de nom. S'utilise avec le paramètre nsindex

nsindex Numéro d'espace de nom. S'utilise avec le paramètre addns addns&nsindex=12
dir Du plus ancien au plus récent par défaut ou ordre chronologique (desc). Ne fonctionne qu'avec une requête POST dir=desc
offset Date de départ pour récupérer les versions. Ne fonctionne qu'avec une requête POST offset=2010-01-01T20:25:56Z
limit Nombre de versions à récupérer. Ne fonctionne qu'avec une requête POST
limit=5
history Exporter l'ensemble des versions (1000 max) history=1
templates Inclure les modèles templates=1
wpDownload Sauvegarder le résultat dans un fichier wpDownload=1

Exemples :

Méthode n°3
: certaines commandes ne fonctionnent qu'avec une requête POST (une URL via le navigateur correspond à une requête GET). Voici quelques exemples à exécuter dans la console à l'aide de cURL. Sous Windows, cliquez sur l’icône Démarrer, puis cherchez invite de commande. Dans la fenêtre noire qui s'ouvre tapez l'une de ces commandes :
  • curl -data "https://fr.wikipedia.org/wiki/Special:Export?pages=Tushungpeng&history=1&action=submit" : exporter toutes les versions de l'article Tushungpeng,
  • curl -data "https://fr.wikipedia.org/wiki/Special:Export?pages=Tushungpeng&limit=5&action=submit" : exporter les cinq premières versions de l'article Tushungpeng,
  • curl -data "https://fr.wikipedia.org/wiki/Special:Export?pages=Tushungpeng&offset=2020-01-01T00:00:00Z&limit=2&action=submit" : exporter les deux versions de l'article Tushungpeng postérieures au 1er janvier 2020.

Invite de commande Windows.

Ces commandes peuvent également être saisies dans l'interprétateur de commandes Bash accessible via PAWS, le Jupyter Notebook de Wikimedia. PAWS est présenté dans la section 5.3.

Interface Bash dans PAWS

2.4. PetScan

PetScan (petscan.wmflabs.org) est un puissant outil de requêtage ne nécessitant pas de connaître de langage de programmation du type SQL ou SPARQL. Il peut générer des listes d’articles Wikipédia ou d'éléments Wikidata qui correspondent à certains critères, tels que toutes les pages dans une catégorie donnée, ou tous les éléments avec une propriété donnée. 

Cas d'utilisation

Véritable couteau suisse dont l'interface très chargée peut sembler déroutante au départ, PetScan s'avère très pratique pour les personnes ne voulant pas utiliser d'outils plus évolués nécessitant de savoir programmer. Pour des besoins importants en données, il faut avoir recours aux requêtes SQL et aux API.


Exemples

Voici quelques possibilités permises par l'outil :


Mode d'emploi


3. Outils d'interrogation de base de données

Il est possible de faire des requêtes SQL sur le contenu des wikis de Wikimedia Foundation et des requêtes SPARQL sur le contenu de Wikidata, Wikimedia Commons et Lingua Libre.

3.1. Quarry (SQL)

Documentation Outil
 
 

Quarry (quarry.wmcloud.org) est un outil de Wikimedia Foundation permettant d'exécuter des requêtes SQL sur des répliques des wikis. Le SQL (Structured Query Language) est un langage informatique permettant de communiquer avec une base de données. La réplication des données est généralement instantanée. Il est également possible d'accéder aux Wiki Replicas via Toolforge et Cloud VPS.

Pour ne pas surcharger le serveur, Quarry est doté d'un temps d’exécution limité, empêchant certaines requêtes de s’exécuter. Cela touche particulièrement les gros wikis, comme la Wikipédia francophone ou Wikidata. Cet outil demeure difficile à utiliser sans connaître le langage SQL, mais la possibilité de visualiser les requêtes des autres utilisateurs simplifie un peu l’outil. Il est également possible de demander de l'aide sur la Wikipédia anglophone pour rédiger une requête : Wikipedia:QUARRY.


Exemples

Il est possible de faire des requêtes SQL pour analyser les contributions et répondre à ce genre d’interrogations :

 
Mode d'emploi

3.2. Query (SPARQL)

SPARQL (SPARQL Protocol and RDF Query Language) est un langage de requête sémantique de base de données, basé sur la technologie RDF. Trois projets Wikimedia peuvent être interrogés à l'aide de requêtes SPARQL :

Service Sigle Interface web  API
Wikidata Query Service WDQS query.wikidata.org https://query.wikidata.org/sparql.
Wikimedia Commons Query Service WCQS
commons-query.wikimedia.org https://commons-query.wikimedia.org/sparql
LinguaLibre Query Service LLQS lingualibre.org/bigdata/#query https://lingualibre.org/sparql


Requêtage de Wikidata


Il est possible d'interroger les données de Wikidata via l'endpoint SPARQL, le Wikidata Query Service propulsé par Blazegraph, de deux façons différentes :

Cas d'utilisation. Cet outil n'est pas adapté pour des recherches sur un très grand volume (par exemple comptabiliser le nombre d'hommes et de femmes dans Wikidata).

Supports de formation :
  • Un support de formation pour découvrir le langage SPARQL. La dernière version est téléchargeable sur Zenodo.
  • Un aide mémoire pour maîtriser les requêtes SPARQL. Il présente quelques paramètres spécifiques au duo Wikidata-Blazegraph mais pourra être utile pour d'autres points de terminaison SPARQL. Le cheatsheet a été pensé pour différents niveau de maîtrise du langage de requêtes SPARQL. Une signalétique indique trois niveaux de difficulté (facile, intermédiaire, difficile). La dernière version est téléchargeable sur Zenodo.

Politiques et recommandations. Afin de ne pas surcharger le serveur, il y a un temps d’exécution limité, empêchant certaines requêtes de s’exécuter, comme compter les êtres humains dans Wikidata. Il faut veiller à ne pas utiliser trop de ressources des serveurs Wikimedia. Voici les règles et recommandations :
  • Les politiques relatives aux robots et aux agents utilisateurs s'appliquent.
  • Si votre requête n'aboutit pas, demandez l'aide de la communauté pour l'optimiser (il y a une limite de 60 secodes pour le temps d'exécution de la requête).
  • Si vous obtenez une réponse 429 Too Many Requests, faites une pause.
  • Ajoutez ?timeout=5 (= 5 secondes) pour que la requête se termine plus tôt. Utile dans les cas où une réponse rapide est nécessaire, et où une réponse tardive ne serait de toute façon pas utilisable.
Autres endpoint SPARQL. Il existe d'autres points de terminaison permettant de faire des requêtes SPARQL sur Wikidata. Par exemple, QLever de l'université de Fribourg-en-Brisgau ou Virtuoso de la société OpenLink Software.

Requêtes fédérées. Si les données qui vous intéressent ne se trouvent pas dans Wikidata, il est possible de faire des requêtes fédérées en interrogeant Wikidata et une base de données externes. Les points d’accès pris en charge sont listés sur cette page.
 
Voici un exemple de croisement de données entre celles de Wikidata et celles de MiMoTextBase.


Requêtage de Wikimedia Commons

La sémantisation des 100 millions de fichiers de la médiathèque Wikimedia Commons est débutée. Wikibase, le logiciel de Wikidata, y a été installé afin de proposer les métadonnées de Wikimedia Commons sous la forme de données structurées.
 
Wikimedia Commons présente ainsi le projet : Les données structurées de Wikimedia Commons sont des informations multilingues à propos des fichiers multimédia qui peuvent être comprises par des personnes, et qui sont suffisamment cohérentes pour pouvoir être également traitées de manière uniforme par des programmes informatiques. Les fichiers de Wikimedia Commons peuvent être décrits avec des concepts multilingues issus de la base de connaissance Wikidata.
 
Comme pour Wikidata, un point d'accès SPARQL est proposé afin d'exécuter des requêtes sur le contenu de la médiathèque. Contrairement à Wikidata, il faut un compte Wikimedia pour utiliser le service de requêtes de Wikimedia Commons.

4. API

Qu'est-ce qu'une API ?

Une API, — ou Application Programming Interface — est « un ensemble de fonctions informatiques par lesquelles deux logiciels interagissent sans intermédiation humaine » (Rémi Mercier). Par exemple, « l’utilisateur effectue une requête sous la forme d’une requête HTTP, le service web met en forme les données correspondant à la requête et les renvoie à l’utilisateur, dans un format défini à l’avance » (Romain Tavenard).

Il est possible d'intégrer l'API à un programme en R, Python, Javascript, etc.

L’API publique de Wikipedia est une API RESTful, c’est à dire qu’elle respecte les normes imposées par le standard d’API REST.
Représentation schématique du fonctionnement d'une API

Mode d'emploi

Voici une première requête API, la plus simple possible : 

https://fr.wikipedia.org/w/api.php?action=query&titles=Perruche
  • https://fr.wikipedia.org/w/api.php est l’endpoint de l’API REST, c’est-à-dire l’URL à laquelle envoyer les appels. Tous les wikis de Wikimedia Foundation disposent d'une API accessible via une URL de ce type, par exemple :
  • ? : le premier paramètre est précédé d'un séparateur point d'interrogation.
  • action=query : premier paramètre de cet appel qui se compose du paramètre action et de sa valeur query, qui signifient de récupérer le contenu d’un article Wikipedia.
  • titles=Perruche : le paramètre titles définit le titre de l'article Wikipedia ciblé, en l'occurence Perruche. L’API permet également de préciser plusieurs valeurs séparées par une barre verticale (|) pour obtenir les contenus de plusieurs articles dans un seul et même appel. Par exemple : titles=Perruche|Perroquet|Corneille|Corbeau.

Cette première requête renvoie un résultat tout simple composé du titre de la page ciblée ("title": Perruche), son numéro d'identifiant ("pageid": 250509) et l'espace de nom de la page ("ns" : 0 correspond à l'espace de nom principal où figurent les articles encyclopédiques).

Résultat de la requête la plus simple


Nous allons complexifier notre première requête en ajoutant petit à petit des paramètres :

https://fr.wikipedia.org/w/api.php?action=query&titles=Perruche&prop=extracts
  • prop=extracts : ce paramètre permet de récupérer un extrait de l'article.

Résultat de la requête API affichant un extrait de l'article


https://fr.wikipedia.org/w/api.php?action=query&titles=Perruche&prop=extracts&exchars=500
  • exchars=500 : ce paramètre limite l'extrait à 500 caractères.

Résultat de la requête API affichant 500 caractères


https://fr.wikipedia.org/w/api.php?action=query&titles=Perruche&prop=extracts&exchars=500&explaintext
  • explaintext : ce paramètre permet d'obtenir l'extrait en texte brut plutôt qu’en HTML. Il s'agit d'un paramètre booléen. Il n'a donc que deux valeurs possibles : vrai ou faux.

Résultat de la requête API en texte brut


https://fr.wikipedia.org/w/api.php?action=query&titles=Perruche&prop=extracts&exchars=500&explaintext&utf8
  • utf8 : paramètre booléen qui active l’encodage du texte en UTF-8

Résultat de la requête API en UTF-8


https://fr.wikipedia.org/w/api.php?action=query&titles=Perruche&prop=extracts&exchars=500&explaintext&utf8&format=json
  • format=json : il est possible de récupérer les données dans différents formats (json, jsonfm, none, php, phpfm, rawfm, xml et xmlfm).

Résultat de la requête API au format JSON

Documentation
La plupart des actions de l'API REST de MediaWiki permettant d'extraire les données sont dans QUERY et PARSE.


Politiques et recommandations

S'authentifier. Afin de ne pas surcharger les serveurs, une limitation du débit de l’API est mise en place. Il est possible de faire 500 requêtes par heure par adresse IP ou 5000 avec un jeton d’accès personnel. Pour de gros volumes de données, il vaut mieux utiliser les dumps.

Exemples

5. Outils de programmation

Dans la suite de ce chapitre, nous présentons brièvement quelques bibliothèques R et Python ainsi que l'instance Jupyter Notebook de Wikimedia Foundation.


5.1. PAWS (Jupyter Notebook)

Les notebooks Jupyter sont des carnets électroniques qui peuvent contenir dans un même document du texte, des images, des formules mathématiques, ainsi que du code informatique exécutable et afficher le résultat de ce programme directement dans un navigateur web.

Jupyter Notebooks tire son nom des trois langages de programmation (Julia, Python et R) gérés initialement. Dorénavant, les carnets Jupyter supportent des dizaines de langages de programmation. Ces carnets permettent d'obtenir une recherche plus transparente et plus reproductible. Ils facilitent la présentation de travaux en programmation et permettent le codage collaboratif

Wikimedia Foundation a déployé sa version de Jupyter Notebook sous le nom de PAWS: A web shell. PAWS permet d'accéder aux contenus des wikis via les API mais également les wiki replicas.

Exemples
Programme permettant de générer la liste des articles Wikipédia les plus consultés dans l'année, sans avoir à attendre que l'outil Pageviews soit mis à jour, ce qui intervient autour du 10 janvier. Voici les résultats 2023 pour la France.

Un grand nombre d'exemples de carnets Jupyter peuvent être trouvés sur les pages suivantes :

Catégorie des tuto pour PAWS

Mode d'emploi
Utiliser PAWS :
  1. Lancez PAWS.
  2. Cliquez sur le bouton Sign in with MediaWiki.
  3. Donnez l'autorisation à PAWS d'exécuter certaines actions sur votre compte.

Créer un nouveau carnet ou en importer un :

  1. Cliquez sur le bouton New et choisissez le type de carnet :
copie d'écran d'une partie de l'interface de PAWS

Partager un notebook :

  1. Utilisez le bouton Public Link ou PAWS public link en haut à droite pour générer un lien public ou
  2. Modifiez manuellement l'URL pour rendre votre carnet public : https://public-paws.wmcloud.org/User:YOURUSERNAME/YOURNOTEBOOK.ipynb

Copier un notebook :

  1. Récupérer l'URL d'un carnet public (tous les carnets sont publics). Exemple: https://public-paws.wmcloud.org/YOURUSERNAME/YOURNOTEBOOK.ipynb
  2. Ajoutez ?format=raw à la fin de l'URL pour télécharger un fichier .ipynb. Exemple: https://public-paws.wmcloud.org/YOURUSERNAME/YOURNOTEBOOK.ipynb?format=raw
  3. Connectez-vous à votre compte PAWS et cliquez sur upload pour importer le carnet dans votre espace personnel.
Un tutoriel plus complet est consultable dans ce carnet de Sarah Rodlund.

5.2. Python

Python est un langage de programmation interprété, créé à la fin des années 1980 par Guido van Rossum. Ce langage de haut niveau est reconnu pour sa syntaxe clair et lisible. Sa polyvalence et sa flexibilité en font un des langages de programmation les plus populaires. Il est notamment très utilisé dans le domaine de la data science et au sein du mouvement Wikimedia.

Il existe de nombreuses ressources Python pour interagir avec le contenu des wikis de Wikimedia Foundation. Ces bibliothèques permettent notamment d'utiliser les API sans avoir à gérer les requêtes HTTP directement. Une bibliothèque populaire est la bibliothèque Wikipedia créée par Jonathan Goldsmith et publiée sous la licence libre de l'Institut de technologie du Massachusetts (MIT). Conçue pour être facile à utiliser. Pour des usages avancés, il faut recourir à la bibliothèque Pywikibot, abondamment utilisée au sein du mouvement Wikimedia.

Exemples
Voici quelques exemples de la bibliothèque Wikipedia que vous pouvez faire tourner dans le jupyter notebook PAWS. Par défaut, pour exécuter une ligne de commande, il faut taper Shift+Entrée. Il est possible de remplacer cela par Entrée à l'aide du menu Settings / Console Run Keystroke / Execute with Enter.

  • Installation de la bibliothèque (appelée également package ou librairie) :
pip install wikipedia

  • Configuration :
import wikipedia
wikipedia.set_lang("fr")

  • Récupérer le résumé introductif de l'article Pomme :
wikipedia.summary("Pomme")

  • Récupérer les 3 premières phrases de l'article :
wikipedia.summary("Pomme",sentences=3)

  • Récupérer tout le contenu de l'article :
wikipedia.page("Pomme").content

  • Récupérer les images de l'article :
wikipedia.page("Pomme").images

  • Récupérer les catégories de l'article :
wikipedia.page("Pomme").category



Exemples pour récupérer le contenu de Wikidata à l'aide de la bibliothèque Wikidata de Hong Minhee : 

  • Installation de la bibliothèque :
pip install wikidata

  • Configuration :
from wikidata.client import Client
client = Client()

  • Sélection de l'élément Pomme :
entity = client.get("Q89", load=True)

  • Afficher le libellé de l'élément :
entity

  • Afficher la description de l'élément :
entity.description

  • Afficher le caractère Unicode de l'élément :
unicode_prop = client.get("P487")
unicode = entity[unicode_prop]
unicode

5.3. R

R est à la fois un logiciel d'analyse statistique et un langage de programmation. Ce logiciel libre s'impose progressivement comme une référence, aux côtés des logiciels propriétaires SAS et SPSS. Voici quelques utilisations possibles :

Tidywikidatar

Conçu par Giorgio Comai, chercheur, ce package R a été conçu dans le cadre du réseau européen de journalisme de données (EDJNet). Le projet Mapping Diversity, présenté dans le premier chapitre, utilise cet outil.

Exemples
Documentation

WikidataQueryServiceR


Glitter

Le package glitter a été conçu pour permettre aux utilisateurs de R de collecter les données du web sémantique sans avoir à écrire des requêtes en SPARQL, un langage très spécifique, qui demeure assez méconnu des utilisateurs de données. Dans la vidéo ci-dessous des Rencontres R d'Avignon en juin 2023, Lise Vaudor et Maëlle Simon présentent les principales fonctionnalités du package glitter.
 

6. Flux des modifications récentes

Documentation Outil Exemples


Wikimedia Foundation met gratuitement à disposition EventStream qui permet de suivre en temps-réel les modifications apportées à Wikipedia et l'ensemble des wikis hébergées par la fondation. Ce flux est accessible via l'url stream.wikimedia.org au format JSON ou il peut être consommé via l'API du moteur du wiki. Outre les modifications apportées aux articles encyclopédiques, il est notamment possible de suivre l'activité en matière de création, suppression et restauration de pages, renommage de pages ou encore le score d'évaluation des révisions par les outils d'apprentissage automatique.

Cas d'utilisation
  • Produire un tableau de bord actualisé en temps réel
  • Avoir besoin de beaucoup données à jour
Exemples
Voici une sélection d'outils utilisant le flux des modifications récentes, tirée de cette page.




7. Auto-évaluation des connaissances