2. Techniques basiques

2.3. Export XML

Documentation Documentation avancée Outil


Il est relativement simple de récupérer un petit nombre de pages et d’historiques au format XML. Le nombre de versions de l’historique ou de pages à extraire est limité à 1000. Au-delà il faut utiliser l'API ou les dumps de données. La structure d'un fichier en XML est décrite dans la section 4.1 Wikipedia du chapitre 2. Données. Exemples d'utilisation : Extraction d'articles biographies de la Wikipédia en chinois dans le cadre du projet "Elites, networks, and power in modern urban China (1830-1949). Historical “big data” in modern Chinese history".

Il existe plusieurs façons d'exporter des pages en XML :

Méthode n°1 : via l'interface graphique accessible en tapant Special:Export dans le moteur de recherche de n'importe quel wiki de Wikimedia Foundation (les différents résultats proposés par le moteur de recherche renvoient vers la même page spéciale qui nous intéresse).
Exemple de recherche

L'interface graphique propose plusieurs options :
  • Ajouter manuellement des pages ou automatiquement via une catégorie,
  • Exporter la dernière version de la page ou toutes les révisions successives,
  • Inclure ou non les modèles,
  • Afficher le résultat dans le navigateur ou enregistrer le résultat dans un fichier XML.

Interface de l'outil d'export des pages en XML montrant l'ajout de la liste des articles dans une catégorie.


Méthode n°2 : via l'URL, ce qui permet d'utiliser des fonctionnalités avancées non disponibles via l'interface graphique. Voici les paramètres disponibles :
Paramètre Description Exemple
/ Exporter une seule page /chat
pages Exporter plusieurs pages (35 max) pages=chien%0Achat
addcat Exporter le contenu des pages d'une catégorie. S'utilise avec le paramètre catname

catname
Spécifier le nom de la catégorie. S'utilise avec le paramètre addcat
addcat&catname=économiste
addns Spécifier l'espace de nom. S'utilise avec le paramètre nsindex

nsindex Numéro d'espace de nom. S'utilise avec le paramètre addns addns&nsindex=12
dir Du plus ancien au plus récent par défaut ou ordre chronologique (desc). Ne fonctionne qu'avec une requête POST dir=desc
offset Date de départ pour récupérer les versions. Ne fonctionne qu'avec une requête POST offset=2010-01-01T20:25:56Z
limit Nombre de versions à récupérer. Ne fonctionne qu'avec une requête POST
limit=5
history Exporter l'ensemble des versions (1000 max) history=1
templates Inclure les modèles templates=1
wpDownload Sauvegarder le résultat dans un fichier wpDownload=1

Exemples :

Méthode n°3
: certaines commandes ne fonctionnent qu'avec une requête POST (une URL via le navigateur correspond à une requête GET). Voici quelques exemples à exécuter dans la console à l'aide de cURL. Sous Windows, cliquez sur l’icône Démarrer, puis cherchez invite de commande. Dans la fenêtre noire qui s'ouvre tapez l'une de ces commandes :
  • curl -data "https://fr.wikipedia.org/wiki/Special:Export?pages=Tushungpeng&history=1&action=submit" : exporter toutes les versions de l'article Tushungpeng,
  • curl -data "https://fr.wikipedia.org/wiki/Special:Export?pages=Tushungpeng&limit=5&action=submit" : exporter les cinq premières versions de l'article Tushungpeng,
  • curl -data "https://fr.wikipedia.org/wiki/Special:Export?pages=Tushungpeng&offset=2020-01-01T00:00:00Z&limit=2&action=submit" : exporter les deux versions de l'article Tushungpeng postérieures au 1er janvier 2020.

Invite de commande Windows.

Ces commandes peuvent également être saisies dans l'interprétateur de commandes Bash accessible via PAWS, le Jupyter Notebook de Wikimedia. PAWS est présenté dans la section 5.3.

Interface Bash dans PAWS