2. Techniques basiques
2.3. Export XML
Documentation | Documentation avancée | Outil |
---|
Il est relativement simple de récupérer un petit nombre de pages et d’historiques au format XML. Le nombre de versions de l’historique ou de pages à extraire est limité à 1000. Au-delà il faut utiliser l'API ou les dumps de données. La structure d'un fichier en XML est décrite dans la section 4.1 Wikipedia du chapitre 2. Données. Exemples d'utilisation : Extraction d'articles biographies de la Wikipédia en chinois dans le cadre du projet "Elites, networks, and power in modern urban China (1830-1949). Historical “big data” in modern Chinese history".
Il existe plusieurs façons d'exporter des pages en XML :
Méthode n°1 : via l'interface graphique accessible en tapant Special:Export dans le moteur de recherche de n'importe quel wiki de Wikimedia Foundation (les différents résultats proposés par le moteur de recherche renvoient vers la même page spéciale qui nous intéresse).
- Ajouter manuellement des pages ou automatiquement via une catégorie,
- Exporter la dernière version de la page ou toutes les révisions successives,
- Inclure ou non les modèles,
- Afficher le résultat dans le navigateur ou enregistrer le résultat dans un fichier XML.
Paramètre | Description | Exemple |
---|---|---|
/ |
Exporter une seule page | /chat |
pages |
Exporter plusieurs pages (35 max) | pages=chien%0Achat |
addcat |
Exporter le contenu des pages d'une catégorie. S'utilise avec le paramètre catname |
|
catname |
Spécifier le nom de la catégorie. S'utilise avec le paramètre addcat |
addcat&catname=économiste |
addns |
Spécifier l'espace de nom. S'utilise avec le paramètre nsindex |
|
nsindex |
Numéro d'espace de nom. S'utilise avec le paramètre addns |
addns&nsindex=12 |
dir |
Du plus ancien au plus récent par défaut ou ordre chronologique (desc ). Ne fonctionne qu'avec une requête POST |
dir=desc |
offset |
Date de départ pour récupérer les versions. Ne fonctionne qu'avec une requête POST |
offset=2010-01-01T20:25:56Z |
limit |
Nombre de versions à récupérer. Ne fonctionne qu'avec une requête POST |
limit=5 |
history |
Exporter l'ensemble des versions (1000 max) | history=1 |
templates |
Inclure les modèles | templates=1 |
wpDownload |
Sauvegarder le résultat dans un fichier | wpDownload=1 |
- https://fr.wikipedia.org/wiki/Special:Export/A : exporter la dernière version de l'article A,
- https://fr.wikipedia.org/wiki/Special:Export?pages=A : exporter la dernière version de l'article A,
- https://fr.wikipedia.org/wiki/Special:Export?pages=A&history=1 : exporter toutes les versions de l'article A depuis la plus ancienne à la plus récente,
- https://fr.wikipedia.org/wiki/Special:Export?pages=A%0ADiscussion:A : exporter la dernière version de l'article A et de sa page de discussion,
- https://fr.wikipedia.org/wiki/Special:Export?addcat&catname=Alphabet : exporter la dernière version des articles dans la catégorie Alphabet,
- https://fr.wikipedia.org/wiki/Special:Export?pages=A&wpDownload=1 : exporter la dernière version de l'article A dans un fichier XML,
- https://fr.wikipedia.org/wiki/Special:Export?pages=A&templates=1 : exporter la dernière version de l'article A et l'ensemble des modèles utilisés dans l'article.
Méthode n°3 : certaines commandes ne fonctionnent qu'avec une requête
POST
(une URL via le navigateur correspond à une requête GET
). Voici quelques exemples à exécuter dans la console à l'aide de cURL. Sous Windows, cliquez sur l’icône Démarrer, puis cherchez invite de commande. Dans la fenêtre noire qui s'ouvre tapez l'une de ces commandes :
curl -data "https://fr.wikipedia.org/wiki/Special:Export?pages=Tushungpeng&history=1&action=submit"
: exporter toutes les versions de l'article Tushungpeng,curl -data "https://fr.wikipedia.org/wiki/Special:Export?pages=Tushungpeng&limit=5&action=submit"
: exporter les cinq premières versions de l'article Tushungpeng,curl -data "https://fr.wikipedia.org/wiki/Special:Export?pages=Tushungpeng&offset=2020-01-01T00:00:00Z&limit=2&action=submit"
: exporter les deux versions de l'article Tushungpeng postérieures au 1er janvier 2020.
