Tour d'horizon des données ouvertes

Site: Callisto Formation
Cours: Corpus et données : comment utiliser les données ouvertes de Wikimedia
Livre: Tour d'horizon des données ouvertes
Imprimé par:
Date: mercredi 2 avril 2025, 10:51

1. Introduction

Après un rapide aperçu de ce qu’il était possible de faire avec les contenus et données des projets Wikimedia, ce chapitre aborde les principales sources de données utilisées. Vous découvrirez les points suivants :

  • Quelles sont les données existantes ?
  • Quelles sont les conditions pour y accéder ?
  • Quelles sont les conditions de réutilisation de ces données ?

Le mouvement Wikimedia comprend plus de 1000 sites basés sur la technologie wiki. Le contenu est rédigé dans plus de 300 langues et 35 systèmes d'écritures différents. En tout, cela représente plus de 60 millions d'articles encyclopédique dans les différentes versions linguistiques de Wikipedia, plus de 100 millions de médias dans Wikimedia Commons, des millions de mots de vocabulaire dans les différents versions du Wiktionnaire, etc.

Que se passe-t-il sur la Wikipédia francophone en 24 heures ? Quelques données statistiques.

Données statistiques de la Wikipedia francophone. Source : Wikiscan et PageViews

Outre le contenu intrinsèque des projets Wikimedia, la consultation et l'élaboration des wikis génèrent de nombreuses données : nombre de fois qu'une page est consultée, tout un tas de données provenant des serveurs, historique des modifications d'un article et historique des contributions d'un rédacteur, nombre de clics sur un lien, etc. De plus, les chercheurs mettent régulièrement à disposition des jeux de données spécifiques en retravaillant les données extraites des projets Wikimedia, par exemple des jeux de données sur les références bibliographiques utilisées dans Wikipedia ou les personnes célèbres présentes dans l'encyclopédie.

Voici un récapitulatif des sources de données présentées dans ce chapitre et le suivant :

Source Contenu Accès Format Actualisation Quantité Limites
Wikimedia Foundation dumps métadonnées
contenu
relations
hors ligne XML
SQL
bimensuelle données massives gros volume de données et données au format wikitexte
Wikimedia Enterprise dumps contenu hors ligne HTML mensuelle données massives gros volume de données
Analytics dumps : jeux de données de l'activité des wikis pages vues
activité
hors ligne TSV mensuelle données massives gros volume de données
MediaWiki API
MediaWiki REST API
Wikimedia REST API
métadonnées
contenu
relations
statistiques
en ligne JSON
PHP
WDDX
XML
YAML
temps réel micro données pas adapté pour extraire beaucoup de données
Wiki replicas : copies en temps réel et nettoyées des bases de données métadonnées
contenu
relations
en ligne SQL quasi temps réel micro données pas adapté pour extraire beaucoup de données
EventStreams : suivi en direct de l'activité des wikis logs en ligne JSON
SSE
temps réel   traitement des données
Wikimedia Statistics : rapports statistiques pages vues
contenu
activité
en ligne CSV
JSON
mensuelle micro données pas adapté pour extraire beaucoup de données

Wikimedia Foundation Fundraising Data

dons collectés en ligne
CSV
 quotidienne micro données
 
Entrepôts de données : sources extérieures de données jeux de données
spécifiques
hors ligne        

Source : inspiré du tableau 4 d'Arroyo-Machado, Wenceslao, et al. “Wikinformetrics: Construction and Description of an Open Wikipedia Knowledge Graph Data Set for Informetric Purposes”, Quantitative Science Studies, vol. 3, no. 4, 2022, pp. 931–52.

2. Sources de données

Wikimedia Foundation met à disposition un très grand nombre de données, dès lors qu'elles respectent la vie privée des personnes qui consultent et rédigent les projets Wikimedia.


Les jeux de données sont en accès libre et publiés sous licence libre sur dumps.wikimedia.org. Une liste détaillée peut être consultée sur Research:Data. En outre, les chercheurs peuvent accéder à certaines données non-publiques sous réserve de la signature d'un accord de non-divulgation (NDA).

Il est également possible de trouver des données des projets Wikimedia déposées par des chercheurs sur des entrepôts de données. Nous listons les principaux ci-dessous :



Logo de Zenodo

Zenodo (CERN)


Logo de Figshare

Figshare (Springer)


Logo de Dimensions

Dimensions (Springer)



Logo Academic Torrents

Academic Torrents (Institute for Reproducible Research)



Que peut-on trouver dans ces données ouvertes ? La suite de ce chapitre présente les données regroupées en 3 grandes catégories : données de consultation, corpus et métadonnées.

3. Données de consultation

En matière de données de consultation des wikis, il ne faut pas s'attendre à trouver autant de données sur les utilisateurs que sur d’autres grandes plateformes Internet. Wikimedia Foundation collecte très peu de données personnelles sur les internautes et à des principes de diffusion des données très strictes en matière de respect de la vie privée. Il est donc impossible par exemple de connaître les habitudes de consultation d’un internaute, le pourcentage de femmes qui rédigent Wikipedia ou même le nombre de visiteurs uniques du site.

Il est néanmoins possible d'obtenir 3 types d'information :

  • Fréquentation des sites, pages et fichiers des wikis de Wikimedia Foundation,
  • Flux de clics de quelques versions linguistiques de Wikipedia,
  • Système d'exploitation et navigateurs utilisés par les internautes.

3.1. Consultation des pages

L'audience d'un site internet, a fortiori celle de Wikipedia, n'est pas une réalité simple et unidimensionnelle cernable avec un seul indicateur. De plus, la mesure, la conservation et la diffusion de ces données demandent des ressources humaines, financières et techniques dont le mouvement Wikimedia n'a pas toujours disposées. Ce chapitre présente les données publiques disponibles, la définition de ce qui est mesuré, l'évolution au cours du temps des données recueillis et pointe quelques limites afin de correctement analyser ces jeux de données. La Wikimedia Foundation met à disposition de tous la fréquentation des wikis qu'elle héberge. Il est possible de remonter jusqu'à mai 2015, voire jusqu'en 2007 via les archives, mais au prix de nombreuses ruptures statistiques rendant délicate l'analyse sur longue période.

Données ouvertes

Il existe plusieurs façons d'accéder aux données. Pour connaître la fréquentation de quelques pages, une interface visuelle est proposée : la suite d'outils pageviews. Pour un nombre plus important de pages ou un besoin d'automatisation, une API ouverte est disponible. Enfin les données sont librement téléchargeables et publiées sous la mention Creative Commons CC0. Les dumps de données prennent la forme d'un fichier compressé par heure.

Par ailleurs, de nombreux outils, plus ou moins éphémères, voient régulièrement le jour à partir de ce jeu de données. C'est également un domaine important en matière de création de visualisation de données.

Enfin il y a une littérature abondante analysant la fréquentation de Wikipedia ou les chercheurs se servent du nombre de vues dans leur démonstration (Ball, 2023). Une récente revue de la littérature a étudié l'utilisation du nombre de vues dans Wikipedia dans le domaine de la santé (Alibudbud 2023). Un autre papier analyse l'impact de Wikipedia sur la science en utilisant entre autre la consultation des articles (Thompson et Hanley 2018). La consultation de l'encyclopédie peut aussi être utilisé pour mesurer l'intérêt du public pour un sujet donné, par exemple les aires protégées (Guedes-Santos et al. 2021), les reptiles (Roll et al. 2016) ou les sites touristiques (Owuor et al. 2023), la grippe (Brownstein et Mclever, 2014McIver et Brownstein, 2014De Toni et al., 2021), les épidémies mondiales (Provenzano et al., 2019), la grippe porcine (Ritterman et al., 2009), le coronavirus (O'Leary et Storey, 2020), si le Ice Bucket Challenge a sensibilisé les gens à la sclérose latérale amyotrophique (Bragazzi et al., 2017), le succès d'un film au cinéma (Mestyán et al., 2013), les résultats électoraux (Yasseri et Bright, 2016, Salem et Stephany, 2021), l'essor de l'extrême droite en Allemagne (Debus et Florczak 2022), le cour de la bourse (Moat et al., 2013, Zimmerman, 2020, Gómez-Martínez et al. 2022), l'incidence des restrictions en matière de droits d'auteur sur la réutilisation des connaissances (Nagaraj, 2017).

Dans la suite du cours, nous présenterons les liens vers les principales ressources utiles à l'aide d'icônes :

Documentation Données  API
Dataviz

Historique de la mesure de l'audience

La mesure de la fréquentation des wikis de Wikimedia Foundation n'a pas été un long fleuve tranquille. Voici une présentation des principales étapes montrant l'évolution dans la mesure de l'audience. Ce travail repose sur la chronologie de la mesure d'audience Wikimedia complétée par la documentation technique.

Définition de l'indicateur

La définition d'une page vue est la suivante depuis 2015. La documentation technique permet de savoir ce qui est précisément mesuré.


Définition d'une page vue
Une requête du journal des requêtes web est comptabilisée comme une page vue si elle remplit les conditions suivantes :
  • l'entête HTTP X-Analytics ne contient pas preview=1 ;
  • le code de réponse HTTP est 200 OK ou 304 Not Modified ;
  • le type MIME est une version de text/html ou application/json pour les requêtes de l'application mobile ;
  • l'une ou l'autre des conditions suivantes :
    • l'entête HTTP X-Analytics contient pageview=1, ou
    • l'URL répond aux critères suivants :
      • il comporte un site en production (Wikipedia, Wikisource, Meta, Commons, etc.) ;
      • it comporte un répertoire de contenu (principalement /wiki/, mais aussi /zh-hant/ ou une autre variante linguistique) ;
      • il ne s'agit pas d'une page spéciale.

Bien que les modifications d’un article ne soient pas comptabilisées dans ce jeu de données, les pics de consultation d'articles très peu consultés peuvent tout de même être liés à un moment de forte activité de la part d'un ou plusieurs rédacteurs car dans la phase de rédaction, il peut être nécessaire de consulter l'article à plusieurs reprises.

L'API n'est pas prise en compte sauf dans un cas bien particulier. De plus, selon la méthode utilisée pour faire du web scraping des projets Wikimedia, cela va être ou non comptabilisé dans le nombre de vues d’une page. L'article Wikipedia intitulé Liste de sondage élections présidentielles de 2022 est un bon exemple d’article dont le contenu a été régulièrement scrappé en 2022, jusqu’à en faire un des articles les plus consultés durant cette année électorale.

Trafic humain vs Trafic automatisé

L'analyse de la consultation de l’encyclopédie n'est pas simple. Outre les internautes qui consultent le site pour lire le contenu, il y a ceux qui scrapent le contenu, les robots qui indexent le web et tout un tas d'autres cas : des personnes qui gonflent exprès le nombre de vues, des outils mal configurés et d'autres cas où la page n'est pas consultée pour son contenu. Il n'est pas rare de voir des courbes de fréquentation d'articles anormales sans qu'il soit possible d'en determiner la raison. C'est un sujet encore très peu etudié, que ce soit en interne (en 2023 aucun salarié de Wikimedia Foundation n'est dédié à ce sujet) ou de la part des journalistes et des chercheurs.

Dans les jeux de données mis à disposition, Wikimedia Foundation met a part le trafic provenant des moteurs de recherche et depuis 2020, la Fondation distingue le trafic automatisé, du trafic généré par les robots d’indexation et du trafic généré par les lecteurs stricto sensu. Le jeu de données comporte trois types d’agent utilisateur (user agent) : 

Étude de cas : Cléopâtre

L'analyse du trafic de Wikipedia est de plus en plus compliquée. Outre le cas standard d'un internaute intéressé par un article de l'encyclopédie, il y a de nombreux outils automatisés qui consultent Wikipedia afin d'en extraire des données (cela va des robots d'indexation au web scraping). Dans les deux cas, le site est consulté parce que son contenu intéresse l'internaute. Mais il y a sans doute un troisième cas assez fréquent où l'internaute consulte Wikipedia sans que son contenu l'intéresse.

La biographie Wikipedia en anglais et en espagnol sur Cléopâtre figure régulièrement dans les articles les plus consultés. Cléopâtre est un personnage célèbre, mais cela ne suffit pas à justifier un tel trafic limité à deux langues. Une analyse détaillée de l'audience permet de s'apercevoir que le trafic provient de consultations faites par téléphone portable.

Bien souvent, nous n'avons pas d'explication à ces courbes d'audience anormales. Mais ce cas fait exception. Google invite ses utilisateurs à tester l'outil de commande vocale en chargeant l'article Cléopâtre.

Comme les autres moteurs de recherche, Google présente très souvent Wikipedia dans les premiers résultats. Et ponctuellement, Google génère des pics de consultation via les bannières Google Doodles affichées pour célébrer un événement ou une personnalité. Cette fois-ci il ne s'agit pas de trafic aberrant, mais cela montre l'importance de Google dans l'étude du trafic d'un site web, a fortiori dans le cas de Wikipedia. C'est aussi le signe qu'une décision a priori anodine peut avoir des effets très importants (Yasseri, 2023).

Try saying "Show Cleopatra on Wikipedia"
Message de Google invitant les internautes à tester son interface de commande vocale en chargeant l'article Wikipédia sur Cléopâtre (source)

Étude de cas : Aster des jardins


Il n'y a pas que les articles qui peuvent avoir un trafic anormalement élevé. Pendant plusieurs mois entre 2020 et 2021, un fichier représentant une fleur a totalisé plus de 60 millions de requêtes par jour. Le trafic provenait d'Inde et représentait 20 % du trafic générés par les médias dans le datacenter EQSIN situé à Singapour. Dès qu'elle a découvert le problème, l'équipe de Wikimedia Foundation a rapidement détecté l'origine : il s'agissait d'une application mobile de réseautage social populaire en Inde qui était mal configurée.

Conseils pour détecter les cas aberrants

  • Analysez le trafic sur une période longue.
  • Regardez la répartition du trafic selon les méthodes d'accès. Moins de 10% pour l'ordinateur ou le mobile est suspect.
  • Jetez un œil au trafic dans d'autres langues. Si un sujet mondialement connu voit sa courbe d'audience fortement grimpée que dans une seule langue, cela peut être suspect.
  • Vérifiez si le sujet est évoqué sur les réseaux sociaux. Cela permet notamment de détecter les pics de consultation liés aux jeux télévisés.
  • L'actualité doit également être prise en compte.
  • Utiliser l'API PageViews pour obtenir la liste des articles les plus consultés par pays afin de mieux comprendre ce qui se passe. Cela permet par exemple de voir que le trafic démesuré sur l'article en français traitant des cookies informatiques provient des États-Unis et du Royaume-Uni.

Exemples de courbes de fréquentation


3.2. Consultation des médias

Wikimedia héberge plus de 100 millions de fichiers, principalement des images fixes, mais également des textes, des fichiers audio et un peu de vidéos. Exemples de contenus provenant de l'enseignement supérieur et la recherche :


Plusieurs méthodes permettent de mesure la consultation des images. Il est tout d'abord possible d'obtenir le nombre de requêtes des fichiers ou bien de mesurer le nombre de vues des pages illustrées par des fichiers. Voici un comparatif des données disponibles :

Données de consultation des médias
Données
Mesure Filtrage du trafic
Granularité des données
Début de mesure
Méthode
PageViews Tous les fichiers
  • Robots d'indexation
  • Trafic automatisé
 Jour  2015
  • API
  • Dumps
  • Outils (GUI)
MediaRequests Tous les fichiers
  • Robots d'indexation
 Jour  2015
  • API
  • Dumps
  • Outils (GUI)
Commons Impact Metrics
Collection préalablement signalée
  • Robots d'indexation
  • Trafic automatisé
 Mois Date de signalement
  • API
  • Dumps

Le sous-chapitre précédent intitulé « Consultation des pages » présente les différents types d’agent utilisateur (utilisateur, robot d'indexation, trafic automatisé).

Plusieurs outils ont été mis en place afin de ne pas avoir à utiliser directement les API ou les dumps. Il n'y a pas encore d'outil pour le nouveau jeu de données, Commons Impact Metrics, mis en place en 2024.


Outils de mesure de la consultation des médias
Outil Description Données Url
MediaViews Comparaison des requêtes de médias entre plusieurs fichiers (10 fichiers max) MediaRequests
pageviews.wmcloud.org/mediaviews
Media Views in Category
Nombre de requêtes des fichiers d'une catégorie et ses sous-catégories (500 fichiers max)
MediaRequests mvc.toolforge.org
BaGLAMa

Nombre de vues mensuelles à partir d'une liste prédéterminée

PageViews
glamtools.toolforge.org/baglama2
GLAMorgan Nombre de vues mensuelles d'une catégorie et ses sous-catégories (30 000 fichiers max)
PageViews glamtools.toolforge.org/glamorgan.html
GLAM Wiki Dashboard
Tableau de bord pour les collections institutionnelles
PageViews
glamwikidashboard.wmcloud.org

Commons Impact Metrics

Depuis 2024, Wikimedia Foundation propose un nouveau jeu de données afin de mesurer la consultation des fichiers. Pour des questions de performance, il faut préalablement demander l'ajout d'une collection afin que Wikimedia Foundation réalise les calculs une fois par mois. Une collection prend la forme d'une catégorie (ou d'une catégorie et ses sous-catégories) regroupant les fichiers à suivre. Voici la liste des statistiques générées chaque mois et la méthode pour faire une demande d'ajout à la liste. Une fois que la collection est ajoutée à la liste, il faut attendre qu'un nouveau jeu de donnée soit publié. Les données sont accessibles via API ou dumps. Il est possible de tester l'API via ce bac à sable.

Quelques caractéristiques et limites sont à avoir à l'esprit lors de l'utilisation de ces données :

  • Monthly drift. Contrairement à MediaRequests, les données provenant de PageViews et Commons Impact Metrics ne prennent en compte la date d'ajout d'un fichier dans une page. Si un fichier est ajouté le 20 du mois, le trafic de l'ensemble du mois sera pris en compte. Wikimedia Foundation nomme ce problème "monthly drift".
  • Pages d'accueil. À la différence de PageViews et MediaRequests, le trafic des pages d'accueil n'est pas pris en compte dans les données Commons Impact Metrics. Cela réduit le problème évoqué au point précédent.
  • Plusieurs images par article. Si un article contient plusieurs images de la collection, la consultation de l'article ne sera comptabilisée qu'une seule fois.
  • Modèles. Des illustrations sont insérées dans des messages placés sur plusieurs pages. Exemple : la palette Gouvernement Jospin est une boîte déroulante placée en pied de page de 44 articles dont certains sont très consultés. Cela gonfle les statistiques de la collection INRA de plusieurs centaines de milliers de vues.
  • Sous-catégories : le rangement des fichiers dans des catégories et sous-catégories n'est pas parfait. Il n'est pas rare que des sous-catégories éloignées de la catégorie initiale comportent des fichiers n'appartenant pas à la collection. La profondeur de l'arbre est limitée à 7 niveaux, mais le paramètre deep doit être utilisé avec précaution.
API
Description Paramètre
Réponse
Indicateurs d'une collection : nombre de fichiers, fichiers utilisés, nombre de pages, nombre de wikis.
category-metrics-snapshot
category
start
end
timestamp
media-file-count
media-file-count-deep
used-media-file-count
used-media-file-count-deep
leveraging-wiki-count
leveraging-wiki-count-deep
leveraging-page-count
leveraging-page-count-deep
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/category-metrics-snapshot/Gallica/20240101/20240501
Nombre de modifications par mois pour une collection donnée.
edits-per-category-monthly
category
category-scope
edit-type
start
end
edit-count
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/edits-per-category-monthly/Gallica/deep/all-edit-types/20240101/20240501
Total du nombre de pages vues par mois pour une collection donnée.
pageviews-per-category-monthly
category
category-scope
wiki
start
end
timestamp
pageview-count
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/pageviews-per-category-monthly/Gallica/deep/fr.wikipedia/20240101/20240501
Classement des wikis les plus consultés pour une collection donnée.
top-wikis-per-category-monthly
category
category-scope
year
month
wiki
pageview-count
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-wikis-per-category-monthly/Gallica/deep/2024/05
Classement des pages les plus consultées pour une collection donnée.
top-pages-per-category-monthly
category
category-scope
wiki
year
month
page-title
pageview-count
rank
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-pages-per-category-monthly/Gallica/deep/fr.wikipedia/2024/05
Classement des contributeurs ayant le plus de modifications pour une collection donnée.
top-editors-monthly
category
category-scope
edit-type
year
month
user-name
edit-count
rank
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-editors-monthly/Gallica/deep/all-edit-types/2024/05
Indicateurs d'une collection : nombre de pages, nombre de wikis.
media-file-metrics-snapshot
media-file
start
end
timestamp
leveraging-wiki-count
leveraging-page-count
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/media-file-metrics-snapshot/Dvorak.jpg/20240101/20240501
Nombre de vues pour un fichier donné.
pageviews-per-media-file-monthly
media-file
wiki
start
end
timestamp
pageview-count
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/pageviews-per-media-file-monthly/Dvorak.jpg/fr.wikipedia/20240101/20240501
Classement des fichiers les plus consultés.
top-viewed-media-files-monthly
category
category-scope
wiki
year
month
media-file
pageview-count
rank
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-viewed-media-files-monthly/Gallica/deep/all-wikis/2024/05
Classement des wikis les plus consultés pour un fichier donné.
top-wikis-per-media-file-monthly
media-file
year
month
wiki
pageview-count
rank
Exemple : http://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-wikis-per-media-file-monthly/Dvorak.jpg/2024/05
Classement des pages les plus consultées pour un fichier donné.
top-pages-per-media-file-monthly
media-file
wiki
year
month
page-title
pageview-count
rank
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-pages-per-media-file-monthly/Dvorak.jpg/fr.wikipedia/2024/05

Paramètres de la requête
  • category : nom d'une catégorie de Wikimedia Commons figurant dans la liste blanche
  • category-scope : la catégorie uniquement (shallow) ou la catégorie et ses sous-catégories (deep). La profondeur de l'arbre est limitée à 7 niveaux.
  • edit-type : type de modification : création (create), mise à jour (update) ou les deux (all-edit-types)
  • media-file : nom d'un fichier se trouvant dans les collections de la liste blanche (sans File:, avec extension)
  • user-name : nom d'utilisateur
  • wiki : un seul wiki (ex. fr.wikipedia, fr.wikisource) ou tous les wikis (all-wikis)
  • start : premier mois (format YYYYMM01)
  • end : dernier mois (format YYYYMM01)
  • month : mois (format MM)
  • year : année (format YYYY)

Réponses de la requête
  • edit-count : nombre de modification d'un contributeur ou des fichiers appartenant à une collection.
  • media-file-count : nombre de fichiers de la collection (catégorie principale uniquement).
  • media-file-count-deep : nombre de fichiers de la collection (catégorie principale et ses sous-catégories).
  • used-media-file-count : nombre de fichiers de la collection (catégorie principale uniquement) réutilisés.
  • used-media-file-count-deep : nombre de fichiers de la collection (catégorie principale et ses sous-catégories) réutilisés.
  • leveraging-wiki-count : nombre de wikis réutilisant les fichiers de la collection (catégorie principale uniquement).
  • leveraging-wiki-count-deep : nombre de wikis réutilisant les fichiers de la collection (catégorie principale et ses sous-catégories).
  • leveraging-page-count : nombre de pages réutilisant les fichiers de la collection (catégorie uniquement).
  • leveraging-page-count-deep : nombre de pages réutilisant les fichiers de la collection (catégorie principale et ses sous-catégories).
  • page-title : titre des pages réutilisant des fichiers de la collection (limité à l'espace de nom principal : namespace=0).
  • pageview-count : nombre de vues des pages.

3.3. Appareils uniques


Le nombre de visiteurs uniques est un indicateur très répandu pour mesurer la fréquentation d'un site Internet. Le mouvement Wikimedia est un des rares grands acteurs du Web à ne pas mesurer cela afin de protéger la vie privée des utilisateurs. À la place, la fondation mesure le nombre d'appareils uniques qui servent à consulter ses wikis.




Cas pratique : visiteurs uniques dans l'Union européenne

Le règlement européen sur les services numériques Digital Services Act prévoit que les hébergeurs communiquent à la Commission européenne le nombre de visiteurs uniques afin notamment de vérifier si elles dépassent ou non le seuil de 45 millions de visiteurs uniques par mois, ce qui en fait une très grande plateforme en ligne devant faire face à plus d'obligations. Pour satisfaire cette obligation, Wikimedia Foundation se base sur une étude de Cisco estimant à 2,4 le nombre moyen d'appareils utilisés par chaque personne pour consulter Internet.

Voici ci-contre l'estimation de la moyenne mensuelle du nombre de visiteurs uniques dans l'Union européenne.


Wiki Août 2022 à janvier Février 2023 à juillet
Wikipedia 151 556 000 151 088 000
Wiktionary 8 955 000
8 425 000
Wikimedia Commons
2 845 000 8 425 000
Wikisource 7 106 000 1 845 000
Wikibooks 6 919 000 1 611 000
Wikiquote 6 811 000 1 548 000
Wikiversity 6 360 000 1 082 000
Wiidata 1 056 000 1 051 000
Wikinews 9 283 000 1 035 000
Wikivoyage 616 000 632 000
Wikspecies 29 000 37 000

3.4. Flux de clics

Wikimedia Foundation publie chaque mois des données relatives à la navigation des internautes au sein de Wikipedia. En octobre 2023, ce jeu de données existe dans 11 versions linguistiques de Wikipedia (anglais, allemand, chinois, espagnol, farsi, français, italien, japonais, polonais, portugais et russe).

Ces données ont permis aux chercheurs d'étudier l'impact des règles de Wikipedia sur la navigation des internautes (Lamprecht et al., 2015) ; comment les données de parcours peuvent éclairer la distribution thématique d'une session de lecture (Rodi et al., 2017) ; comment les liens suivis par les lecteurs sont façonnés par la structure de l'article et la position des liens (Dimitrov et al., 2016 ; Lamprecht et al., 2017) ; comment tirer parti de ces données pour générer des recommandations d'articles connexes (Schwarzer et al., 2016), et comment la structure globale des liens peut être améliorée pour mieux répondre aux besoins des lecteurs (Paranjape et al., 2016).

Un outil de visualisation de ces données a été mis en place : WikiNav (wikinav.toolforge.org). Il permet de visualiser le trafic du mois précédent. Il est possible d'observer la part du trafic provenant de la page d'accueil sur la Wikipedia en anglais. Mais ce n'est par exemple pas possible de le faire pour la Wikipedia en français car la page d'accueil ne figure pas dans l'espace principal (https://fr.wikipedia.org/wiki/Wikipédia:Accueil_principal) contrairement au choix fait sur l'encyclopédie en anglais (https://en.wikipedia.org/wiki/Main_Page).




3.5. Données technologiques


Il est possible de consulter les données concernant les navigateurs et systèmes d'exploitation utilisés par les visiteurs des wikis de Wikimedia Foundation. Les données remontent à 2015 et sont publiées sous la mention Creative Commons CC0. Ces données permettent par exemple d'étudier le déploiement des nouvelles versions des navigateurs.






4. Corpus

Les sites Internet de Wikimedia Foundation stockent du contenu sous licence libre ou dans le domaine public. Wikipedia est conçue pour être réutilisée et diffusée ; c'est en cela qu'elle est une encyclopédie « libre ». Voici les recommandations de Wikipedia en matière de réutilisation du contenu :

Pour la réutilisation, la copie ou la modification de tout ou partie du texte d'un article, il faut veiller à :

  • indiquer que le contenu réutilisé, copié ou modifié est publié sous CC-BY-SA-4.0,

  • permettre l'identification des auteurs en donnant une adresse web vers l'article de Wikipedia, ou en donnant une liste des auteurs (paternité),

  • indiquer les modifications réalisées sur le contenu original de Wikipedia,

  • laisser tous les travaux dérivés sous la même licence (partage à l'identique).

Pour la réutilisation, la copie ou la modification de médias, vérifiez la licence de publication du fichier et des conditions associées. Deux autres cas particuliers : le contenu structuré de Wikidata est placé sous CC0 et le contenu de Wikinews est sous CC-BY-2.5.

Voici un historique de l'évolution des licences :




4.1. Wikipedia


Contenu techniquement réutilisable
Le mouvement Wikimedia ne se contente pas de produire et collecter du contenu librement réutilisable sur le plan légal, un effort est fait par Wikimedia Foundation pour en faciliter la réutilisation sur le plan technique, même si cela reste ardu de réutiliser massivement Wikipedia.

Le contenu mis à disposition via les dumps et les API comprend la dernière version de l'article ainsi que l'ensemble des révisions successives faites depuis la création de Wikipedia. Il est ainsi possible de récupérer l'historique des articles, sauf les très vieux articles dont il manque les premières révisions et cela peut s'avérer très compliqué de reconstituer l'historique dans certains cas.

Dumps de données
Wikimedia Foundation publie des extractions ou copies de la base de données de Wikipedia connues sous le nom de dumps. Elle le fait pour tous les wikis publics qu'elle héberge. Les dumps sont téléchargeables gratuitement et leurs contenus est réutilisable librement. Ils sont notamment utilisés par les projets de consultation hors ligne des wikis, pour l'archivage ainsi que pour développer des outils pour Wikipedia ou l'édition des wikis par les robots. Les dumps servent aussi pour entraîner des modèles de langage à partir de Wikipedia. 

Les chercheurs sont également d'importants utilisateurs de ces données. Google Scholar liste plus de 1500 articles pour la requête "dumps wikipedia " OR "wikipedia dumps". Exemples de réutilisation du contenu de Wikipedia (Nielsen, 2018) :
Bien que très utiles, les dumps ne sont ni des sauvegardes, ni cohérents, ni complets.



Dumps XML

Les dumps contiennent le texte ou la métadonnée de toutes les pages actuelles ou leurs révisions historiques de Wikipedia. Dans ces dumps au format XML, les articles sont disponibles en wikitext mais le rendu en HTML n'est pas disponible. La communauté a développé des outils pour travailler avec ces dumps, comme la librairie en Python mwparserfromhell. Ils sont générés 1 à 2 fois par mois et la Fondation met à disposition les derniers derniers dumps générés. Des sites miroirs sont mis à disposition pour télécharger les dumps.


Il existe de nombreux jeu de données différents. Voici quelques dumps de la Wikipedia francophone accessibles à l'URL dumps.wikimedia.org/frwiki :

Nom du fichier
Taille
frwiki-20231020-pages-articles-multistream1.xml-p1p306134.bz2 594,9 Mo
frwiki-20231020-pages-meta-current.xml.bz2 7,9 Go
frwiki-20231020-stub-meta-history.xml.gz 14,0 Go
frwiki-20231101-stub-meta-current1.xml.gz 20,9 Mo

Les jeux de données peuvent être très volumineux. Une copie non compressée de la Wikipedia anglophone avec ses historiques faisait 19 teraoctets en avril 2019, 937 gigaoctets compressés en bz2 et 157 gigaoctets compressés en 7z. Il existe des dumps incrémentaux qui contiennent ce qui a été ajouté durant les dernières 24 heures, limitant le besoin de télécharger la base de données complète. Ces dumps sont bien plus légers que ceux de la base complète. Veillez bien à récupérer le jeu de données qu’il vous faut et pas de données superflues. Pour cela voici le plan de nommage :

frwiki

frwiki correspond à la Wikipédia francophone. Il s'agit des codes ISO 639 sauf quelques exceptions (lorsqu'un code ISO 639 standard n’était pas encore disponible lors de la création du projet, ou d'anciens codes ISO 639 désuets ou supprimés cars ils incluaient un groupe de langues maintenant considérées comme distinctes). Exemples d'exceptions : als pour l'alémanique qui a comme code ISO 639-3 gsw, simple qui correspond à la Wikipedia en anglais simplifié, ou encore zh-classical qui est le chinois classique dont le code ISO 639-3 est lzh.

-articles-

Uniquement les pages dans l'espace principal (articles encyclopédiques pour Wikipedia). Disponible au format de compression bz. Généralement disponible avec -multistream-, mais pas disponible avec -history-.

-meta-

Pages dans tous les espaces de nom.

-stub-

Métadonnées sans le contenu des pages, tels que les titres des pages, les modèles de contenu, les identifiants des pages et des révisions, noms d'utilisateurs et espaces de nom, horodatages et résumés de modification. Disponible au format gzip.

-pages-

Comprend le contenu de la page et les métadonnées.

-current-

La dernière révision uniquement. -pages- est disponible dans le format bz2.

-history-

Intégralité de l'historique de révision des pages, pour les informations sur les auteurs. -pages-meta-history- est disponible dans les formats bz2 et 7zip.


Pour vous y retrouver dans ces différents jeux de données, voici les principales différences :










Fichiers XML

La structure d'un fichier en XML se compose de deux types d'objets principaux : l'objet siteinfo et l'objet page, chacun ayant de multiples objets associés, champs et attributs.

siteinfo
  • dbname : le nom de la base de donnée
  • sitename : le nom du projet Wikimedia concerné
  • base : le lien vers la page d'accueil du wiki
  • generator : la version de MediaWiki au moment de la génération du dump
  • case : indique si la première lettre du titre d'une page est sensible à la casse (case-sensitive) ou non (first-letter). Contrairement à Wikipedia, le Wiktionnaire distingue les pages Bac et bac.
page
  • id : identifiant unique au sein du wiki concerné
  • title : nom de la page
  • ns : espace de nom dans lequel figure la page
  • redirect : apparait lorsque la page est une redirection
revision
  • id : identifiant de la révision
  • parentid : identifiant de la précédente révision
  • timestamp : date de publication de la révision
  • contributor : information sur l'utilisateur qui a publié la révision
  • minor : révision qualifiée de mineur ou non par l'utilisateur
  • comment : commentaire de modification laissé par l'utilisateur
  • model : modèle (wikitext, JavaScript, CSS, plain text ou JSON)
  • format : format de sérialisation (text/plain, text/x-wiki, text/javascript, application/json ou text/css)
  • text : le contenu de la page en wikitexte
  • sha1 : identifiant de vérification généré par l'algorithme SHA-1

Copie d'écran de l'export XML de l'article Wikipédia de Claire Delfosse
Version XML de l'article Wikipédia sur Claire Delfosse, réalisé à l'aide de Special:Export


Wikitexte versus HTML
Wikipedia est rédigée dans un format particulier appelé la syntaxe wiki, le wikitexte ou le wikicode. Le wikitexte est un langage de balisage léger utilisé pour écrire des pages dans les sites web wiki, tels que Wikipedia, et constitue une alternative simplifiée au HTML. Le but est de convertir un contenu par le logiciel wiki en HTML, qui à son tour est servi aux navigateurs web.

Les dumps XML comportant les articles au format wikitexte sont très utiles, mais ils présentent de gros inconvénients. Il est notamment fait appel à de nombreux modèles rendant extrêmement difficile l’écriture d’un analyseur syntaxique fiable. MediaWiki, le logiciel qui fait fonctionner l'encyclopédie, converti le wikitexte en HTML, en insérant du contenu figurant sur d'autres pages.

L'analyse de Wikipedia telle que vue par les internautes doit donc se baser sur le HTML plutôt que le wikitexte. En analysant uniquement la version en wikitexte, les chercheurs risquent d'ignorer des informations importantes affichées aux lecteurs. Par exemple, sur les 475 millions de liens internes figurant dans les versions HTML des articles de la Wikipedia anglophone, seulement 171 millions étaient présents dans la version wikitexte (Mitrevski et al., 2020).
 
Jusqu'un 2021, la seule solution, pour les personnes ayant besoin de la version HTML était d'utiliser l'API de Wikimedia, mais cela ne convient pas pour un grand volume de données du fait des limitations de l'API.

Version HTML
Copie d'écran d'une partie de l'article sur Claire Delfosse en HTML.
Version wikitexte
Copie d'écran de l'article Wikipédia de Claire Delfosse en wikitexte
Dumps HTML

Depuis octobre 2021, Wikimedia Entreprise, une filiale de Wikimedia Foundation, met à dispositon gratuitement des dumps au format HTML afin de faciliter l'utilisation des dumps.

Ce jeu de données s'accompagne d'une librairie Python mwparserfromhtml qui permet d'extraire facilement des données (liens internes, liens externes, catégories, modèles, etc) des articles en HTML.

Gif animé présentant plusieurs fonctionnalités de mwparserfromhtml

4.2. Wikidata


Objectif de Wikidata


I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A "Semantic Web", which makes this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The "intelligent agents" people have touted for ages will finally materialize.

Tim Berners-Lee et Mark Fischetti, Weaving the Web, 1999. ISBN 978-0-06-251587-2


J’ai fait un rêve pour le Web [dans lequel les ordinateurs] deviennent capables d’analyser toutes les données sur le Web — le contenu, liens, et les transactions entre les personnes et les ordinateurs. Un « Web Sémantique », qui devrait rendre cela possible, n’a pas encore émergé, mais quand ce sera fait, les mécanismes plan-plan d’échange, de bureaucratie et de nos vies quotidiennes seront traités par des machines dialoguant avec d’autres machines. Les « agents intelligents » qu’on nous promet depuis longtemps vont enfin se concrétiser.


Wikidata vise à créer une base de connaissance multilingue que les machines et les humains peuvent lire et enrichir. Le projet permet une mutualisation des données entre les projets Wikimedia. Les données peuvent ainsi être affichées sur Wikipedia ou par des sites web externes. Les données de Wikidata sont ajoutées par une communauté de bénévoles, que ce soit manuellement ou à l'aide de programmes.

Wikidata a plus de 100 millions d'éléments, comme celui sur Douglas Adams, qui représentent par exemple une personne, un lieu, une œuvre d'art, un concept abstrait, ou d'autres types d’entité (telles qu'une université, un centre de recherche, une revue, un article académique, etc.). Chaque élément est défini par des déclarations, chaque déclaration consistant à son tour en une propriété comme date de naissance et la valeur appropriée pour l'élément (paires clé-valeur). De même, il peut y avoir des déclarations pour des identifiants externes, comme un identifiant DOI. Wikidata se concentre sur un niveau basique d'informations utiles sur le monde et les relie à d'autres ressources spécialisées sur le sujet. Les sources de données de Wikidata doivent être fiables et accessibles publiquement.




Depuis son lancement en 2012, Wikidata contenait principalement des concepts : les éléments Q sont liés à une chose ou une idée, pas au mot qui le décrit. Depuis 2018, Wikidata stocke un nouveau type de données : des mots, des locutions et des phrases. Ces informations sont stockées dans de nouveaux types d'entités, appelés lexèmes (L), formes (F) et sens (S). Wikidata comporte plus de 650 000 lexèmes. Pour en savoir plus sur le modèle de données, reportez-vous à la page de documentation

Licence des données
Les données de Wikidata sont publiées sous la mention Creative Commons Zero (CC0) permettant au titulaire de droits d’auteur de renoncer au maximum à ceux-ci dans la limite des lois applicables. CC0 permet à toute personne de réutiliser librement les données, les améliorer, les modifier, quel que soit le but et sans aucune restriction de droit, sauf celles imposées par la loi.

Format des données
Les dumps de Wikidata sont proposés aux formats JSON (recommandé), RDF (all et truthy) et XML (déconseillé). Ils sont téléchargeables depuis dumps.wikimedia.org (uniquement les 3 derniers mois) et divers sites miroirs. Les dumps sont à utiliser lorsque vous avez besoin d'un grand nombre de données ou si vous souhaitez mettre en place un service de requêtage. Les dumps sont déconseillés si vous avez peu de bande passante, d'espace de stockage ou de puissance de calcul. Et s'il vous faut des données très récentes. wdumper permet d'obtenir des dumps RDF partiels.

Exemples
Le directeur R&D de JSTOR Labs, Ron Snyder, a présenté en 2022 différentes réutilisations du contenu de Wikidata (présentation).

5. Métadonnées

En plus du contenu, de nombreuses métadonnées sont mises à disposition.

Dumps XML

pages-logging Journaux, dont les blocages, protections, suppressions, imports

Dumps SQL

categorylinks

Identifiants des pages et leurs catégories

category

Toutes les catégories avec le nombre de pages, sous-pages et fichiers qu'elles contiennent

change_tag

Toutes les balises de modification

extrernallinks

Identifiant des pages et les liens externes qu'elles contiennent

flaggedpages

Identifiant des pages et la dernière révision stable (extension MediaWiki déployée sur quelques wikis)

flaggedrevs

Identifiant des révisions et information concernant le relecteur (extension MediaWiki déployée sur quelques wikis)

geo_tags

Coordonnées géographiques figurant dans les pages

image

Information au sujet des fichiers importés

imagelinks

Identifiant de la page et les liens vers les fichiers média

iwlinks

Identifiant de la page et les liens vers les autres wikis

langlinks

Identifiant de la page et les équivalents dans les autres wikis

page

Information sur la page : espace de nom, titre, dernière révision, etc.

pagelinks

Liens vers d'autres pages du wiki

page_props

Clé primaire d'identification unique des pages

page_restrictions

Pages protégées

protecter_titles

Titres dont la page ne peut être créée

redirect

Liste de redirections et les pages de destination

sites

Information sur les wikis : code langue, type de projet, etc.

sites_stats

Statistiques sur les wikis : pages vues, nombre de modifications, etc.

template_links

Identifiant de la page et les modèles qu'elle contient

user_groups

Identifiant utilisateur et groupe auquel il appartient (administrateur, robot, etc.)

wbc_entity_usage

Identifiants des éléments Wikidata et les pages du wiki qui s'en servent

Sources : What's available for download et Dump format

6. Divers jeux de données

Wikimedia Foundation n'est pas le seul acteur à publier des données ouvertes concernant Wikimedia. Il existe de nombreux jeux de données publiés par des chercheurs sur les entrepôts de données. Voici une rapide présentation de quelques jeux de données spécifiques dont les données sont généralement tirées de Wikipedia et Wikidata.

6.1. Références bibliographiques

Code Wikipedia Citations
2020

Wikipedia Citations
2023


La fiabilité de Wikipedia repose sur une sélection de sources fiables. Mais cet aspect crucial du fonctionnement du site est encore méconnu, notamment parce que l’extraction des références bibliographiques des articles encyclopédiques est difficile. Pour faciliter cela, des chercheurs proposent des jeux de données de citations. La difficulté réside dans la façon hétérogène de saisir ces références bibliographiques dans l'encyclopédie. Les contributeurs ne saisissent pas forcément le DOI s'il existe. Et de nombreux modèles servent à gérer ces références bibliographiques.

Wikipedia Citations comporte une trentaine de millions de références bibliographiques de la Wikipedia anglophone. Les données datent d’une extraction réalisée en mai 2020. Un nouveau jeu de données contenant 40 millions de références bibliographiques a été publié sur la base d’un dump de la Wikipedia anglophone réalisé en février 2023. Ces jeux de données sont publiés sous la licence libre Creative Commons Attribution (CC-BY-4.0).

6.2. Personnes notables


Documentation Code Données
Dataviz Podcast

Une équipe de chercheurs a créé une base de données de 2 millions d’individus connus, à partir de données de sept versions linguistiques de Wikipedia (allemand, anglais, espagnol, français, italien, portugais, suédois) et Wikidata. Les données sont publiées sous la licence libre Creative Commons Attribution et Partage dans les mêmes conditions (CC-BY-SA-4.0). Ce jeu de données a notamment été popularisé grâce à la visualisation graphique de Topi Tjukanov qui permet de visualiser dans un globe virtuel le lieu de naissance des personnes plus plus célèbres.





6.3. Liens Wikipédia sur Twitter


Twitter Wikipedia Link (TWikiL) est une base de données de liens menant vers Wikipedia mentionnés sur Twitter entre mars 2006 et janvier 2021. La version 1.0 du jeu de données mis à disposition par Florian Meier est constitué de deux ensembles de données :

  • TWikiL raw comporte tous les tweets renvoyant vers Wikipedia, soit 44 millions tweets.
  • TWikiL curated ne comporte que les liens renvoyant à des articles, soit 35 millions de tweets. Il n'y figure pas les tweets mentionnant les pages en dehors de l'espace principal (historique, page de discussion, espace utilisateur) ni vers la page d'accueil des différentes versions linguistiques de Wikipedia.
Les données sont publiées sous la licence libre Creative Commons Attribution (CC-BY-4.0).




6.4. Enquête sur les usages de Wikipedia


En 2023, six chercheurs ont réalisé une enquête sur l'usage de l'encyclopédie dans 8 versions linguistiques de Wikipedia. Les données ont été collectées à l'aide d'un questionnaire en ligne entre juin et juillet. Le lien vers le questionnaire a été distribué via une bannière publiée affichée aux lecteurs et rédacteurs du site. Parmi les 200 questions, les internautes devaient indiquer ce qu'ils étaient en train de faire sur Wikipedia avant d'ouvrir le questionnaire ; comment ils utilisent Wikipedia en tant que lecteurs ; leur opinion sur la qualité du contenu, la couverture thématique, l'importance de l'encyclopédie, etc. Plus de 200 000 personnes ont ouvert le questionnaire, 100 332 ont commencé à y répondre et 10 576 sont allés jusqu'au bout. Le jeu de données a été déposé sur Nakala sous la licence libre Creative Commons Attribution Share Alike 4.0 International (CC-BY-SA-4.0).

Vikidia, l'encyclopédie des 8-13 ans, a également fait récemment l'objet d'une enquête par Wikimedia France et Datactivist. Le jeu de données a été déposé sur data.gouv.fr sous la licence CC0.



6.5. Rencontres entre wikimédiens

Papier Données

Jeu de données constitué de 4418 rencontres de la Wikipedia germanophone organisées entre 2001 et avril 2020. Les données sont publiées sous la licence libre Creative Commons Attribution et Partage dans les mêmes conditions (CC-BY-SA-4.0)





7. Bonnes pratiques de réutilisation des données

Comment réutiliser les éthiquement les données d'un communs numérique ? Les données Wikimedia sont utilisables gratuitement mais voici une liste de bonnes pratiques.

Bonnes pratiques d’accès aux données

Veiller à avoir un usage raisonné des ressources serveurs. Pour cela, il faut sélectionner la méthode d'accès aux données la plus rapide et la plus efficiente possible, sans exiger plus de ressources que nécessaire des serveurs. Voici quelques règles à respecter :


  • Respecter la politique de l'agent utilisateur (utilisation d'un en-tête User-Agent conforme).
  • Respecter la politique qui s'applique aux robots (Accept-Encoding: gzip,deflate, pas trop de requêtes simultanées).
  • Respecter les bonnes pratiques en matière d'API (utilisation du paramètre maxlag).
  • En cas d'erreur 429 Too Many Requests, arrêtez de faire des requêtes pendant un moment (consultez l'en-tête de réponse Retry-After afin de savoir combien de temps).
Bonnes pratiques d’utilisations aux données
  • Respectez la licence du contenu, le droit des marques.
  • Donnez quelque chose en retour :
    • Visibilité et publicité afin que plus de gens connaissent les données ou le wiki utilisé.
    • Participez à l'amélioration des données en partageant vos processus internes de gestion de la qualité des données.
    • Participez à l'entretien des données. Garder un œil sur les changements apportés aux données.
    • Partagez votre expertise.
    • Partagez vos retours d'expérience sur ce qui fonctionne ou ne fonctionne pas bien.
    • Soutenez financièrement le mouvement Wikimédia.
  • Indiquez l'origine des données. Voici quelques exemples concernant Wikidata : « Propulsé par Wikidata », « Powered by Wikidata », « Utilise des données provenant de Wikidata », « Source : Wikidata », « Origine des données : Wikidata », ou à l'aide d'une image.
  • Signalez les erreurs :
    • Petite échelle : signalement sur le wiki.
    • Grande échelle : publication d'un rapport.
  • Corrigez les erreurs. Cela profitera à tout le monde.
  • Présentez-vous sur votre utilisateur ainsi que vos travaux.
  • Signalement obligatoire des conflits d'intérêts (exigé par les conditions générales d'utilisation.)
  • Participez aux discussions qui peuvent vous impacter.
  • Déployez votre propre infrastructure si vous avez de très gros besoins. Les gros réutilisateurs doivent privilégier les dumps ou le flux de modifications récents.

8. Auto-évaluation des connaissances