Introduction à la visualisation de données
Site: | Callisto Formation |
Cours: | Corpus et données : comment utiliser les données ouvertes de Wikimedia |
Livre: | Introduction à la visualisation de données |
Imprimé par: | Visiteur anonyme |
Date: | jeudi 3 avril 2025, 10:01 |
1. Types de graphiques
La visualisation de données (ou dataviz ou représentation graphique de données) est un ensemble de méthodes permettant de résumer de manière graphique des données statistiques. De nombreuses dataviz utilisent Wikipédia comme sujet. La représentation graphique des données de Wikipédia est souvent utilisée pour représenter la consultation des articles ou les biais de l'encyclopédie (principalement les biais de genre et géographiques). Un contenu spécifique de l'encyclopédie peut également être représenté visuellement, comme par exemple les guerres, les éruptions volcaniques, les monuments historiques, etc. Dans la première partie de ce chapitre, nous présentons une quarantaine de représentations statiques tirées la plupart du temps de travaux académiques. Ces exemples sont accompagnés de la présentation de quelques outils interactifs. Ces visualisations sont regroupées selon la classification élaborée par le Financial Times et illustrée par Andy Kriebel. Il s'agit d'une classification de différents types de graphiques en neuf catégories selon la structure des données et l'objectif du graphique.
1.1. Déviation
Les graphiques regroupés dans la catégorie « déviation » permettent de souligner les variations autour d'un point de référence (généralement zéro, mais il peut aussi s’agir d’une cible ou d’une moyenne à long terme). Ce type de représentation peut aussi être utilisé pour exprimer des sentiments (positif/neutre/négatif). Voici quelques exemples à partir des données de Wikipédia :
1.2. Corrélation
Plusieurs visualisations graphiques permettent de montrer la relation entre plusieurs variables. Cette corrélation ne signifie pas forcément l'existence de relations causales (l’une entraîne l’autre). Voici quelques exemples à partir des données de Wikipédia :
1.3. Classement
Type de graphique à utiliser lorsque le rang dans une liste ordonnée importe plus que sa valeur (absolue ou relative). Voici quelques exemples à partir des données de Wikipédia :
1.4. Distribution
La catégorie « Distribution » permet de visualiser la distribution de données quantitatives. Ce type de visualisation permet notamment de souligner le manque d’uniformité ou d’égalité des données.
1.5. Évolution dans le temps
La représentation visuelle de données temporelles est sans doute la visualisation des données Wikimédia la plus utilisée. Voici quelques exemples, du plus simple à des représentations plus complexes, à partir des données de Wikipédia :La consultation du site encyclopédique peut faire l’objet d’une représentation graphique. Par exemple, l’outil WikiPulse (wikipulse.com) permet de visualiser la consultation d’articles de la Wikipédia anglophone. Il existe une déclinaison moins élaborée pour les articles de la Wikipédia francophone : WikiPulseAngular (spiral.jonathanpastor.fr). Quelques exemples d'utilisation de ces deux outils :
1.6. Ordre de grandeur
La catégorie « ordre de grandeur » permet de faire des comparaisons visuelles de tailles (relatives ou absolues via des pictogrammes). Voici quelques exemples à partir des données de Wikipédia :Listen to Wikipedia (listen.hatnote.com) est une visualisation graphique et sonore représentant les modifications en temps réel des articles encyclopédiques pour une langue donnée (par défaut la Wikipédia anglophone est représentée), en distinguant les contributeurs non enregistrés (représentés sous la forme d’un cercle vert), les contributeurs enregistrés (représentés sous la forme d’un cercle blanc) et les modifications faites par des robots sont affichées sous la forme d’un cercle violet. La création de compte est également signalée. Les ajouts de contenu sont représentés par le son d'une cloche et le son de corde pincée indique un retrait de contenu. Plus le contenu ajouté ou enlevé est important (en nombre de caractères), plus la note est grave.
1.7. Spatial
Mapping Diversity (mappingdiversity.eu) est un projet de journalistes et chercheurs visant à analyser le nom des rues de 30 villes européennes. Cela représente 145 933 noms de rues analysés et 53 000 individus identifiés. Les noms de rues sont extraits d’OpenStreetMap puis Wikidata est utilisé pour identifier les personnes concernées. Lorsque moins de la moitié des noms de rues a pu être identifiée, la ville est écartée. Si ce taux dépasse 70%, les résultats sont mis en avant. La méthodologie est présentée dans ce billet de blog.
Dans la même veine que Listen to Wikipedia, Recent Changes Map (rcmap.hatnote.com) est une visualisation géographique des modifications réalisées sur Wikipedia ou Wikidata. L'outil n'ayant pas accès aux adresses IP des personnes contribuant avec un compte utilisateur, il se contente d'afficher les adresses des personnes non enregistrées, c'est-à-dire qui contribuent sans utiliser de compte utilisateur et donc leur adresse IP est publique (Wikimedia Foundation travaille sur un projet visant à masquer les adresse IP de tous les contributeurs).
1.8. Partie d'un tout
Représentation visuelle utilisée pour montrer comment une entité peut être décomposée en ses éléments constitutifs. Voici quelques exemples à partir des données de Wikipédia :
1.9. Flux
Entitree (entitree.com) permet de générer des arbres généalogiques à partir des données de Wikidata. L'outil fonctionne également pour d'autres types de données, tels que les entreprises, les taxons, etc.
2. Outils Wikimedia
De nombreux outils de visualisation des données permettent aux projets Wikimedia de fonctionner correctement. Sept outils, librement accessibles sur internet, sont présentés dans la deuxième partie de ce chapitre.
2.1. Pageviews Analysis
Pageviews Analysis (pageviews.wmcloud.org) est une suite d'outils permettant de visualiser la consultation de Wikipedia. Voici les trois principaux :
PageViews
TopViews
la plupart des outils de présentation de la consultation des articles Wikipedia ne gèrent pas correctement les renommages d'articles (Pageviews étant une exception).
COVID-19 pandemic
de la Wikipedia anglophone au mois de mai 2020. L'article a été créé dès le 5 janvier et a été renommé à plusieurs reprises , comme c'est souvent le cas pour les événements récents. Historique des titres employés entre janvier et mai 2020 (Adem Doğaner, 2020) :2019-20 outbreak of novel coronavirus
;2019-20 coronavirus outbreak
;2019-20 coronavirus pandemic
;COVID-19 pandemic
.

Covid-19 Pandemic
de la Wikipédia anglophone, avec ou sans les redirections.Rima Abdul Malak 252 215
;Rima Abdul-Malak 176 957
;Abdul Malak 97
.
Pandémie de maladie à coronavirus de 2019-2020
et termine à la 10e place avec 2,5 millions de vues. Or la somme du trafic des différents titres de l'article avoisine les 8 millions de vues. Redirectviews est un outil très pratique dans ce genre de cas.
Pandémie de Covid-19
2.2. Wikistats
Wikistats (stats.wikimedia.org) est un outil très riche qui propose une vingtaine d'indicateurs réparti en trois catégories : Lectures, Contribuer et Contenu. L’outil de permet de visualiser les données sous la forme de diagramme à barres, graphique en courbes et de cartes choroplèthes. Il est également possible de télécharger les données au format csv.
Lectures
L'outil permet de visualiser le total des pages vues pour chaque wiki hébergé par Wikimedia Foundation, ainsi que les pages vues par pays ou encore le nombre d'appareils uniques (alternative au nombre de visiteurs uniques que la Fondation ne peut estimer faute de données disponibles). Voici quelques exemples :
Pays masqués

Afghanistan, Arabie Saoudite, Azerbaïdjan, Bahreïn, Bangladesh, Biélorussie, Chine, Corée du Nord, Cuba, Djibouti, Égypte, Émirats arabes unis, Érythrée, Éthiopie, Honduras, Iran, Irak, Kazakhstan, Koweït, Laos, Myanmar, Nicaragua, Oman, Ouzbékistan, Pakistan, Russie, Rwanda, Soudan, Syrie, Thaïlande, Turquie, Turkménistan, Venezuela, Vietnam, Yémen.
Contribuer
Wikistats peut également servir à étudier les modifications des wikis. L’outil propose plusieurs données concernant la contribution :
- nombre de rédacteurs
- nombre de nouveaux rédacteurs
- nombre de modifications
- nombre de nouvelles pages
Le contenu des wikis est regroupé par espace de nom. Les articles encyclopédiques de Wikipedia ne représentent qu’une petite partie du total de pages qui permettent le bon fonctionnement du site (pages de discussions, pages d’aide, pages projets, règles, etc.). Les statistiques peuvent être filtrées par le type de page. Pour n’avoir que les articles encyclopédiques de Wikipedia, il faut décocher Page hors contenu
.
rédacteurs actifs
est une typologie de rédacteurs : ceux qui font au moins 5 modifications par mois. Une modification pouvant aller de la correction d’une coquille à la rédaction d’un article de plusieurs pages. Le nombre de modifications ne reflète qu’imparfaitement l’activité sur les wikis. D’une part, les modifications intervenues sur une page supprimée ne sont pas prises en compte. D’autre part, certaines interventions sur les wikis ne sont pas comptabilisées, tels que le fait de protéger une page, bloquer un utilisateur, etc.
2.3. XTools
XTools (xtools.wmcloud.org) est une suite d'outils statistiques permettant d'en savoir plus sur un contributeur ou un article.
Cas d'utilisations
- Extraire la liste des rédacteurs d'un article Wikipedia via articleinfo. Exemple : Oeberst et Ridderbecks, 2024.
- Activité d'un rédacteur via editcounter et topedits. Exemple : Oliver, 2020 et Grisel, 2023.
Mode d'emploi
2.4. Wikiscan
2.5. Humaniki – Wikimedia Diversity Dashboard Tool
Humaniki (humaniki.wmcloud.org) est un outil statistiques permettant de suivre l'évolution du biais de genre sur les projets Wikimedia, via trois indicateurs : le biais de genre par pays de citoyenneté, par version linguistique de Wikipedia et par date de naissance.
2.6. Who Wrote That?
Who Wrote That? (documentation) est une extension de navigateur (Firefox et Chrome) qui permet de visualiser les contenus d'un même auteur dans un article Wikipedia, sans avoir à fouiller dans l'historique des révisions. Fin 2023, l'outil fonctionne dans 14 versions linguistiques de Wikipedia. L'outil repose sur une API développée initialement par l'Institut de technologie de Karlsruhe et le GESIS – Leibniz Institute for the Social Sciences.
2.7. Wikimedia Grafana
Wikimedia Grafana (grafana.wikimedia.org) est un outil open source de monitoring informatique orienté data visualisation utilisé par de nombreuses organisations pour l'administration système de leurs sites et leurs serveurs. L'instance Grafana de Wikimedia Foundation est en accès libre.
Ces données techniques destinées à superviser les serveurs peuvent être utiles pour analyser certains pics de consultation car Grafana permet de visualiser plus finement l'audience que l'outil Pageviews qui se contente d'afficher la fréquentation par 24h.
Une autre utilisation possible des données disponibles sur Grafana : la recherche s’intéresse de plus en plus à la question du numérique responsable, notamment en matière d’empreinte écologique. Grafana permet d’avoir accès à la consommation électrique des serveurs de Wikimedia Foundation. Pour comprendre ces données, il faut prendre connaissance de la convention de nommage des datacenters de la Fondation et le rôle de chacun des sites. Le rapport développement durable présente les données et leurs limites.
Exemples :
3. Auto-évaluation des connaissances
4. Ressources supplémentaires
- SCHMITT, Victor et Vincent SOREL, Gilets jaunes : la bataille de Wikipédia, La Revue Dessinée n°26, hiver 2019-2020, pages 142-171. Voir aussi le site de Wedodata.
- Wikipedia’s future lies in poorer countries, The Economist, 9 janvier 2021.
- SAMORA, Russell, When a famous person dies, articles are written, tweets are tweeted, and Wikipedia is updated, The Pudding, août 2018.
- WU, Shirley, Hong Kong artists, women, 2020. Voir aussi le commentaire de Kerry Doran.
- CECCHI, Martina Elisa, Visualizing controversies in Wikipedia, mémoire de Maitrise, partie 1, partie 2.
- MAURI, Michele, Le pagine più visitate su Wikipedia italiana nel 2017, Corriere del Serra, 2 janvier 2018.
- R.L.W., G.D. et L.P., The most controversial Wikipedia articles worldwide, The Economist, 5 août 2013.
- SAUBER, Matan, Histography
- WEDODATA, Wikipédia : l'armée de l'ombre qui garde les pages des députés, Les Jours, 14 janvier 2019.