Introduction à la visualisation de données

Site: Callisto Formation
Cours: Corpus et données : comment utiliser les données ouvertes de Wikimedia
Livre: Introduction à la visualisation de données
Imprimé par: Visiteur anonyme
Date: jeudi 3 avril 2025, 10:01

1. Types de graphiques

La visualisation de données (ou dataviz ou représentation graphique de données) est un ensemble de méthodes permettant de résumer de manière graphique des données statistiques. De nombreuses dataviz utilisent Wikipédia comme sujet. La représentation graphique des données de Wikipédia est souvent utilisée pour représenter la consultation des articles ou les biais de l'encyclopédie (principalement les biais de genre et géographiques). Un contenu spécifique de l'encyclopédie peut également être représenté visuellement, comme par exemple les guerres, les éruptions volcaniques, les monuments historiques, etc. Dans la première partie de ce chapitre, nous présentons une quarantaine de représentations statiques tirées la plupart du temps de travaux académiques. Ces exemples sont accompagnés de la présentation de quelques outils interactifs. Ces visualisations sont regroupées selon la classification élaborée par le Financial Times et illustrée par Andy Kriebel. Il s'agit d'une classification de différents types de graphiques en neuf catégories selon la structure des données et l'objectif du graphique.



1.1. Déviation

Les graphiques regroupés dans la catégorie « déviation » permettent de souligner les variations autour d'un point de référence (généralement zéro, mais il peut aussi s’agir d’une cible ou d’une moyenne à long terme). Ce type de représentation peut aussi être utilisé pour exprimer des sentiments (positif/neutre/négatif). Voici quelques exemples à partir des données de Wikipédia :





1.2. Corrélation

Plusieurs visualisations graphiques permettent de montrer la relation entre plusieurs variables. Cette corrélation ne signifie pas forcément l'existence de relations causales (l’une entraîne l’autre). Voici quelques exemples à partir des données de Wikipédia :


1.3. Classement

Type de graphique à utiliser lorsque le rang dans une liste ordonnée importe plus que sa valeur (absolue ou relative). Voici quelques exemples à partir des données de Wikipédia :


1.4. Distribution

La catégorie « Distribution » permet de visualiser la distribution de données quantitatives. Ce type de visualisation permet notamment de souligner le manque d’uniformité ou d’égalité des données.




Retention (retention.toolforge.org) est un outil interactif qui permet de visualiser la rétention des contributeurs pour chaque wiki. Il a été créé par le contributeur Danilo.mac.

Exemple : 342 contributeurs ont commencé à contribuer sur la Wikipédia francophone en juillet 2004. En octobre 2023, ils n'étaient plus que 9. L'outil ne prend pas en compte certains cas de figure, comme par exemple les personnes qui ne contribuent plus sur ce wiki mais sont toujours actifs sur un autre wiki ou les personnes qui ont changé de compte, sans opter pour le renommage.


1.5. Évolution dans le temps

La représentation visuelle de données temporelles est sans doute la visualisation des données Wikimédia la plus utilisée. Voici quelques exemples, du plus simple à des représentations plus complexes, à partir des données de Wikipédia :


La consultation du site encyclopédique peut faire l’objet d’une représentation graphique. Par exemple, l’outil WikiPulse (wikipulse.com) permet de visualiser la consultation d’articles de la Wikipédia anglophone. Il existe une déclinaison moins élaborée pour les articles de la Wikipédia francophone : WikiPulseAngular (spiral.jonathanpastor.fr). Quelques exemples d'utilisation de ces deux outils :


1.6. Ordre de grandeur

La catégorie « ordre de grandeur » permet de faire des comparaisons visuelles de tailles (relatives ou absolues via des pictogrammes). Voici quelques exemples à partir des données de Wikipédia :



Listen to Wikipedia (listen.hatnote.com) est une visualisation graphique et sonore représentant les modifications en temps réel des articles encyclopédiques pour une langue donnée (par défaut la Wikipédia anglophone est représentée), en distinguant les contributeurs non enregistrés (représentés sous la forme d’un cercle vert), les contributeurs enregistrés (représentés sous la forme d’un cercle blanc) et les modifications faites par des robots sont affichées sous la forme d’un cercle violet. La création de compte est également signalée. Les ajouts de contenu sont représentés par le son d'une cloche et le son de corde pincée indique un retrait de contenu. Plus le contenu ajouté ou enlevé est important (en nombre de caractères), plus la note est grave.

1.7. Spatial

Cette catégorie regroupe les types de graphiques permettant de représenter un phénomène avec une dimension spatiale. Voici quelques exemples à partir des données de Wikipédia :



Mapping Diversity (mappingdiversity.eu) est un projet de journalistes et chercheurs visant à analyser le nom des rues de 30 villes européennes. Cela représente 145 933 noms de rues analysés et 53 000 individus identifiés. Les noms de rues sont extraits d’OpenStreetMap puis Wikidata est utilisé pour identifier les personnes concernées. Lorsque moins de la moitié des noms de rues a pu être identifiée, la ville est écartée. Si ce taux dépasse 70%, les résultats sont mis en avant. La méthodologie est présentée dans ce billet de blog.


Dans la même veine que Listen to Wikipedia, Recent Changes Map (rcmap.hatnote.com) est une visualisation géographique des modifications réalisées sur Wikipedia ou Wikidata. L'outil n'ayant pas accès aux adresses IP des personnes contribuant avec un compte utilisateur, il se contente d'afficher les adresses des personnes non enregistrées, c'est-à-dire qui contribuent sans utiliser de compte utilisateur et donc leur adresse IP est publique (Wikimedia Foundation travaille sur un projet visant à masquer les adresse IP de tous les contributeurs).

visualisation géographique des modifications réalisées sur Wikipedia ou Wikidata

1.8. Partie d'un tout

Représentation visuelle utilisée pour montrer comment une entité peut être décomposée en ses éléments constitutifs. Voici quelques exemples à partir des données de Wikipédia :


1.9. Flux



Entitree (entitree.com) permet de générer des arbres généalogiques à partir des données de Wikidata. L'outil fonctionne également pour d'autres types de données, tels que les entreprises, les taxons, etc.


2. Outils Wikimedia

De nombreux outils de visualisation des données permettent aux projets Wikimedia de fonctionner correctement. Sept outils, librement accessibles sur internet, sont présentés dans la deuxième partie de ce chapitre.

2.1. Pageviews Analysis

Pageviews Analysis (pageviews.wmcloud.org) est une suite d'outils permettant de visualiser la consultation de Wikipedia. Voici les trois principaux :


PageViews


TopViews



Par exemple, WikiPulse fait débuter la consultation de l'article COVID-19 pandemic de la Wikipedia anglophone au mois de mai 2020. L'article a été créé dès le 5 janvier et a été renommé à plusieurs reprises , comme c'est souvent le cas pour les événements récents. Historique des titres employés entre janvier et mai 2020 (Adem Doğaner, 2020) :

  • 2019-20 outbreak of novel coronavirus ;
  • 2019-20 coronavirus outbreak ;
  • 2019-20 coronavirus pandemic ;
  • COVID-19 pandemic.

Pages vues
Nombre de vues de l'article Covid-19 Pandemic de la Wikipédia anglophone, avec ou sans les redirections.

Massviews se trompe également lorsqu'on lui demande la liste des membres du gouvernement Borne les plus populaires en comptabilisant 252 215 vues pour Rima Abdul Malak au lieu de 429 269, ce qui la fait passer de la 13e à la 21e place. Le total des vues se décomposant ainsi pour 2022 :
  • Rima Abdul Malak 252 215 ;
  • Rima Abdul-Malak 176 957 ;
  • Abdul Malak 97.
Topviews peut également être pris en défaut. Il indique que l'article principal sur la pandémie de Covid-19 se nomme Pandémie de maladie à coronavirus de 2019-2020 et termine à la 10e place avec 2,5 millions de vues. Or la somme du trafic des différents titres de l'article avoisine les 8 millions de vues. Redirectviews est un outil très pratique dans ce genre de cas.

Différents noms de l'article principale sur la pandémie de Covid-19
Principaux titres utilisés pour nommer l'article principal sur la Pandémie de Covid-19
Les motifs de renommages des articles sont multiples : respect des conventions typographiques et conventions de certains projets, volonté de suivre les usages courants (principe de moindre surprise), respect des sources, gestion des homonymies, etc. Lorsqu'un article est renommé, une redirection vers le nouveau nom est automatiquement créée sous l'ancien nom de page. Le graphique ci-dessous montre l'impact de la prise en compte des différents renommages de l'article sur le total de vues. La non-prise en compte des redirections peut grandement fausser les interprétations qui résultent de l'analyse de l'audience d'un article Wikipedia.

2.2. Wikistats

Wikistats (stats.wikimedia.org) est un outil très riche qui propose une vingtaine d'indicateurs réparti en trois catégories : Lectures, Contribuer et Contenu. L’outil de permet de visualiser les données sous la forme de diagramme à barres, graphique en courbes et de cartes choroplèthes. Il est également possible de télécharger les données au format csv.


Lectures

L'outil permet de visualiser le total des pages vues pour chaque wiki hébergé par Wikimedia Foundation, ainsi que les pages vues par pays ou encore le nombre d'appareils uniques (alternative au nombre de visiteurs uniques que la Fondation ne peut estimer faute de données disponibles). Voici quelques exemples :



Pays masqués
Les données de certains pays sont masquées pour des raisons de sécurité. Wikimedia Foundation s'appuie sur le travail des organisations Reporters sans frontière et Freedom on the Net pour déterminer les pays à risque pour les lecteurs et les rédacteurs. Ces limites misent en place par Wikimedia Foundation impactent de façon très inégale les wikis. La francophonie est peu touchée alors qu'il est difficile d'analyser la consultation de la Wikipedia arabophone étant donné qu'un très grand nombre de pays de la région MENA sont masqués.

Carte des pays dont les données statistiques sont masquées par la Wikimedia Foundation
Pages vues par pays des wikis de Wikimedia Foundation. Les données des pays grisés ne sont pas publiques afin de protéger les internautes.


Contribuer

Wikistats peut également servir à étudier les modifications des wikis. L’outil propose plusieurs données concernant la contribution :

  • nombre de rédacteurs
  • nombre de nouveaux rédacteurs
  • nombre de modifications
  • nombre de nouvelles pages

Le contenu des wikis est regroupé par espace de nom. Les articles encyclopédiques de Wikipedia ne représentent qu’une petite partie du total de pages qui permettent le bon fonctionnement du site (pages de discussions, pages d’aide, pages projets, règles, etc.). Les statistiques peuvent être filtrées par le type de page. Pour n’avoir que les articles encyclopédiques de Wikipedia, il faut décocher Page hors contenu.

rédacteurs actifs est une typologie de rédacteurs : ceux qui font au moins 5 modifications par mois. Une modification pouvant aller de la correction d’une coquille à la rédaction d’un article de plusieurs pages. Le nombre de modifications ne reflète qu’imparfaitement l’activité sur les wikis. D’une part, les modifications intervenues sur une page supprimée ne sont pas prises en compte. D’autre part, certaines interventions sur les wikis ne sont pas comptabilisées, tels que le fait de protéger une page, bloquer un utilisateur, etc.


2.3. XTools

XTools (xtools.wmcloud.org) est une suite d'outils statistiques permettant d'en savoir plus sur un contributeur ou un article.

Cas d'utilisations
Mode d'emploi



2.4. Wikiscan

Wikiscan (wikiscan.org) est un autre outil très utilisé par les contributeurs. Il est surtout utilisé pour consulter des données statistiques, mais il comporte aussi quelques graphiques, dont voici quelques exemples :


2.5. Humaniki – Wikimedia Diversity Dashboard Tool

Humaniki (humaniki.wmcloud.org) est un outil statistiques permettant de suivre l'évolution du biais de genre sur les projets Wikimedia, via trois indicateurs : le biais de genre par pays de citoyenneté, par version linguistique de Wikipedia et par date de naissance.

2.6. Who Wrote That?

Who Wrote That? (documentation) est une extension de navigateur (Firefox et Chrome) qui permet de visualiser les contenus d'un même auteur dans un article Wikipedia, sans avoir à fouiller dans l'historique des révisions. Fin 2023, l'outil fonctionne dans 14 versions linguistiques de Wikipedia. L'outil repose sur une API développée initialement par l'Institut de technologie de Karlsruhe et le GESIS – Leibniz Institute for the Social Sciences.


2.7. Wikimedia Grafana

Wikimedia Grafana (grafana.wikimedia.org) est un outil open source de monitoring informatique orienté data visualisation utilisé par de nombreuses organisations pour l'administration système de leurs sites et leurs serveurs. L'instance Grafana de Wikimedia Foundation est en accès libre.

Ces données techniques destinées à superviser les serveurs peuvent être utiles pour analyser certains pics de consultation car Grafana permet de visualiser plus finement l'audience que l'outil Pageviews qui se contente d'afficher la fréquentation par 24h.

Une autre utilisation possible des données disponibles sur Grafana : la recherche s’intéresse de plus en plus à la question du numérique responsable, notamment en matière d’empreinte écologique. Grafana permet d’avoir accès à la consommation électrique des serveurs de Wikimedia Foundation. Pour comprendre ces données, il faut prendre connaissance de la convention de nommage des datacenters de la Fondation et le rôle de chacun des sites. Le rapport développement durable présente les données et leurs limites.

Exemples :



3. Auto-évaluation des connaissances

4. Ressources supplémentaires

En raison des contraintes liées au droit d'auteur, nous n'avons pas pu inclure certaines infographies dans le cours. Consultez les ressources supplémentaires ci-dessous :