3. Données de consultation
3.2. Consultation des médias
Wikimedia héberge plus de 100 millions de fichiers, principalement des images fixes, mais également des textes, des fichiers audio et un peu de vidéos. Exemples de contenus provenant de l'enseignement supérieur et la recherche :
Plusieurs méthodes permettent de mesure la consultation des images. Il est tout d'abord possible d'obtenir le nombre de requêtes des fichiers ou bien de mesurer le nombre de vues des pages illustrées par des fichiers. Voici un comparatif des données disponibles :
Données de consultation des médias
Données |
Mesure | Filtrage du trafic |
Granularité des données |
Début de mesure |
Méthode |
---|---|---|---|---|---|
PageViews | Tous les fichiers |
|
Jour | 2015 |
|
MediaRequests | Tous les fichiers |
|
Jour | 2015 |
|
Commons Impact Metrics |
Collection préalablement signalée |
|
Mois | Date de signalement |
|
Le sous-chapitre précédent intitulé « Consultation des pages » présente les différents types d’agent utilisateur (utilisateur, robot d'indexation, trafic automatisé).
Plusieurs outils ont été mis en place afin de ne pas avoir à utiliser directement les API ou les dumps. Il n'y a pas encore d'outil pour le nouveau jeu de données, Commons Impact Metrics, mis en place en 2024.
Outils de mesure de la consultation des médias
Outil | Description | Données | Url |
---|---|---|---|
MediaViews | Comparaison des requêtes de médias entre plusieurs fichiers (10 fichiers max) | MediaRequests |
pageviews.wmcloud.org/mediaviews |
Media Views in Category |
Nombre de requêtes des fichiers d'une catégorie et ses sous-catégories (500 fichiers max) |
MediaRequests | mvc.toolforge.org |
BaGLAMa |
Nombre de vues mensuelles à partir d'une liste prédéterminée |
PageViews |
glamtools.toolforge.org/baglama2 |
GLAMorgan | Nombre de vues mensuelles d'une catégorie et ses sous-catégories (30 000 fichiers max) |
PageViews | glamtools.toolforge.org/glamorgan.html |
GLAM Wiki Dashboard |
Tableau de bord pour les collections institutionnelles |
PageViews |
glamwikidashboard.wmcloud.org |
Commons Impact Metrics
Depuis 2024, Wikimedia Foundation propose un nouveau jeu de données afin de mesurer la consultation des fichiers. Pour des questions de performance, il faut préalablement demander l'ajout d'une collection afin que Wikimedia Foundation réalise les calculs une fois par mois. Une collection prend la forme d'une catégorie (ou d'une catégorie et ses sous-catégories) regroupant les fichiers à suivre. Voici la liste des statistiques générées chaque mois et la méthode pour faire une demande d'ajout à la liste. Une fois que la collection est ajoutée à la liste, il faut attendre qu'un nouveau jeu de donnée soit publié. Les données sont accessibles via API ou dumps. Il est possible de tester l'API via ce bac à sable.
Quelques caractéristiques et limites sont à avoir à l'esprit lors de l'utilisation de ces données :
- Monthly drift. Contrairement à MediaRequests, les données provenant de PageViews et Commons Impact Metrics ne prennent en compte la date d'ajout d'un fichier dans une page. Si un fichier est ajouté le 20 du mois, le trafic de l'ensemble du mois sera pris en compte. Wikimedia Foundation nomme ce problème "monthly drift".
- Pages d'accueil. À la différence de PageViews et MediaRequests, le trafic des pages d'accueil n'est pas pris en compte dans les données Commons Impact Metrics. Cela réduit le problème évoqué au point précédent.
- Plusieurs images par article. Si un article contient plusieurs images de la collection, la consultation de l'article ne sera comptabilisée qu'une seule fois.
- Modèles. Des illustrations sont insérées dans des messages placés sur plusieurs pages. Exemple : la palette Gouvernement Jospin est une boîte déroulante placée en pied de page de 44 articles dont certains sont très consultés. Cela gonfle les statistiques de la collection INRA de plusieurs centaines de milliers de vues.
- Sous-catégories : le rangement des fichiers dans des catégories et sous-catégories n'est pas parfait. Il n'est pas rare que des sous-catégories éloignées de la catégorie initiale comportent des fichiers n'appartenant pas à la collection. La profondeur de l'arbre est limitée à 7 niveaux, mais le paramètre
deep
doit être utilisé avec précaution.
API
Description | Paramètre |
Réponse |
---|---|---|
Indicateurs d'une collection : nombre de fichiers, fichiers utilisés, nombre de pages, nombre de wikis. category-metrics-snapshot |
category
|
timestamp
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/category-metrics-snapshot/Gallica/20240101/20240501 | ||
Nombre de modifications par mois pour une collection donnée. edits-per-category-monthly |
category
|
edit-count
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/edits-per-category-monthly/Gallica/deep/all-edit-types/20240101/20240501 | ||
Total du nombre de pages vues par mois pour une collection donnée. pageviews-per-category-monthly |
category
|
timestamp
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/pageviews-per-category-monthly/Gallica/deep/fr.wikipedia/20240101/20240501 | ||
Classement des wikis les plus consultés pour une collection donnée. top-wikis-per-category-monthly |
category
|
wiki
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-wikis-per-category-monthly/Gallica/deep/2024/05 | ||
Classement des pages les plus consultées pour une collection donnée. top-pages-per-category-monthly |
category
|
page-title
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-pages-per-category-monthly/Gallica/deep/fr.wikipedia/2024/05 | ||
Classement des contributeurs ayant le plus de modifications pour une collection donnée. top-editors-monthly |
category
|
user-name
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-editors-monthly/Gallica/deep/all-edit-types/2024/05 | ||
Indicateurs d'une collection : nombre de pages, nombre de wikis. media-file-metrics-snapshot |
media-file |
timestamp
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/media-file-metrics-snapshot/Dvorak.jpg/20240101/20240501 | ||
Nombre de vues pour un fichier donné. pageviews-per-media-file-monthly |
media-file
|
timestamp
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/pageviews-per-media-file-monthly/Dvorak.jpg/fr.wikipedia/20240101/20240501 | ||
Classement des fichiers les plus consultés. top-viewed-media-files-monthly |
category
|
media-file
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-viewed-media-files-monthly/Gallica/deep/all-wikis/2024/05 | ||
Classement des wikis les plus consultés pour un fichier donné. top-wikis-per-media-file-monthly |
media-file
|
wiki
|
Exemple : http://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-wikis-per-media-file-monthly/Dvorak.jpg/2024/05 | ||
Classement des pages les plus consultées pour un fichier donné. top-pages-per-media-file-monthly |
media-file wiki
year month
|
page-title
|
Exemple : https://wikimedia.org/api/rest_v1/metrics/commons-analytics/top-pages-per-media-file-monthly/Dvorak.jpg/fr.wikipedia/2024/05 |
Paramètres de la requête
category
: nom d'une catégorie de Wikimedia Commons figurant dans la liste blanchecategory-scope
: la catégorie uniquement (shallow
) ou la catégorie et ses sous-catégories (deep
). La profondeur de l'arbre est limitée à 7 niveaux.edit-type
: type de modification : création (create
), mise à jour (update
) ou les deux (all-edit-types
)media-file
: nom d'un fichier se trouvant dans les collections de la liste blanche (sansFile:
, avec extension)user-name
: nom d'utilisateurwiki
: un seul wiki (ex.fr.wikipedia
,fr.wikisource
) ou tous les wikis (all-wikis
)start
: premier mois (formatYYYYMM01
)end
: dernier mois (formatYYYYMM01
)month
: mois (formatMM
)year
: année (formatYYYY
)
Réponses de la requête
-
edit-count
: nombre de modification d'un contributeur ou des fichiers appartenant à une collection. -
media-file-count
: nombre de fichiers de la collection (catégorie principale uniquement). -
media-file-count-deep
: nombre de fichiers de la collection (catégorie principale et ses sous-catégories). -
used-media-file-count
: nombre de fichiers de la collection (catégorie principale uniquement) réutilisés. -
used-media-file-count-deep
: nombre de fichiers de la collection (catégorie principale et ses sous-catégories) réutilisés. -
leveraging-wiki-count
: nombre de wikis réutilisant les fichiers de la collection (catégorie principale uniquement). -
leveraging-wiki-count-deep
: nombre de wikis réutilisant les fichiers de la collection (catégorie principale et ses sous-catégories). -
leveraging-page-count
: nombre de pages réutilisant les fichiers de la collection (catégorie uniquement). -
leveraging-page-count-deep
: nombre de pages réutilisant les fichiers de la collection (catégorie principale et ses sous-catégories). -
page-title
: titre des pages réutilisant des fichiers de la collection (limité à l'espace de nom principal : namespace=0). -
pageview-count
: nombre de vues des pages.