2. Sources de données

Wikimedia Foundation met à disposition un très grand nombre de données, dès lors qu'elles respectent la vie privée des personnes qui consultent et rédigent les projets Wikimedia.


Les jeux de données sont en accès libre et publiés sous licence libre sur dumps.wikimedia.org. Une liste détaillée peut être consultée sur Research:Data. En outre, les chercheurs peuvent accéder à certaines données non-publiques sous réserve de la signature d'un accord de non-divulgation (NDA).

Il est également possible de trouver des données des projets Wikimedia déposées par des chercheurs sur des entrepôts de données. Nous listons les principaux ci-dessous :



Logo de Zenodo

Zenodo (CERN)


Logo de Figshare

Figshare (Springer)


Logo de Dimensions

Dimensions (Springer)



Logo Academic Torrents

Academic Torrents (Institute for Reproducible Research)



Que peut-on trouver dans ces données ouvertes ? La suite de ce chapitre présente les données regroupées en 3 grandes catégories : données de consultation, corpus et métadonnées.