OpenRefine est un véritable couteau suisse pour le traitement des données. Le logiciel permet de préparer, nettoyer, et enrichir des données à l'aide de fonctionnalités avancées tout en conservant de l’historique des modifications réalisées. Il permet notamment de corriger les erreurs (casse, formats des dates, données redondantes, espaces en trop…) et d'enrichir un jeu de données avec des données ouvertes. L'extraction de l'historique des opérations peut également servir pour refaire les traitement sur un autre jeu de données similaires.

OpenRefine est notamment utilisé pour compléter un jeu de données à l'aide d'informations provenant de Wikidata ou à l'inverse, compléter Wikidata à l'aide de données externes.


Interface d'OpenRefine
Copie d'écran de l'interface d'OpenRefine


Exemples


Mode d'emploi

Deux possibilités d'utiliser OpenRefine :

  • Il est également possible d'utiliser OpenRefine via un bloc-notes Jupyter de Wikimedia Foundation. Connectez-vous à l’aide de votre compte Wikimedia. Tous les fichiers stockés sur PAWS sont accessibles publiquement.

L'outil bénéficie d'un très grand nombre de supports de formation. Par exemple, voici trois vidéos d'Antonin Delpeuch (lancez la lecture de la vidéo, puis sélectionnez la 3e icône pour afficher les sous-titres en français) :

Tutoriel vidéo
Plan
Partie 1. Importer les données et aligner les films

Apprenez à aligner les films non seulement sur la base de leur titre, mais aussi de leur réalisateur. Découvrez comment valider a posteriori la qualité des résultats de réconciliation en comparant les attributs tels que la date de sortie des films :

  • Création d'un projet OpenRefine
  • Import de données de la base de données des lieux de tournages à Paris dans OpenRefine
  • Réconciliation des films avec les éléments Wikidata
  • Utilisation des facettes pour filtrer le contenu de la base de données
  • Vérification de la qualité de l'alignement
  • Expressions régulières en GREL
Partie 2. Nettoyer et aligner les lieux

Apprenez à extraire des noms de rues à partir d'adresses et à les réconcilier en utilisant leurs coordonnées géographique :

  • Extraction des noms de rues des adresses
  • Réconciliation avec Wikidata
  • Expressions régulières
Partie 3. Créer les déclarations et les publier

Formatez vos données en déclarations riches et publiez-les sur Wikidata directement depuis OpenRefine :

  • Transformation du tableau en déclarations Wikidata
  • Présentation des schémas
  • Import des données dans Wikidata
  • Annulation de l’ensemble des modifications à l’aide de l’outil EditGroups.