Présentation d'outils d'enrichissement des wikis
OpenRefine est un véritable couteau suisse pour le traitement des données. Le logiciel permet de préparer, nettoyer, et enrichir des données à l'aide de fonctionnalités avancées tout en conservant de l’historique des modifications réalisées. Il permet notamment de corriger les erreurs (casse, formats des dates, données redondantes, espaces en trop…) et d'enrichir un jeu de données avec des données ouvertes. L'extraction de l'historique des opérations peut également servir pour refaire les traitement sur un autre jeu de données similaires.
OpenRefine est notamment utilisé pour compléter un jeu de données à l'aide d'informations provenant de Wikidata ou à l'inverse, compléter Wikidata à l'aide de données externes.

Exemples
Mode d'emploi
Deux possibilités d'utiliser OpenRefine :
- via votre ordinateur en téléchargeant la dernière version stable sur https://openrefine.org/download.html.
- Il est également possible d'utiliser OpenRefine via un bloc-notes Jupyter de Wikimedia Foundation. Connectez-vous à l’aide de votre compte Wikimedia. Tous les fichiers stockés sur PAWS sont accessibles publiquement.
L'outil bénéficie d'un très grand nombre de supports de formation. Par exemple, voici trois vidéos d'Antonin Delpeuch (lancez la lecture de la vidéo, puis sélectionnez la 3e icône pour afficher les sous-titres en français) :
Tutoriel vidéo |
Plan |
---|---|
Partie 1. Importer les données et aligner les films |
Apprenez à aligner les films non seulement sur la base de leur titre, mais aussi de leur réalisateur. Découvrez comment valider a posteriori la qualité des résultats de réconciliation en comparant les attributs tels que la date de sortie des films :
|
Partie 2. Nettoyer et aligner les lieux |
Apprenez à extraire des noms de rues à partir d'adresses et à les réconcilier en utilisant leurs coordonnées géographique :
|
Partie 3. Créer les déclarations et les publier |
Formatez vos données en déclarations riches et publiez-les sur Wikidata directement depuis OpenRefine :
|