Présentation d'outils d'enrichissement des wikis

Site: Callisto Formation
Cours: Corpus et données : comment utiliser les données ouvertes de Wikimedia
Livre: Présentation d'outils d'enrichissement des wikis
Imprimé par: Visiteur anonyme
Date: jeudi 3 avril 2025, 04:21
Dans ce chapitre, nous présentons les principaux outils utilisés pour ajouter des données structurées. D'autres outils permettent d'ajouter des données structurées sur Wikimedia Commons, pour en savoir plus.

 
Documentation Outil

 

QuickStatements (quickstatements.toolforge.org) est l'un des outils les plus utilisés pour faire des contributions semi-automatisées sur Wikidata. QuickStatements permet de modifier une seule déclaration ou plusieurs milliers par lot. 

L'outil peut ajouter et supprimer des déclarations, des libellés, des descriptions et des alias ; ainsi qu’ajouter des déclarations avec des qualificatifs et des références. La séquence de commandes peut être saisie dans la fenêtre d'importation ou créée dans une feuille de calcul ou d'un éditeur de texte, puis collée. Les données éditées dans le logiciel OpenRefine peuvent également être exportées au format QuickStatements. 
 

L’utilisation de Quickstatements nécessite le statut d’utilisateur autoconfirmé. Le statut s’obtient automatiquement dès que le compte a été créé il y a plus de quatre jours et que vous avez effectué au moins 50 modifications sur Wikidata. Si vous voulez créer ou modifier un très gros volume de données ou si ces modifications peuvent être controversées, vous devez en plus respecter la procédure d’approbation des robots.

Puisque le logiciel bénéficie d'une documentation très riche, nous vous invitons à la consulter et nous contenterons de présenter les cas d'usage et quelques exemples.

Cas d'utilisation
  • Faire de nombreuses modifications de manière semi-automatique
Exemples
Mode d'emploi

 




 


Documentation Outil Exemples

EditGroups (editgroups.toolforge.org) est un outil permettant de discuter des modifications par lot de Wikidata et de les annuler facilement si besoin.

EditGroups gère différents outils de modifications semi-automatisées, tels que HarvestTemplates, OpenRefine ou QuickStatements. Chaque groupe de modifications se voit attribué un identifiant unique et une page sur l'outil EditGroups. Une page de discussion peut également être associée au lot.


Mode d'emploi



Documentation Outil

 

Mix’n’match (mix-n-match.toolforge.org) est un outil d’alignement d’une base de données avec Wikidata. Cela consiste en l’import de la base de données dans Mix’n’match puis l’outil va proposer des pré-associations à valider. Outil en ligne qui permet de se partager le travail d’alignement entre plusieurs contributeurs.

Cas d'utilisation
  • Un énorme catalogue que vous ne pouvez pas aligner seul
  • Utiliser les fonctionnalités d'alignement automatique de l'outil
 
Exemples de catalogues
 
Mode d'emploi

Plusieurs modes sont présentés : par défaut, outil visuel, recherche dans un catalogue, recherche dans tous les catalogues.

OpenRefine est un véritable couteau suisse pour le traitement des données. Le logiciel permet de préparer, nettoyer, et enrichir des données à l'aide de fonctionnalités avancées tout en conservant de l’historique des modifications réalisées. Il permet notamment de corriger les erreurs (casse, formats des dates, données redondantes, espaces en trop…) et d'enrichir un jeu de données avec des données ouvertes. L'extraction de l'historique des opérations peut également servir pour refaire les traitement sur un autre jeu de données similaires.

OpenRefine est notamment utilisé pour compléter un jeu de données à l'aide d'informations provenant de Wikidata ou à l'inverse, compléter Wikidata à l'aide de données externes.


Interface d'OpenRefine
Copie d'écran de l'interface d'OpenRefine


Exemples


Mode d'emploi

Deux possibilités d'utiliser OpenRefine :

  • Il est également possible d'utiliser OpenRefine via un bloc-notes Jupyter de Wikimedia Foundation. Connectez-vous à l’aide de votre compte Wikimedia. Tous les fichiers stockés sur PAWS sont accessibles publiquement.

L'outil bénéficie d'un très grand nombre de supports de formation. Par exemple, voici trois vidéos d'Antonin Delpeuch (lancez la lecture de la vidéo, puis sélectionnez la 3e icône pour afficher les sous-titres en français) :

Tutoriel vidéo
Plan
Partie 1. Importer les données et aligner les films

Apprenez à aligner les films non seulement sur la base de leur titre, mais aussi de leur réalisateur. Découvrez comment valider a posteriori la qualité des résultats de réconciliation en comparant les attributs tels que la date de sortie des films :

  • Création d'un projet OpenRefine
  • Import de données de la base de données des lieux de tournages à Paris dans OpenRefine
  • Réconciliation des films avec les éléments Wikidata
  • Utilisation des facettes pour filtrer le contenu de la base de données
  • Vérification de la qualité de l'alignement
  • Expressions régulières en GREL
Partie 2. Nettoyer et aligner les lieux

Apprenez à extraire des noms de rues à partir d'adresses et à les réconcilier en utilisant leurs coordonnées géographique :

  • Extraction des noms de rues des adresses
  • Réconciliation avec Wikidata
  • Expressions régulières
Partie 3. Créer les déclarations et les publier

Formatez vos données en déclarations riches et publiez-les sur Wikidata directement depuis OpenRefine :

  • Transformation du tableau en déclarations Wikidata
  • Présentation des schémas
  • Import des données dans Wikidata
  • Annulation de l’ensemble des modifications à l’aide de l’outil EditGroups.
Objet de Wikimedia Commons

L'objectif de Wikimedia Commons (commons.wikimedia.org) est de fournir un dépôt de fichiers multimédia :

  • mettant à disposition de tous des fichiers éducatifs appartenant au domaine public ou sous licence libre ;
  • agissant comme un dépôt commun à tous les projets de Wikimedia Foundation.

Le terme « éducatif » doit être compris avec le sens « qui apporte une connaissance ; qui instruit ou informe ». En novembre 2023, la médiathèque a dépassé le seuil des 100 millions de fichiers librement réutilisables. Pour qu'un fichier soit considéré comme étant sous licence libre, le détenteur des droits doit avoir placé le fichier sous une licence qui :

  • autorise la réutilisation pour n'importe quel but (y compris dans un but commercial),
  • autorise la création d'œuvres dérivées.
La taille limite des fichiers est de 100 Mo ou 5 Go selon la technique d'import utilisée.
Formats de fichiers acceptés
Les formats de fichiers sur lesquels portent des brevets ne sont pas acceptés sur Wikimedia Commons. Les formats acceptés sont :
  • Images : GIF, JPEG, PNG, SVG, TIFF, WebP et XCF
  • Audio : FLAC, MIDI, MP3, Ogg, Wav et WebM
  • Vidéo : MPEG-1, MPEG-2, Ogg et WebM
  • Texte : DjVu et PDF
  • 3D : STL
Compte utilisateur
Il faut obligatoirement un compte pour importer des fichiers. Si vous avez déjà un compte utilisateur sur un des wikis de Wikimedia Foundation, pas besoin d'en créer un nouveau, il fonctionne sur Wikipedia et Wikimedia Commons. Dans le cas contraire, voici le formulaire pour créer un compte.

Copie d'écran du formulaire de création d'un compte utilisateur Wikimedia.


Méthodes d'import de fichiers
Il existe plusieurs méthodes pour importer des fichiers sur Wikimedia Commons.

  • Wikipedia : il est possible d'importer une par une des photos directement depuis Wikipédia à condition d'être l'auteur des photos. Les fichiers sont stockés sur Wikimedia Commons. Pour importer des fichiers, cliquez sur l'onglet Modifier, puis dans le menu Insérer, sélectionnez Images et médias et ouvrez l'onglet Téléverser.

  • Wikimedia Commons : l'assistant d'import (Upload Wizard) est conseillé pour importer des photos qui ne sont pas de vous ou un lot de plusieurs dizaines de fichiers.

  • Pattypan : un logiciel, à installer sur l'ordinateur, qui permet d'importer un grand nombre de fichiers. Il permet également d'utiliser un autre modèle de métadonnées, par exemple : {{Artwork}}, {{Photograph}}, {{Book}} ou {{Maps}}.

  • API : l'API permet le téléchargement d'un fichier sur l'ordinateur, ou directement via une URL si le nom de domaine figure dans MediaWiki:Copyupload-allowed-domains. L'API prend également en charge le téléchargement d'un fichier par morceaux en cas de très grande taille.

  • D’autres outils sont mentionnés sur cette page.


Réutiliser un fichier



Pour en savoir plus
  • Un support de formation pour découvrir comment partager des photos et vidéos sur Wikimedia Commons. La dernière version est téléchargeable sur Zenodo.
  • Un support de formation sur le droit d'auteur et les licences ouvertes.La dernière version est téléchargeable sur Zenodo.



Dans la suite de ce chapitre, nous présentons en détail les trois premières méthodes d'import de fichiers.
Il est possible de verser un fichier directement depuis Wikipedia.

Cas d'utilisation
  • Verser un seul fichier fait par vous
  • Ne pas avoir à changer la licence par défaut (CC-BY-SA-4.0)
  • Ne pas vouloir changer le modèle de métadonnées
Mode d'emploi





Dans les autres cas, il faut utiliser le formulaire de Wikimedia Commons, qui fait l'objet d'une présentation dans le chapitre suivant.

L’assistant d'import de Wikimedia Commons (Special:UploadWizard) est la méthode à privilégier pour importer des fichiers sur Wikimedia Commons. Pour verser des fichiers, il faut impérativement avoir un compte.

Cas d'utilisation
  • Verser quelques fichiers à la fois (moins d'une centaine par lot). Le navigateur peut planter à partir d'un grand nombre de fichiers versés d'un seul coup.
  • Très pratique si les métadonnées sont identiques.
  • Permet de choisir une licence libre ou indiquer pourquoi l'œuvre est dans le domaine public.
  • Permet d'indiquer un autre auteur que soi
Mode d'emploi



Documentation Outil
 
Pattypan est un logiciel permettant l'import de fichiers par lot sur Wikimedia Commons.
 

Le logiciel permet d'importer les fichiers ayant les extensions suivantes : png, gif, jpg, jpeg, tiff, tif, xcf, svg, wav et ogg.

 
Wikimedia Commons a différent modèles de notices, selon qu'il s'agisse d'une photographie standard d'une photographie provenant d'une institution culturelle, d'une reproduction d'oeuvre d'art, etc. Pattypan permet de spécifier le modèle de notices, par exemple {{Artwork}}, {{Information}} ou {{Photograph}}, puis de sélectionner les champs descriptifs à remplir.
 
Pattypan est un logiciel open source écrit en Java. Il utilise Java Runtime Environment (JRE) qui peut être téléchargé gratuitement sur la plupart des plateformes (Windows, Linux, Mac). Son installation nécessite des privilèges d'administrateur sur votre système. Le logiciel requiert Java 11 ou supérieur pour fonctionner.
 
L'Agence bibliographique de l'enseignement supérieur (Abes) encourage les membres du réseau Calames (Catalogue accessible en Ligne des Archives et Manuscrits de l'Enseignement supérieur) a mettre en ligne des fichiers images ou audios de documents numérisés dans Wikimédia Commons. Pour cela, l'Abes a financé le développement d'un exécutable pour Windows. Et dans le cadre du dispositif de formation continue J.e-cours de l'Abes, Étienne Naddeo et Sonia Salami ont présenté comment importer à l'aide de Pattypan des images de documents numérisés accompagnées de métadonnées exportées depuis Calames. La captation vidéo et les supports de formation sont disponibles sur la plateforme d'autoformation de l'agence.
 
Cas d'utilisation
  • besoin d’importer de nombreux fichiers (quelques dizaines à quelques milliers),
  • si les métadonnées sont stockées dans un tableur.
Exemples
 
Mode d'emploi