Résumé de section
-
Objectifs :
- appréhender l'enjeu des standards de métadonnées partagées dans une communauté de recherche,
- comprendre l'enjeu d'accompagner ses données par des métadonnées, lisibles par des humains et des machines.
15 minutes de lecture
-
Métadonnées
Les métadonnées, que l’on peut définir simplement comme « des données sur les données », sont un moyen de nommer les choses et de représenter les données et leurs relations.
-
Donnée qui renseigne sur la nature d’autres données et qui permet ainsi leur utilisation pertinente. Dans la perspective des entrepôts de données, les métadonnées sont un élément primordial et sont destinées à diverses catégories d’utilisateurs. Elles permettent notamment de connaître l’origine et la nature des données stockées dans l’entrepôt, de comprendre comment elles sont structurées, de savoir comment y avoir accès et comment les interpréter, de connaître les différents modèles de données en présence et les règles de gestion de ces données. Certaines métadonnées sont générées dès la création des données, automatiquement ou manuellement. Il est recommandé de fournir les métadonnées le plus rapidement possible après la création des données.
-
La question de l'interopérabilité
Les métadonnées doivent être interopérables pour permettre à d’autres systèmes de les exploiter. Pour cela elles doivent respecter certains standards. De nombreux modèles existent pour être sûr de ne pas oublier des informations importantes et de remplir correctement chaque champ.Il est à noter que de plus en plus d'entrepôts recommandent lors du dépôt la mise à disposition des données, des métadonnées, du code et de la documentation (fichier readme). Dans le cas d’un dépôt sur Recherche data gouv par exemple, un fichier readme vous sera nécessairement demandé, dans lequel vous devrez renseigner un certain nombre d'informations sur la réutilisation des données.
-
Nomenclature et bonnes pratiques
Il est important de structurer le plus possible le jeu de données déposé afin de faciliter sa réutilisation. Les noms des fichiers doivent être le plus explicite possible pour permettre aux autres utilisateurs d'identifier la nature de chaque fichier à partir de son nom. Pour cela il est recommandé de développer une nomenclature claire et explicite, comme par exemple :Parfois seules les métadonnées sont accessibles. On a pu voir que dans certaines communautés, elles étaient développées selon des standards (Darwin Core), comme pour GBIF par exemple. La documentation sert la qualité des données.
Les métadonnées doivent être interopérables pour permettre à d’autres systèmes de les exploiter. Pour cela elles doivent respecter certains standards. De nombreux modèles existent pour être sûr de ne pas oublier des informations importantes et de remplir correctement chaque champ.
-
Choisir des standards de métadonnées
Format et standard
Comme nous l'avons vu il existe une grande diversité de standards de métadonnées, il n'est donc pas toujours évident de savoir comment choisir un modèle plutôt qu'un autre. Pour cela posez-vous les questions suivantes :- Quelle description des données est généralement attendue dans votre discipline ?
- Existe-t-il un standard dans votre discipline ? Vous pouvez consulter les listes de standards proposées par Digital Curation Centre, FAIRsharing, ou encore Github : Research Data Alliance. S'il n'existe pas d'exemples dans votre discipline, le plus simple est de vous référer au standard Dublin Core .
- Quels logiciels, procédures ou outils fournissent automatiquement des métadonnées dans votre protocole de recherche ?
Les métadonnées participent à ce que l'on appelle le web des données : lisibles par les humains (fichier readme.txt) et par les machines (métadonnées embarquées, c'est à dire automatiquement générées). -
Exemple de standard de métadonnées créé par une communauté scientifique
Document, Discover and Interoperate (DDI)
La Data Documentation Initiative (DDI) est une norme internationale pour décrire les données produites par les enquêtes et d’autres méthodes d’observation dans les sciences sociales, comportementales, économiques et de la santé. La DDI est une norme gratuite qui peut documenter et gérer différentes étapes du cycle de vie des données de la recherche, comme la conceptualisation, la collecte, le traitement, la distribution, la découverte et l’archivage. La documentation des données avec la DDI facilite la compréhension, l’interprétation et l’utilisation -- par les personnes, les systèmes logiciels et les réseaux informatiques.
-
Source : Tuto@Mate, Danciu et Mairot,ressource : https://doi.org/10.5281/zenodo.4309815
La spécification DDI, écrite en XML, fournit un format pour le contenu, l’échange, et la conservation des informations liées à une étude, ses résultats et les données de l’étude elles-mêmes.
Depuis 1995, des membres de diverses institutions se réunissent pour développer ce standard. N'hésitez pas à consulter la page Wikipédia dédiée à ce standard pour en savoir plus.
-
Exemple de standard de métadonnées embarquées
Exchangeable image file format (EXIF)
EXIF est un format de fichier pour les images, utilisé par les appareils photographiques numériques, qui permet de décrire la nature d’autres données pour une réutilisation pertinente, (qui, quand, où, comment, pourquoi) par exemple :
- auteur,
- origine,
- nature,
- structuration,
- modèles,
- règles.
Il permet de renseigner manuellement ou automatiquement les métadonnées (carte d’identité des données, ressources, documents…) afin de faciliter la recherche d'informations, la réutilisation et l'identification des données pour les créateurs ou encore des tiers.
Par exemple, une suite de chiffres dans un tableau devient incompréhensible si l’on ne sait pas à quoi correspondent les abscisses et les ordonnées, dans quel but le tableau a été créé et à quelle date. Quand vous créez des métadonnées, vous documentez vos données, ce qui vous permet de :- retrouver et réutiliser facilement vos propres données ;
- découvrir, évaluer, et réutiliser les données produites par d’autres ;
- aider les autres à découvrir, reproduire, réutiliser, et citer vos données ;
- faciliter la préservation des données numériques, alors que les logiciels et les formats ne cessent d’évoluer au fil du temps.
La description de ces données permet de donner plus d'informations sur:- le contenu intellectuel : titre, résumé, domaine de recherche, mots-clés, type de ressource ;
- le contexte de production : date, créateur, projet, financeur, procédés de création ;
- les caractéristiques techniques des fichiers et des données : formats, taille, organisation ;
- les propriétés et droits d’usage : détenteurs des droits, conditions d’accès, conditions de partage, conditions d’usage, outils spécifiques pour accéder ou lire les données.
-
Diffusions et restrictions
Il est possible de donner un accès libre aux métadonnées et un accès conditionné aux données, cependant le caractère de ces données peut conditionner ses modalités d'accès. Vous pouvez consulter le logigramme "Où publier vos données?" réalisé par Recherche Data Gouv ou la ressources "Ouverture des données : ... aussi ouvert que possible ... aussi fermé que nécessaire".
Nous vous recommandons fortement de vous rapprocher de votre DPO ou du service valorisation de votre université si des restrictions peuvent s’appliquer à la diffusion des données de vos recherches. Le droit appliqué aux données de recherche étant un sujet à part entière, nous n'aborderons pas ce point dans ce cours.
-
Une fois que vous avez choisi votre revue et préparé vos données, reste l'étape finale de la soumission à la revue. Nous allons voir dans la partie suivante les points clés de cette procédure.
Votre progression : 80 %