Comment bien décrire ses données avec les métadonnées ?
-
LE SAVIEZ-VOUS ?
Les métadonnées permettent de décrire les données à chaque étape de leur cycle de vie (production, curation, dépôt ...) dans le but de les rendre compréhensibles, faciles à trouver et de préparer leur interopérabilité et leur réutilisation.
OBJECTIF PÉDAGOGIQUE
A l'issue de cette rubrique, vous serez en mesure d'identifier les enjeux des métadonnées, de l’utilisation d’identifiants pérennes et des vocabulaires contrôlés pour les métadonnées.DURÉE
25 minutes -
Les bénéfices des métadonnées
Les métadonnées, lorsqu’elles sont riches, bien adaptées et bien renseignées, vont faciliter la recherche de la ressource décrite et fournir des informations utiles pour sa réutilisation. Elles facilitent la compréhension des données et sont vivement recommandées, voire indispensables, pour les dépôts des jeux de données.
Les métadonnées permettent donc de :
- comprendre l'origine des données et leur contexte de création ou de collecte ;
- améliorer le moissonnage par les machines (moteur de recherche) ;
- garantir l'interopérabilité ;
- connaitre les conditions de réutilisation et de partage des données ;
- fournir des informations très utiles lorsque les données ne peuvent pas être partagées (embargo, accès restreint) ou lors du retrait des données (données obsolètes, etc.).
Les métadonnées qui décrivent un jeu de données doivent donc apporter suffisamment d'éléments (sur la collecte des données, les unités de mesure employées...) pour chercher et trouver le jeu de données, juger de sa qualité/fiabilité, et pouvoir le comprendre ou le réutiliser dans un autre contexte.
La curation des données, c'est à dire la vérification des métadonnées et des fichiers de données déposés, est une étape importante pour la FAIRisation des données.
- comprendre l'origine des données et leur contexte de création ou de collecte ;
-
Les métadonnées
Dans ce diaporama interactif, vous découvrirez ce que sont des métadonnées et à quoi elles servent, la différence entre métadonnées embarquées et enrichies, la différence entre standard et schéma de métadonnées, ou encore l’importance des vocabulaires contrôlés disciplinaires. Des exemples de standards complètent le cours.
Vous pouvez également consulter et télécharger ces ressources DoRANum qui traitent des standards et des formats des métadonnées et proposent des exemples concrets :
-
Les identifiants pérennes dans le cycle de vie des données
C'est au moment du partage des données, lors du dépôt dans un entrepôt, qu'un identifiant pérenne ou PID (Persistent Identifier) est souvent attribué aux données.Dans ce diaporama interactif, vous découvrirez les grands types d’identifiants pérennes et leurs applications avec des exemples, ainsi que l’articulation des différents identifiants pérennes avec les auteurs, institutions, données de recherche et publications.Vous pouvez également consultez ou téléchargez la fiche synthétique DoRANum sur les identifiants pérenne.
_____________________________________________
INRAE propose un service d'attribution de DOI qui fournit un DOI via un formulaire de demande ponctuelle, ou par programme informatique via la mise en place d'une Application programming interface (API) : Attribuer un DOI à un jeu de données -
Vocabulaires pour la gestion des objets numériques
Lorsqu’une communauté scientifique convient de s’accorder sur un langage commun pour les notions qu’elle manipule, les objets numériques qu’elle produit ou qu’elle utilise sont plus faciles à trouver, à interpréter, et à combiner pour de nouveaux usages. L'utilisation de vocabulaire permet donc d'optimiser la FAIRisation de vos données.
Les objets numériques dont nous parlons ici sont les jeux de données, les articles scientifiques, les protocoles, logiciels, images, etc.
- Quels types de vocabulaires et pour quoi faire ?
Plus le vocabulaire est structuré, plus il contient de précision sur ce qu'il décrit et plus il permet aux métadonnées d'être interopérables et compréhensibles des machines sans ambiguïté. Le moissonnage ultérieur de ces dernières sera grandement facilité.
Les vocabulaires sont aussi appelés ressources sémantiques ou artefacts sémantiques. La typologie des vocabulaires s’apparente plus à un continuum qu’à des catégories clairement définies. Voici quelques clés pour s’y retrouver.
- Vocabulaires et métadonnées
Pour que les métadonnées soient compréhensibles par le plus grand nombre et exploitables par les machines, il est recommandé d’utiliser un schéma de métadonnées standard (générique comme DCAT, schema.org et Dublin Core ou spécifique comme EML en écologie et ISA pour les données expérimentales).Pour un élément de métadonnées qualitatif, ses valeurs possibles pour le renseigner peuvent être déclarées à l’aide d’un vocabulaire contrôlé. Dans un formulaire de saisie, l’utilisateur disposera alors d’une liste déroulante ou d’une boîte de recherche.Certains vocabulaires contrôlés correspondent à des normes (ex : ISO 639 pour les langues), d’autres peuvent être des thésaurus (ex : thésaurus INRAE dans HAL-INRAE, ANaEE dans le catalogue ANaEE France sous Geonetwork), des taxonomies (ex : TAXREF dans l’app INPN Espèces, NCBI taxonomy dans GenBank), plus rarement des ontologies (ex : QUDT pour les unités de mesure).
Utiliser un vocabulaire contrôlé représenté à l’aide du modèle SKOS (standard W3C) permettra notamment d’exprimer les valeurs dans différentes langues ou de construire des facettes dans un catalogue ou un entrepôt. En savoir plus sur SKOS.
Si vous concevez ou administrez un système d’information ou une base de données, vous vous êtes peut-être déjà interrogé.e sur la manière d’implémenter des vocabulaires contrôlés. Comme pour les autres types de données, les principes FAIR s’appliquent aux vocabulaires.
- Vocabulaires et principes FAIR
Selon le principe FAIR I2 portant sur l'interopérabilité, les données et les métadonnées utilisent des vocabulaires qui respectent les principes FAIR.
Voici quelques pistes pour l'élaboration d'un vocabulaire FAIR :
-
S’appuyer sur un standard de représentation comme SKOS ou OWL ;
-
Attribuer un identifiant global et pérenne au vocabulaire, à ses versions et aux éléments qui le constituent ;
-
Réutiliser autant que possible des vocabulaires existants ou créer des correspondances (ou alignements) avec des vocabulaires existants ;
-
Documenter la provenance des éléments constituant le vocabulaire et le processus d’élaboration ;
-
Attribuer une licence. Pour les vocabulaires, la licence ouverte Etalab et la CC-BY 4.0 qui sont équivalentes sont recommandées ;
-
Mettre le vocabulaire à disposition dans différents formats et sérialisations ouverts (ex : CSV, XML, JSON) ;
-
Publier le vocabulaire sur au moins un entrepôt dédié (ex : AgroPortal ou OBO Foundry) ou généraliste (ex : Recherche Data Gouv). Les entrepôts dédiés offrent une meilleure visibilité, des métadonnées riches, des web services (API), des fonctionnalités de découverte, d’annotation, d’alignements, etc. qui faciliteront sa réutilisation ;
-
Organiser la maintenance et l’évolution du vocabulaire ainsi que le support aux utilisateurs et utilisatrices.
_____________________________________________
INRAE a mis en place des services autour des vocabulaires ouverts :Trouver, construire et partager les vocabulaires (ontologie, thésaurus, terminologie et autres ressources sémantiques) utiles aux activités de recherche INRAE. Le service Vocabulaires Ouverts vous accompagne et met à disposition des fiches conseil pour répondre aux objectifs de science ouverte en lien avec la sémantique.Les ontologies, thésaurus, et données associées comme les alignements, produits à INRAE sont référencés dans ce dataverse dédié.Le thésaurus INRAE, référentiel thématique couvrant les domaines de recherche INRAE, est un outil pour faciliter l’accès aux objets numériques scientifiques et mettre en œuvre l’interopérabilité des systèmes d’information au sein de notre organisation.
Pour aller plus loin :
- Agroportal : portail des ontologies et des vocabulaires contrôlés dans l'agroalimentaire et les domaines connexes.
- Bioportal : portail des ontologies et des vocabulaires contrôlés dans le domaine biomédical.
- Le MOOC Web sémantique et web de données d'INRIA.
-
Retour d'expérience : créer un vocabulaire contrôlé
Christian Pichot, responsable numérique des infrastructures de recherche AnaEE France et IN SYLVA France partage avec nous son expérience de création d'une ontologie, basée sur l'ontologie OBOE, pour décrire l'ensemble d'une expérimentation scientifique en incluant les données collectées et tout le contexte d'acquisition. L'utilisation d'une ontologie en tant que référentiel commun permet de produire des données interopérables. -
Exemple de standard de métadonnées
Dans le domaine de l'Environnement :DoRANum met à disposition une ressource, un guide composé de 3 parties, qui brosse un panorama des principaux standards de métadonnées dans ce domaine spécifique. -
Voyons ce que vous avez retenu...
-
-
Sources :
- Données de la recherche : apprentissage numérique. France : DoRANum 2020. Parcours interactif sur la gestion des données de la recherche. Disponible : https://doranum.fr/enjeux-benefices/parcours-interactif-sur-la-gestion-des-donnees-de-la-recherche_10_13143_3xnz-as06/
- Fiche synthétique Métadonnées, standards, formats. DoRANum. Disponible sur : https://doi.org/10.13143/vbjs-6288
- Les standards des métadonnées : pourquoi et lequel ? DoRANum. Disponible sur : https://doi.org/10.13143/y5py-w521
- Fiche synthétique Identifiants pérennes. DoRANum. Disponible sur : https://doi.org/10.13143/7gw1-b340
- Vocabulaires et principes FAIR : Hugo, Wim, Le Franc, Yann, Coen, Gerard, Parland-von Essen, Jessica,
& Bonino, Luiz. (2020). D2.5 FAIR Semantics Recommendations Second
Iteration (1.0). Zenodo. https://doi.org/10.5281/zenodo.5362010