Résumé de section

  • Dans le cadre du mouvement de l’Open Science, la question de la gestion et du partage des données de la recherche devient centrale dans le montage de projets de recherche. De plus en plus d’organismes de financement public conditionnent le versement de leurs subventions à la diffusion de ces données. Afin d'y répondre, les porteurs de projets doivent réaliser des plans de gestion de données.

    Cette formation vise ainsi à fournir des éléments méthodologiques, techniques et juridiques afin d’adopter de bonnes pratiques dans le cadre de la gestion de données de la recherche : 

    • Comprendre les enjeux liés à la gestion et à la diffusion des données de la recherche 
    • Comprendre les principes de la gestion des données de la recherche 
    • Acquérir les bases pour l’élaboration d’un plan de gestion de données 
    • Utiliser l’outil DMP OPIDor afin de rédiger un plan de gestion de données

    Ce cours est en libre accès !

    Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

    Pour participer à certaines activités (test, forum...), vous pouvez vous inscrire au cours.

    S'inscrire au cours

    • Auteur(s) / Formateur(s): Chloée Fabre - SCD UT2J
      Production cours: Lucas Ricroch - Urfist Paris
      Date de publication: 21 décembre 2021
      Mise à jour: 2 mars 2024
      Durée estimée: 2 heures
      Licence: CC BY-NC-SA
      Citation: Fabre, C. (2023). Gestion et diffusion des données de la recherche (Version 2). Callisto
      DOI: doi.org/10.60538/GESTION-DIFFUSION-DONNEES-RECHERCHE
      Open badge: Non
      Nombre d'inscrits: 26
      Catalogue: Oui
      Thématique: Science Ouverte, Données de la recherche
      Durée: Format long (> 1h30)
      Type d'accès: Libre accès, Auto-inscription
      Partenaire: Centre de ressources Urfist
      Langue: Français

    • Qu’est-ce qu’une donnée de la recherche ?

      Il existe de nombreuses définitions des données de la recherche. Cette présentation vous en dresse un rapide historique :

      Il est encore difficile de donner une définition canonique des données de la recherche. Il n'existe pas de consensus réelle, elle peut ainsi varier en fonction des agences de financement ou encore des domaines disciplinaires. Cependant, il est possible de retenir des critères qui sont présents dans l'ensemble des définitions :

      • ensemble d’informations factuelles ;
      • produites ou collectées ;
      • au cours d’un processus de recherche.

      Les données de recherche peuvent être :

      • produites : données créées, générées dans le cadre d'un projet de recherche (enquêtes, relevés,…) ;
      • collectées : données pré-existantes (corpus, archives…) qui sont ré-utilisées dans un nouveau projet de recherche.

      Nature des données

      Typologie des données

      Une attention particulière doit être portée aux :

    • Les données de la recherche : quels enjeux ?

      De nouvelles exigences et opportunités pour le chercheur
      • Le 2ème Plan National pour la Science Ouverte se déploie selon 4 axes. Le deuxième, qui concerne les données, oblige notamment les projets financés sur fonds publics à diffuser ouvertement leurs données selon le principe "aussi ouvert que possible, aussi fermé que nécessaire" et les plan de gestion de données sont généralisés.
      • Le partage des données peut être une condition pour l’obtention du financement de projets scientifiques. Par exemple, pour obtenir un financement dans le cadre d’Horizon Europe, il est nécessaire de rédiger un plan de gestion des données et de diffuser à minima les métadonnées inhérentes aux données générées dans son projet.
      • Pour la publication d’un article, certains éditeurs recommandent, voire exigent, l’accès aux données. Par exemple, l’éditeur PLOS ONE oblige les auteurs d’un article à rendre accessibles toutes les données sous-jacentes aux résultats rapportés dans l’article soumis.
      • Les chercheurs peuvent mieux promouvoir leurs recherches et être cités, car les données rentrent dans le processus d’édition scientifique (dépôt de données, publication de data papers).

      De nouvelles perspectives pour la science
      • Rendre ses données disponibles offre une meilleure garantie contre la fraude scientifique.
      • Partager ses données nécessite d’adopter de bonnes pratiques de gestion des données (décrire les données, les documenter, les pérenniser…) ce qui améliore la qualité du travail de recherche.
      • Le coût engendré par la création, la collecte, le traitement des données peut être très élevé. Réutiliser des données déjà existantes plutôt que de les recréer permet de rentabiliser la recherche, d’accélérer l’innovation et le retour sur investissement dans la Recherche et Développement.
      • La constitution de bases de données permet la fouille de données (Text Data Mining), de les extraire, de les recouper et d’en construire des visualisations. Ces nouveaux procédés facilitent l’initiative de nouvelles recherches et leur interdisciplinarité.
      • Le déluge des données numériques (Big Data) impacte la manière de faire de la recherche scientifique. On parle de Data Driven Science, une démarche qui automatise les découvertes en exploitant la puissance des ordinateurs pour trouver des corrélations parmi de grandes quantités de données.

      Un meilleur retour pour la société
      • Les recherches financées par l’argent public doivent pouvoir bénéficier à tous : ouvrir les données rend la recherche plus transparente, renforce la confiance des citoyens et leur permet de s’impliquer (dans le cadre des sciences participatives par exemple).
      • Les données générées par l’Open Data et le Big Data offrent un terrain d’exploitation à la recherche scientifique, qui en retour peut éclairer la société sur ses évolutions les plus récentes.
    • Le cycle de vie des données de la recherche

      La représentation du cycle de vie des données de la recherche est une aide à la gestion des données. En effet, ce cycle de vie décrit le processus d'utilisation des données de leur création à leur publication et ré-utilisation ultérieure.

      C'est le cycle qui doit être décliné dans les plans de gestion de données au début de tout projet de recherche impliquant la création et/ou la réutilisation de données :

      Affiche cycle de vie données

      Batifol V., Burnel L., Cardona A., Johany F. 2021. Affiche « Cycle de vie des données : un outil pour améliorer la gestion, la mise en qualité et l’ouverture des données ». Réseau Qualinous & Mission RGPD, département ACT – INRAE. DOI : 10.15454/hsc3-b796

    • Les Plans de Gestion de Données

      Callisto. (2024, 19 septembre). La Minute Plan gestion de données , in Les minutes DoRANum. [Vidéo]. Canal-U. https://doi.org/10.60527/rk86-ws89

      À retenir :

      Le Data Management Plan ou Plan de gestion de données est un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment sont gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage :

      • suivant un calendrier : le PGD est un document évolutif. Des mises à jour et des livrables précis peuvent être définis selon le financeur et/ou les projets ;
      • au moyen d’outils : des outils existent pour aider dans la production de PGD comme DMPOPIDoR.

      Un PGD peut être établi aussi bien dans une optique de partage des données que pour des données en accès restreint ou fermé, total ou partiel. Le PGD mentionnera dans ce cas les raisons de non partage.


      Les Plans de gestion de données dans les appels à projet financé
      Les appels à projet Horizon Europe

      grant agreement horizon europe

      Les bénéficiaires doivent gérer les données de recherche générées de manière responsable, conformément avec les principes FAIR :

      • Établir un plan de gestion des données ("DMP") et le mettre à jour régulièrement.
      • Déposer les données dans un entrepôt de confiance suivant le principe "aussi ouvert que possible aussi fermé que nécessaire".

      Les métadonnées des données déposées doivent être ouvertes sous un Creative Common Public Domain (CC 0) ou équivalent, conformément aux principes FAIR et fournir des informations minimum.

      Les appels à projet ANR :
      • Plan d’action ANR 2022 : « Le coordinateur ou la coordinatrice du projet s’engage à fournir dans les 6 mois qui suivent le démarrage du projet, une première version du Plan de Gestion des Données (PGD) selon les modalités communiquées dans les conditions particulières ».
      • Appel à projets générique - AAPG 2022 : Dans le cadre de la contribution de l’ANR à la promotion et à la mise en œuvre de la science ouverte, et en lien avec le Plan National pour la Science Ouverte au niveau français (PNSO) et le Plan S au niveau international, les bénéficiaires de l’ANR s’engagent à garantir le libre accès immédiat aux publications scientifiques évaluées par les pairs et à adopter, pour les données de la recherche, une démarche dite FAIR  (Facile à trouver, Accessible, Interopérable, Réutilisable) conforme  au  principe  « aussi ouvert que possible, aussi fermé que nécessaire ».

      Connaissances et compétences nécessaires à l’élaboration d’un PGD

      La rédaction d'un plan de gestion des données induit de :

      • Connaître la réglementation concernant la production et la diffusion des données.
      • Connaître les principaux formats de métadonnées selon sa discipline pour la description des données.
      • Connaître les entrepôts pour la diffusion en libre accès des données.
      • Savoir déterminer les besoins en matière de gestion et de stockage des données.
      • Savoir prévoir les coûts et besoins pour la conservation et la diffusion des données.

      Ainsi, cette rédaction nécessitent un travail collaboratif impliquant l'ensemble des acteurs intervenant dans le processus de gestion des données générées dans un projet de recherche. Selon les établissements de rattachement l'organisation peut différer mais les principaux acteurs sont :

    • Les plans de gestion des données : structuration

      Il existe différents modèles de plan de gestion de données :

      • Selon les financeurs :
        • Horizon Europe ;
        • ANR.
      • Selon l'établissement de tutelle :
        • INRAE ;
        • Sorbonne.

      L'outil DMP OPIDoR permet de visualiser un ensemble de modèles présents dans sa base.

      Cependant, ces différents modèles comportent les mêmes rubriques présentées ci-dessous.

    • 1. Les renseignements administratifs et scientifique sur le projet

      Nous trouverons dans cette rubrique :

      • les identifiants de convention du projet ;
      • le nom du projet ;
      • le résumé scientifique du projet ;
      • le(s) responsable(s) du projet ;
      • le(s) responsable(s) de la gestion des données.
    • 2. La description des jeux de données

      Nous trouverons dans cette rubrique l'ensemble des informations sur les types de données collectées ou générées dans le cadre du projet :

      • description de chaque jeu de données ;
      • l'origine des données (création/réutilisation) ;
      • le format de chaque jeu de données.
      Focus sur le format des données Image les formats ouverts / fermés (prioritaires)

      Savez-vous quels formats sont ouverts (accessibles et modifiables indépendamment d’un logiciel unique) et lesquels sont fermés (contraints par le recours à un logiciel, le plus souvent payant) ?

    • 3. Les aspects liés aux standards et métadonnées

      Nous trouverons dans cette rubrique l'ensemble des informations sur la manière dont décrites les données :

      • standards et formats de métadonnées utilisées ;
      • mode de production (procédures, outils, logiciels) ;
      • règles de nommage ;
      • documentation associée.
      Focus sur les principes FAIR

      Structurer et décrire ses données permet de répondre aux principes FAIR :

      Les principes FAIR fournissent des lignes directrices pour améliorer la facilité de repérage, l’accessibilité, l’interopérabilité et la réutilisation des ressources numériques. Ces principes sont très axés sur la capacité des machines à gérer des données de façon automatique, avec le minimum d’interventions humaines :

      Focus sur les métadonnées

      Pour résumer, voici une courte vidéo qui synthétise le rôle majeur des métadonnées dans la mise en place de l’interopérabilité des données :

      Callisto. (2024, 19 juillet). La Minute Métadonnées , in Les minutes DoRANum. [Vidéo]. Canal-U. https://doi.org/10.60527/s8e1-6p56

      Focus sur la façon de bien nommer ses fichiers
      Focus sur la nécessite de rédiger une documentation complète

      Écrire des fichiers Lisez-moi (Readme) donne des informations sur la façon d'interpréter un fichier de données et diminue les chances que les données soient mal comprises et/ou improprement utilisées par d'autres chercheurs.

      Ce document est à fournir avec les jeux de données afin de permettre leur compréhension et leur réutilisation le cas échéant.

      Le contenu minimum recommandé pour la réutilisation des données est :

      1. description du projet ;
      2. description des jeux de données ;
      3. indiquer les conditions d'utilisation ;
      4. contenu ;
      5. décrire les méthodes et traitements ;
      6. indiquer les informations associées.
    • 4. Le respects des exigences légales et éthiques

      Nous trouverons dans cette rubrique l'ensemble des informations sur le respect des lois sur la protection des données (par exemple, RGPD) et  les autres questions juridiques, comme la titularité ou les droits de propriété intellectuelle sur les données.

      Callisto. (2024, 6 septembre). La Minute Aspects juridiques et éthiques , in Les minutes DoRANum. [Vidéo]. Canal-U. https://doi.org/10.60527/s6p7-q896

      À retenir :

      Le cadre juridique de l’Open Data :

      • Loi initiale dite CADA (Commission d’Accès aux Documents Administratifs)
      • La loi Valter
      • Loi pour une République Numérique

      Codifiées dans le code des relations entre le public et l’administration

      La dimension éthique :

      • Respect de la vie privée
      • Propriété intellectuelle
      • Qualité et intégrité des données sont des dimensions éthiques de la gestion des données

      Pour être informé de l’évolution des règles juridiques est très important pour un partage responsable des données utilisées : Guide d’analyse du cadre juridique en France sur l’ouverture des données de la recherche

      Code de la propriété intellectuelle :

      • Les licences
      • Art. D. 323-2-1.-I.-L'administration peut soumettre la réutilisation à titre gratuit des informations publiques qu'elle détient aux licences suivantes […]

      Les licences susmentionnées sont accessibles sur data.gouv.fr/fr/licences

    • 5. Le stockage et la sécurité des données pendant le projet

      Nous trouverons dans cette rubrique l'ensemble des informations sur le stockage sécurisé afin de garantir la sécurité de vos données, et/ou faciliter l’accès pour vos collaborateurs.

      Callisto. (2022, 14 juin). La sauvegarde 3-2-1. [Vidéo]. Canal-U. https://www.canal-u.tv/117058

      Le stockage sécurisé comprend :

      • Une sauvegarde efficace et automatique, avec des jeux de données dupliquées. L'idéal étant d'appliquer la règle du 3-2-1 :
        • Garder 3 exemplaires des données (1 original + 2 copies)
        • Sur 2 supports ou technologies différents
        • Dont 1 se trouve hors site
      • Des accès contrôlés
        • Chaque collaborateur dispose de son propre compte
        • Les accès sont régulièrement mis à jour (départ d'un collaborateur)
        • Les accès sont adaptés aux données (selon les périmètres de responsabilité de chaque collaborateur)
      • La protection contre le piratage et le vol de données
        • Antivirus
        • Robustesse du mot de passe
        • Chiffrement des données
      Responsabilités de l'infrastructure institutionnelle Votre responsabilité
      • Sauvegarde respectant la règle du 3-2-1
      • Tests des processus de restauration
      • Duplication des données (redondance des données)
      • Duplication des matériels (redondance des disques durs)
      • Traçabilité des accès
      • Protection physique contre le vol et le piratage
      • Contraintes du mot de passe exigées
      • Robustesse de votre mot de passe
      • Votre hygiène numérique
      • Accès contrôlés (départ d'un collaborateur)
      • Antivirus

      Au niveau des institutions, l'hébergement est assuré par les services informatiques, au sein d'infrastructures (« datacenters ») qui respectent ces règles de sécurité très strictes.

    • 6. Le partage et la conservation à long terme

      Nous trouverons dans cette rubrique l'ensemble des informations sur les modalités de diffusion et de conservation des données à long terme :

      • Modalités de diffusion des données :
        • principes de diffusion
        • choix du dépôt de diffusion
        • licence et possibilités de réutilisation
      • Modalités de conservation à long terme :
        • critères de sélection des données à archiver
        • durée
        • lieu d'archivage
      Focus sur la diffusion des données
      Focus sur l'archivage des données
    • Il existe différents modes de diffusion pour les données, qui passent par la publication et le dépôt.

      1/ La publication

      Vous pouvez publier vos données de recherche de 3 façons :

      • Intégrer les données dans un article publié dans une revue ;
      • Joindre les données dans un fichier joint en tant que matériel supplémentaire ;
      • Publier les données dans un data paper.
      Intégrer les données dans un article scientifique

      Lorsqu’un article est publié dans une revue, les données qui y sont intégrées le sont aussi.

      Avantages :

      • Intégration maximale des données et de l’article : citable, recherchable ;
      • Paternité des données / crédits aux auteurs.
       

      Limites :

      • Données difficiles à trouver indépendamment de l’article et dans une forme peu ou pas réutilisable.
      Joindre les données en matériel supplémentaire

      Données sous-jacentes d’un article peuvent  jointes dans un  fichier en tant que matériel supplémentaire. Ces données, qui vont plus  loin que les données intégrées dans l’article, sont de plus en plus  demandées aux auteurs pour des questions de validation.

      Avantages :

      • Format des données libéré des contraintes de rédaction de l’article ;
      • Paternité des données / crédits aux auteurs.
       

      Limites :

      • Taille souvent limitée ;
      • Peu de standardisation sur le signalement des fichiers « supplémentaires » ;
      • Identification des données indépendamment de l’article possible mais rare ;
      • Données difficiles à trouver indépendamment de l’article et dans une forme peu ou pas réutilisable.
      Publier les données dans un data paper

      Les data papers sont des articles  qui ont pour but de rendre les données accessibles, interprétables et  réutilisables. Ils fournissent une voie formalisée au partage des  données. Les data papers paraissent dans des revues appelées data journals.

      Avantages :

      • Paternité des données / crédits aux auteurs ;Citation aisée ;
      • Réutilisation des données facilitée ;
      • Données normalisées, standardisées, conservées de façon pérenne ;
      • Pas de restriction en volume ;
      • Liens vers les données déposées réciproques et sécurisés.
       

      Limites :

      • Interrogation possible sur la qualité du peer-review ;
      • Données déposées dans un entrepôt, impliquant la recherche et le choix de l’entrepôt

      Si vous souhaitez en savoir plus, cet article fait un état des lieux et explique les enjeux des data papers : Hans Dillaerts « Les data Papers : quels périmètres, quelles définitions ? Entretien avec Joachim Schöpfel ». DLIS [en ligne] https://dlis.hypotheses.org/4840 (consulté le 24/02/2021)

    • 2/ Le dépôt dans un entrepôt

      Actualité :

      Recherche Data Gouv : plateforme nationale fédérée des données de la recherche est disponible depuis juillet 2022.

      Dans ce cadre, un service de dépôt et de diffusion (entrepôt) dédié aux données est mis à disposition dès lors qu’aucun entrepôt disciplinaire existant ne constituerait une solution adaptée à destination de l'ensemble de la communauté scientifique. 

      Pour aller plus loin :

    • Pourquoi rechercher des données existantes ?

      Dans le cadre du mouvement de la Science Ouverte, il est de plus en plus demandé aux chercheurs de rendre ses données de recherche aussi réutilisables que possible. L’ouverture des données vous permet également d'utiliser les données d'autres personnes. Avant de commencer votre projet, vérifiez si les données dont vous avez besoin sont déjà disponibles ou si des données similaires existent. Évaluez ensuite si les données existantes sont suffisantes pour mener ou compléter votre recherche. Il est intéressant d'utiliser les données existantes pour plusieurs raisons :
      •    Vous pouvez gagner du temps en n'ayant pas à collecter de données déjà existantes.
      •    Vous pouvez utiliser des données préexistantes pour effectuer des comparaisons.
      •    Elles peuvent vous inspirer pour effectuer d'autres analyses.

    • Où chercher des données existantes ?

      1/ À partir d'un article publié

      À la fin d'un article, vous pouvez retrouver un lien vers les données utilisées pour rédiger l'article. Ce lien a un identifiant pérenne (ex : DOI) et se trouve souvent dans une catégorie appelée "supplementary data". C'est une pratique encore rare mais qui devrait se développer de plus en plus.


      2/ En cherchant dans des entrepôts multidisciplinaires
      • Zenodo : entrepôt de jeu de données de recherche, issu du projet européen OpenAIREplus et du CERN ; il est possible de recherche un jeu de données ou d’en déposer. Plus de 2000 sont référencés ;
      • Figshare : entrepôt de jeu de données de recherche multidisciplinaire.


      3/ En cherchant dans des entrepôts thématiques


      4/ En cherchant dans des annuaires d'entrepôts


      5/ En utilisant des moteurs de recherche dédiés aux données


      6/ À partir de data papers

      Vous pouvez faire une veille sur ces data journals via flux RSS ou alerte mail.

      Il en existe encore très peu ou ils sont peu alimentés, particulièrement en sciences humaines et sociales. On peut tout de même citer :

    • Appliquer les conditions d’utilisation mentionnées dans les licences

    • Citer un jeu de données

      Le format minimal d’une référence bibliographique d’un jeu de données comporte 5 éléments (recommandation de DataCite, consortium international dont l’objectif est de faciliter l’accès aux données de la recherche et leur réutilisation) :

      • Auteur (Année de publication) : Titre. Editeur. IdentifiantCreator (PublicationYear): Title. Publisher. Identifier

      Ce format minimal peut être complété, si besoin, par la version et le type de ressource :

      • Auteur (Année de publication) : Titre. Version. Editeur. Type de ressource. IdentifiantCreator (PublicationYear): Title. Version. Publisher. ResourceType. Identifier
       

      Vous pouvez générer automatiquement une référence créée à partir du DOI du jeu de données via l’application en ligne DOI Citation Formatter développée par DataCite et CrossRef. Cette application offre la possibilité de personnaliser votre citation parmi 500 styles de citation de revues scientifiques.
      À noter que certains formats bibliographiques ne respectent pas encore les recommandations de mars 2017 de Crossref pour écrire un DOI dans une référence bibliographique sous la forme d’un lien commençant par https://doi.org/


      Quels logiciels gèrent les références bibliographiques de jeux de données ?
      • Le logiciel bibliographique commercial EndNote ( version X4) propose le type de référence Data Set.
      • Zotero n’a pas de type de référence pour décrire les jeux de données. Les références de jeux de données importées dans une bibliothèque Zotero apparaissent sous le type Document.
      • Mendeley n’a pas de type de document spécifique pour gérer les références de jeux de données. Le type Generic peut être choisi comme substitut.