• Gestion des données de la recherche

    • Le cycle de vie des données de la recherche

      La représentation du cycle de vie des données de la recherche est une aide à la gestion des données. En effet, ce cycle de vie décrit le processus d'utilisation des données de leur création à leur publication et ré-utilisation ultérieure.
      C'est le cycle qui doit être décliné dans les plans de gestion de données au début de tout projet de recherche impliquant la création et/ou la réutilisation de données :

      Affiche cycle de vie données

      Batifol V., Burnel L., Cardona A., Johany F. 2021. Affiche « Cycle de vie des données : un outil pour améliorer la gestion, la mise en qualité et l’ouverture des données ». Réseau Qualinous & Mission RGPD, département ACT – INRAE. DOI : 10.15454/hsc3-b796

    • Les Plans de Gestion de Données


      À retenir :

      Le Data Management Plan ou Plan de gestion de données est un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment sont gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage :

      • suivant un calendrier : le PGD est un document évolutif. Des mises à jour et des livrables précis peuvent être définis selon le financeur et/ou les projets ;
      • au moyen d’outils : des outils existent pour aider dans la production de PGD comme DMPOPIDoR.

      Un PGD peut être établi aussi bien dans une optique de partage des données que pour des données en accès restreint ou fermé, total ou partiel. Le PGD mentionnera dans ce cas les raisons de non partage.
      Les Plans de gestion de données dans les appels à projet financé

      Les appels à projet Horizon Europe

      grant agreement horizon europe


      Les bénéficiaires doivent gérer les données de recherche générées de manière responsable, conformément avec les principes FAIR :

      • Établir un plan de gestion des données ("DMP") et le mettre à jour régulièrement.
      • Déposer les données dans un entrepôt de confiance suivant le principe "aussi ouvert que possible aussi fermé que nécessaire".


      Les métadonnées des données déposées doivent être ouvertes sous un Creative Common Public Domain (CC 0) ou équivalent, conformément aux principes FAIR et fournir des informations minimum.


      Les appels à projet ANR :
      • Plan d’action ANR 2022 : « Le coordinateur ou la coordinatrice du projet s’engage à fournir dans les 6 mois qui suivent le démarrage du projet, une première version du Plan de Gestion des Données (PGD) selon les modalités communiquées dans les conditions particulières ».
      • Appel à projets générique - AAPG 2022 : Dans le cadre de la contribution de l’ANR à la promotion et à la mise en œuvre de la science ouverte, et en lien avec le Plan National pour la Science Ouverte au niveau français (PNSO) et le Plan S au niveau international, les bénéficiaires de l’ANR s’engagent à garantir le libre accès immédiat aux publications scientifiques évaluées par les pairs et à adopter, pour les données de la  recherche,  une  démarche  dite  FAIR  (Facile  à  trouver,  Accessible,  Interopérable,  Réutilisable) conforme  au  principe  «  aussi  ouvert  que  possible,  aussi  fermé  que  nécessaire  ».

      Connaissances et compétences nécessaires à l’élaboration d’un PGD

      La rédaction d'un plan de gestion des données induit de :

      • Connaître la réglementation concernant la production et la diffusion des données.
      • Connaître les principaux formats de métadonnées selon sa discipline pour la description des données.
      • Connaître les entrepôts pour la diffusion en libre accès des données.
      • Savoir déterminer les besoins en matière de gestion et de stockage des données.
      • Savoir prévoir les coûts et besoins pour la conservation et la diffusion des données.

      Ainsi, cette rédaction nécessitent un travail collaboratif impliquant l'ensemble des acteurs intervenant dans le processus de gestion des données générées dans un projet de recherche. Selon les établissements de rattachement l'organisation peut différer mais les principaux acteurs sont :



    • Les plans de gestion des données : structuration

      Il existe différents modèles de plan de gestion de données :
      • Selon les financeurs :
        • Horizon Europe ;
        • ANR.
      • Selon l'établissement de tutelle :
        • INRAE ;
        • Sorbonne.

      L'outil DMP OPIDoR permet de visualiser un ensemble de modèles présents dans sa base.

      Cependant, ces différents modèles comportent les mêmes rubriques : 

      1. les renseignements administratifs et scientifique sur le projet ;
      2. la description des jeux de données ;
      3. les aspects liés aux standards et métadonnées ;
      4. le respects des exigences légales et éthiques ;
      5. le stockage et la sécurité des données pendant le projet ;
      6. le partage et la conservation à long terme.

      1/ Les renseignements administratifs et scientifique sur le projet

      Nous trouverons dans cette rubrique :

      • les identifiants de convention du projet ;
      • le nom du projet ;
      • le résumé scientifique du projet ;
      • le(s) responsable(s) du projet ;
      • le(s) responsable(s) de la gestion des données.

      2/ La description des jeux de données

      Nous trouverons dans cette rubrique l'ensemble des informations sur les types de données collectées ou générées dans le cadre du projet :

      • description de chaque jeu de données ;
      • l'origine des données (création/réutilisation) ;
      • le format de chaque jeu de données.


      Focus sur le format des données  :

      Image les formats ouverts / fermés (prioritaires)


      Savez-vous quels formats sont ouverts (accessibles et modifiables indépendamment d’un logiciel unique) et lesquels sont fermés (contraints par le recours à un logiciel, le plus souvent payant) ?




      3/ Les aspects liés aux standards et métadonnées

      Nous trouverons dans cette rubrique l'ensemble des informations sur la manière dont décrites les données :

      • standards et formats de métadonnées utilisées ;
      • mode de production (procédures, outils, logiciels) ;
      • règles de nommage ;
      • documentation associée.

      Focus : Pourquoi structurer et décrire ses données

      • Identifier les moyens à mobiliser pour faciliter la découverte, l’accès, l’interopérabilité et la réutilisation d’un jeu de données.
      • Expliquer comment appliquer les principes FAIR.

      Structurer et décrire ses données permet de répondre aux principes FAIR :

      Les principes FAIR fournissent des lignes directrices pour améliorer la facilité de repérage, l’accessibilité, l’interopérabilité et la réutilisation des ressources numériques. Ces principes sont très axés sur la capacité des machines à gérer des données de façon automatique, avec le minimum d’interventions humaines :



    • Nécessite d'avoir recours à des métadonnées


      Pour résumer, voici une courte vidéo qui synthétise le rôle majeur des métadonnées dans la mise en place de l’interopérabilité des données :



      Nécessite de bien nommer ses fichiers


      Nécessite de rédiger une documentation complète

      Écrire des fichiers Lisez-moi (Readme) donne des informations sur la façon d'interpréter un fichier de données et diminue les chances que les données soient mal comprises et/ou improprement utilisées par d'autres chercheurs.

      Ce document est à fournir avec les jeux de données afin de permettre leur compréhension et leur réutilisation le cas échéant.

      Le contenu minimum recommandé pour la réutilisation des données est :

      1. description du projet ;
      2. description des jeux de données ;
      3. indiquer les conditions d'utilisation ;
      4. contenu ;
      5. décrire les méthodes et traitements ;
      6. indiquer les informations associées.
    • 4/ Le respects des exigences légales et éthiques

      Nous trouverons dans cette rubrique l'ensemble des informations sur le respect des lois sur la protection des données (par exemple, RGPD) et  les autres questions juridiques, comme la titularité ou les droits de propriété intellectuelle sur les données.


      À retenir :

      Le cadre juridique de l’Open Data :

      • Loi initiale dite CADA (Commission d’Accès aux Documents Administratifs)
      • La loi Valter
      • Loi pour une République Numérique

      Codifiées dans le code des relations entre le public et l’administration

      La dimension éthique :

      • Respect de la vie privée
      • Propriété intellectuelle
      • Qualité et intégrité des données sont des dimensions éthiques de la gestion des données

      Pour être informé de l’évolution des règles juridiques est très important pour un partage responsable des données utilisées : Guide d’analyse du cadre juridique en France sur l’ouverture des données de la recherche


      Code de la propriété intellectuelle :

      • Les licences
      • Art. D. 323-2-1.-I.-L'administration peut soumettre la réutilisation à titre gratuit des informations publiques qu'elle détient aux licences suivantes […]

      Les licences susmentionnées sont accessibles sur data.gouv.fr/fr/licences


      5/ Le stockage et la sécurité des données pendant le projet

      Nous trouverons dans cette rubrique l'ensemble des informations sur le stockage sécurisé afin de garantir la sécurité de vos données, et/ou faciliter l’accès pour vos collaborateurs.


      Le stockage sécurisé comprend :

      • Une sauvegarde efficace et automatique, avec des jeux de données dupliquées. L’idéal étant d’appliquer la règle du 3-2-1 :
          • Garder 3 exemplaires des données (1 original + 2 copies)
          • Sur 2 supports ou technologies différents
          • Dont 1 se trouve hors site
      • Des accès contrôlés
          • Chaque collaborateur dispose de son propre compte
          • Les accès sont régulièrement mis à jour (départ d’un collaborateur)
          • Les accès sont adaptés aux données (selon les périmètres de responsabilité de chaque collaborateur).
      • La protection contre le piratage et le vol de données
          • Antivirus
          • Robustesse du mot de passe
          • Chiffrement des données

      Responsabilités de l’infrastructure institutionnelle
      Votre responsabilité
        • Sauvegarde respectant la règle du 3-2-1
        • Tests des processus de restauration
        • Duplication des données (redondance des données)
        • Duplication des matériels (redondance des disques durs)
        • Traçabilité des accès
        • Protection physique contre le vol et le piratage
        • Contraintes du mot de passe exigées
        • Robustesse de votre mot de passe
        • Votre hygiène numérique
        • Accès contrôlés (départ d'un collaborateur)
        • Antivirus

      Au niveau des institutions, l'hébergement est assuré par les services informatiques, au sein d’infrastructures (« datacenters ») qui respectent ces règles de sécurité très strictes.


      6/ Le partage et la conservation à long terme

      Nous trouverons dans cette rubrique l'ensemble des informations sur les modalités de diffusion et de conservation des données à long terme :

      • Modalités de diffusion des données :
        • principes de diffusion
        • choix du dépôt de diffusion
        • licence et possibilités de réutilisation
      • Modalités de conservation à long terme :
        • critères de sélection des données à archiver
        • durée
        • lieu d'archivage


      Focus Diffuser ses données


      Focus Archiver ses données