Gestion des données de la recherche
-
Le cycle de vie des données de la recherche
La représentation du cycle de vie des données de la recherche est une aide à la gestion des données. En effet, ce cycle de vie décrit le processus d'utilisation des données de leur création à leur publication et ré-utilisation ultérieure.C'est le cycle qui doit être décliné dans les plans de gestion de données au début de tout projet de recherche impliquant la création et/ou la réutilisation de données :Batifol V., Burnel L., Cardona A., Johany F. 2021. Affiche « Cycle de vie des données : un outil pour améliorer la gestion, la mise en qualité et l’ouverture des données ». Réseau Qualinous & Mission RGPD, département ACT – INRAE. DOI : 10.15454/hsc3-b796
-
Les Plans de Gestion de Données
À retenir :
Le Data Management Plan ou Plan de gestion de données est un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment sont gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage :
- suivant un calendrier : le PGD est un document évolutif. Des mises à jour et des livrables précis peuvent être définis selon le financeur et/ou les projets ;
- au moyen d’outils : des outils existent pour aider dans la production de PGD comme DMPOPIDoR.
Les Plans de gestion de données dans les appels à projet financé
Les appels à projet Horizon Europe
Les bénéficiaires doivent gérer les données de recherche générées de manière responsable, conformément avec les principes FAIR :
- Établir un plan de gestion des données ("DMP") et le mettre à jour régulièrement.
- Déposer les données dans un entrepôt de confiance suivant le principe "aussi ouvert que possible aussi fermé que nécessaire".
Les métadonnées des données déposées doivent être ouvertes sous un Creative Common Public Domain (CC 0) ou équivalent, conformément aux principes FAIR et fournir des informations minimum.
Les appels à projet ANR :
- Plan d’action ANR 2022 : « Le coordinateur ou la coordinatrice du projet s’engage à fournir dans les 6 mois qui suivent le démarrage du projet, une première version du Plan de Gestion des Données (PGD) selon les modalités communiquées dans les conditions particulières ».
- Appel à projets générique - AAPG 2022 : Dans le cadre de la contribution de l’ANR à la promotion et à la mise en œuvre de la science ouverte, et en lien avec le Plan National pour la Science Ouverte au niveau français (PNSO) et le Plan S au niveau international, les bénéficiaires de l’ANR s’engagent à garantir le libre accès immédiat aux publications scientifiques évaluées par les pairs et à adopter, pour les données de la recherche, une démarche dite FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable) conforme au principe « aussi ouvert que possible, aussi fermé que nécessaire ».
Connaissances et compétences nécessaires à l’élaboration d’un PGD
La rédaction d'un plan de gestion des données induit de :
- Connaître la réglementation concernant la production et la diffusion des données.
- Connaître les principaux formats de métadonnées selon sa discipline pour la description des données.
- Connaître les entrepôts pour la diffusion en libre accès des données.
- Savoir déterminer les besoins en matière de gestion et de stockage des données.
- Savoir prévoir les coûts et besoins pour la conservation et la diffusion des données.
Ainsi, cette rédaction nécessitent un travail collaboratif impliquant l'ensemble des acteurs intervenant dans le processus de gestion des données générées dans un projet de recherche. Selon les établissements de rattachement l'organisation peut différer mais les principaux acteurs sont :
-
Les plans de gestion des données : structuration
Il existe différents modèles de plan de gestion de données :- Selon les financeurs :
- Horizon Europe ;
- ANR.
- Selon l'établissement de tutelle :
- INRAE ;
- Sorbonne.
L'outil DMP OPIDoR permet de visualiser un ensemble de modèles présents dans sa base.
Cependant, ces différents modèles comportent les mêmes rubriques :
- les renseignements administratifs et scientifique sur le projet ;
- la description des jeux de données ;
- les aspects liés aux standards et métadonnées ;
- le respects des exigences légales et éthiques ;
- le stockage et la sécurité des données pendant le projet ;
- le partage et la conservation à long terme.
1/ Les renseignements administratifs et scientifique sur le projet
Nous trouverons dans cette rubrique :
- les identifiants de convention du projet ;
- le nom du projet ;
- le résumé scientifique du projet ;
- le(s) responsable(s) du projet ;
- le(s) responsable(s) de la gestion des données.
2/ La description des jeux de données
Nous trouverons dans cette rubrique l'ensemble des informations sur les types de données collectées ou générées dans le cadre du projet :
- description de chaque jeu de données ;
- l'origine des données (création/réutilisation) ;
- le format de chaque jeu de données.
Focus sur le format des données :
Savez-vous quels formats sont ouverts (accessibles et modifiables indépendamment d’un logiciel unique) et lesquels sont fermés (contraints par le recours à un logiciel, le plus souvent payant) ?3/ Les aspects liés aux standards et métadonnées
Nous trouverons dans cette rubrique l'ensemble des informations sur la manière dont décrites les données :
- standards et formats de métadonnées utilisées ;
- mode de production (procédures, outils, logiciels) ;
- règles de nommage ;
- documentation associée.
Focus : Pourquoi structurer et décrire ses données
- Identifier les moyens à mobiliser pour faciliter la découverte, l’accès, l’interopérabilité et la réutilisation d’un jeu de données.
- Expliquer comment appliquer les principes FAIR.
Structurer et décrire ses données permet de répondre aux principes FAIR :
Les principes FAIR fournissent des lignes directrices pour améliorer la facilité de repérage, l’accessibilité, l’interopérabilité et la réutilisation des ressources numériques. Ces principes sont très axés sur la capacité des machines à gérer des données de façon automatique, avec le minimum d’interventions humaines :
-
Nécessite d'avoir recours à des métadonnées
Pour résumer, voici une courte vidéo qui synthétise le rôle majeur des métadonnées dans la mise en place de l’interopérabilité des données :
Nécessite de bien nommer ses fichiers
Nécessite de rédiger une documentation complète
Écrire des fichiers Lisez-moi (Readme) donne des informations sur la façon d'interpréter un fichier de données et diminue les chances que les données soient mal comprises et/ou improprement utilisées par d'autres chercheurs.
Ce document est à fournir avec les jeux de données afin de permettre leur compréhension et leur réutilisation le cas échéant.
Le contenu minimum recommandé pour la réutilisation des données est :
- description du projet ;
- description des jeux de données ;
- indiquer les conditions d'utilisation ;
- contenu ;
- décrire les méthodes et traitements ;
- indiquer les informations associées.
- description du projet ;
-
4/ Le respects des exigences légales et éthiques
Nous trouverons dans cette rubrique l'ensemble des informations sur le respect des lois sur la protection des données (par exemple, RGPD) et les autres questions juridiques, comme la titularité ou les droits de propriété intellectuelle sur les données.
À retenir :
Le cadre juridique de l’Open Data :
- Loi initiale dite CADA (Commission d’Accès aux Documents Administratifs)
- La loi Valter
- Loi pour une République Numérique
Codifiées dans le code des relations entre le public et l’administration
La dimension éthique :
- Respect de la vie privée
- Propriété intellectuelle
- Qualité et intégrité des données sont des dimensions éthiques de la gestion des données
Pour être informé de l’évolution des règles juridiques est très important pour un partage responsable des données utilisées : Guide d’analyse du cadre juridique en France sur l’ouverture des données de la recherche
Code de la propriété intellectuelle :
- Les licences
- Art. D. 323-2-1.-I.-L'administration peut soumettre la réutilisation à titre gratuit des informations publiques qu'elle détient aux licences suivantes […]
Les licences susmentionnées sont accessibles sur data.gouv.fr/fr/licences
5/ Le stockage et la sécurité des données pendant le projet
Nous trouverons dans cette rubrique l'ensemble des informations sur le stockage sécurisé afin de garantir la sécurité de vos données, et/ou faciliter l’accès pour vos collaborateurs.
Le stockage sécurisé comprend :
- Une sauvegarde efficace et automatique, avec des jeux de données dupliquées. L’idéal étant d’appliquer la règle du 3-2-1 :
- Garder 3 exemplaires des données (1 original + 2 copies)
- Sur 2 supports ou technologies différents
- Dont 1 se trouve hors site
- Des accès contrôlés
- Chaque collaborateur dispose de son propre compte
- Les accès sont régulièrement mis à jour (départ d’un collaborateur)
- Les accès sont adaptés aux données (selon les périmètres de responsabilité de chaque collaborateur).
- La protection contre le piratage et le vol de données
- Antivirus
- Robustesse du mot de passe
- Chiffrement des données
Responsabilités de l’infrastructure institutionnelle Votre responsabilité - Sauvegarde respectant la règle du 3-2-1
- Tests des processus de restauration
- Duplication des données (redondance des données)
- Duplication des matériels (redondance des disques durs)
- Traçabilité des accès
- Protection physique contre le vol et le piratage
- Contraintes du mot de passe exigées
- Robustesse de votre mot de passe
- Votre hygiène numérique
- Accès contrôlés (départ d'un collaborateur)
- Antivirus
Au niveau des institutions, l'hébergement est assuré par les services informatiques, au sein d’infrastructures (« datacenters ») qui respectent ces règles de sécurité très strictes.
6/ Le partage et la conservation à long terme
Nous trouverons dans cette rubrique l'ensemble des informations sur les modalités de diffusion et de conservation des données à long terme :
- Modalités de diffusion des données :
- principes de diffusion
- choix du dépôt de diffusion
- licence et possibilités de réutilisation
- Modalités de conservation à long terme :
- critères de sélection des données à archiver
- durée
- lieu d'archivage
Focus Diffuser ses données
Focus Archiver ses données