Résumé de section

  • Cette section met l'accent sur les principes fondamentaux de préservation, garantissant l'intégrité, la lisibilité et la réutilisabilité des données. Le partage des données est abordé, y compris les licences et les ressources pour faciliter ce processus. Des conseils sont donnés pour choisir des licences appropriées et des ressources sont fournies pour aider les scientifiques à archiver et partager leurs données de manière responsable et éthique.

    • Les principes de préservation des données

      Préserver les données sur le long terme implique de respecter certains principes fondamentaux qui permettent aux données d'être retrouvées et réutilisées bien des années après leur génération. 

      Il s'agira donc de s'assurer que leur intégrité, leur lisibilité et leur réutilisabilité sont préservées.

      Intégrité

      Cela implique des procédures de vérification régulière de leur état sur les supports numériques, avec la possibilité de les transférer vers des supports numériques plus adaptés.

      Lisibilité

      Cela demande des évaluations régulières de leur lisibilité, avec, le cas échéant des conversions de format pour les adapter aux nouveaux logiciels.

      Réutilisabilité

      Elles sont accompagnées de leurs métadonnées dans le respect des principes FAIR pour assurer leur compréhensibilité et leur réutilisation.

      Ces tâches de conservation des données sont complexes et il est préférable de se reposer sur des ressources spécialisées qui prendront en charge tout ou partie de ces activités. 

      La préservation des données, rejoint les concepts d'archivage. En France, pour la communauté de l'enseignement supérieur, c'est le CINES qui est chargé de cette mission. 


    • Le partage des données

      Le partage des données est devenu une pratique essentielle de la recherche favorisant la transparence, la reproductibilité et la collaboration scientifique. Cette pratique doit être parfaitement encadrée, notamment pour ce qui touche le droit et le respect de la protection des personnes. Pour pouvoir partager un jeu de données, on s'assurera donc de ne pas diffuser de données sensibles et l'on réfléchira à une licence définissant les modalités de diffusion, partage et réutilisation des données. Également, le partage de logiciels développés durant le projet fera l'objet d'un traitement similaire.

      Les grandes étapes du partage de données sont les suivantes :

      • La préparation des données en vue du partage. Celles-ci doivent être organisées, documentée et nettoyées afin d'en faciliter la réutilisation par d'autres personnes. Les données sont enrichies avec des métadonnées et une licence est associée.
      • Dans le cas de données identifiantes, l'anonymisation est une étape pour bien se conformer aux recommandations du RGPD.
      • La sélection d'une plate-forme de partage. En Biologie de nombreux dépôts existent. Par exemple, dans le cas de séquences génomiques, l'EBI pourra accueillir ces données (voir la liste des dépôts fournie par l'éditeur Nature). On pourra aussi utiliser les ressources évoquées dans le chapitre concernant la réutilisation des données. À noter que l'Institut Français de Bio-Informatique a initié les développements de Metark,  un outil dit de "brokering", pour automatiser le transfert des données vers les dépôts internationaux.


      La vidéo ci-dessous résume les points afférents au partage des données.

      Callisto. (2018, 20 mars). Déposer ses données de recherche : pourquoi, quoi, quand, où et comment ?. [Vidéo]. Canal-U. https://www.canal-u.tv/116062. (Consultée le 18 août 2023)

      Il existe désormais en France, pour les scientifiques appartenant aux disciplines ne disposant pas de dépôts thématiques, un nouvel entrepôt Recherche Data Gouv. Cet entrepôt fait partie d'un nouvel écosystème dédié aux données de la recherche. S'articulant autour de recherche.data.gouv, l'écosystème comprend les ateliers de la donnée et des centres de référence thématiques. Les ateliers de la données, animés en région à proximité des équipes de recherche, ont pour mission d'aider les scientifiques dans la gestion de leurs données. Les centres de référence thématiques reposent sur des infrastructures de recherche qui seront chargées de la gestion et de la diffusion de données pour les données scientifiques de leurs communautés. En Biologie et Santé, c'est l'Institut Français de Bioinformatique (IFB) qui a été identifié. 

    • Pour aller plus loin

      Vous pouvez consulter les vidéos de la journée Archivage Numérique des Données de Recherche organisée le 20 novembre 2019 par l’UMS GRICAD (Grenoble Alpes Recherche – Infrastructure de Calcul Intensif et de Données) et le SARI (Réseau des Informaticiens du Sillon Alpin).