Résumé de section

  • Les données de recherche font parties des sources nécessaires pour valider les résultats scientifiques. Elles sont donc très importantes et nécessitent une attention particulière tout au long d'un travail de recherche. Mais au quotidien, il peut arriver que l'on fasse quelques erreurs qui peuvent amener à perdre ces données. 

    Cette initiation vous permet d'en apprendre plus sur les entrepôts, de comprendre leur utilité, de connaître leurs spécificités et de vous guider dans la recherche de l'entrepôt le plus adapté à votre situation.


    Objectifs
    • Comprendre les différentes étapes de stockage, de diffusion et d’archivage des données de la recherche ;
    • Expliquer les enjeux liés au dépôt de données ;
    • Définir ce qu’est un entrepôt de données ;
    • Identifier les éléments importants pour trouver un entrepôt ;
    • Identifier les points à vérifier avant de déposer ses données ;
    • Identifier la procédure de dépôt de données sur Recherche Data Gouv.
    Ce cours est en libre accès !

    Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

    Pour participer aux activités (exercices, forum...), vous devez vous inscrire au cours

    S'inscrire au cours
    • Auteur(s) / Formateur(s): Urfist Méditerranée
      Production cours: Viet Jeannaud
      Public cible: Chercheurs, Doctorants
      Date de publication: 10 mars 2022
      Mise à jour: 22 mai 2023
      Durée estimée: 1 heure
      Licence: CC BY-NC-SA
      Open badge: Non
      Nombre d'inscrits: 21
      Catalogue: Non
      Thématique: Science Ouverte, Données de la recherche
      Durée: Format moyen (1h - 1h30)
      Type d'accès: Libre accès, Auto-inscription
      Partenaire: Urfist
      Langue: Français

    • Qu'entend-on par déposer ses données ?

      Il existe de nombreux services pour stocker ses fichiers sur le cloud. Google Drive et One Drive font partis des plus connus. Si ces solutions peuvent être adaptées à des fins personnelles, elles ne devraient pas l'être en ce qui concerne des données issues d'un travail de recherche. En effet, les données scientifiques ont un statut particulier. Elles ont un intérêt pour la communauté scientifique et forment un bien commun. Elles nécessitent donc une attention particulière en termes de conditions d'accès, d'hébergement, d'usage, de sécurité, d'infrastructure technique...

      De ce fait, les entrepôts sont des services profilés pour les données de la recherche. Mais avant d'aller plus loin, attardons-nous un instant sur la différence entre stockage et diffusion (dépôt de données). 



      Le dépôt des données dans un entrepôt rentre dans une logique de diffusion et de partage.


      La phase de stockage

      Durant un projet de recherche, les membres de l'équipe produisent ou collectent des données afin de valider / produire des résultats. Ces données peuvent être très variées : données expérimentales (obtenues à partir d’équipements de laboratoire), données d’observation (neuroimageries, photographies astronomiques, données d’enquête...), données computationnelles (modèles météorologiques, modèles de simulation sismique, modèles économiques), etc.

      Toutes ces données en cours d'élaboration ont besoin d'être stockées quelque part et être accessibles, le plus souvent aux seuls membres de l'équipe. Les supports de stockage utilisés sont généralement les disques durs des ordinateurs, les serveurs ou les services cloud du labo / institution. 

      Cette "phase de stockage" ne concerne pas les entrepôts de données.


      La phase de diffusion

      En fin de projet, l'article scientifique doit être soumis à un comité de lecture pour évaluation et validation. Afin d'améliorer les conditions d'évaluation, les données sous-jacentes à l'article sont aussi de plus en plus demandées. Ainsi, le texte et les données sous-jacentes doivent être accessibles au comité de lecture (on notera que les figures, tableaux et autres visuels contenus dans le texte sont à considérer comme des données intégrées). 

      C'est là qu'entre en jeu le dépôt des données dans un entrepôt. Les entrepôts facilitent l'accès et l'intelligibilité des données, aspects nécessaires au travail des évaluateurs. Outre le travail du comité de lecture, les entrepôts offrent aux communautés scientifiques un accès optimum aux données, une transparence de la recherche, une reconnaissance de la paternité des travaux, une possible réutilisation et une possible reproductibilité.


      La phase d'archivage

      Une phase d'archivage ou de préservation peut être aussi considérée lorsque le projet est terminé et que l'on sélectionne les données que l'on souhaite préserver car ayant une utilité sur le long terme. On a alors recours à des centres d'archivages qui traitent les données pour qu'elles soient lisibles dans le temps. Avec le dépôt dans un entrepôt certifié (évoqué plus bas), cette phase est généralement transparente pour le chercheur.


      Les entrepôts de données correspondent donc à une logique de diffusion et de partage. Il y a bien sûr d'autres façons de diffuser des données (fichier annexé au texte, carnet de recherche en ligne,...), mais ces aspects ne seront pas approfondis ici.


    • Qu'est-ce qu'un entrepôt de données ?

      Pour le dire simplement, les entrepôts de données sont des plateformes web sur lesquelles les chercheurs peuvent déposer et rechercher des données scientifiques. Ils proposent des services spécifiques à l'activité de recherche (description des jeux de données, choix des conditions d'accès, attribution de licence...) et offrent une garantie de sécurité. La plupart présente un système de recherche détaillé avec de nombreux filtres.


      Exemple de recherche de données sur l'entrepôt Zenodo

      Bien évidemment, tous les entrepôts ne se valent pas et selon le domaine ou la discipline scientifique du chercheur, il peut être nécessaire de faire des recherches assez poussées pour trouver celui qui convient le mieux (nous verrons ces aspects-là par la suite).

      Il existe de nombreux entrepôts que l'on peut ranger dans différentes catégories, entre autres :

      • Entrepôts provenant d'éditeurs scientifiques
      • Entrepôts supportés par des institutions
      • Entrepôts nationaux
      • Entrepôts liés à des disciplines
      • Entrepôts multidisciplinaires
      • Etc

      Comme il n'est pas forcément évident de s'y retrouver, il existe des services complémentaires, appelés annuaires d'entrepôts, qui permettent de rechercher un entrepôt selon plusieurs critères.


      Callisto. (2022, 26 octobre). La minute Entrepôt de données. [Vidéo]. Canal-U. https://www.canal-u.tv/134293. (Consultée le 10 mai 2023)


    • Pourquoi déposer les données de recherche ?

      Comme nous l'avons dit précédemment, il ne faut pas juste considérer les entrepôts de données comme des solutions de sauvegarde (back-up) ou d'hébergement. Déposer des données s’inscrit avant tout dans une démarche de partage, d'ouverture des données (open research data). Cette démarche est une des composantes de la science ouverte.

      Le mouvement de la Science ouverte vise à construire un écosystème dans lequel la science sera plus cumulative, plus fortement étayée par des données, plus transparente, plus rapide et d’accès universel.


      Pour étayer ces propos, on peut donner quelques arguments plaidant pour le dépôt des données.




      Beaucoup d'autres arguments peuvent venir compléter la liste, comme le fait d'offrir une meilleure garantie contre les fraudes scientifiques ou encore, au niveau individuel, d'inciter à adopter de bonnes pratiques de gestion des données (décrire les données, les documenter, les pérenniser…), ce qui améliore la qualité du travail de recherche ! 


    • Quiz

      Faisons un point rapide sur ce que vous venez de lire pour voir si l'essentiel est compris !




    • Il existe un nombre important d’entrepôts qu'il n'est pas possible de recenser de façon exhaustive. Nous pouvons néanmoins tenter de donner un petit aperçu d'entrepôts que l'on peut distinguer selon certaines spécificités :


      Nakala
      Entrepôt disciplinaire

      Nakala est un entrepôt national français dédié aux données SHS. C'est une réalisation de l'infrastructure de recherche Huma-Num (CNRS, Aix-Marseille Université, Campus Condorcet).


      Dryad
      Entrepôt multipdisciplinaire

      Dryad est un projet communautaire à but non lucratif. Il propose une grande diversité de données sous-jacentes aux publications issues de nombreuses revues et institutions de toutes disciplines.


      Merritt
      Entrepôt institutionnel

      Merritt est un entrepôt géré par le centre de conservation de l'Université de Californie. Il est à la disposition de tous les membres de la communauté de l'université pour les aider à gérer, archiver et/ou partager du contenu numérique.


      GigaDB
      Entrepôt propre à un éditeur

      GigaDB est un entrepôt de données soutenant les publications scientifiques dans le domaine des sciences de la vie/biomédicales. À l'origine, GigaDB servait principalement de dépôt pour héberger les données et les outils associés aux articles de GigaScience ; cependant, il accepte désormais les ensembles de données qui ne sont pas associés aux articles de GigaScience.


      GFZ
      Entrepôt spécifique à un projet

      GFZ Data Services est un entrepôt de données de recherche pour le domaine des sciences de la Terre et de l'environnement, hébergé au centre de recherche allemand GFZ pour les géosciences à Potsdam. Les services de données du GFZ sont ouverts aux données de recherche et aux logiciels scientifiques dans le domaine des sciences de la Terre et de l'environnement.


      UniProt
      Banque de données de référence

      L'Universal Protein Resource (UniProt) est une ressource complète pour les séquences de protéines et les données d'annotation. Les bases de données UniProt sont l'UniProt Knowledgebase (UniProtKB), les UniProt Reference Clusters (UniRef) et l'UniProt Archive (UniParc). Le consortium UniProt et les institutions hôtes EMBL-EBI, SIB et PIR s'engagent à préserver à long terme les bases de données UniProt.


      Recherche Data Gouv

      Dès 2018, la Ministre de l’Enseignement Supérieur, de la Recherche et de l’Innovation annonçait parmi les mesures du plan national pour la science ouverte le développement d’un service générique d’accueil et de diffusion des données. Le projet Recherche Data Gouv met ainsi à disposition de la communauté scientifique une plateforme nationale fédérée et de confiance pour la publication et le signalement des données de la recherche

      Les établissements qui le souhaitent peuvent disposer d'un espace dans la plateforme pour que les données de recherche produites par les équipes de leur établissement y soient déposées. Un espace dédié au déposants ne disposant pas d'espace institutionnel est également mis à disposition. 

      Cette façon de catégoriser les entrepôts n'est pas à prendre au pied de la lettre, les missions / politiques des entrepôts peuvent évoluer dans le temps (comme par exemple l'entrepôt GigaDB qui était à la base un entrepôt propre à l'éditeur GigaScience mais qui maintenant s'ouvre à d'autres). L'intérêt est plutôt de vous aider à identifier certains grands critères pour distinguer les entrepôts les uns des autres. Nous pouvons d'ailleurs en préciser un autre qui peut avoir son importance : la certification.


    • La certification CoreTrustSeal Data Repository

      CoreTrustSeal est une organisation internationale, communautaire, non gouvernementale et à but non lucratif qui promeut des infrastructures de données durables et fiables. Elle propose de certifier les entrepôts selon 16 exigences reflétant les caractéristiques que l’on peut conférer à des entrepôts fiables.

      Les bailleurs de fonds nationaux et internationaux sont de plus en plus susceptibles d'imposer des politiques de données ouvertes et de gestion des données qui prévoient le stockage et l'accessibilité à long terme des données.

      Si nous voulons être en mesure de partager les données, nous devons les stocker dans un référentiel de données fiable. Les données créées et utilisées par les scientifiques doivent être gérées, conservées et archivées de manière à préserver l'investissement initial dans leur collecte. Les chercheurs doivent être certains que les données conservées dans les archives resteront utiles et significatives à l'avenir. Les autorités de financement exigent de plus en plus un accès permanent aux données produites par les projets qu'elles financent, et en ont fait un élément important des plans de gestion des données. En effet, certains bailleurs de fonds stipulent désormais que les données qu'ils financent doivent être déposées dans un dépôt digne de confiance.


      Des centaines d'entrepôts sont certifiés, comme par exemple l'Ifremer. Vous pouvez rechercher facilement les entrepôts certifiés sur le site du CoreTrustSeal : https://www.coretrustseal.org/why-certification/certified-repositories

      Capture d'écran de la recherche d'entrepôt certifié sur CoreTrustSeal


      La certification est un moyen de s'assurer de la qualité d'un entrepôt. Mais il faut aussi noter que plusieurs entrepôts non certifiés sont tout de même largement reconnus par la communauté scientifique et offrent des garanties de conservation à long terme. C'est le cas par exemple de GenBank en biologie moléculaire.

    • Il y a donc un nombre important d'entrepôts que l'on peut classer dans des grandes catégories (selon les disciplines / projets / éditeurs concernés...). Ce critère peut déjà vous orienter si vous cherchez un entrepôt de données. Par exemple si vous êtes chercheur en sciences de l'éducation, l'entrepôt Nakala (SHS) sera déjà plus adapté que l'entrepôt Pangea (science de la terre et de l'environnement). 

      Si ce critère permet déjà de restreindre les choix, d'autres critères plus fins et propres à chaque contexte peuvent aussi être pris en compte : vous faut-il un entrepôt certifié ? permettant de modifier les données et accéder aux anciennes versions ? proposant des licences de diffusion... ? 

      Pour vous guider dans votre choix, nous allons maintenant regarder tous les points que vous devriez prendre en compte afin de trouver l’entrepôt le mieux adapté à votre situation.


    • Les recommandations d'entrepôt

      Il se peut qu’une recommandation soit faite par une partie prenante du projet (financeur, université, organisme de recherche) ou une des revues dans laquelle vous souhaitez publier. Une des premières choses à faire est donc de vérifier si vous avez des recommandations.





    • Les annuaires d'entrepôt

      Comme nous l’avons vu un peu avant, il existe des annuaires (ou répertoires) qui recensent des entrepôts et permettent une recherche par filtre. En voici quelques-uns.


      Annuaires multidisciplinaires
      Cat OPIDoR

      C'est un catalogue qui a pour objectif de cartographier les services français dédiés aux données scientifiques. Hébergé par l’Inist-CNRS qui assure la modération, il complète l'offre de services OPIDoR. 

      Une liste dédiée aux entrepôts de données français est disponible ici.


      re3data (Registry of Research Data Repositories)

      C'est un registre mondial d'entrepôts de données de recherche qui couvre les dépôts de différentes disciplines universitaires. Il comprend des dépôts qui permettent le stockage permanent et l'accès aux ensembles de données aux chercheurs, aux organismes de financement, aux éditeurs et aux institutions savantes. re3data promeut une culture de partage, un accès accru et une meilleure visibilité des données de recherche.


      OAD (Open Access Directory)

      OAD est un wiki où la communauté du libre accès peut créer et soutenir des listes factuelles simples sur le libre accès à la science et aux études. 

      Une liste dédiée aux entrepôts de données est disponible ici.


      Annuaires spécialisés

      FAIRsharing

      C'est une ressource informative et éducative sur les normes en matière de données et de métadonnées, en relation avec les bases de données et les politiques en matière de données. Une page est dédiée à la recherche d'entrepôts contenant plusieurs filtres (par discipline, domaine, recommandation, pays...).


      NIH (National Institutes of Health)

      Depuis plusieurs années, le BIMC (BioMedical Informatics Coordinating Committee) tient à jour sur ce site une liste d'entrepôts de données soutenus par les NIH :


      Annuaires mixtes

      OpenDOAR

      C'est un répertoire mondial d'entrepôts et archives ouvertes en libre accès, dont la qualité est garantie. Vous pouvez rechercher et parcourir des milliers d'entrepôts enregistrés en fonction d'une série de caractéristiques, telles que l'emplacement, le logiciel ou le type de matériel détenu.


      ROAR (Registry of Open Access Repositories)

      L'objectif de ROAR est de promouvoir le développement du libre accès en fournissant des informations opportunes sur la croissance et le statut des entrepôts et archives ouvertes à travers le monde.


    • D'autres critères

      En parallèle ou complément d'éventuelles recommandations, vous pouvez vous appuyer sur cette liste de critères qui pourra vous aider lors de vos recherches.

      Critères que l'on peut retrouver dans les annuaires

      Les annuaires d’entrepôts proposent certains filtres qui pourraient vous aider à trouver un entrepôt :

      • Disciplinaire ?
        • L’annuaire re3data par exemple permet de trier par domaine / sous domaine. L’annuaire spécialisé FAIRsharing permet de cibler très finement votre thématique de recherche. La liste OAD classe les entrepôts par disciplines.
      • Certifié / Reconnu ?
        • L’annuaire re3data par exemple permet de trier par type de certification.
      • Permettant de restreindre l’accès ?
        • Il y a un filtre « data access » dans l’annuaire re3data par exemple.
      • Permettant de modifier les données et accéder aux anciennes versions ?
        • Il y a un filtre « versionning » dans re3data par exemple
      • Attribuant un identifiant pérenne aux données ?
      • Proposant des licences de diffusion ?
      Informations que l'on peut trouver dans les pages de politique des entrepôts

      Certaines informations sont à vérifier dans les pages de politique de l’entrepôt, comme par exemple :

      • Le lieu d’hébergement du serveur
      • La préservation sur le long terme des données
      • Le coût du dépôt
        • Pour déposer dans certains entrepôts comme Dryad vous, votre institution ou votre éditeur devez vous acquitter de charges de publication. Le coût peut également être lié au volume de vos fichiers. Zenodo par exemple est gratuit pour les données hétérogènes (longue traîne des données).
      • Le statut public / privé de l’entrepôt
      • Les types de données acceptés
        • Certains entrepôts, comme Dryad, n’acceptent que les données liées à une publication. D’autres entrepôts, comme Zenodo, acceptent tout type de données.
      • Les formats de fichiers acceptés
        • L’entrepôt peut préconiser des formats de fichiers spécifiques. Par exemple, l’entrepôt Dryad accepte tout format mais recommande l’utilisation de formats non propriétaires et liste les formats à privilégier.
      • Le lien avec la publication de l’article
      Autres aspects à vérifier

      Enfin, certains aspects ne sont vérifiables qu’en naviguant sur le site de l’entrepôt. En allant visiter les sites d’entrepôt, vous pourrez notamment vérifier :

      • La facilité du dépôt
        • Est-ce que le site de l’entrepôt est simple d’utilisation, convivial, ergonomique ? Est-ce que le formulaire de dépôt est simple à compléter ? Certains entrepôts proposent également un accompagnement, des tutoriels pour vous aider dans le dépôt des données.
      • Les statistiques d’utilisation
        • L’entrepôt propose-t-il des statistiques d’utilisation, de consultation, de téléchargement ?
      • La qualité de la description (métadonnées)
        • La qualité de la description des jeux de données est importante pour permettre de les retrouver facilement. La plupart des entrepôts s’appuient sur des standards pour décrire les données.

    • Exercice : trouver l'entrepôt de données le plus adapté


      Le but de cet exercice est de retrouver sur l'annuaire re3data un ou plusieurs entrepôts qui pourraient convenir à la situation d'un chercheur souhaitant déposer ses données.

    • Le dépôt implique une gestion rigoureuse des données pour leur ouverture et partage. Il faut prendre en considération des aspects techniques, éthiques ou encore juridiques : s'assurer que les données soient bien structurées, documentées, réutilisables, compréhensibles, etc.


    • Exercice : vérifier un jeu de données déposé sur Zenodo

      Examinez le jeu de données ci-dessous et répondez aux questions suivantes :



    • Comment déposer un jeu de données sur Recherche Data Gouv ?

      Terminons ce cours par un exemple de dépôt en ligne sur l'entrepôt Recherche Data Gouv. Les équipes de Recherche Data Gouv et de DoRANum se sont associées pour élaborer des tutoriels interactifs afin d’appréhender toutes les étapes de la création d’un compte jusqu’à la gestion du dépôt et la recherche de données.


    • Les entrepôts permettent de diffuser ouvertement (ou de façon restreinte) des données de recherche. Cette démarche s'inscrit dans le mouvement de la science ouverte. 

      Le fait de déposer des données apporte plusieurs avantages : gain de visibilité des chercheurs, citabilité des jeux de données, adoption de bonnes pratiques de gestion des données, pérennité de l'accès aux données, retour sur investissement dans la Recherche et Développement... En parallèle, le dépôt des données tend à devenir obligatoire pour obtenir les financements de projets publics ou pour publier un article de recherche.


      Callisto. (2018, 20 mars). Déposer ses données de recherche : pourquoi, quoi, quand, où et comment ?. [Vidéo]. Canal-U. https://www.canal-u.tv/116062. (Consultée le 10 mai 2023)
  • Un forum est à votre disposition pour toute question. Vous pouvez aussi nous aider à améliorer ce cours en nous donnant votre avis.

  • Ce cours et les ressources qu'il intègre sont réutilisables selon la licence CC BY_NC-SA 4.0 (Attribution-NonCommercial-ShareAlike 4.0 International). 

    Un lien d'intégration ou de téléchargement est disponible sous chaque ressource réutilisable. 

    Si vous êtes formateur et que vous avez une plateforme Moodle, vous pouvez nous demander de vous envoyer le fichier source du cours dans son intégralité (au format Moodle .mbz).

    Nous contacter