Résumé de section

    • Il existe un nombre important d’entrepôts qu'il n'est pas possible de recenser de façon exhaustive. Nous pouvons néanmoins tenter de donner un petit aperçu d'entrepôts que l'on peut distinguer selon certaines spécificités :


      Nakala
      Entrepôt disciplinaire

      Nakala est un entrepôt national français dédié aux données SHS. C'est une réalisation de l'infrastructure de recherche Huma-Num (CNRS, Aix-Marseille Université, Campus Condorcet).


      Dryad
      Entrepôt multipdisciplinaire

      Dryad est un projet communautaire à but non lucratif. Il propose une grande diversité de données sous-jacentes aux publications issues de nombreuses revues et institutions de toutes disciplines.


      Merritt
      Entrepôt institutionnel

      Merritt est un entrepôt géré par le centre de conservation de l'Université de Californie. Il est à la disposition de tous les membres de la communauté de l'université pour les aider à gérer, archiver et/ou partager du contenu numérique.


      GigaDB
      Entrepôt propre à un éditeur

      GigaDB est un entrepôt de données soutenant les publications scientifiques dans le domaine des sciences de la vie/biomédicales. À l'origine, GigaDB servait principalement de dépôt pour héberger les données et les outils associés aux articles de GigaScience ; cependant, il accepte désormais les ensembles de données qui ne sont pas associés aux articles de GigaScience.


      GFZ
      Entrepôt spécifique à un projet

      GFZ Data Services est un entrepôt de données de recherche pour le domaine des sciences de la Terre et de l'environnement, hébergé au centre de recherche allemand GFZ pour les géosciences à Potsdam. Les services de données du GFZ sont ouverts aux données de recherche et aux logiciels scientifiques dans le domaine des sciences de la Terre et de l'environnement.


      UniProt
      Banque de données de référence

      L'Universal Protein Resource (UniProt) est une ressource complète pour les séquences de protéines et les données d'annotation. Les bases de données UniProt sont l'UniProt Knowledgebase (UniProtKB), les UniProt Reference Clusters (UniRef) et l'UniProt Archive (UniParc). Le consortium UniProt et les institutions hôtes EMBL-EBI, SIB et PIR s'engagent à préserver à long terme les bases de données UniProt.


      Recherche Data Gouv

      Dès 2018, la Ministre de l’Enseignement Supérieur, de la Recherche et de l’Innovation annonçait parmi les mesures du plan national pour la science ouverte le développement d’un service générique d’accueil et de diffusion des données. Le projet Recherche Data Gouv met ainsi à disposition de la communauté scientifique une plateforme nationale fédérée et de confiance pour la publication et le signalement des données de la recherche

      Les établissements qui le souhaitent peuvent disposer d'un espace dans la plateforme pour que les données de recherche produites par les équipes de leur établissement y soient déposées. Un espace dédié au déposants ne disposant pas d'espace institutionnel est également mis à disposition. 

      Cette façon de catégoriser les entrepôts n'est pas à prendre au pied de la lettre, les missions / politiques des entrepôts peuvent évoluer dans le temps (comme par exemple l'entrepôt GigaDB qui était à la base un entrepôt propre à l'éditeur GigaScience mais qui maintenant s'ouvre à d'autres). L'intérêt est plutôt de vous aider à identifier certains grands critères pour distinguer les entrepôts les uns des autres. Nous pouvons d'ailleurs en préciser un autre qui peut avoir son importance : la certification.


    • La certification CoreTrustSeal Data Repository

      CoreTrustSeal est une organisation internationale, communautaire, non gouvernementale et à but non lucratif qui promeut des infrastructures de données durables et fiables. Elle propose de certifier les entrepôts selon 16 exigences reflétant les caractéristiques que l’on peut conférer à des entrepôts fiables.

      Les bailleurs de fonds nationaux et internationaux sont de plus en plus susceptibles d'imposer des politiques de données ouvertes et de gestion des données qui prévoient le stockage et l'accessibilité à long terme des données.

      Si nous voulons être en mesure de partager les données, nous devons les stocker dans un référentiel de données fiable. Les données créées et utilisées par les scientifiques doivent être gérées, conservées et archivées de manière à préserver l'investissement initial dans leur collecte. Les chercheurs doivent être certains que les données conservées dans les archives resteront utiles et significatives à l'avenir. Les autorités de financement exigent de plus en plus un accès permanent aux données produites par les projets qu'elles financent, et en ont fait un élément important des plans de gestion des données. En effet, certains bailleurs de fonds stipulent désormais que les données qu'ils financent doivent être déposées dans un dépôt digne de confiance.


      Des centaines d'entrepôts sont certifiés, comme par exemple l'Ifremer. Vous pouvez rechercher facilement les entrepôts certifiés sur le site du CoreTrustSeal : https://www.coretrustseal.org/why-certification/certified-repositories

      Capture d'écran de la recherche d'entrepôt certifié sur CoreTrustSeal


      La certification est un moyen de s'assurer de la qualité d'un entrepôt. Mais il faut aussi noter que plusieurs entrepôts non certifiés sont tout de même largement reconnus par la communauté scientifique et offrent des garanties de conservation à long terme. C'est le cas par exemple de GenBank en biologie moléculaire.