Section : Les différents types d'entrepôt | Les entrepôts de données - initiation

Résumé de section

- Sélectionner l’activité Un aperçu
  
  Il existe un nombre important d’entrepôts qu'il n'est pas possible de recenser de façon exhaustive. Nous pouvons néanmoins tenter de donner un petit aperçu d'entrepôts que l'on peut distinguer selon certaines spécificités :
  
  Nakala
  
  Entrepôt disciplinaire
  
  Nakala est un entrepôt national français dédié aux données SHS. C'est une réalisation de l'infrastructure de recherche Huma-Num (CNRS, Aix-Marseille Université, Campus Condorcet).
  
  Dryad
  
  Entrepôt multidisciplinaire
  
  Dryad est un projet communautaire à but non lucratif. Il propose une grande diversité de données sous-jacentes aux publications issues de nombreuses revues et institutions de toutes disciplines.
  
  Merritt
  
  Entrepôt institutionnel
  
  Merritt est un entrepôt géré par le centre de conservation de l'Université de Californie. Il est à la disposition de tous les membres de la communauté de l'université pour les aider à gérer, archiver et/ou partager du contenu numérique.
  
  GigaDB
  
  Entrepôt propre à un éditeur
  
  GigaDB est un entrepôt de données soutenant les publications scientifiques dans le domaine des sciences de la vie/biomédicales. À l'origine, GigaDB servait principalement de dépôt pour héberger les données et les outils associés aux articles de GigaScience ; cependant, il accepte désormais les ensembles de données qui ne sont pas associés aux articles de GigaScience.
  
  GFZ
  
  Entrepôt spécifique à un projet
  
  GFZ Data Services est un entrepôt de données de recherche pour le domaine des sciences de la Terre et de l'environnement, hébergé au centre de recherche allemand GFZ pour les géosciences à Potsdam. Les services de données du GFZ sont ouverts aux données de recherche et aux logiciels scientifiques dans le domaine des sciences de la Terre et de l'environnement.
  
  UniProt
  
  Banque de données de référence
  
  L'Universal Protein Resource (UniProt) est une ressource complète pour les séquences de protéines et les données d'annotation. Les bases de données UniProt sont l'UniProt Knowledgebase (UniProtKB), les UniProt Reference Clusters (UniRef) et l'UniProt Archive (UniParc). Le consortium UniProt et les institutions hôtes EMBL-EBI, SIB et PIR s'engagent à préserver à long terme les bases de données UniProt.
  
  Recherche Data Gouv
  
  Dès 2018, la Ministre de l’Enseignement Supérieur, de la Recherche et de l’Innovation annonçait parmi les mesures du plan national pour la science ouverte le développement d’un service générique d’accueil et de diffusion des données. Ouvert en 2022, Recherche Data Gouv met désormais à disposition de la communauté scientifique une plateforme nationale fédérée et de confiance pour la publication et le signalement des données de la recherche.
  
  Les établissements qui le souhaitent peuvent disposer d'un espace dans la plateforme pour que les données de recherche produites par les équipes de leur établissement y soient déposées. Un espace dédié aux scientifiques ne disposant pas d'espace institutionnel est également mis à disposition.
  
  La catégorisation d’un entrepôt de données peut varier, car les missions d’une plateforme peuvent évoluer dans le temps (comme par exemple l'entrepôt GigaDB qui était à la base un entrepôt propre à l'éditeur GigaScience mais qui maintenant s'ouvre à d'autres). L'intérêt de cette typologie est plutôt de vous aider à identifier certains grands critères pour distinguer les entrepôts les uns des autres. Nous pouvons d'ailleurs en préciser un autre qui peut avoir son importance : la certification.
- Sélectionner l’activité La certification CoreTrustSeal Data Repository
  
  La certification CoreTrustSeal Data Repository
  
  CoreTrustSeal est une organisation internationale, communautaire, non gouvernementale et à but non lucratif qui promeut des infrastructures de données durables et fiables. Elle propose de certifier les entrepôts selon 16 exigences reflétant les caractéristiques que l’on peut conférer à des entrepôts fiables.
  
  Les bailleurs de fonds nationaux et internationaux sont de plus en plus susceptibles d'imposer des politiques de données ouvertes et de gestion des données qui prévoient le stockage et l'accessibilité à long terme des données.
  
  Si nous voulons être en mesure de partager les données, nous devons les stocker dans un entrepôt de données fiable. Les données créées et utilisées par les scientifiques doivent être gérées, conservées et archivées de manière à préserver l'investissement initial dans leur collecte. Les chercheurs doivent être certains que les données conservées dans les archives resteront utiles et pertinentes à l'avenir. Les organismes de financement exigent de plus en plus un accès permanent aux données produites par les projets qu'elles financent, et en ont fait un élément important des plans de gestion des données. En effet, certains bailleurs de fonds stipulent désormais que les données qu'ils financent doivent être déposées dans un entrepôt digne de confiance.
  
  CoreTrustSeal Why certification
  
  Des centaines d'entrepôts sont certifiés, comme par exemple l'Ifremer.
  
  Le site du CoreTrustSeal vous permet de rechercher facilement les entrepôts certifiés.
  
  Capture d'écran de la recherche d'entrepôt certifié sur CoreTrustSeal
  
  La certification est un moyen de s'assurer de la qualité d'un entrepôt. Mais il faut aussi noter que plusieurs entrepôts non certifiés sont tout de même largement reconnus par la communauté scientifique et offrent des garanties de conservation à long terme. C'est le cas par exemple de GenBank en biologie moléculaire.
- Sélectionner l’activité La notion d'entrepôt de confiance
  
  La notion d'entrepôt de confiance
  
  Même si un entrepôt ne dispose pas d’une certification internationale obtenue à la suite d’une évaluation rigoureuse, il peut se révéler pertinent pour une communauté scientifique. On parle alors d’ « entrepôt de confiance » si sa mission est de fournir à une communauté donnée un accès fiable sur le long terme à des ressources.
  
  Voir la note méthodologique du Collège Données de la recherche du Comité pour la science ouverte.

Les différents types d'entrepôt

Résumé de section

Nakala

Entrepôt disciplinaire

Dryad

Entrepôt multidisciplinaire

Merritt

Entrepôt institutionnel

GigaDB

Entrepôt propre à un éditeur

GFZ

Entrepôt spécifique à un projet

UniProt

Banque de données de référence

Recherche Data Gouv

La certification CoreTrustSeal Data Repository

La notion d'entrepôt de confiance

Réseau Urfist

Callisto

Aide

Nous suivre

Résumé de section

Nakala

Entrepôt disciplinaire

Dryad

Entrepôt multidisciplinaire

Merritt

Entrepôt institutionnel

GigaDB

Entrepôt propre à un éditeur

GFZ

Entrepôt spécifique à un projet

UniProt

Banque de données de référence

Recherche Data Gouv

La certification CoreTrustSeal Data Repository

La notion d'entrepôt de confiance

Liens de bas de page

Réseau Urfist

Callisto

Aide

Nous suivre