Qu'entend-on par déposer ses données ?
Il existe de nombreux services pour stocker ses fichiers sur le cloud. Google Drive et One Drive font partis des plus connus. Si ces solutions peuvent être adaptées à des fins personnelles, elles ne devraient pas l'être en ce qui concerne des données issues d'un travail de recherche.
En effet, les données scientifiques ont un statut particulier. Elles ont un intérêt pour la communauté scientifique et forment un bien commun. Elles nécessitent donc une attention particulière en termes de conditions d'accès, d'hébergement, d'usage,
de sécurité, d'infrastructure technique...
De ce fait, les entrepôts sont des services profilés pour les données de la recherche. Mais avant d'aller plus loin, attardons-nous un instant sur la différence entre stockage et diffusion (dépôt de données).
Le dépôt des données dans un entrepôt rentre dans une logique de diffusion et de partage.
La phase de stockage
Durant un projet de recherche, les membres de l'équipe produisent ou collectent des données afin de valider / produire des résultats. Ces données peuvent être très variées : données expérimentales (obtenues à partir d’équipements de laboratoire),
données d’observation (neuroimageries, photographies astronomiques, données d’enquête...), données computationnelles (modèles météorologiques, modèles de simulation sismique, modèles économiques), etc.
Toutes ces données en cours d'élaboration ont besoin d'être stockées quelque part et être accessibles, le plus souvent aux seuls membres de l'équipe. Les supports de stockage utilisés sont généralement les disques durs des ordinateurs,
les serveurs ou les services cloud du labo / institution.
Cette "phase de stockage" ne concerne pas les entrepôts de données.
La phase de diffusion
En fin de projet, l'article scientifique doit être soumis à un comité de lecture pour évaluation et validation. Afin d'améliorer les conditions d'évaluation, les données sous-jacentes à l'article sont aussi de plus en plus demandées. Ainsi, le texte et
les données sous-jacentes doivent être accessibles au comité de lecture (on notera que les figures, tableaux et autres visuels contenus dans le texte sont à considérer comme des données intégrées).
C'est là qu'entre en jeu le dépôt des données dans un entrepôt. Les entrepôts facilitent l'accès et l'intelligibilité des données, aspects nécessaires au travail des évaluateurs. Outre le travail du comité de lecture, les entrepôts offrent
aux communautés scientifiques un accès optimum aux données, une transparence de la recherche, une reconnaissance de la paternité des travaux, une possible réutilisation et une possible reproductibilité.
La phase d'archivage
Une phase d'archivage ou de préservation peut être aussi considérée lorsque le projet est terminé et que l'on sélectionne les données que l'on souhaite préserver car ayant une utilité sur le long terme. On a alors recours à des centres d'archivages
qui traitent les données pour qu'elles soient lisibles dans le temps. Avec le dépôt dans un entrepôt certifié (évoqué plus bas), cette phase est généralement transparente pour le chercheur.
Les entrepôts de données correspondent donc à une logique de diffusion et de partage. Il y a bien sûr d'autres façons de diffuser des données (fichier annexé au texte, carnet de recherche en ligne,...), mais ces aspects ne seront pas approfondis ici.