Résumé de section

  • Cette section aborde la question de la gestion des données en Biologie et en Bio-Informatique, de leur génération à leur réutilisation. Elle traite des défis liés aux formats, au stockage, aux licences et aux transferts de données, mettant en avant les pratiques et les solutions pour une gestion optimale des données scientifiques.

    • La génération / réutilisation de données

      À l'heure de l'intégration des données, les projets combinent très souvent une phase de génération de données et une phase de réutilisation de données.

      Génération de données

      Pour la phase de génération de données vont se poser diverses questions concernant l'adoption de pratiques concernant les formats, le nommage des fichiers, etc. afin de pouvoir, tout au long du cycle de vie du projet, gérer efficacement ces données dans la perspective de leur valorisation par un partage auprès de la communauté scientifique.

      Si l'on ne dispose pas des ressources de génération / traitements de données adaptés au sein de son laboratoire, on pourra se retourner vers les plates-formes offrant les services adaptés. Ces plates-formes se dotent, elles-aussi, de DMP structure : Cat-OPIDoRIBiSAGénotoul, Biogenouest...

      Description dans la légende ci-dessous.
      Extrait de la liste des plateformes d'acquisition sur Cat OPIDoR
      Description dans la légende ci-dessous.
      Extrait de la liste des données disponibles sur ELIXIR Core Data Ressource
      Réutilisation de données

      Pour identifier des jeux de données réutilisables, en plus du travail classique de bibliographie, on pourra explorer les banques de données généralistes, consulter les ressources et dépôts sur re3data (Registry of Research Data Repositories) ou encore consulter les listes de dépôts d'éditeurs de journaux scientifiques (Nature, ASM, etc.). ELIXIR propose également une liste de ses ressources.

      En cas de téléchargement de données potentiellement volumineuses, on risque de rencontrer la problématique du transfert et du stockage de ces données (voir les chapitres ci-dessous).  

      Pour cette phase de réutilisation des données existantes, il faudra également se poser la question de la licence attribuée à ces données afin de savoir si elles sont réutilisables. Si aucune licence n'est associée aux données, elles ne sont pas réutilisables.


    • Le stockage des données

      Une des plus grandes difficultés pour le chercheur ou la chercheuse est de bien estimer le volume des données afin de s'assurer qu'elles pourront être hébergées sans dépasser les capacités de stockage des plates-formes d'analyse mais également des capacités de calcul. 

      Il faut bien évidemment considérer les données brutes mais également toutes les données intermédiaires qui peuvent faire exploser les besoins en stockage et en analyse, sans compter également les données de référence issues des entrepôts ou des banques. 

      Il est essentiel de toujours interagir en amont avec son service informatique ou bien sa plate-forme bio-informatique pour anticiper le stockage et les traitements nécessaires, surtout lorsque les jeux de données sont très volumineux (plusieurs dizaines de To). C'est également le service informatique ou les gestionnaires des infrastructures de calcul qui pourront prodiguer des conseils concernant les différents types de stockage (capacitif ou rapide) et ainsi de choisir la solution la plus adaptée. 

      Le coût du stockage

      L'estimation du volume des données est très important pour le déroulement sans accrocs techniques mais également pour une gestion efficace des financements. Il est indispensable de se renseigner sur le coût des volumes. À titre d'exemple, certains sites proposent des outils d'évaluation des coûts de stockage, à l'image du DSW Storage Costs Evaluator.



    • Le transfert des données

      À un moment ou un autre, on sera confronté à la question du transfert des données entre par exemple le site de production et le site d’analyse des données. Étant donné que les données biologiques sont très volumineuses, des problèmes importants peuvent survenir et il est crucial de pouvoir les anticiper.

      Parmi les problèmes qu'il est possible de rencontrer, ceux liés à la combinaison du volume des données et de la bande passante disponible sont les plus communs, entraînant des délais de transfert prohibitifs, à tel point qu'il est parfois préférable d'envoyer les données sur un disque dur par voie postale.

    • Volume des données (en octets) Bande passante du réseau (en bits par seconde)
      45 Mbps 100 Mbps 1 Gbps 10 Gbps
      1 To 2 jours 1 jour 3 heures 15 minutes
      35 To 82 jours 37 jours 4 jours 9 heures
      500 To 3 ans 1 an 53 jours 5 jours
      2 Po 13 ans 6 ans 216 jours 22 jours
      5 Po 33 ans 15 ans 1 an 54 jours
    • Veillez à l'endroit où vous transférez vos données

      Avant de se lancer dans des transferts, il faut toujours se questionner sur l'aspect légal ou éthique du transfert vers une autre infrastructure. S'agit-il de données sensibles ? Le site destinataire est-il habilité pour l'hébergement de telles données ? Dispose-t-il de la certification HDS (hébergeur de données de santé) ?  Par exemple, l'utilisation de ressources comme Google drive ou Dropbox pose de sérieux problèmes de confidentialité et de protection des données de la recherche. Voir par exemple la PPST (Protection du Patrimoine Scientifique et Technique de la Nation).

    • Les protocoles de transfert de données en résumé

      Pour des transferts de données de taille ordinaire, les protocoles FTP, FTPS, SFTP et HTTPS seront utilisés. 

      Pour des transferts volumineux, des solutions spécifiques sont recommandées comme GridFTP ou Aspera. GridFTP et Globus, développés dans le cadre des grilles de calcul, prennent en charge le parallélisme et la reprise sur erreur. La solution propriétaire Aspera d'IBM utilise le protocole FASP pour optimiser le transfert de fichiers sur des réseaux conventionnels, offrant des performances élevées.

    • Consultez l'équipe informatique

      Pour utiliser efficacement le transfert de données, il faut considérer le réseau et ses capacités comme une ressource que l'on cherchera à optimiser et à économiser. Ainsi, il est préférable de s'enquérir auprès des services compétents de la capacité du réseau du laboratoire afin d'éviter tout risque de saturation ou d'engorgement. Cela permet par exemple de mettre en place une stratégie pour la récupération des données. D'autre part, il faut envisager les différentes techniques qui permettront d'économiser cette ressource en pensant par exemple à la compression des données pour réduire la taille des fichiers (faire attention au cas des données de bio-imagerie pour lesquelles un format de compression sans perte doit être choisi). On s'attachera également à la mise en place de procédures pour s'assurer que les données n'ont pas été corrompues durant le transfert (par exemple avec des clés de hachage).