Résumé de section

  • L'objectif de ce cours est de présenter les différentes étapes associées à la gestion de la donnée scientifique dans les champs de la Biologie et de la Bio-informatique. On abordera ces étapes sous l'angle technique tout en considérant les perspectives de science ouverte et de données FAIR qu'il est indispensable d'intégrer dans sa démarche. 

    En Bio-Informatique, les données sont indissociables des logiciels utilisés pour leur traitement et leur analyse. 

    Ce support brossera le paysage actuel en France, proposera des éléments de réflexion et fournira des pointeurs vers des ressources utiles ou indispensables. Certains points techniques, notamment concernant les aspects informatiques, seront rapidement abordés afin de permettre de disposer des clés d'analyse de la situation. 


    Objectifs
    • Comprendre la question de la donnée en Sciences du Vivant.
    • Avoir une vision d’ensemble du paysage des infrastructures dédiées à la donnée.
    • Identifier les verrous technologiques.
    • Obtenir des pistes concernant des solutions technologiques.
    Ce cours est en libre accès !

    Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

    Pour échanger sur le forum, vous devrez vous inscrire au cours.

    S'inscrire au cours
    • Auteur(s) / Formateur(s): Olivier Collin - Plate-forme GenOuest, Univ Rennes, Inria, CNRS, IRISA
      Production cours: Amélie Barrio - Urfist Occitanie, Viet Jeannaud - Callisto Formation
      Public cible: chercheurs, Doctorants en biologie et bioinformatique
      Date de publication: 17 septembre 2023
      Durée estimée: 2h30
      Prérequis: aucun
      Licence: CC BY-NC-SA
      Citation: Collin, O., & Jeannaud, V. (2023). La question des données en Bio-Informatique (Version 1). Callisto Formation.
      DOI: https://doi.org/10.60538/DONNEES-BIOINFORMATIQUE.
      Open badge: Non
      Nombre d'inscrits: 9


  • Les données biologiques sont souvent très volumineuses et complexes, et leur analyse nécessite des méthodes et des outils informatiques sophistiqués pour extraire des informations utiles. Elles sont aussi hétérogènes et proviennent de différentes sources, ce qui nécessite des méthodes pour les intégrer et les analyser de manière cohérente.

    • Avec l’avènement des nouvelles techniques de production de données en Biologie, deux phénomènes sont apparus :

      • Un accroissement massif du volume des données à traiter, on parle de tsunami de données ou de datanami. L'article "Big data : Astronomical or Genomical ? " illustre le changement important de la production des données en Biologie. Les auteurs comparent les caractéristiques des données de l'Astronomie, Youtube, Twitter et de la Génomique. Ils arrivent à la conclusion que la Génomique présente des caractéristiques propres en ce qui concerne la production des données, leur stockage, leur distribution et leur analyse. Cela se traduit par une croissance explosive, répartie sur de multiples sites, et des besoins nouveaux pour le stockage, la diffusion et l'analyse des données. 
      • Le recours de plus en plus fréquent à l’outil informatique, étant donné que les données générées sont sous forme numérique, a un impact très important sur les pratiques des biologistes qui vont devoir développer une expertise additionnelle en Bio-informatique et en Informatique. 


      La Biologie et la Bio-Informatique doivent donc relever plusieurs défis depuis ces dernières années : 

      • La gestion efficace de cette masse de données ;
      • L'intégration de ces données hétérogènes (données de type séquences, images, données d'expression, etc.) ;
      • Le nombre croissant des outils d'analyse
      • La mise en place de procédures efficaces pour une reproductibilité des traitements.


    • Accroissement de la quantité de données

      Les statistiques des banques de données généralistes donnent une idée de la croissance des données en Biologie. Si l’on prend le cas de GenBank (figure ci-contre), on s’aperçoit qu’à partir des années 2002 démarre la production de génomes entiers (WGS: Whole Genome Shotgun).

      Cette rupture est provoquée par l’apparition des séquenceurs de nouvelle génération qui vont modifier considérablement le paysage en Génomique et en Bio-Informatique. La Biologie était auparavant une discipline produisant assez peu de données. Depuis l'apparition des nouvelles techniques, il est possible de générer massivement des données sans avoir besoin de main d'œuvre supplémentaire. L’impact sur l’activité Bio-Informatique se fait sentir notamment en terme d’utilisation de ressources croissantes, qu’elles soient de calcul ou de stockage.

      Description dans la légende ci-dessous.

      Accroissement du nombre de données disponibles sur GenBank. Source : statistiques de GenBank

    • L’accroissement des capacités de génération des données ne se manifeste pas qu’avec les techniques de séquençage puisque, dans bien des domaines, l’arrivée de nouvelles technologies ou bien de nouvelles pratiques d'ouverture des données (FAIR data, Science Ouverte) déclenche les mêmes phénomènes.

      Le cas de la base EMDB (Electron Microscopy Data Bank) illustre ce phénomène comme le montre le graph ci-dessous.

      Description dans la légende ci-dessous.

      Accroissement du nombre d'entrées de l'EMDB publiées par année et cumulées. Source : statistiques EMBD

    • L'adaptation des plateformes de Bio-Informatique

      Les plates-formes Bio-Informatiques, occupant une place stratégique en tant que lieux de traitement de toutes ces données, sont des témoins privilégiés de cette évolution et doivent s’adapter pour accompagner au mieux les divers travaux de recherche. On constate que, depuis ces dernières années, les plates-formes Bio-Informatiques ouvertes aux communautés de recherche ont dû faire croître de manière importante leurs infrastructures pour accueillir des utilisateurs et utilisatrices toujours plus nombreux et dont les travaux d’analyses requièrent toujours plus de capacité de calcul et de stockage.

      Description dans la légende ci-dessous.

      Accroissement de la capacité de stockage de la plate-forme Bio-informatique GenOuest, localisée à Rennes.


    • Hétérogénéité des données

      La Biologie se caractérise par un grand nombre de types de données : séquences, motifs, graphes pour décrire les voies métaboliques ou les interactions, données quantitatives de suivi d'expression, données temporelles, images au contenu informationnel varié (résolution, traitements différents), informations spatiales et géographiques, modèles, données textuelles, etc. 

      Cette variété des données représente un défi en terme d'intégration pour les années à venir, d'autant plus que de nouvelles technologies de génération de données peuvent enrichir et compliquer ce paysage. 

      Pour aborder la question de l'hétérogénéité des données, on peut considérer à titre d'exemple la page dédiée aux ressources et aux outils de l'EBI (European Bioinformatics Institute).

      En filtrant une recherche par "data resources", on a 63 résultats qui vont couvrir des catégories aussi diverses que de l'imagerie, des puces à ADN, des séquences...

      Page de résultat de l'EBI affichant 63 résultats avec le filtre "data ressources"


      Tout cela complique de manière importante le travail du scientifique qui doit, à terme, intégrer / croiser les données pour pouvoir générer des informations significatives. Cette tâche est rendue plus complexe par le foisonnement de ressources à sa disposition. L'article annuel "NAR Database Issue" de la revue Nucleic Acids Research recense 1645 ressources dans sa 29ème édition publiée en décembre 2021.


    • Diversité des outils d'analyse

      La diversité des outils d'analyse peut être traduite en considérant juste la page de bio.tools qui recense actuellement plus de 28 000 outils. Si l'on filtre notre recherche uniquement par le séquençage, on s'aperçoit qu'il y a environ 10 000 outils.

      Cela signifie que les scientifiques sont amenés à un travail très important de sélection des outils afin d'identifier la ressource la plus adaptée à leur besoin. Le site bio.tools est d'ailleurs une solution à cette problématique puisqu'il permet de faire des recherches d'outils par catégorie.

      Description dans la légende ci-dessous.

      28 190 outils au total sur bio.tools ( avril 2023)

      Description dans la légende ci-dessous.

      10 749 outils dédiés à l'analyse de séquences sur bio.tools (avril 2023)

    • Abondance des données en Sciences de la Vie

      Le graphe du LOD (Linked Open Data) présente les données publiques interconnectées grâce aux technologies du web sémantique. On constate que le domaine de la Biologie (entouré en rouge) est particulièrement bien représenté dans ce graphe avec un nombre important de ressources ouvertes et accessibles. Parmi les ressources disponibles, on peut citer :

      • Les bases de données de référence (génomiques et protéiques) telles GenBank, UniProt, PDB (Protein Data Bank), KEGG (Kyoto Encyclopedia of Genes and Genomes), etc.
      • Les bases de données d'expression génique comme GEO (Gene Expression Omnibus), ArrayExpress.
      • Les bases de données des variations génétiques telles dbSMP (Single Nucleotide Polymorphism Database), GWAS Catalog (Genome Wide Association Studies).
      • Les bases de référence des ontologies et des taxonomies comme GO, NCBI (National Center for Biotechnology Information).

      Les bases de données en Sciences de la Vie se caractérisent par une connectivité importante (liens gris entre les ressources) qui devrait favoriser l'intégration des données.  

      Description dans la légende ci-dessous.

      Visualisation des données interconnectées en sciences de la vie - source : The Linked Open Data


    • En résumé

      La diversité des défis à relever, impliquant diverses expertises parfois très pointues, crée une situation unique pour les divers acteurs et actrices de la Biologie et de la Bio-Informatique. Ces acteurs vont devoir établir des passerelles entre différents plans "métiers" : Biologie, Bio-Informatique et Informatique. 

      Les allers et retours entre ces différents niveaux créent, pour les scientifiques, un risque de dispersion quand il s'agit d'acquérir de nouvelles expertises, parfois au détriment du sujet principal de leur recherche.

    • Bio

      C'est au niveau de la couche métier de la Biologie que sont posées les questions et que sont générées les données. Avec les évolutions technologiques, les données sont le plus souvent sous format numérique et sont analysées avec les outils Bio-Informatiques.

      Bio-Info

      C'est au niveau de la couche métier Bio-Informatique que sont prises en charge les données pour être analysées avec l'ensemble des logiciels développées par la communauté, le plus souvent mis en œuvre au sein de workflows avant de délivrer les résultats qui vont permettre de répondre aux questions biologiques.

      Info

      L'ensemble des manipulations in silico réalisées par la couche Bio-Informatique repose sur l'utilisation de ressources informatiques. Ces ressources de stockage et de calcul permettent d'héberger les données et les workflows d'exécution de la Bio-Informatique.

  • Dans le cadre de la structuration des projets de recherche, la gestion des flux de données en Biologie et en Bio-Informatique est un enjeu majeur pour les chercheurs qui devront mettre en place une organisation allant de la génération des données jusqu'à leur pérennisation, en passant par leur analyse. Dans un tel objectif, l'identification des infrastructures de génération, d'analyse et de pérennisation des données mais également l'adoption de bonnes pratiques de gestion de données est essentielle.

    • Le Data Management Plan

      Pour mieux structurer ses projets, la rédaction d'un plan de gestion des données (PGD ou DMP pour Data Management Plan) est un outil très précieux puisqu'il va permettre d'aborder un grand nombre de questions liées à la gestion des données. En s'intéressant initialement à la description des données créées ou réutilisées, à leur format et à leurs standards, en questionnant les aspects éthiques ou de confidentialité, en considérant leur partage et leur ouverture ainsi que leur conservation sur le long terme, le DMP va aider le scientifique à mieux structurer son approche de la donnée en prenant également en compte certains aspects techniques indispensables.

      Le DMP se présente sous forme d’un document structuré en rubriques. Il a pour objectif de synthétiser la description et l’évolution des jeux de données d'un projet de recherche.

    • Informations administratives

      Financement du projet, contributeurs...

      Description des données

      Façon dont les données ont été recueillies, créées, réutilisées...

      Sécurité des données

      Mesures prises pour assurer la sécurité des données...

      Stockage et sauvegarde

      Endroit où les données sont stockées durant le projet, fréquence des sauvegardes...

      Documentation, métadonnées, standards

      Standard de métadonnées utilisé, mode d'organisation des données...

      Partage et accessibilité

      Choix des données à partager, condition de partage, licence...

      Archivage

      Sélection des données à conserver sur le long terme, choix de l'entrepôt ou archive...

      Aspects juridiques et éthiques

      Traitement des données à caractère personnel, respect des dispositions  légales...

      Coûts

      Frais de stockage, coût matériel, frais d’entrepôt et d'archivage...

      Exemple générique de rubriques pouvant se retrouver dans un plan de gestion de données


    • Quelques ressources utiles pour la mise en place d'un DMP

      Pour la mise en place du DMP, il est possible de bénéficier d'aide, de formation et également de nombreuses ressources en ligne afin d'aborder au mieux cette étape de conceptualisation du projet sous l'angle de la donnée.

    • Des ressources d'auto-formation

      Voici quelques ressources d'auto-formation accessibles librement :

      DoRANum

      Une plateforme de formation sur la gestion et le partage des données de la recherche réalisée par l’Inist-CNRS et le GIS Réseau Urfist.

      RDMkit

      Une boîte à outils sur la gestion des données de recherche développée au sein du projet ELIXIR-CONVERGE.

      FAIRcookbook

      Diverses recettes pour une démarche FAIR.

      The Turing Way

      Une ressource pour la mise en place d'une science des données reproductible, éthique et collaborative.

    • Les articles Ten simple rules

      La série des Ten simple rules du PLOS permet aussi d'aborder rapidement les différents aspects d'une problématique.

      Dix règles simples pour
      Créer un bon plan de gestion des données

      Voir l'article

      Dix règles simples pour
      Le stockage des données numériques

      Voir l'article

      Dix règles simples pour
      Une recherche informatique reproductible

      Voir l'article

      Dix règles simples pour
      Améliorer la découverte des données de recherche

      Voir l'article

      Dix règles simples pour
      Le traitement des données à grande échelle

      Voir l'article

      Dix règles simples pour
      Rendre les supports de formation FAIR

      Voir l'article

      Dix règles simples pour
      Utiliser les données biologiques publiques pour votre recherche

      Voir l'article

    • Les Ateliers de la donnée

      Pour une aide plus directe, il est possible de contacter les Ateliers de la donnée. Mis en place au sein de l'écosystème Recherche Data Gouv, une structuration nationale se met en place. En 2023, on dénombre 15 ateliers, probablement rejoints par d'autres en 2024 à la faveur de nouveaux appels à labellisation.


    • Les outils d'aide à la rédaction

      On constate à l’heure actuelle, avec la généralisation des démarches de Science Ouverte, avec l’adoption des principes FAIR, l’émergence de nombreux outils d’assistance à la rédaction d’un DMP. En voici une liste non exhaustive.


    • Conseils pour choisir son outil de DMP

      Devant une telle profusion d'outils à la fonction similaire, se pose la question de la sélection d'un outil pour élaborer un plan de gestion des données ? Il suffit de rester pragmatique, le choix peut être guidé par :

      • Les recommandation des financeurs (par exemple, l'ANR demandera OPIDoR) ;
      • les partenaires du projet.

      Pour identifier et sélectionner un outil d'aide à la rédaction de DMP, on peut conseiller la lecture d'un article comparatif rédigé par le GTSO Données du Consortium Couperin s'intéressant aux trois outils: Argos, DMP-OPIDoR, DSW.


    • Autres outils de gestion

      Dans le cas de projets incluant une composante de développement logiciel, il faut garder à l'esprit qu'existent désormais des Plans de Gestion des Logiciels (Software Management Plan : SMP). Le réseau ELIXIR promeut la mise en place de SMP dans le domaine de la Bio-Informatique et dispose d'une page où sont consultables les travaux.

      Parallèlement à l'utilisation d'outils de planification tels que les DMP ou les SMP, l'outil SEEK, développé dans le cadre du projet FAIRDOM, peut être d'une grande aide pour mieux structurer la gestion des données dans une perspective de partage et de collaboration. FAIRDOM-SEEK est une plate-forme de catalogage et de communs open source, basée sur le Web, permettant de partager des ensembles de données de recherche hétérogènes, des modèles ou des simulations, des processus et des résultats de recherche. Il préserve les associations entre eux, ainsi que des informations sur les personnes et les organisations. Il permet de capturer les divers éléments clés d'un projet de recherche en les représentant sous forme graphique. 


      Description précisée dans la légende ci-dessous.

      Vue graphique offerte par SEEK permettant de visualiser l'arborescence ISA (Investigation Study Assay).

  • Cette section aborde la question de la gestion des données en Biologie et en Bio-Informatique, de leur génération à leur réutilisation. Elle traite des défis liés aux formats, au stockage, aux licences et aux transferts de données, mettant en avant les pratiques et les solutions pour une gestion optimale des données scientifiques.

    • La génération / réutilisation de données

      À l'heure de l'intégration des données, les projets combinent très souvent une phase de génération de données et une phase de réutilisation de données.

      Génération de données

      Pour la phase de génération de données vont se poser diverses questions concernant l'adoption de pratiques concernant les formats, le nommage des fichiers, etc. afin de pouvoir, tout au long du cycle de vie du projet, gérer efficacement ces données dans la perspective de leur valorisation par un partage auprès de la communauté scientifique.

      Si l'on ne dispose pas des ressources de génération / traitements de données adaptés au sein de son laboratoire, on pourra se retourner vers les plates-formes offrant les services adaptés. Ces plates-formes se dotent, elles-aussi, de DMP structure : Cat-OPIDoRIBiSAGénotoul, Biogenouest...

      Description dans la légende ci-dessous.
      Extrait de la liste des plateformes d'acquisition sur Cat OPIDoR
      Description dans la légende ci-dessous.
      Extrait de la liste des données disponibles sur ELIXIR Core Data Ressource
      Réutilisation de données

      Pour identifier des jeux de données réutilisables, en plus du travail classique de bibliographie, on pourra explorer les banques de données généralistes, consulter les ressources et dépôts sur re3data (Registry of Research Data Repositories) ou encore consulter les listes de dépôts d'éditeurs de journaux scientifiques (Nature, ASM, etc.). ELIXIR propose également une liste de ses ressources.

      En cas de téléchargement de données potentiellement volumineuses, on risque de rencontrer la problématique du transfert et du stockage de ces données (voir les chapitres ci-dessous).  

      Pour cette phase de réutilisation des données existantes, il faudra également se poser la question de la licence attribuée à ces données afin de savoir si elles sont réutilisables. Si aucune licence n'est associée aux données, elles ne sont pas réutilisables.


    • Le stockage des données

      Une des plus grandes difficultés pour le chercheur ou la chercheuse est de bien estimer le volume des données afin de s'assurer qu'elles pourront être hébergées sans dépasser les capacités de stockage des plates-formes d'analyse mais également des capacités de calcul. 

      Il faut bien évidemment considérer les données brutes mais également toutes les données intermédiaires qui peuvent faire exploser les besoins en stockage et en analyse, sans compter également les données de référence issues des entrepôts ou des banques. 

      Il est essentiel de toujours interagir en amont avec son service informatique ou bien sa plate-forme bio-informatique pour anticiper le stockage et les traitements nécessaires, surtout lorsque les jeux de données sont très volumineux (plusieurs dizaines de To). C'est également le service informatique ou les gestionnaires des infrastructures de calcul qui pourront prodiguer des conseils concernant les différents types de stockage (capacitif ou rapide) et ainsi de choisir la solution la plus adaptée. 

      Le coût du stockage

      L'estimation du volume des données est très important pour le déroulement sans accrocs techniques mais également pour une gestion efficace des financements. Il est indispensable de se renseigner sur le coût des volumes. À titre d'exemple, certains sites proposent des outils d'évaluation des coûts de stockage, à l'image du DSW Storage Costs Evaluator.



    • Le transfert des données

      À un moment ou un autre, on sera confronté à la question du transfert des données entre par exemple le site de production et le site d’analyse des données. Étant donné que les données biologiques sont très volumineuses, des problèmes importants peuvent survenir et il est crucial de pouvoir les anticiper.

      Parmi les problèmes qu'il est possible de rencontrer, ceux liés à la combinaison du volume des données et de la bande passante disponible sont les plus communs, entraînant des délais de transfert prohibitifs, à tel point qu'il est parfois préférable d'envoyer les données sur un disque dur par voie postale.

    • Volume des données (en octets) Bande passante du réseau (en bits par seconde)
      45 Mbps 100 Mbps 1 Gbps 10 Gbps
      1 To 2 jours 1 jour 3 heures 15 minutes
      35 To 82 jours 37 jours 4 jours 9 heures
      500 To 3 ans 1 an 53 jours 5 jours
      2 Po 13 ans 6 ans 216 jours 22 jours
      5 Po 33 ans 15 ans 1 an 54 jours
    • Veillez à l'endroit où vous transférez vos données

      Avant de se lancer dans des transferts, il faut toujours se questionner sur l'aspect légal ou éthique du transfert vers une autre infrastructure. S'agit-il de données sensibles ? Le site destinataire est-il habilité pour l'hébergement de telles données ? Dispose-t-il de la certification HDS (hébergeur de données de santé) ?  Par exemple, l'utilisation de ressources comme Google drive ou Dropbox pose de sérieux problèmes de confidentialité et de protection des données de la recherche. Voir par exemple la PPST (Protection du Patrimoine Scientifique et Technique de la Nation).

    • Les protocoles de transfert de données en résumé

      Pour des transferts de données de taille ordinaire, les protocoles FTP, FTPS, SFTP et HTTPS seront utilisés. 

      Pour des transferts volumineux, des solutions spécifiques sont recommandées comme GridFTP ou Aspera. GridFTP et Globus, développés dans le cadre des grilles de calcul, prennent en charge le parallélisme et la reprise sur erreur. La solution propriétaire Aspera d'IBM utilise le protocole FASP pour optimiser le transfert de fichiers sur des réseaux conventionnels, offrant des performances élevées.

    • Consultez l'équipe informatique

      Pour utiliser efficacement le transfert de données, il faut considérer le réseau et ses capacités comme une ressource que l'on cherchera à optimiser et à économiser. Ainsi, il est préférable de s'enquérir auprès des services compétents de la capacité du réseau du laboratoire afin d'éviter tout risque de saturation ou d'engorgement. Cela permet par exemple de mettre en place une stratégie pour la récupération des données. D'autre part, il faut envisager les différentes techniques qui permettront d'économiser cette ressource en pensant par exemple à la compression des données pour réduire la taille des fichiers (faire attention au cas des données de bio-imagerie pour lesquelles un format de compression sans perte doit être choisi). On s'attachera également à la mise en place de procédures pour s'assurer que les données n'ont pas été corrompues durant le transfert (par exemple avec des clés de hachage).

  • Reposant sur l'utilisation de logiciels, au sein de divers environnements, cette étape va permettre de "faire parler les données". Ce passage de la donnée brute à l'information est une des étapes clés de la Bio-Informatique. Étant pratiquée in silico, elle doit être menée avec rigueur afin de pouvoir être reproductible.

    • Les infrastructures de calcul

      Faisant suite à des étapes de pré-traitement (processing) des données, la phase d'analyse est cruciale pour transformer les données brutes, en extraire l'information et en obtenir un savoir scientifique.

      Cette phase repose sur l'utilisation de ressources de calcul. En fonction du volume de données, on aura besoin de ressources plus ou moins importantes, allant de la station de travail jusqu'à une infrastructure de calcul. Il existe différentes modalités d'utilisation des infrastructures de calcul : portail, cluster et cloud.

      Portail

      Un portail est une interface web conviviale qui permet aux utilisateurs d'accéder à des ressources de calcul à distance. Les utilisateurs peuvent soumettre des tâches de calcul et gérer leurs travaux via une interface graphique. Ce type d'infrastructure est souvent utilisé pour des tâches de calcul de petite à moyenne taille et convient aux utilisateurs qui n'ont pas besoin d'une gestion détaillée de l'infrastructure sous-jacente. En fait, le portail soumet les travaux à un cluster.

      Cluster

      Un cluster est un ensemble de serveurs interconnectés qui travaillent ensemble pour effectuer des tâches de calcul. Les clusters sont utilisés pour le calcul intensif et peuvent gérer des charges de travail plus importantes que les portails. Ils sont composés de nœuds de calcul qui exécutent des tâches en parallèle. Les clusters peuvent être configurés localement dans un laboratoire ou utilisés à distance via des connexions réseau.

      Cloud computing

      Le cloud computing offre des ressources de calcul à la demande via Internet. Les infrastructures de cloud computing permettent aux utilisateurs d'accéder à des ressources de calcul virtuelles, telles que des machines virtuelles, des conteneurs ou des services gérés. Cela permet une flexibilité et une évolutivité accrues, car les utilisateurs peuvent augmenter ou réduire les ressources en fonction de leurs besoins.

    • Suivant ses compétences techniques, on pourra choisir l'un ou l'autre des types d'infrastructures, un portail de calcul comme Galaxy (que nous allons voir juste après) étant le plus facile d'utilisation puisqu'il offre, au travers de son interface graphique, un moyen simple pour lancer diverses analyses et réaliser des workflows.

      L'utilisation des ressources de calcul comme un cluster exige un certain apprentissage qui peut être chronophage. Cet aspect est encore plus marqué pour l'utilisation des ressources d'un cloud puisque l'utilisateur ou l'utilisatrice est chargé·e de l'installation complète de ses environnements de calcul.

    • Galaxy : une plateforme simple pour l'analyse des données génomiques

      Galaxy est une plateforme web populaire utilisée en Bio-Informatique pour l'analyse des données génomiques. Il fournit une interface conviviale et graphique pour exécuter des analyses Bio-Informatiques sans avoir besoin de connaissances approfondies en programmation.

      Le portail Galaxy permet aux utilisateurs de sélectionner et d'enchaîner des outils Bio-Informatiques prédéfinis pour effectuer des analyses complexes. Il offre également des fonctionnalités pour la gestion des données, la visualisation des résultats et le partage des workflows analytiques. Les utilisateurs peuvent importer leurs propres données, exécuter des analyses en utilisant les outils disponibles dans Galaxy, et visualiser et interpréter les résultats générés.

      Galaxy offre un portail web public accessible. Vous pouvez accéder à ce portail via votre navigateur web sans avoir à installer ou à configurer Galaxy vous-même. Cela permet une utilisation facile et rapide de Galaxy sans nécessiter de connaissances techniques approfondies.

    • Exemple pratique : aligner des séquences avec Clustal

      Clustal (utilisé dans ses versions Omega et W dans les exemples) est un outil populaire en Bio-Informatique utilisé pour l'alignement multiple de séquences génomiques et protéiques. Il est largement utilisé pour analyser et comparer des séquences biologiques afin d'identifier les similarités, les motifs conservés et les relations évolutives entre les séquences.

      Disponible sous forme de logiciel open source, Clustal peut être téléchargé sur son site officiel pour une exécution en local ou être utilisé en ligne via des serveurs web. On le retrouve notamment sur le portail Galaxy.

      Nous vous proposons d'illustrer les différentes modalités d'utilisation avec un exemple simple : l'alignement  des séquences des protéines Spike du coronavirus à l'aide du programme Clustal en passant par le terminal d'un ordinateur (en ligne de commande) et en passant par le portail Galaxy.

      L'utilisation de Clustal en local demande d'utiliser le terminal de l'ordinateur. La vidéo ci-dessous vous montre comment aligner les séquences des protéines Spike du coronavirus à l'aide du programme Clustal en passant par les lignes de commande.



      L'utilisation de Clustal en ligne, via des portails comme Galaxy, est une solution plus simple si vous n'êtes pas familier avec l'exécution de tâches en ligne de commande. Pour vous le montrer, nous vous proposons de le tester par vous-même. Pour cela :

      1. Téléchargez le fichier "spike_sequences.fasta"
      2. Rendez-vous sur le portail public de Galaxy
      3. Reproduisez la procédure indiquée dans le petit tutoriel ci-dessous. Notez que dans ce tutoriel, on utilise le portail Galaxy de la plateforme GenOuest, mais la procédure reste identique.



      Galaxy Training

      La communauté de Galaxy propose des cours en ligne pour s'initier à l'outil. Rendez-vous sur Galaxy Training pour une formation complète !


    • Développement et partage d'outils logiciels : bonnes pratiques

      Pour analyser les données, il est nécessaire de recourir à des logiciels ou des scripts. Ces outils peuvent être réutilisés directement en les obtenant auprès de leurs auteurs ou des dépôts logiciels mais ils peuvent également être développés. Dans ce dernier cas, vous devrez les traiter en tant que produit de recherche et les mettre à disposition de la communauté soit dans un dépôt logiciel ou bien dans HAL ou Software Heritage.

      Le développement logiciel doit respecter des bonnes pratiques avec notamment l’utilisation d'outils de suivi de version (Git).  

      Lors de sa mise à disposition, un outil logiciel doit être accompagné de :

      • Un fichier Readme qui doit présenter l’outil, son installation et son utilisation.
      • La liste des auteurs.
      • La licence (cf. associer une licence aux données).


      Readme file (lisez-moi !)

      Quelques exemples fictifs de sections que vous pourriez ajouter à votre fichier readme.

      // À propos Ajouter un bref descriptif de votre projet et à qui il s'adresse.
      // Auteurs Ajouter les auteurs du projet en donnant un lien vers leur page si possible. Exemple: @olivier-colin (https://www.irisa.fr/symbiose/olivier_collin.html)
      // Licence Ajouter une licence d'utilisation à votre projet. Exemple : CC BY
      // Utilisation Préciser dans quel contexte votre logiciel a un intérêt particulier.
      // Installation Expliquer comment installer votre logiciel.


      Outils utiles

      • Le site readme.so propose un éditeur en ligne pour générer facilement un fichier readme.
      • L’outil CodeMeta generator est très utile pour évaluer les informations nécessaires à associer en tant que métadonnées. 
      • L'outil Citation File Format génère des fichiers de texte brut contenant des informations de citation lisibles par l'homme et la machine pour les logiciels (et les ensembles de données). Les développeurs de code peuvent les inclure dans leurs référentiels pour indiquer aux autres comment citer correctement leur logiciel.

    • Le cycle de vie du logiciel

      Lors du développement d'un logiciel, il est indispensable de garder présent à l'esprit le fait que l'on s'engage dans un cycle. En effet, une fois l'outil en place et utilisé, on se retrouvera confronté à la maintenance de cet outil, surtout dans un contexte de diffusion ou de valorisation des développements.

      Le cycle de vie d'un logiciel en Bio-Informatique comprend plusieurs étapes clés : 

      • Le développement, où le code est écrit après avoir spécifié les caractéristiques du logiciel ; 
      • Les tests, avec des tests unitaires automatisés pour garantir la fiabilité ; 
      • Le déploiement, adapté à l'environnement cible, souvent dans une infrastructure de calcul ; 
      • La maintenance pour corriger les bugs et développer de nouvelles fonctionnalités ; 
      • Le partage, réalisé via des forges logicielles comme Git, avec une documentation détaillée pour faciliter l'installation et l'utilisation par d'autres chercheurs.

      Une bonne documentation tout au long du cycle est cruciale pour la reproductibilité.



    • Le défi de la reproductibilité des résultats en Bio-Informatique

      Un des principaux défi en Bio-Informatique concerne la reproductibilité, notamment celle des traitements appliqués aux jeux de données in silico.

      Sous le simple terme de reproductibilité, souvent utilisé de manière différente suivant les contextes, se cachent beaucoup de concepts. 

      La seule reproductibilité au sens strict (mêmes données, même code) permet d'identifier les différentes contraintes. En effet, se posera la question des versions des logiciels ou des données de référence, la question du système d'exploitation, la question des bibliothèques utilisées, la question du paramétrage des outils, etc. 

      Par exemple, si quelqu'un évoque le fait d'avoir utilisé Clustal omega comme logiciel d'alignement, de nombreuses questions surgissent si l'on veut reproduire son résultat. De quelle version de Clustal omega s'agit-il ? Sur quel système d'exploitation le programme a-t-il été utilisé ? Quel a été son paramétrage ? Sur quelles données ? Autant de questions auxquelles il est plus simple de répondre en adoptant certaines bonnes pratiques. 


      Contrôler son environnement

      Il faut donc s'intéresser aux méthodes qui permettront de mieux contrôler son environnement informatique ainsi que son environnement de données. D'un point de vue technique, il s'agit d'un problème complexe pour le néophyte. Pour mieux l'aborder, il est intéressant de considérer les différentes couches rencontrées. On utilise ou on développe des applications qui vont travailler sur des données, qu'elles soient propres au projet ou bien qu'elles aient été téléchargées. Les applications tournent au sein d'un environnement informatique et sont lancées par des environnements de workflows ou bien par des gestionnaires de tâches.

    • Mieux contrôler ses données

      Vue sous l'angle de l'analyse, la gestion des données pour un projet s'intéresse aux données de référence mais également aux données du projet.

      Gestion des données de référence

      Ces données sont susceptibles de varier au fil du temps. Dans le cas de l'utilisation de banques de données, on s'attachera à toujours documenter les numéros des versions. Les plates-formes de Bio-Informatique proposent des méthodes automatisées de mise à jour de ces banques, par exemple avec l'outil BioMAJ.

      Gestion des données du projet

      Tout commence par l'adoption d'un plan de nommage et de désignation des fichiers. Afin de se faciliter la vie, il est souhaitable d'adopter quelques règles de base pour nommer ses fichiers. Ces règles permettent d'obéir à trois grands principes :

      • Les noms des fichiers doivent être lisibles par les machines ;
      • Les noms des fichiers doivent être compréhensibles par les humains ;
      • Les noms des fichiers doivent permettre le tri et la sélection des fichiers.

      Les dates dans les noms des fichiers doivent respecter le format de la norme ISO8601 (YYYY-MM-DD).

      Ensuite il faut rationaliser l'organisation des fichiers au sein de l'arborescence des fichiers avec des répertoires homogènes. Par exemple, pour un projet de bioanalyse, on peut envisager l'arborescence suivante :

      ↳ _README
      ↳ docs
      ↳ raw_data
        ↳ Homo_sapiens
        ↳ Rattus_rattus
        ↳ _README
      ↳ results
      ↳ scripts
      ↳ tools
      ↳ work
        ↳ 2023-03-01_Assembly
      

      Suivant la nature des projets des variations sont possibles. En effet, en fonction du nombre de personnes, le recours à des outils collaboratifs comme Git, va modifier profondément l'arborescence de travail qui pourra se réduire à un tryptique : données brutes / travaux / résultats.


    • Mieux contrôler ses outils logiciels

      Pour exercer un meilleur contrôle sur les diverses versions d'outils utilisés pour vos analyses, il est possible d'utiliser un gestionnaire de package comme Conda et son extension dédiée à la Bio-Informatique Bioconda.

      Logo de Bioconda

      Conda permet d'installer des logiciels pré-compilés disponibles sous forme de paquets. Ces paquets sont déposés dans des canaux ("channels") thématiques.

      Le canal Bioconda recense plus de 7000 paquets pour les communautés des Sciences de la Vie.

      Conda permet également de créer des environnements au sein desquels on peut installer des outils spécifiques. Le fait que ces outils soient installés au sein d'un environnement permet d'éviter qu'il n'y ait des interférences avec l'environnement du système. Ces environnements peuvent être activés ou désactivés à la demande.

      Il existe également Mamba, un gestionnaire offrant plus de rapidité que Conda.

      Logo Mamba

      D'autres solutions comme Guix et Nix (et son pendant "bio", BioNix), existent aussi.

      Logo Bionix
    • Exemple : utilisation du gestionnaire de paquets Conda pour installer le logiciel Clustal Omega en ligne de commande
      1. Recherche de la disponibilité de Clustal Omega (nommé clustalo en abrégé) dans les dépôts Bioconda (channel)
      --On tape cette requête en ligne de commande pour chercher Clustal Omega--
      $ conda search clustalo
      
      --Réponse--
      Loading channels: done
      # Name                       Version           Build  Channel
      clustalo                       1.2.3               0  bioconda
      clustalo                       1.2.4               0  bioconda
      clustalo                       1.2.4               1  bioconda
      clustalo                       1.2.4      h4a8c4bd_3  bioconda
      clustalo                       1.2.4      h589c0e0_4  bioconda
      clustalo                       1.2.4      h7133b54_7  bioconda
      clustalo                       1.2.4      h9722bc1_5  bioconda
      clustalo                       1.2.4      hb19a6fa_6  bioconda
      clustalo                       1.2.4      hfc679d8_2  bioconda
      $   
              
      2. Installation du logiciel via conda
      --On utilise la commande "install"--
      conda install clustalo
      
      --Réponse--
      Retrieving notices: ...working... done
      Collecting package metadata (current_repodata.json): done
      Solving environment: done
      
      --Conda précise quels paquets de Clustal Omega vont être installés
      ou mis à jour et indique la localisation sur l'ordinateur--
      ## Package Plan ##
        environment location: /Users/ocollin/miniconda3
        added / updated specs:
        - clustalo
      
      The following packages will be downloaded:
          package                    |            build
          ---------------------------|-----------------
          ca-certificates-2023.5.7   |       h8857fd0_0         145 KB  conda-forge
          certifi-2023.5.7           |     pyhd8ed1ab_0         149 KB  conda-forge
          clustalo-1.2.4             |       h7133b54_7         332 KB  bioconda
          ------------------------------------------------------------
                                                 Total:         626 KB
      
      The following packages will be UPDATED:
        ca-certificates                      2022.12.7-h033912b_0 --> 2023.5.7-h8857fd0_0 
        certifi                            2022.12.7-pyhd8ed1ab_0 --> 2023.5.7-pyhd8ed1ab_0 
        clustalo                                 1.2.4-h9722bc1_5 --> 1.2.4-h7133b54_7 
        
        --Si on est d'accord pour l'installation / les mises à jours, on tape "y" pour confirmer--
        Proceed ([y]/n)? y
        
        --Téléchargement et extraction des paquets--
      Downloading and Extracting Packages
      
      Preparing transaction: done
      Verifying transaction: done
      Executing transaction: done
      
      --On vérifie la bonne installation avec la commande "which"--
       (base) ocollin ~  $ which clustalo
       /Users/ocollin/miniconda3/bin/clustalo 
      
      --L'outil Clustal Omega qui a été installé dans le répertoire miniconda--
              
      3. Création d'un environnement d'exécution Conda

      Il est possible d'utiiser le programme Clustal Omega que l'on a installé directement mais il est possible, pour éviter toute interférence avec son environnement de travail habituel, de créer un environnement Conda spécifique que l'on pourra activer ou désactiver à volonté.
      Dans l'exemple ci-dessous, on va créer un environment dédié à l'analyse phylogénétique avec deux outils, Clustal Omega et la suite Phylip.

      ocollin ~  $ conda create -p ~/analyse_phylo clustalo phylip
      Collecting package metadata (current_repodata.json): done
      Solving environment: done
      
      ## Package Plan ##
      environment location: /Users/ocollin/analyse_phylo
      added / updated specs:
      - clustalo
      - phylip
      
      The following packages will be downloaded:
      
                      package                    |            build
                      ---------------------------|-----------------
                      libcxx-16.0.4              |       hd57cbcb_0         1.1 MB  conda-forge
                      openjdk-17.0.3             |       h7d26f99_7       157.7 MB  conda-forge
                      ------------------------------------------------------------
                                                             Total:       158.8 MB
                                                             
      The following NEW packages will be INSTALLED:
      
                    argtable2          conda-forge/osx-64::argtable2-2.13-h1de35cc_1001
                    bzip2              conda-forge/osx-64::bzip2-1.0.8-h0d85af4_4
                    ca-certificates    conda-forge/osx-64::ca-certificates-2023.5.7-h8857fd0_0
                    clustalo           bioconda/osx-64::clustalo-1.2.4-h7133b54_7
                    libcxx             conda-forge/osx-64::libcxx-16.0.4-hd57cbcb_0
                    libexpat           conda-forge/osx-64::libexpat-2.5.0-hf0c8a7f_1
                    libffi             conda-forge/osx-64::libffi-3.4.2-h0d85af4_5
                    libsqlite          conda-forge/osx-64::libsqlite-3.42.0-h58db7d2_0
                    libzlib            conda-forge/osx-64::libzlib-1.2.13-hfd90126_4
                    ncurses            conda-forge/osx-64::ncurses-6.3-h96cf925_1
                    openjdk            conda-forge/osx-64::openjdk-17.0.3-h7d26f99_7
                    openssl            conda-forge/osx-64::openssl-3.1.0-h8a1eda9_3
                    phylip             bioconda/osx-64::phylip-3.697-h1de35cc_1
                    pip                conda-forge/noarch::pip-23.1.2-pyhd8ed1ab_0
                    python             conda-forge/osx-64::python-3.11.3-h99528f9_0_cpython
                    readline           conda-forge/osx-64::readline-8.2-h9e318b2_1
                    setuptools         conda-forge/noarch::setuptools-67.7.2-pyhd8ed1ab_0
                    tk                 conda-forge/osx-64::tk-8.6.12-h5dbffcc_0 
                    tzdata             conda-forge/noarch::tzdata-2023c-h71feb2d_0
                    wheel              conda-forge/noarch::wheel-0.40.0-pyhd8ed1ab_0
                    xz                 conda-forge/osx-64::xz-5.2.6-h775f41a_0
                    
                  Proceed ([y]/n)? y
                  
                  Downloading and Extracting Packages
                  Preparing transaction: done
                  Verifying transaction: done
                  Executing transaction: done
                  #
                  # To activate this environment, use
                  #
                  #     $ conda activate /Users/ocollin/analyse_phylo
                  #
                  # To deactivate an active environment, use
                  #
                  #     $ conda deactivate
                  
                  ocollin ~  $ 
                  
    • Mieux contrôler ses workflows

      Une des caractéristiques de l'analyse des données en Bio-Informatique est le fait qu'il est nécessaire de combiner une multitude d'outils qui représentent alors un workflow. Pour reproduire un traitement il s'agira d'être capable de conserver le paramétrage de chaque outil tout en conservant l'ordonnancement des différents outils utilisés. 

      Il existe de nombreux systèmes de gestion de workflows. Les plus populaires en Bio-Informatique sont :
      Logo NextFlow

      Nextflow permet l'adaptation de pipelines écrits dans les langages de script les plus courants.

      Logo SnakeMake

      Snakemake permet de décrire les workflows sous forme de règles.

      Logo Galaxy

      Galaxy, un environnement graphique pour l'analyse de données qui propose des fonctionnalités de workflows.

      Chaque environnement de workflow va proposer un dépôt pour permettre aux utilisateurs et utilisatrices de partager leurs workflows. Dans le cas de Nextflow, il s'agit de nf-core. Pour Snakemake, un catalogue existe également, tandis que Galaxy utilise le dépôt de l'Interagalactic Workflow Commission  pour partager les workflows

      À noter que se mettent en place de nouvelles ressources comme WorkflowHub pour partager les workflows scientifiques.

    • Mieux contrôler ses environnements de calcul

      Une fois que l'on contrôle ses données, ses logiciels et ses workflows, il reste une dernière étape pour atteindre une bonne reproductibilité en s'affranchissant des contraintes imposées par le système d'exploitation. En effet, suivant la version du système d'exploitation, suivant les diverses installations de logiciels, certaines bibliothèques logicielles utilisées par les programmes peuvent différer et influer sur les résultats des analyses.

      Il est donc nécessaire d'isoler ses environnements pour mieux les contrôler. Ceci est réalisable grâce aux techniques de virtualisation.

      La virtualisation

      Elle permet de faire fonctionner, sur une seule machine, un ou plusieurs systèmes d’exploitation en tant que logiciel. Les machines virtuelles (ou VM pour Virtual Machine) fonctionnent ainsi en créant un système d'exploitation complet et indépendant à l'intérieur d'un ordinateur physique. Cela signifie qu'une machine virtuelle est un environnement complet et autonome, avec son propre système d'exploitation, ses propres fichiers de configuration et ses propres ressources matérielles.

      Les intérêts de la virtualisation sont multiples :

      • Il devient possible de pouvoir exploiter les machines de manière optimale en rentabilisant au maximum leurs capacités.
      • Le déploiement de nouvelles machines est facilité car il n'y a plus d'installation physique. Cela permet de mettre en place rapidement des environnements de tests ou de formation qui sont isolés.
      • Il est possible de déployer les machines à la demande, en quelques minutes, pour mettre en place une infrastructure complète.
    • Ordinateur
      Schéma du fonctionnement d'un ordinateur : matériel, système d'exploitation, applications

      Architecture classique d'un ordinateur. On remarque le rôle central du système d'exploitation (ici macOS) qui sert d'interface etnre les logiciels et le matériel. Il fournit une interface utilisateur, s'occupe du système de fichiers et gère les périphériques.

      Machine virtuelle avec hyperviseur
      Schéma du fonctionnement d'une machine virtuelle avec hyperviseur

      Un hyperviseur est un logiciel qui permet de créer et de gérer des machines virtuelles en isolant les ressources matérielles, en abstrayant le matériel physique et en fournissant des fonctionnalités de gestion et de sécurité pour les VM.

      Machine virtuelle avec conteneur
      Schéma du fonctionnement d'un ordinateur avec conteneur

      Apparue dans les années 2010, la conteneurisation est une virtualisation au niveau du système d'exploitation. Contrairement aux VM avec hyperviseur, les conteneurs sont plus légers et sont souvent privilégiés pour la portabilité et l'efficacité des ressources.

      Les environnements de containeurisation sont variés : Docker (outil de conteneurisation polyvalent), Singularity / Apptainer (conçu spécifiquement pour les environnements de calcul scientifique et haute performance)...

    • Exemple d'utilisation avec Docker

      Dans cet exemple, on va procéder à l'alignement d'un groupe de séquences de glycoprotéines du virus SARS-COV2. Le déroulé est le suivant : on demande à Docker de charger l'image  du programme Clustal Omega auquel on communique le fichier des séquences. Après le téléchargement de l'image par Docker, Clustal se lance et stocke les résultats dans un fichier après exécution. 

    • Les notebooks

      Les notebooks sont des documents mélangeant du texte enrichi avec des balises Markdown, des éléments de code exécutable ainsi que les résultats de l'exécution de ces éléments de code, le plus souvent des graphiques.

      L'utilisation des notebooks se développe de manière importante pour apporter de la lisibilité et de la reproductibilité.

      L'utilisation des notebooks permet de combiner code et représentation pour faciliter la lecture du code et en assurer ainsi une meilleure communication.

      Parmi les outils, on peut citer :

      • Jupyter notebooks ;
      • Rmarkdown / Quarto ;
      • Org-Mode.

      Pour vous former, vous pouvez consulter cette introduction aux notebooks Jupyter sous Galaxy.

      Capture d'écran de l'introduction à Jupyter notebook, montrant quelques modalités de la formation (objectifs, durée, date...)

      Delphine Lariviere, Use Jupyter notebooks in Galaxy (Galaxy Training Materials) https://training.galaxyproject.org/training-material/topics/galaxy-interface/tutorials/galaxy-intro-jupyter/tutorial.html Online; accessed Thu Jun 08 2023
  • Cette section met l'accent sur les principes fondamentaux de préservation, garantissant l'intégrité, la lisibilité et la réutilisabilité des données. Le partage des données est abordé, y compris les licences et les ressources pour faciliter ce processus. Des conseils sont donnés pour choisir des licences appropriées et des ressources sont fournies pour aider les scientifiques à archiver et partager leurs données de manière responsable et éthique.

    • Les principes de préservation des données

      Préserver les données sur le long terme implique de respecter certains principes fondamentaux qui permettent aux données d'être retrouvées et réutilisées bien des années après leur génération. 

      Il s'agira donc de s'assurer que leur intégrité, leur lisibilité et leur réutilisabilité sont préservées.

      Intégrité

      Cela implique des procédures de vérification régulière de leur état sur les supports numériques, avec la possibilité de les transférer vers des supports numériques plus adaptés.

      Lisibilité

      Cela demande des évaluations régulières de leur lisibilité, avec, le cas échéant des conversions de format pour les adapter aux nouveaux logiciels.

      Réutilisabilité

      Elles sont accompagnées de leurs métadonnées dans le respect des principes FAIR pour assurer leur compréhensibilité et leur réutilisation.

      Ces tâches de conservation des données sont complexes et il est préférable de se reposer sur des ressources spécialisées qui prendront en charge tout ou partie de ces activités. 

      La préservation des données, rejoint les concepts d'archivage. En France, pour la communauté de l'enseignement supérieur, c'est le CINES qui est chargé de cette mission. 


    • Le partage des données

      Le partage des données est devenu une pratique essentielle de la recherche favorisant la transparence, la reproductibilité et la collaboration scientifique. Cette pratique doit être parfaitement encadrée, notamment pour ce qui touche le droit et le respect de la protection des personnes. Pour pouvoir partager un jeu de données, on s'assurera donc de ne pas diffuser de données sensibles et l'on réfléchira à une licence définissant les modalités de diffusion, partage et réutilisation des données. Également, le partage de logiciels développés durant le projet fera l'objet d'un traitement similaire.

      Les grandes étapes du partage de données sont les suivantes :

      • La préparation des données en vue du partage. Celles-ci doivent être organisées, documentée et nettoyées afin d'en faciliter la réutilisation par d'autres personnes. Les données sont enrichies avec des métadonnées et une licence est associée.
      • Dans le cas de données identifiantes, l'anonymisation est une étape pour bien se conformer aux recommandations du RGPD.
      • La sélection d'une plate-forme de partage. En Biologie de nombreux dépôts existent. Par exemple, dans le cas de séquences génomiques, l'EBI pourra accueillir ces données (voir la liste des dépôts fournie par l'éditeur Nature). On pourra aussi utiliser les ressources évoquées dans le chapitre concernant la réutilisation des données. À noter que l'Institut Français de Bio-Informatique a initié les développements de Metark,  un outil dit de "brokering", pour automatiser le transfert des données vers les dépôts internationaux.


      La vidéo ci-dessous résume les points afférents au partage des données.

      Callisto. (2018, 20 mars). Déposer ses données de recherche : pourquoi, quoi, quand, où et comment ?. [Vidéo]. Canal-U. https://www.canal-u.tv/116062. (Consultée le 18 août 2023)

      Il existe désormais en France, pour les scientifiques appartenant aux disciplines ne disposant pas de dépôts thématiques, un nouvel entrepôt Recherche Data Gouv. Cet entrepôt fait partie d'un nouvel écosystème dédié aux données de la recherche. S'articulant autour de recherche.data.gouv, l'écosystème comprend les ateliers de la donnée et des centres de référence thématiques. Les ateliers de la données, animés en région à proximité des équipes de recherche, ont pour mission d'aider les scientifiques dans la gestion de leurs données. Les centres de référence thématiques reposent sur des infrastructures de recherche qui seront chargées de la gestion et de la diffusion de données pour les données scientifiques de leurs communautés. En Biologie et Santé, c'est l'Institut Français de Bioinformatique (IFB) qui a été identifié. 

    • Pour aller plus loin

      Vous pouvez consulter les vidéos de la journée Archivage Numérique des Données de Recherche organisée le 20 novembre 2019 par l’UMS GRICAD (Grenoble Alpes Recherche – Infrastructure de Calcul Intensif et de Données) et le SARI (Réseau des Informaticiens du Sillon Alpin).

    • Au terme de ce tutoriel, on aura vu l'apport important de l'adoption d'une approche centrée sur la donnée. Les bénéfices sont multiples. Tout d'abord pour la personne qui met en oeuvre cette démarche qui lui permettra de mieux gérer ses travaux de recherche. En se dotant d'outils qui permettront de revenir plus facilement sur les travaux antérieurs, les scientifiques consolident leur recherche vis-à-vis de sa communauté scientifique. Ensuite pour une communauté scientifique qui, grâce à l'adoption de ces pratiques, va pouvoir avancer plus rapidement en capitalisant sur les progrès de ses différents membres. 

      Il est à noter que les évolutions des méthodes, des techniques d'analyse et des environnements logiciels se font à un rythme soutenu et que de nouvelles technologies apparaissent régulièrement, bouleversant les usages. Il devient donc important de suivre et accompagner ces évolutions techniques et méthodologiques. Par exemple, l'irruption de l'intelligence artificielle pour l'analyse des données en Biologie va provoquer des changements importants dans les méthodes et outils. Etant donné que l'entrainement des outils d'apprentissage automatique repose sur l'utilisation de jeux de données de qualité pour générer des modèles efficaces, on comprend tout l'intérêt de pouvoir générer des données de manière optimale. 

    • Résumé du contenu du cours sous forme de carte mentale.
    • Données en Biologie / Bio-Informatique et sobriété numérique

      L'utilisation des ressources informatiques, par exemple pour une session de calcul, va mettre en branle tout un ensemble d'équipements. Des équipements réseau (routeurs, commutateurs, box, etc.) qui vont assurer l'établissement et le maintien de la connexion, des serveurs de calcul et de stockage au niveau de la plate-forme ou du datacenter. La consommation cumulée de tous ces équipements est non négligeable. 

      Il ne faut pas se laisser abuser par l'aspect virtuel d'une session de calcul. L'impact environnemental est réel, qu'il s'agisse de l'impact lié au fonctionnement ou bien l'impact lié à la fabrication des équipements. 

      L'utilisation de ressources doit donc se faire de manière raisonnée, en ayant présent à l'esprit le coût induit par toute manipulation :

      • Éviter de gaspiller en évitant les calculs infructueux liés à des essais-erreurs alors que les manuels donnent des indications sur le bon fonctionnement des outils ou des environnements. 
      • Éviter de stocker des données sans les annoter correctement pour ne pas consommer inutilement de la place (et donc qui font tourner des serveurs) avec des données qui risquent fort de ne plus être réutilisables au bout de quelque temps. 
  • Un forum est à votre disposition pour toute question. Vous pouvez aussi nous aider à améliorer ce cours en donnant votre avis.