Cours : La question des données en Bio-Informatique

Résumé de section

Sélectionner la section Synopsis

Replier Déplier
Synopsis

Tout replier Tout déplier
L'objectif de ce cours est de présenter les différentes étapes associées à la gestion de la donnée scientifique dans les champs de la Biologie et de la Bio-informatique. On abordera ces étapes sous l'angle technique tout en considérant les perspectives de science ouverte et de données FAIR qu'il est indispensable d'intégrer dans sa démarche.

En Bio-Informatique, les données sont indissociables des logiciels utilisés pour leur traitement et leur analyse.

Ce support brossera le paysage actuel en France, proposera des éléments de réflexion et fournira des pointeurs vers des ressources utiles ou indispensables. Certains points techniques, notamment concernant les aspects informatiques, seront rapidement abordés afin de permettre de disposer des clés d'analyse de la situation.

Objectifs

Comprendre la question de la donnée en Sciences du Vivant.

Avoir une vision d’ensemble du paysage des infrastructures dédiées à la donnée.

Identifier les verrous technologiques.

Obtenir des pistes concernant des solutions technologiques.

Ce cours est en libre accès !

Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

Pour échanger sur le forum, vous devrez vous inscrire au cours.
S'inscrire au cours
- Sélectionner l’activité <div class="customfield customfield_text customfield_author"> <span class="customfieldname">Auteur(s) / Formateur(s)</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Olivier Collin - Plate-forme GenOuest, Univ Rennes, Inria, CNRS, IRISA</span> </div><div class="customfield customfield_text customfield_production"> <span class="customfieldname">Production cours</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Amélie Barrio - Urfist Occitanie, Viet Jeannaud - Callisto Formation</span> </div><div class="customfield customfield_text customfield_cible"> <span class="customfieldname">Public cible</span><span class="customfieldseparator">: </span><span class="customfieldvalue">chercheurs, Doctorants en biologie et bioinformatique</span> </div><div class="customfield customfield_date"> <span class="customfieldname">Date de publication</span><span class="customfieldseparator">: </span><span class="customfieldvalue">17 septembre 2023</span> </div><div class="customfield customfield_text customfield_duration"> <span class="customfieldname">Durée estimée</span><span class="customfieldseparator">: </span><span class="customfieldvalue"> 2h30</span> </div><div class="customfield customfield_text customfield_preriquisite"> <span class="customfieldname">Prérequis</span><span class="customfieldseparator">: </span><span class="customfieldvalue">aucun</span> </div><div class="customfield customfield_select customfield_license"> <span class="customfieldname">Licence</span><span class="customfieldseparator">: </span><span class="customfieldvalue">CC BY-NC-SA</span> </div><div class="customfield customfield_text customfield_citation"> <span class="customfieldname">Citation</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Collin, O., & Jeannaud, V. (2023). La question des données en Bio-Informatique (Version 1). Callisto Formation.</span> </div><div class="customfield customfield_text customfield_doi"> <span class="customfieldname">DOI</span><span class="customfieldseparator">: </span><span class="customfieldvalue">https://doi.org/10.60538/DONNEES-BIOINFORMATIQUE.</span> </div><div class="customfield customfield_checkbox customfield_ob"> <span class="customfieldname">Open badge</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Non</span> </div><div class="customfield customfield_text customfield_students"> <span class="customfieldname">Nombre d'inscrits</span><span class="customfieldseparator">: </span><span class="customfieldvalue">8</span> </div><div class="customfield customfield_checkbox customfield_catalogue"> <span class="customfieldname">Catalogue</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Non</span> </div>
  
  Auteur(s) / Formateur(s): Olivier Collin - Plate-forme GenOuest, Univ Rennes, Inria, CNRS, IRISA
  Production cours: Amélie Barrio - Urfist Occitanie, Viet Jeannaud - Callisto Formation
  Public cible: chercheurs, Doctorants en biologie et bioinformatique
  Date de publication: 17 septembre 2023
  Durée estimée: 2h30
  Prérequis: aucun
  Licence: CC BY-NC-SA
  Citation: Collin, O., & Jeannaud, V. (2023). La question des données en Bio-Informatique (Version 1). Callisto Formation.
  DOI: https://doi.org/10.60538/DONNEES-BIOINFORMATIQUE.
  Open badge: Non
  Nombre d'inscrits: 8
  Catalogue: Non
Sélectionner la section Les nouveaux défis à relever

Replier Déplier
Les nouveaux défis à relever
Les données biologiques sont souvent très volumineuses et complexes, et leur analyse nécessite des méthodes et des outils informatiques sophistiqués pour extraire des informations utiles. Elles sont aussi hétérogènes et proviennent de différentes sources, ce qui nécessite des méthodes pour les intégrer et les analyser de manière cohérente.
- Sélectionner l’activité Avec l’avènement des nouvelles techniques de produ...
  
  Avec l’avènement des nouvelles techniques de production de données en Biologie, deux phénomènes sont apparus :
  
  Un accroissement massif du volume des données à traiter, on parle de tsunami de données ou de datanami. L'article "Big data : Astronomical or Genomical ? " illustre le changement important de la production des données en Biologie. Les auteurs comparent les caractéristiques des données de l'Astronomie, Youtube, Twitter et de la Génomique. Ils arrivent à la conclusion que la Génomique présente des caractéristiques propres en ce qui concerne la production des données, leur stockage, leur distribution et leur analyse. Cela se traduit par une croissance explosive, répartie sur de multiples sites, et des besoins nouveaux pour le stockage, la diffusion et l'analyse des données.
  
  Le recours de plus en plus fréquent à l’outil informatique, étant donné que les données générées sont sous forme numérique, a un impact très important sur les pratiques des biologistes qui vont devoir développer une expertise additionnelle en Bio-informatique et en Informatique.
  
  La Biologie et la Bio-Informatique doivent donc relever plusieurs défis depuis ces dernières années :
  
  La gestion efficace de cette masse de données ;
  
  L'intégration de ces données hétérogènes (données de type séquences, images, données d'expression, etc.) ;
  
  Le nombre croissant des outils d'analyse ;
  
  La mise en place de procédures efficaces pour une reproductibilité des traitements.
- Sélectionner l’activité ACCROISSEMENT DE LA QUANTITÉ DE DONNÉES Les statis...
  
  Accroissement de la quantité de données
  
  Les statistiques des banques de données généralistes donnent une idée de la croissance des données en Biologie. Si l’on prend le cas de GenBank (figure ci-contre), on s’aperçoit qu’à partir des années 2002 démarre la production de génomes entiers (WGS: Whole Genome Shotgun).
  
  Cette rupture est provoquée par l’apparition des séquenceurs de nouvelle génération qui vont modifier considérablement le paysage en Génomique et en Bio-Informatique. La Biologie était auparavant une discipline produisant assez peu de données. Depuis l'apparition des nouvelles techniques, il est possible de générer massivement des données sans avoir besoin de main d'œuvre supplémentaire. L’impact sur l’activité Bio-Informatique se fait sentir notamment en terme d’utilisation de ressources croissantes, qu’elles soient de calcul ou de stockage.
  
  Accroissement du nombre de données disponibles sur GenBank. Source : statistiques de GenBank
- Sélectionner l’activité L’accroissement des capacités de génération des do...
  
  L’accroissement des capacités de génération des données ne se manifeste pas qu’avec les techniques de séquençage puisque, dans bien des domaines, l’arrivée de nouvelles technologies ou bien de nouvelles pratiques d'ouverture des données (FAIR data, Science Ouverte) déclenche les mêmes phénomènes.
  
  Le cas de la base EMDB (Electron Microscopy Data Bank) illustre ce phénomène comme le montre le graph ci-dessous.
  
  Accroissement du nombre d'entrées de l'EMDB publiées par année et cumulées. Source : statistiques EMBD
- Sélectionner l’activité L'ADAPTATION DES PLATEFORMES DE BIO-INFORMATIQUE L...
  
  L'adaptation des plateformes de Bio-Informatique
  
  Les plates-formes Bio-Informatiques, occupant une place stratégique en tant que lieux de traitement de toutes ces données, sont des témoins privilégiés de cette évolution et doivent s’adapter pour accompagner au mieux les divers travaux de recherche. On constate que, depuis ces dernières années, les plates-formes Bio-Informatiques ouvertes aux communautés de recherche ont dû faire croître de manière importante leurs infrastructures pour accueillir des utilisateurs et utilisatrices toujours plus nombreux et dont les travaux d’analyses requièrent toujours plus de capacité de calcul et de stockage.
  
  Accroissement de la capacité de stockage de la plate-forme Bio-informatique GenOuest, localisée à Rennes.
- Sélectionner l’activité ------------------------- HÉTÉROGÉNÉITÉ DES DONNÉE...
  
  Hétérogénéité des données
  
  La Biologie se caractérise par un grand nombre de types de données : séquences, motifs, graphes pour décrire les voies métaboliques ou les interactions, données quantitatives de suivi d'expression, données temporelles, images au contenu informationnel varié (résolution, traitements différents), informations spatiales et géographiques, modèles, données textuelles, etc.
  
  Cette variété des données représente un défi en terme d'intégration pour les années à venir, d'autant plus que de nouvelles technologies de génération de données peuvent enrichir et compliquer ce paysage.
  
  Pour aborder la question de l'hétérogénéité des données, on peut considérer à titre d'exemple la page dédiée aux ressources et aux outils de l'EBI (European Bioinformatics Institute).
  
  En filtrant une recherche par "data resources", on a 63 résultats qui vont couvrir des catégories aussi diverses que de l'imagerie, des puces à ADN, des séquences...
  
  Tout cela complique de manière importante le travail du scientifique qui doit, à terme, intégrer / croiser les données pour pouvoir générer des informations significatives. Cette tâche est rendue plus complexe par le foisonnement de ressources à sa disposition. L'article annuel "NAR Database Issue" de la revue Nucleic Acids Research recense 1645 ressources dans sa 29ème édition publiée en décembre 2021.
- Sélectionner l’activité ------------------------- DIVERSITÉ DES OUTILS D'A...
  
  Diversité des outils d'analyse
  
  La diversité des outils d'analyse peut être traduite en considérant juste la page de bio.tools qui recense actuellement plus de 28 000 outils. Si l'on filtre notre recherche uniquement par le séquençage, on s'aperçoit qu'il y a environ 10 000 outils.
  
  Cela signifie que les scientifiques sont amenés à un travail très important de sélection des outils afin d'identifier la ressource la plus adaptée à leur besoin. Le site bio.tools est d'ailleurs une solution à cette problématique puisqu'il permet de faire des recherches d'outils par catégorie.
  
  28 190 outils au total sur bio.tools ( avril 2023)
  
  10 749 outils dédiés à l'analyse de séquences sur bio.tools (avril 2023)
- Sélectionner l’activité ABONDANCE DES DONNÉES EN SCIENCES DE LA VIE Le gra...
  
  Abondance des données en Sciences de la Vie
  
  Le graphe du LOD (Linked Open Data) présente les données publiques interconnectées grâce aux technologies du web sémantique. On constate que le domaine de la Biologie (entouré en rouge) est particulièrement bien représenté dans ce graphe avec un nombre important de ressources ouvertes et accessibles. Parmi les ressources disponibles, on peut citer :
  
  Les bases de données de référence (génomiques et protéiques) telles GenBank, UniProt, PDB (Protein Data Bank), KEGG (Kyoto Encyclopedia of Genes and Genomes), etc.
  
  Les bases de données d'expression génique comme GEO (Gene Expression Omnibus), ArrayExpress.
  
  Les bases de données des variations génétiques telles dbSMP (Single Nucleotide Polymorphism Database), GWAS Catalog (Genome Wide Association Studies).
  
  Les bases de référence des ontologies et des taxonomies comme GO, NCBI (National Center for Biotechnology Information).
  
  Les bases de données en Sciences de la Vie se caractérisent par une connectivité importante (liens gris entre les ressources) qui devrait favoriser l'intégration des données.
  
  Visualisation des données interconnectées en sciences de la vie - source : The Linked Open Data
- Sélectionner l’activité ------------------------- EN RÉSUMÉ La diversité d...
  
  En résumé
  
  La diversité des défis à relever, impliquant diverses expertises parfois très pointues, crée une situation unique pour les divers acteurs et actrices de la Biologie et de la Bio-Informatique. Ces acteurs vont devoir établir des passerelles entre différents plans "métiers" : Biologie, Bio-Informatique et Informatique.
  
  Les allers et retours entre ces différents niveaux créent, pour les scientifiques, un risque de dispersion quand il s'agit d'acquérir de nouvelles expertises, parfois au détriment du sujet principal de leur recherche.
- Sélectionner l’activité BIO C'est au niveau de la couche métier de la Biol...
  
  Bio
  
  C'est au niveau de la couche métier de la Biologie que sont posées les questions et que sont générées les données. Avec les évolutions technologiques, les données sont le plus souvent sous format numérique et sont analysées avec les outils Bio-Informatiques.
  
  Bio-Info
  
  C'est au niveau de la couche métier Bio-Informatique que sont prises en charge les données pour être analysées avec l'ensemble des logiciels développées par la communauté, le plus souvent mis en œuvre au sein de workflows avant de délivrer les résultats qui vont permettre de répondre aux questions biologiques.
  
  Info
  
  L'ensemble des manipulations in silico réalisées par la couche Bio-Informatique repose sur l'utilisation de ressources informatiques. Ces ressources de stockage et de calcul permettent d'héberger les données et les workflows d'exécution de la Bio-Informatique.
Sélectionner la section Structurer un projet

Replier Déplier
Structurer un projet
Dans le cadre de la structuration des projets de recherche, la gestion des flux de données en Biologie et en Bio-Informatique est un enjeu majeur pour les chercheurs qui devront mettre en place une organisation allant de la génération des données jusqu'à leur pérennisation, en passant par leur analyse. Dans un tel objectif, l'identification des infrastructures de génération, d'analyse et de pérennisation des données mais également l'adoption de bonnes pratiques de gestion de données est essentielle.
- Sélectionner l’activité Le Data Management Plan Pour mieux structurer ses...
  
  Le Data Management Plan
  
  Pour mieux structurer ses projets, la rédaction d'un plan de gestion des données (PGD ou DMP pour Data Management Plan) est un outil très précieux puisqu'il va permettre d'aborder un grand nombre de questions liées à la gestion des données. En s'intéressant initialement à la description des données créées ou réutilisées, à leur format et à leurs standards, en questionnant les aspects éthiques ou de confidentialité, en considérant leur partage et leur ouverture ainsi que leur conservation sur le long terme, le DMP va aider le scientifique à mieux structurer son approche de la donnée en prenant également en compte certains aspects techniques indispensables.
  
  Le DMP se présente sous forme d’un document structuré en rubriques. Il a pour objectif de synthétiser la description et l’évolution des jeux de données d'un projet de recherche.
- Sélectionner l’activité __ INFORMATIONS ADMINISTRATIVES Financement du pro...
  
  Informations administratives
  
  Financement du projet, contributeurs...
  
  Description des données
  
  Façon dont les données ont été recueillies, créées, réutilisées...
  
  Sécurité des données
  
  Mesures prises pour assurer la sécurité des données...
  
  Stockage et sauvegarde
  
  Endroit où les données sont stockées durant le projet, fréquence des sauvegardes...
  
  Documentation, métadonnées, standards
  
  Standard de métadonnées utilisé, mode d'organisation des données...
  
  Partage et accessibilité
  
  Choix des données à partager, condition de partage, licence...
  
  Archivage
  
  Sélection des données à conserver sur le long terme, choix de l'entrepôt ou archive...
  
  Aspects juridiques et éthiques
  
  Traitement des données à caractère personnel, respect des dispositions légales...
  
  Coûts
  
  Frais de stockage, coût matériel, frais d’entrepôt et d'archivage...
  
  Exemple générique de rubriques pouvant se retrouver dans un plan de gestion de données
- Sélectionner l’activité Quelques ressources utiles pour la mise en place...
  
  Quelques ressources utiles pour la mise en place d'un DMP
  
  Pour la mise en place du DMP, il est possible de bénéficier d'aide, de formation et également de nombreuses ressources en ligne afin d'aborder au mieux cette étape de conceptualisation du projet sous l'angle de la donnée.
- Sélectionner l’activité DES RESSOURCES D'AUTO-FORMATION Voici quelques res...
  
  Des ressources d'auto-formation
  
  Voici quelques ressources d'auto-formation accessibles librement :
  
  DoRANum
  
  Une plateforme de formation sur la gestion et le partage des données de la recherche réalisée par l’Inist-CNRS et le GIS Réseau Urfist.
  
  RDMkit
  
  Une boîte à outils sur la gestion des données de recherche développée au sein du projet ELIXIR-CONVERGE.
  
  FAIRcookbook
  
  Diverses recettes pour une démarche FAIR.
  
  The Turing Way
  
  Une ressource pour la mise en place d'une science des données reproductible, éthique et collaborative.
- Sélectionner l’activité Les articles Ten simple rules La série des Ten si...
  
  Les articles Ten simple rules
  
  La série des Ten simple rules du PLOS permet aussi d'aborder rapidement les différents aspects d'une problématique.
  
  Dix règles simples pour
  Créer un bon plan de gestion des données
  
  Voir l'article
  
  Dix règles simples pour
  Le stockage des données numériques
  
  Voir l'article
  
  Dix règles simples pour
  Une recherche informatique reproductible
  
  Voir l'article
  
  Dix règles simples pour
  Améliorer la découverte des données de recherche
  
  Voir l'article
  
  Dix règles simples pour
  Le traitement des données à grande échelle
  
  Voir l'article
  
  Dix règles simples pour
  Rendre les supports de formation FAIR
  
  Voir l'article
  
  Dix règles simples pour
  Utiliser les données biologiques publiques pour votre recherche
  
  Voir l'article
- Sélectionner l’activité LES ATELIERS DE LA DONNÉE Pour une aide plus direc...
  
  Les Ateliers de la donnée
  
  Pour une aide plus directe, il est possible de contacter les Ateliers de la donnée. Mis en place au sein de l'écosystème Recherche Data Gouv, une structuration nationale se met en place. En 2023, on dénombre 15 ateliers, probablement rejoints par d'autres en 2024 à la faveur de nouveaux appels à labellisation.
- Sélectionner l’activité Les outils d'aide à la rédaction On constate à ...
  
  Les outils d'aide à la rédaction
  
  On constate à l’heure actuelle, avec la généralisation des démarches de Science Ouverte, avec l’adoption des principes FAIR, l’émergence de nombreux outils d’assistance à la rédaction d’un DMP. En voici une liste non exhaustive.
- Sélectionner l’activité Zone texte et média
- Sélectionner l’activité ------------------------- CONSEILS POUR CHOISIR SO...
  
  Conseils pour choisir son outil de DMP
  
  Devant une telle profusion d'outils à la fonction similaire, se pose la question de la sélection d'un outil pour élaborer un plan de gestion des données ? Il suffit de rester pragmatique, le choix peut être guidé par :
  
  Les recommandation des financeurs (par exemple, l'ANR demandera OPIDoR) ;
  
  les partenaires du projet.
  
  Pour identifier et sélectionner un outil d'aide à la rédaction de DMP, on peut conseiller la lecture d'un article comparatif rédigé par le GTSO Données du Consortium Couperin s'intéressant aux trois outils: Argos, DMP-OPIDoR, DSW.
- Sélectionner l’activité AUTRES OUTILS DE GESTION Dans le cas de projets in...
  
  Autres outils de gestion
  
  Dans le cas de projets incluant une composante de développement logiciel, il faut garder à l'esprit qu'existent désormais des Plans de Gestion des Logiciels (Software Management Plan : SMP). Le réseau ELIXIR promeut la mise en place de SMP dans le domaine de la Bio-Informatique et dispose d'une page où sont consultables les travaux.
  
  Parallèlement à l'utilisation d'outils de planification tels que les DMP ou les SMP, l'outil SEEK, développé dans le cadre du projet FAIRDOM, peut être d'une grande aide pour mieux structurer la gestion des données dans une perspective de partage et de collaboration. FAIRDOM-SEEK est une plate-forme de catalogage et de communs open source, basée sur le Web, permettant de partager des ensembles de données de recherche hétérogènes, des modèles ou des simulations, des processus et des résultats de recherche. Il préserve les associations entre eux, ainsi que des informations sur les personnes et les organisations. Il permet de capturer les divers éléments clés d'un projet de recherche en les représentant sous forme graphique.
  
  Vue graphique offerte par SEEK permettant de visualiser l'arborescence ISA (Investigation Study Assay).

Gestion des données

Cette section aborde la question de la gestion des données en Biologie et en Bio-Informatique, de leur génération à leur réutilisation. Elle traite des défis liés aux formats, au stockage, aux licences et aux transferts de données, mettant en avant les pratiques et les solutions pour une gestion optimale des données scientifiques.

Sélectionner l’activité LA GÉNÉRATION / RÉUTILISATION DE DONNÉES À l'heure...

La génération / réutilisation de données

À l'heure de l'intégration des données, les projets combinent très souvent une phase de génération de données et une phase de réutilisation de données.

Génération de données

Pour la phase de génération de données vont se poser diverses questions concernant l'adoption de pratiques concernant les formats, le nommage des fichiers, etc. afin de pouvoir, tout au long du cycle de vie du projet, gérer efficacement ces données dans la perspective de leur valorisation par un partage auprès de la communauté scientifique.

Si l'on ne dispose pas des ressources de génération / traitements de données adaptés au sein de son laboratoire, on pourra se retourner vers les plates-formes offrant les services adaptés. Ces plates-formes se dotent, elles-aussi, de DMP structure : Cat-OPIDoR, IBiSA, Génotoul, Biogenouest...

Extrait de la liste des plateformes d'acquisition sur Cat OPIDoR

Extrait de la liste des données disponibles sur ELIXIR Core Data Ressource

Réutilisation de données

Pour identifier des jeux de données réutilisables, en plus du travail classique de bibliographie, on pourra explorer les banques de données généralistes, consulter les ressources et dépôts sur re3data (Registry of Research Data Repositories) ou encore consulter les listes de dépôts d'éditeurs de journaux scientifiques (Nature, ASM, etc.). ELIXIR propose également une liste de ses ressources.

En cas de téléchargement de données potentiellement volumineuses, on risque de rencontrer la problématique du transfert et du stockage de ces données (voir les chapitres ci-dessous).

Pour cette phase de réutilisation des données existantes, il faudra également se poser la question de la licence attribuée à ces données afin de savoir si elles sont réutilisables. Si aucune licence n'est associée aux données, elles ne sont pas réutilisables.
Sélectionner l’activité ------------------------- LE STOCKAGE DES DONNÉES ...

Le stockage des données

Une des plus grandes difficultés pour le chercheur ou la chercheuse est de bien estimer le volume des données afin de s'assurer qu'elles pourront être hébergées sans dépasser les capacités de stockage des plates-formes d'analyse mais également des capacités de calcul.

Il faut bien évidemment considérer les données brutes mais également toutes les données intermédiaires qui peuvent faire exploser les besoins en stockage et en analyse, sans compter également les données de référence issues des entrepôts ou des banques.

Il est essentiel de toujours interagir en amont avec son service informatique ou bien sa plate-forme bio-informatique pour anticiper le stockage et les traitements nécessaires, surtout lorsque les jeux de données sont très volumineux (plusieurs dizaines de To). C'est également le service informatique ou les gestionnaires des infrastructures de calcul qui pourront prodiguer des conseils concernant les différents types de stockage (capacitif ou rapide) et ainsi de choisir la solution la plus adaptée.

Le coût du stockage

L'estimation du volume des données est très important pour le déroulement sans accrocs techniques mais également pour une gestion efficace des financements. Il est indispensable de se renseigner sur le coût des volumes. À titre d'exemple, certains sites proposent des outils d'évaluation des coûts de stockage, à l'image du DSW Storage Costs Evaluator.
Sélectionner l’activité Le transfert des données À un moment ou un autr...

Le transfert des données

À un moment ou un autre, on sera confronté à la question du transfert des données entre par exemple le site de production et le site d’analyse des données. Étant donné que les données biologiques sont très volumineuses, des problèmes importants peuvent survenir et il est crucial de pouvoir les anticiper.

Parmi les problèmes qu'il est possible de rencontrer, ceux liés à la combinaison du volume des données et de la bande passante disponible sont les plus communs, entraînant des délais de transfert prohibitifs, à tel point qu'il est parfois préférable d'envoyer les données sur un disque dur par voie postale.

Volume des données (en octets)	Bande passante du réseau (en bits par seconde)
Volume des données (en octets)	45 Mbps	100 Mbps	1 Gbps	10 Gbps
1 To	2 jours	1 jour	3 heures	15 minutes
35 To	82 jours	37 jours	4 jours	9 heures
500 To	3 ans	1 an	53 jours	5 jours
2 Po	13 ans	6 ans	216 jours	22 jours
5 Po	33 ans	15 ans	1 an	54 jours

Repris de Data transfer for large datasets with moderate to high network bandwidth - Microsoft

Sélectionner l’activité VEILLEZ À L'ENDROIT OÙ VOUS TRANSFÉREZ VOS DONNÉES...

Veillez à l'endroit où vous transférez vos données

Avant de se lancer dans des transferts, il faut toujours se questionner sur l'aspect légal ou éthique du transfert vers une autre infrastructure. S'agit-il de données sensibles ? Le site destinataire est-il habilité pour l'hébergement de telles données ? Dispose-t-il de la certification HDS (hébergeur de données de santé) ? Par exemple, l'utilisation de ressources comme Google drive ou Dropbox pose de sérieux problèmes de confidentialité et de protection des données de la recherche. Voir par exemple la PPST (Protection du Patrimoine Scientifique et Technique de la Nation).
Sélectionner l’activité Zone texte et média
Sélectionner l’activité LES PROTOCOLES DE TRANSFERT DE DONNÉES EN RÉSUMÉ P...

Les protocoles de transfert de données en résumé

Pour des transferts de données de taille ordinaire, les protocoles FTP, FTPS, SFTP et HTTPS seront utilisés.
Pour des transferts volumineux, des solutions spécifiques sont recommandées comme GridFTP ou Aspera. GridFTP et Globus, développés dans le cadre des grilles de calcul, prennent en charge le parallélisme et la reprise sur erreur. La solution propriétaire Aspera d'IBM utilise le protocole FASP pour optimiser le transfert de fichiers sur des réseaux conventionnels, offrant des performances élevées.
Sélectionner l’activité CONSULTEZ L'ÉQUIPE INFORMATIQUE Pour utiliser effi...

Consultez l'équipe informatique

Pour utiliser efficacement le transfert de données, il faut considérer le réseau et ses capacités comme une ressource que l'on cherchera à optimiser et à économiser. Ainsi, il est préférable de s'enquérir auprès des services compétents de la capacité du réseau du laboratoire afin d'éviter tout risque de saturation ou d'engorgement. Cela permet par exemple de mettre en place une stratégie pour la récupération des données. D'autre part, il faut envisager les différentes techniques qui permettront d'économiser cette ressource en pensant par exemple à la compression des données pour réduire la taille des fichiers (faire attention au cas des données de bio-imagerie pour lesquelles un format de compression sans perte doit être choisi). On s'attachera également à la mise en place de procédures pour s'assurer que les données n'ont pas été corrompues durant le transfert (par exemple avec des clés de hachage).

Sélectionner la section Analyse des données

Replier Déplier
Analyse des données
Reposant sur l'utilisation de logiciels, au sein de divers environnements, cette étape va permettre de "faire parler les données". Ce passage de la donnée brute à l'information est une des étapes clés de la Bio-Informatique. Étant pratiquée in silico, elle doit être menée avec rigueur afin de pouvoir être reproductible.
- Sélectionner l’activité LES INFRASTRUCTURES DE CALCUL Faisant suite à des ...
  
  Les infrastructures de calcul
  
  Faisant suite à des étapes de pré-traitement (processing) des données, la phase d'analyse est cruciale pour transformer les données brutes, en extraire l'information et en obtenir un savoir scientifique.
  
  Cette phase repose sur l'utilisation de ressources de calcul. En fonction du volume de données, on aura besoin de ressources plus ou moins importantes, allant de la station de travail jusqu'à une infrastructure de calcul. Il existe différentes modalités d'utilisation des infrastructures de calcul : portail, cluster et cloud.
  
  Portail
  
  Un portail est une interface web conviviale qui permet aux utilisateurs d'accéder à des ressources de calcul à distance. Les utilisateurs peuvent soumettre des tâches de calcul et gérer leurs travaux via une interface graphique. Ce type d'infrastructure est souvent utilisé pour des tâches de calcul de petite à moyenne taille et convient aux utilisateurs qui n'ont pas besoin d'une gestion détaillée de l'infrastructure sous-jacente. En fait, le portail soumet les travaux à un cluster.
  
  Cluster
  
  Un cluster est un ensemble de serveurs interconnectés qui travaillent ensemble pour effectuer des tâches de calcul. Les clusters sont utilisés pour le calcul intensif et peuvent gérer des charges de travail plus importantes que les portails. Ils sont composés de nœuds de calcul qui exécutent des tâches en parallèle. Les clusters peuvent être configurés localement dans un laboratoire ou utilisés à distance via des connexions réseau.
  
  Cloud computing
  
  Le cloud computing offre des ressources de calcul à la demande via Internet. Les infrastructures de cloud computing permettent aux utilisateurs d'accéder à des ressources de calcul virtuelles, telles que des machines virtuelles, des conteneurs ou des services gérés. Cela permet une flexibilité et une évolutivité accrues, car les utilisateurs peuvent augmenter ou réduire les ressources en fonction de leurs besoins.
- Sélectionner l’activité Suivant ses compétences techniques, on pourra choi...
  
  Suivant ses compétences techniques, on pourra choisir l'un ou l'autre des types d'infrastructures, un portail de calcul comme Galaxy (que nous allons voir juste après) étant le plus facile d'utilisation puisqu'il offre, au travers de son interface graphique, un moyen simple pour lancer diverses analyses et réaliser des workflows.
  
  L'utilisation des ressources de calcul comme un cluster exige un certain apprentissage qui peut être chronophage. Cet aspect est encore plus marqué pour l'utilisation des ressources d'un cloud puisque l'utilisateur ou l'utilisatrice est chargé·e de l'installation complète de ses environnements de calcul.
- Sélectionner l’activité Galaxy : une plateforme simple pour l'analys...
  
  Galaxy : une plateforme simple pour l'analyse des données génomiques
  
  Galaxy est une plateforme web populaire utilisée en Bio-Informatique pour l'analyse des données génomiques. Il fournit une interface conviviale et graphique pour exécuter des analyses Bio-Informatiques sans avoir besoin de connaissances approfondies en programmation.
  
  Le portail Galaxy permet aux utilisateurs de sélectionner et d'enchaîner des outils Bio-Informatiques prédéfinis pour effectuer des analyses complexes. Il offre également des fonctionnalités pour la gestion des données, la visualisation des résultats et le partage des workflows analytiques. Les utilisateurs peuvent importer leurs propres données, exécuter des analyses en utilisant les outils disponibles dans Galaxy, et visualiser et interpréter les résultats générés.
  
  Galaxy offre un portail web public accessible. Vous pouvez accéder à ce portail via votre navigateur web sans avoir à installer ou à configurer Galaxy vous-même. Cela permet une utilisation facile et rapide de Galaxy sans nécessiter de connaissances techniques approfondies.
- Sélectionner l’activité EXEMPLE PRATIQUE : ALIGNER DES SÉQUENCES AVEC CLUS...
  
  Exemple pratique : aligner des séquences avec Clustal
  
  Clustal (utilisé dans ses versions Omega et W dans les exemples) est un outil populaire en Bio-Informatique utilisé pour l'alignement multiple de séquences génomiques et protéiques. Il est largement utilisé pour analyser et comparer des séquences biologiques afin d'identifier les similarités, les motifs conservés et les relations évolutives entre les séquences.
  
  Disponible sous forme de logiciel open source, Clustal peut être téléchargé sur son site officiel pour une exécution en local ou être utilisé en ligne via des serveurs web. On le retrouve notamment sur le portail Galaxy.
  
  Nous vous proposons d'illustrer les différentes modalités d'utilisation avec un exemple simple : l'alignement des séquences des protéines Spike du coronavirus à l'aide du programme Clustal en passant par le terminal d'un ordinateur (en ligne de commande) et en passant par le portail Galaxy.
  
  Utiliser Clustal Omega en ligne de commande
  
  L'utilisation de Clustal en local demande d'utiliser le terminal de l'ordinateur. La vidéo ci-dessous vous montre comment aligner les séquences des protéines Spike du coronavirus à l'aide du programme Clustal en passant par les lignes de commande.
  
  Utiliser Clustal W sur le portail Galaxy
  
  L'utilisation de Clustal en ligne, via des portails comme Galaxy, est une solution plus simple si vous n'êtes pas familier avec l'exécution de tâches en ligne de commande. Pour vous le montrer, nous vous proposons de le tester par vous-même. Pour cela :
  
  Téléchargez le fichier "spike_sequences.fasta"
  
  Rendez-vous sur le portail public de Galaxy
  
  Reproduisez la procédure indiquée dans le petit tutoriel ci-dessous. Notez que dans ce tutoriel, on utilise le portail Galaxy de la plateforme GenOuest, mais la procédure reste identique.
  
  Galaxy Training
  
  La communauté de Galaxy propose des cours en ligne pour s'initier à l'outil. Rendez-vous sur Galaxy Training pour une formation complète !
- Sélectionner l’activité ------------------------- DÉVELOPPEMENT ET PARTAGE...
  
  Développement et partage d'outils logiciels : bonnes pratiques
  
  Pour analyser les données, il est nécessaire de recourir à des logiciels ou des scripts. Ces outils peuvent être réutilisés directement en les obtenant auprès de leurs auteurs ou des dépôts logiciels mais ils peuvent également être développés. Dans ce dernier cas, vous devrez les traiter en tant que produit de recherche et les mettre à disposition de la communauté soit dans un dépôt logiciel ou bien dans HAL ou Software Heritage.
  
  Le développement logiciel doit respecter des bonnes pratiques avec notamment l’utilisation d'outils de suivi de version (Git).
  
  Lors de sa mise à disposition, un outil logiciel doit être accompagné de :
  
  Un fichier Readme qui doit présenter l’outil, son installation et son utilisation.
  
  La liste des auteurs.
  
  La licence (cf. associer une licence aux données).
  
  Readme file (lisez-moi !)
  
  Quelques exemples fictifs de sections que vous pourriez ajouter à votre fichier readme.
  
  // À propos
  Ajouter un bref descriptif de votre projet et à qui il s'adresse.
  
  // Auteurs
  Ajouter les auteurs du projet en donnant un lien vers leur page si possible. Exemple: @olivier-colin (https://www.irisa.fr/symbiose/olivier_collin.html)
  
  // Licence
  Ajouter une licence d'utilisation à votre projet. Exemple : CC BY
  
  // Utilisation
  Préciser dans quel contexte votre logiciel a un intérêt particulier.
  
  // Installation
  Expliquer comment installer votre logiciel.
  
  Outils utiles
  
  Le site readme.so propose un éditeur en ligne pour générer facilement un fichier readme.
  
  L’outil CodeMeta generator est très utile pour évaluer les informations nécessaires à associer en tant que métadonnées.
  
  L'outil Citation File Format génère des fichiers de texte brut contenant des informations de citation lisibles par l'homme et la machine pour les logiciels (et les ensembles de données). Les développeurs de code peuvent les inclure dans leurs référentiels pour indiquer aux autres comment citer correctement leur logiciel.
- Sélectionner l’activité LE CYCLE DE VIE DU LOGICIEL Lors du développement ...
  
  Le cycle de vie du logiciel
  
  Lors du développement d'un logiciel, il est indispensable de garder présent à l'esprit le fait que l'on s'engage dans un cycle. En effet, une fois l'outil en place et utilisé, on se retrouvera confronté à la maintenance de cet outil, surtout dans un contexte de diffusion ou de valorisation des développements.
  Le cycle de vie d'un logiciel en Bio-Informatique comprend plusieurs étapes clés :
  
  Le développement, où le code est écrit après avoir spécifié les caractéristiques du logiciel ;
  
  Les tests, avec des tests unitaires automatisés pour garantir la fiabilité ;
  
  Le déploiement, adapté à l'environnement cible, souvent dans une infrastructure de calcul ;
  
  La maintenance pour corriger les bugs et développer de nouvelles fonctionnalités ;
  
  Le partage, réalisé via des forges logicielles comme Git, avec une documentation détaillée pour faciliter l'installation et l'utilisation par d'autres chercheurs.
  
  Une bonne documentation tout au long du cycle est cruciale pour la reproductibilité.
- Sélectionner l’activité ------------------------- LE DÉFI DE LA REPRODUCTI...
  
  Le défi de la reproductibilité des résultats en Bio-Informatique
  
  Un des principaux défi en Bio-Informatique concerne la reproductibilité, notamment celle des traitements appliqués aux jeux de données in silico.
  
  Sous le simple terme de reproductibilité, souvent utilisé de manière différente suivant les contextes, se cachent beaucoup de concepts.
  
  La seule reproductibilité au sens strict (mêmes données, même code) permet d'identifier les différentes contraintes. En effet, se posera la question des versions des logiciels ou des données de référence, la question du système d'exploitation, la question des bibliothèques utilisées, la question du paramétrage des outils, etc.
  
  Par exemple, si quelqu'un évoque le fait d'avoir utilisé Clustal omega comme logiciel d'alignement, de nombreuses questions surgissent si l'on veut reproduire son résultat. De quelle version de Clustal omega s'agit-il ? Sur quel système d'exploitation le programme a-t-il été utilisé ? Quel a été son paramétrage ? Sur quelles données ? Autant de questions auxquelles il est plus simple de répondre en adoptant certaines bonnes pratiques.
  
  Contrôler son environnement
  
  Il faut donc s'intéresser aux méthodes qui permettront de mieux contrôler son environnement informatique ainsi que son environnement de données. D'un point de vue technique, il s'agit d'un problème complexe pour le néophyte. Pour mieux l'aborder, il est intéressant de considérer les différentes couches rencontrées. On utilise ou on développe des applications qui vont travailler sur des données, qu'elles soient propres au projet ou bien qu'elles aient été téléchargées. Les applications tournent au sein d'un environnement informatique et sont lancées par des environnements de workflows ou bien par des gestionnaires de tâches.
- Sélectionner l’activité MIEUX CONTRÔLER SES DONNÉES Vue sous l'angle de l'...
  
  Mieux contrôler ses données
  
  Vue sous l'angle de l'analyse, la gestion des données pour un projet s'intéresse aux données de référence mais également aux données du projet.
  
  Gestion des données de référence
  
  Ces données sont susceptibles de varier au fil du temps. Dans le cas de l'utilisation de banques de données, on s'attachera à toujours documenter les numéros des versions. Les plates-formes de Bio-Informatique proposent des méthodes automatisées de mise à jour de ces banques, par exemple avec l'outil BioMAJ.
  
  Pour aller plus loin, consultez les Dix règles simples pour utiliser les données biologiques publiques pour votre recherche.
  
  Gestion des données du projet
  
  Tout commence par l'adoption d'un plan de nommage et de désignation des fichiers. Afin de se faciliter la vie, il est souhaitable d'adopter quelques règles de base pour nommer ses fichiers. Ces règles permettent d'obéir à trois grands principes :
  
  Les noms des fichiers doivent être lisibles par les machines ;
  
  Les noms des fichiers doivent être compréhensibles par les humains ;
  
  Les noms des fichiers doivent permettre le tri et la sélection des fichiers.
  
  Les dates dans les noms des fichiers doivent respecter le format de la norme ISO8601 (YYYY-MM-DD).
  
  Ensuite il faut rationaliser l'organisation des fichiers au sein de l'arborescence des fichiers avec des répertoires homogènes. Par exemple, pour un projet de bioanalyse, on peut envisager l'arborescence suivante :
  
  ↳ _README ↳ docs ↳ raw_data ↳ Homo_sapiens ↳ Rattus_rattus ↳ _README ↳ results ↳ scripts ↳ tools ↳ work ↳ 2023-03-01_Assembly
  
  Suivant la nature des projets des variations sont possibles. En effet, en fonction du nombre de personnes, le recours à des outils collaboratifs comme Git, va modifier profondément l'arborescence de travail qui pourra se réduire à un tryptique : données brutes / travaux / résultats.
  
  Pour aller plus loin, vous pouvez consulter :
  
  Un guide rapide pour organiser les projets de biologie computationnelle - William Stafford Noble, PLOS
  
  Comment bien nommer ses fichiers - Doranum
- Sélectionner l’activité MIEUX CONTRÔLER SES OUTILS LOGICIELS Pour exercer ...
  
  Mieux contrôler ses outils logiciels
  
  Pour exercer un meilleur contrôle sur les diverses versions d'outils utilisés pour vos analyses, il est possible d'utiliser un gestionnaire de package comme Conda et son extension dédiée à la Bio-Informatique Bioconda.
  
  Conda permet d'installer des logiciels pré-compilés disponibles sous forme de paquets. Ces paquets sont déposés dans des canaux ("channels") thématiques.
  
  Le canal Bioconda recense plus de 7000 paquets pour les communautés des Sciences de la Vie.
  
  Conda permet également de créer des environnements au sein desquels on peut installer des outils spécifiques. Le fait que ces outils soient installés au sein d'un environnement permet d'éviter qu'il n'y ait des interférences avec l'environnement du système. Ces environnements peuvent être activés ou désactivés à la demande.
  
  Il existe également Mamba, un gestionnaire offrant plus de rapidité que Conda.
  
  D'autres solutions comme Guix et Nix (et son pendant "bio", BioNix), existent aussi.
- Sélectionner l’activité EXEMPLE : UTILISATION DU GESTIONNAIRE DE PAQUETS C...
  
  Exemple : utilisation du gestionnaire de paquets Conda pour installer le logiciel Clustal Omega en ligne de commande
  
  1. Recherche de la disponibilité de Clustal Omega (nommé clustalo en abrégé) dans les dépôts Bioconda (channel)
  
  --On tape cette requête en ligne de commande pour chercher Clustal Omega-- $ conda search clustalo --Réponse-- Loading channels: done # Name Version Build Channel clustalo 1.2.3 0 bioconda clustalo 1.2.4 0 bioconda clustalo 1.2.4 1 bioconda clustalo 1.2.4 h4a8c4bd_3 bioconda clustalo 1.2.4 h589c0e0_4 bioconda clustalo 1.2.4 h7133b54_7 bioconda clustalo 1.2.4 h9722bc1_5 bioconda clustalo 1.2.4 hb19a6fa_6 bioconda clustalo 1.2.4 hfc679d8_2 bioconda $
  
  2. Installation du logiciel via conda
  
  --On utilise la commande "install"-- conda install clustalo --Réponse-- Retrieving notices: ...working... done Collecting package metadata (current_repodata.json): done Solving environment: done --Conda précise quels paquets de Clustal Omega vont être installés ou mis à jour et indique la localisation sur l'ordinateur-- ## Package Plan ## environment location: /Users/ocollin/miniconda3 added / updated specs: - clustalo The following packages will be downloaded: package | build ---------------------------|----------------- ca-certificates-2023.5.7 | h8857fd0_0 145 KB conda-forge certifi-2023.5.7 | pyhd8ed1ab_0 149 KB conda-forge clustalo-1.2.4 | h7133b54_7 332 KB bioconda ------------------------------------------------------------ Total: 626 KB The following packages will be UPDATED: ca-certificates 2022.12.7-h033912b_0 --> 2023.5.7-h8857fd0_0 certifi 2022.12.7-pyhd8ed1ab_0 --> 2023.5.7-pyhd8ed1ab_0 clustalo 1.2.4-h9722bc1_5 --> 1.2.4-h7133b54_7 --Si on est d'accord pour l'installation / les mises à jours, on tape "y" pour confirmer-- Proceed ([y]/n)? y --Téléchargement et extraction des paquets-- Downloading and Extracting Packages Preparing transaction: done Verifying transaction: done Executing transaction: done --On vérifie la bonne installation avec la commande "which"-- (base) ocollin ~ $ which clustalo /Users/ocollin/miniconda3/bin/clustalo --L'outil Clustal Omega qui a été installé dans le répertoire miniconda--
  
  3. Création d'un environnement d'exécution Conda
  
  Il est possible d'utiiser le programme Clustal Omega que l'on a installé directement mais il est possible, pour éviter toute interférence avec son environnement de travail habituel, de créer un environnement Conda spécifique que l'on pourra activer ou désactiver à volonté.
  Dans l'exemple ci-dessous, on va créer un environment dédié à l'analyse phylogénétique avec deux outils, Clustal Omega et la suite Phylip.
  
  ocollin ~ $ conda create -p ~/analyse_phylo clustalo phylip Collecting package metadata (current_repodata.json): done Solving environment: done ## Package Plan ## environment location: /Users/ocollin/analyse_phylo added / updated specs: - clustalo - phylip The following packages will be downloaded: package | build ---------------------------|----------------- libcxx-16.0.4 | hd57cbcb_0 1.1 MB conda-forge openjdk-17.0.3 | h7d26f99_7 157.7 MB conda-forge ------------------------------------------------------------ Total: 158.8 MB The following NEW packages will be INSTALLED: argtable2 conda-forge/osx-64::argtable2-2.13-h1de35cc_1001 bzip2 conda-forge/osx-64::bzip2-1.0.8-h0d85af4_4 ca-certificates conda-forge/osx-64::ca-certificates-2023.5.7-h8857fd0_0 clustalo bioconda/osx-64::clustalo-1.2.4-h7133b54_7 libcxx conda-forge/osx-64::libcxx-16.0.4-hd57cbcb_0 libexpat conda-forge/osx-64::libexpat-2.5.0-hf0c8a7f_1 libffi conda-forge/osx-64::libffi-3.4.2-h0d85af4_5 libsqlite conda-forge/osx-64::libsqlite-3.42.0-h58db7d2_0 libzlib conda-forge/osx-64::libzlib-1.2.13-hfd90126_4 ncurses conda-forge/osx-64::ncurses-6.3-h96cf925_1 openjdk conda-forge/osx-64::openjdk-17.0.3-h7d26f99_7 openssl conda-forge/osx-64::openssl-3.1.0-h8a1eda9_3 phylip bioconda/osx-64::phylip-3.697-h1de35cc_1 pip conda-forge/noarch::pip-23.1.2-pyhd8ed1ab_0 python conda-forge/osx-64::python-3.11.3-h99528f9_0_cpython readline conda-forge/osx-64::readline-8.2-h9e318b2_1 setuptools conda-forge/noarch::setuptools-67.7.2-pyhd8ed1ab_0 tk conda-forge/osx-64::tk-8.6.12-h5dbffcc_0 tzdata conda-forge/noarch::tzdata-2023c-h71feb2d_0 wheel conda-forge/noarch::wheel-0.40.0-pyhd8ed1ab_0 xz conda-forge/osx-64::xz-5.2.6-h775f41a_0 Proceed ([y]/n)? y Downloading and Extracting Packages Preparing transaction: done Verifying transaction: done Executing transaction: done # # To activate this environment, use # # $ conda activate /Users/ocollin/analyse_phylo # # To deactivate an active environment, use # # $ conda deactivate ocollin ~ $
- Sélectionner l’activité MIEUX CONTRÔLER SES WORKFLOWS Une des caractéristi...
  
  Mieux contrôler ses workflows
  
  Une des caractéristiques de l'analyse des données en Bio-Informatique est le fait qu'il est nécessaire de combiner une multitude d'outils qui représentent alors un workflow. Pour reproduire un traitement il s'agira d'être capable de conserver le paramétrage de chaque outil tout en conservant l'ordonnancement des différents outils utilisés.
  Il existe de nombreux systèmes de gestion de workflows. Les plus populaires en Bio-Informatique sont :
  
  Nextflow permet l'adaptation de pipelines écrits dans les langages de script les plus courants.
  
  Snakemake permet de décrire les workflows sous forme de règles.
  
  Galaxy, un environnement graphique pour l'analyse de données qui propose des fonctionnalités de workflows.
  
  Chaque environnement de workflow va proposer un dépôt pour permettre aux utilisateurs et utilisatrices de partager leurs workflows. Dans le cas de Nextflow, il s'agit de nf-core. Pour Snakemake, un catalogue existe également, tandis que Galaxy utilise le dépôt de l'Interagalactic Workflow Commission pour partager les workflows.
  
  À noter que se mettent en place de nouvelles ressources comme WorkflowHub pour partager les workflows scientifiques.
- Sélectionner l’activité MIEUX CONTRÔLER SES ENVIRONNEMENTS DE CALCUL Une f...
  
  Mieux contrôler ses environnements de calcul
  
  Une fois que l'on contrôle ses données, ses logiciels et ses workflows, il reste une dernière étape pour atteindre une bonne reproductibilité en s'affranchissant des contraintes imposées par le système d'exploitation. En effet, suivant la version du système d'exploitation, suivant les diverses installations de logiciels, certaines bibliothèques logicielles utilisées par les programmes peuvent différer et influer sur les résultats des analyses.
  
  Il est donc nécessaire d'isoler ses environnements pour mieux les contrôler. Ceci est réalisable grâce aux techniques de virtualisation.
  
  La virtualisation
  
  Elle permet de faire fonctionner, sur une seule machine, un ou plusieurs systèmes d’exploitation en tant que logiciel. Les machines virtuelles (ou VM pour Virtual Machine) fonctionnent ainsi en créant un système d'exploitation complet et indépendant à l'intérieur d'un ordinateur physique. Cela signifie qu'une machine virtuelle est un environnement complet et autonome, avec son propre système d'exploitation, ses propres fichiers de configuration et ses propres ressources matérielles.
  
  Les intérêts de la virtualisation sont multiples :
  
  Il devient possible de pouvoir exploiter les machines de manière optimale en rentabilisant au maximum leurs capacités.
  
  Le déploiement de nouvelles machines est facilité car il n'y a plus d'installation physique. Cela permet de mettre en place rapidement des environnements de tests ou de formation qui sont isolés.
  
  Il est possible de déployer les machines à la demande, en quelques minutes, pour mettre en place une infrastructure complète.
- Sélectionner l’activité ORDINATEUR [Schéma du fonctionnement d'un ordinate...
  
  Ordinateur
  
  Architecture classique d'un ordinateur. On remarque le rôle central du système d'exploitation (ici macOS) qui sert d'interface etnre les logiciels et le matériel. Il fournit une interface utilisateur, s'occupe du système de fichiers et gère les périphériques.
  
  Machine virtuelle avec hyperviseur
  
  Un hyperviseur est un logiciel qui permet de créer et de gérer des machines virtuelles en isolant les ressources matérielles, en abstrayant le matériel physique et en fournissant des fonctionnalités de gestion et de sécurité pour les VM.
  
  Machine virtuelle avec conteneur
  
  Apparue dans les années 2010, la conteneurisation est une virtualisation au niveau du système d'exploitation. Contrairement aux VM avec hyperviseur, les conteneurs sont plus légers et sont souvent privilégiés pour la portabilité et l'efficacité des ressources.
  
  Les environnements de containeurisation sont variés : Docker (outil de conteneurisation polyvalent), Singularity / Apptainer (conçu spécifiquement pour les environnements de calcul scientifique et haute performance)...
- Sélectionner l’activité EXEMPLE D'UTILISATION AVEC DOCKER Dans cet exemple...
  
  Exemple d'utilisation avec Docker
  
  Dans cet exemple, on va procéder à l'alignement d'un groupe de séquences de glycoprotéines du virus SARS-COV2. Le déroulé est le suivant : on demande à Docker de charger l'image du programme Clustal Omega auquel on communique le fichier des séquences. Après le téléchargement de l'image par Docker, Clustal se lance et stocke les résultats dans un fichier après exécution.
- Sélectionner l’activité LES NOTEBOOKS Les notebooks sont des documents mél...
  
  Les notebooks
  
  Les notebooks sont des documents mélangeant du texte enrichi avec des balises Markdown, des éléments de code exécutable ainsi que les résultats de l'exécution de ces éléments de code, le plus souvent des graphiques.
  
  L'utilisation des notebooks se développe de manière importante pour apporter de la lisibilité et de la reproductibilité.
  
  L'utilisation des notebooks permet de combiner code et représentation pour faciliter la lecture du code et en assurer ainsi une meilleure communication.
  
  Parmi les outils, on peut citer :
  
  Jupyter notebooks ;
  
  Rmarkdown / Quarto ;
  
  Org-Mode.
  
  Pour vous former, vous pouvez consulter cette introduction aux notebooks Jupyter sous Galaxy.
  
  Delphine Lariviere, Use Jupyter notebooks in Galaxy (Galaxy Training Materials) https://training.galaxyproject.org/training-material/topics/galaxy-interface/tutorials/galaxy-intro-jupyter/tutorial.html Online; accessed Thu Jun 08 2023
Sélectionner la section Préservation et partage des données

Replier Déplier
Préservation et partage des données
Cette section met l'accent sur les principes fondamentaux de préservation, garantissant l'intégrité, la lisibilité et la réutilisabilité des données. Le partage des données est abordé, y compris les licences et les ressources pour faciliter ce processus. Des conseils sont donnés pour choisir des licences appropriées et des ressources sont fournies pour aider les scientifiques à archiver et partager leurs données de manière responsable et éthique.
- Sélectionner l’activité LES PRINCIPES DE PRÉSERVATION DES DONNÉES Préserve...
  
  Les principes de préservation des données
  
  Préserver les données sur le long terme implique de respecter certains principes fondamentaux qui permettent aux données d'être retrouvées et réutilisées bien des années après leur génération.
  
  Il s'agira donc de s'assurer que leur intégrité, leur lisibilité et leur réutilisabilité sont préservées.
  
  Intégrité
  
  Cela implique des procédures de vérification régulière de leur état sur les supports numériques, avec la possibilité de les transférer vers des supports numériques plus adaptés.
  
  Lisibilité
  
  Cela demande des évaluations régulières de leur lisibilité, avec, le cas échéant des conversions de format pour les adapter aux nouveaux logiciels.
  
  Réutilisabilité
  
  Elles sont accompagnées de leurs métadonnées dans le respect des principes FAIR pour assurer leur compréhensibilité et leur réutilisation.
  
  Ces tâches de conservation des données sont complexes et il est préférable de se reposer sur des ressources spécialisées qui prendront en charge tout ou partie de ces activités.
  
  La préservation des données, rejoint les concepts d'archivage. En France, pour la communauté de l'enseignement supérieur, c'est le CINES qui est chargé de cette mission.
- Sélectionner l’activité ------------------------- LE PARTAGE DES DONNÉES L...
  
  Le partage des données
  
  Le partage des données est devenu une pratique essentielle de la recherche favorisant la transparence, la reproductibilité et la collaboration scientifique. Cette pratique doit être parfaitement encadrée, notamment pour ce qui touche le droit et le respect de la protection des personnes. Pour pouvoir partager un jeu de données, on s'assurera donc de ne pas diffuser de données sensibles et l'on réfléchira à une licence définissant les modalités de diffusion, partage et réutilisation des données. Également, le partage de logiciels développés durant le projet fera l'objet d'un traitement similaire.
  
  Les grandes étapes du partage de données sont les suivantes :
  
  La préparation des données en vue du partage. Celles-ci doivent être organisées, documentée et nettoyées afin d'en faciliter la réutilisation par d'autres personnes. Les données sont enrichies avec des métadonnées et une licence est associée.
  
  Dans le cas de données identifiantes, l'anonymisation est une étape pour bien se conformer aux recommandations du RGPD.
  
  La sélection d'une plate-forme de partage. En Biologie de nombreux dépôts existent. Par exemple, dans le cas de séquences génomiques, l'EBI pourra accueillir ces données (voir la liste des dépôts fournie par l'éditeur Nature). On pourra aussi utiliser les ressources évoquées dans le chapitre concernant la réutilisation des données. À noter que l'Institut Français de Bio-Informatique a initié les développements de Metark, un outil dit de "brokering", pour automatiser le transfert des données vers les dépôts internationaux.
  
  La vidéo ci-dessous résume les points afférents au partage des données.
  
  Callisto. (2018, 20 mars). Déposer ses données de recherche : pourquoi, quoi, quand, où et comment ?. [Vidéo]. Canal-U. https://www.canal-u.tv/116062. (Consultée le 18 août 2023)
  
  Il existe désormais en France, pour les scientifiques appartenant aux disciplines ne disposant pas de dépôts thématiques, un nouvel entrepôt Recherche Data Gouv. Cet entrepôt fait partie d'un nouvel écosystème dédié aux données de la recherche. S'articulant autour de recherche.data.gouv, l'écosystème comprend les ateliers de la donnée et des centres de référence thématiques. Les ateliers de la données, animés en région à proximité des équipes de recherche, ont pour mission d'aider les scientifiques dans la gestion de leurs données. Les centres de référence thématiques reposent sur des infrastructures de recherche qui seront chargées de la gestion et de la diffusion de données pour les données scientifiques de leurs communautés. En Biologie et Santé, c'est l'Institut Français de Bioinformatique (IFB) qui a été identifié.
- Sélectionner l’activité QUELQUES OUTILS D'AIDE AU CHOIX DE LICENCE * choos...
  
  Quelques outils d'aide au choix de licence
  
  choosealicense.com
  
  creativecommons.org/choose/
  
  ufal.github.io/public-license-selector/
  
  clarin.eu/content/clic-license-chooser-tools
  
  clarin.eu/content/clarin-license-category-calculator
  
  eudat.eu/services/userdoc/license-selector
  
  joinup.ec.europa.eu/collection/eupl/solution/joinup-licensing-assistant/jla-find-and-compare-software-licenses
- Sélectionner l’activité POUR ALLER PLUS LOIN Vous pouvez consulter les vid...
  
  Pour aller plus loin
  
  Vous pouvez consulter les vidéos de la journée Archivage Numérique des Données de Recherche organisée le 20 novembre 2019 par l’UMS GRICAD (Grenoble Alpes Recherche – Infrastructure de Calcul Intensif et de Données) et le SARI (Réseau des Informaticiens du Sillon Alpin).
Sélectionner la section Conclusion

Replier Déplier
Conclusion
- Sélectionner l’activité Au terme de ce tutoriel, on aura vu l'apport impor...
  
  Au terme de ce tutoriel, on aura vu l'apport important de l'adoption d'une approche centrée sur la donnée. Les bénéfices sont multiples. Tout d'abord pour la personne qui met en oeuvre cette démarche qui lui permettra de mieux gérer ses travaux de recherche. En se dotant d'outils qui permettront de revenir plus facilement sur les travaux antérieurs, les scientifiques consolident leur recherche vis-à-vis de sa communauté scientifique. Ensuite pour une communauté scientifique qui, grâce à l'adoption de ces pratiques, va pouvoir avancer plus rapidement en capitalisant sur les progrès de ses différents membres.
  
  Il est à noter que les évolutions des méthodes, des techniques d'analyse et des environnements logiciels se font à un rythme soutenu et que de nouvelles technologies apparaissent régulièrement, bouleversant les usages. Il devient donc important de suivre et accompagner ces évolutions techniques et méthodologiques. Par exemple, l'irruption de l'intelligence artificielle pour l'analyse des données en Biologie va provoquer des changements importants dans les méthodes et outils. Etant donné que l'entrainement des outils d'apprentissage automatique repose sur l'utilisation de jeux de données de qualité pour générer des modèles efficaces, on comprend tout l'intérêt de pouvoir générer des données de manière optimale.
- Sélectionner l’activité [Résumé du contenu du cours sous forme de carte me...
- Sélectionner l’activité DONNÉES EN BIOLOGIE / BIO-INFORMATIQUE ET SOBRIÉTÉ...
  
  Données en Biologie / Bio-Informatique et sobriété numérique
  
  L'utilisation des ressources informatiques, par exemple pour une session de calcul, va mettre en branle tout un ensemble d'équipements. Des équipements réseau (routeurs, commutateurs, box, etc.) qui vont assurer l'établissement et le maintien de la connexion, des serveurs de calcul et de stockage au niveau de la plate-forme ou du datacenter. La consommation cumulée de tous ces équipements est non négligeable.
  
  Il ne faut pas se laisser abuser par l'aspect virtuel d'une session de calcul. L'impact environnemental est réel, qu'il s'agisse de l'impact lié au fonctionnement ou bien l'impact lié à la fabrication des équipements.
  
  L'utilisation de ressources doit donc se faire de manière raisonnée, en ayant présent à l'esprit le coût induit par toute manipulation :
  
  Éviter de gaspiller en évitant les calculs infructueux liés à des essais-erreurs alors que les manuels donnent des indications sur le bon fonctionnement des outils ou des environnements.
  
  Éviter de stocker des données sans les annoter correctement pour ne pas consommer inutilement de la place (et donc qui font tourner des serveurs) avec des données qui risquent fort de ne plus être réutilisables au bout de quelque temps.
Sélectionner la section Échanger sur le cours

Replier Déplier
Échanger sur le cours
Un forum est à votre disposition pour toute question. Vous pouvez aussi nous aider à améliorer ce cours en donnant votre avis.
- Sélectionner l’activité Accéder au forum
  
  Accéder au forum
Sélectionner la section Sur le même thème

Replier Déplier
Sur le même thème
Cours: Rédiger un DMP pour sa thèse en biologie

Cours: La question des données en Bio-Informatique

Cours: La gestion des données de recherche en environnement

Cours: Comprendre les données géographiques

Cours: Ouvrir les données de recherche en informatique théorique : qu'a-t-on à y gagner ?

Cours: Cohortes en santé : données ouvertes en imagerie médicale

Autres suggestions

Cours: Au-delà du secret statistique : comment accéder à des données confidentielles issues de la statistique publique ?

Cours: netCDF, format de fichier interopérable pour la science ouverte

Cours: Comment inscrire une recherche (action) participative respectueuse des principes FAIR ?

Cours: Exemples d'entrepôts de données en SHS

Cours: Étude de cas Économie-Gestion

Cours: Droit de la concurrence : approche quantitative de jeux de données juridiques

Cours: Humanités numériques : gérer ses données dans une équipe interdisciplinaire

Cours: La diffusion des données de recherche en linguistique

Cours: Langues minorisées à corpus restreint : partager pour survivre

Cours: Le Plan de Gestion de Données pas à pas

Résumé de section

Objectifs

Ce cours est en libre accès !

Accroissement de la quantité de données

L'adaptation des plateformes de Bio-Informatique

Hétérogénéité des données

Diversité des outils d'analyse

Abondance des données en Sciences de la Vie

En résumé

Bio

Bio-Info

Info

Le Data Management Plan

Informations administratives

Description des données

Sécurité des données

Stockage et sauvegarde

Documentation, métadonnées, standards

Partage et accessibilité

Archivage

Aspects juridiques et éthiques

Coûts

Quelques ressources utiles pour la mise en place d'un DMP

Des ressources d'auto-formation

Les articles Ten simple rules

Les Ateliers de la donnée

Les outils d'aide à la rédaction

Conseils pour choisir son outil de DMP

Autres outils de gestion

La génération / réutilisation de données

Génération de données

Réutilisation de données

Le stockage des données

Le coût du stockage

Le transfert des données

Veillez à l'endroit où vous transférez vos données

Les protocoles de transfert de données en résumé

Consultez l'équipe informatique

Les infrastructures de calcul

Portail

Cluster

Cloud computing

Galaxy : une plateforme simple pour l'analyse des données génomiques

Exemple pratique : aligner des séquences avec Clustal

Galaxy Training

Développement et partage d'outils logiciels : bonnes pratiques

Readme file (lisez-moi !)

Outils utiles

Le cycle de vie du logiciel

Le défi de la reproductibilité des résultats en Bio-Informatique

Contrôler son environnement

Mieux contrôler ses données

Gestion des données de référence

Gestion des données du projet

Mieux contrôler ses outils logiciels

Exemple : utilisation du gestionnaire de paquets Conda pour installer le logiciel Clustal Omega en ligne de commande

Mieux contrôler ses workflows

Mieux contrôler ses environnements de calcul

La virtualisation

Ordinateur

Machine virtuelle avec hyperviseur

Machine virtuelle avec conteneur

Exemple d'utilisation avec Docker

Les notebooks

Les principes de préservation des données

Intégrité

Lisibilité

Réutilisabilité

Le partage des données

Quelques outils d'aide au choix de licence

Pour aller plus loin

Données en Biologie / Bio-Informatique et sobriété numérique

Autres suggestions

Liens de bas de page

Doranum

Callisto

Aide

Nous suivre