Résumé de section

    • Au terme de ce tutoriel, on aura vu l'apport important de l'adoption d'une approche centrée sur la donnée. Les bénéfices sont multiples. Tout d'abord pour la personne qui met en oeuvre cette démarche qui lui permettra de mieux gérer ses travaux de recherche. En se dotant d'outils qui permettront de revenir plus facilement sur les travaux antérieurs, les scientifiques consolident leur recherche vis-à-vis de sa communauté scientifique. Ensuite pour une communauté scientifique qui, grâce à l'adoption de ces pratiques, va pouvoir avancer plus rapidement en capitalisant sur les progrès de ses différents membres. 

      Il est à noter que les évolutions des méthodes, des techniques d'analyse et des environnements logiciels se font à un rythme soutenu et que de nouvelles technologies apparaissent régulièrement, bouleversant les usages. Il devient donc important de suivre et accompagner ces évolutions techniques et méthodologiques. Par exemple, l'irruption de l'intelligence artificielle pour l'analyse des données en Biologie va provoquer des changements importants dans les méthodes et outils. Etant donné que l'entrainement des outils d'apprentissage automatique repose sur l'utilisation de jeux de données de qualité pour générer des modèles efficaces, on comprend tout l'intérêt de pouvoir générer des données de manière optimale. 

    • Résumé du contenu du cours sous forme de carte mentale.
    • Données en Biologie / Bio-Informatique et sobriété numérique

      L'utilisation des ressources informatiques, par exemple pour une session de calcul, va mettre en branle tout un ensemble d'équipements. Des équipements réseau (routeurs, commutateurs, box, etc.) qui vont assurer l'établissement et le maintien de la connexion, des serveurs de calcul et de stockage au niveau de la plate-forme ou du datacenter. La consommation cumulée de tous ces équipements est non négligeable. 

      Il ne faut pas se laisser abuser par l'aspect virtuel d'une session de calcul. L'impact environnemental est réel, qu'il s'agisse de l'impact lié au fonctionnement ou bien l'impact lié à la fabrication des équipements. 

      L'utilisation de ressources doit donc se faire de manière raisonnée, en ayant présent à l'esprit le coût induit par toute manipulation :

      • Éviter de gaspiller en évitant les calculs infructueux liés à des essais-erreurs alors que les manuels donnent des indications sur le bon fonctionnement des outils ou des environnements. 
      • Éviter de stocker des données sans les annoter correctement pour ne pas consommer inutilement de la place (et donc qui font tourner des serveurs) avec des données qui risquent fort de ne plus être réutilisables au bout de quelque temps.