Les pipelines de traitement
Résumé de section
-
Les pipelines de traitement sont des étapes nécessaires pour exploiter les images médicales.
-
Une pipeline de traitement sert à extraire des informations utiles à partir d'images médicales complexes. C'est un ensemble d'étapes systématiques, ordonnées et pouvant être automatisées pour certaines traitant les images et produisant des résultats significatifs et exploitables.
Ces pipelines varient en fonction de l’objectif d’analyse, du type d’imagerie médicale et des logiciels. Afin d’assurer une reproductibilité et une large diffusion de ces pipelines, il est intéressant et nécessaire de les rendre les plus automatiques possibles.
-
-
Les changements de format dans les pipelines
Les formats utilisés dans les pipelines de traitement en imagerie médicale peuvent varier en fonction des besoins spécifiques et des outils logiciels utilisés. On peut citer le format NIFTI (Neuroimaging InFormatics Technology Initiative) en neuroimagerie principalement pour des images 3D ou 4D et les régions d’intérêts associés, ou encore le format MHD/RAW.
Ces formats peuvent être convertis les uns en les autres à l'aide de logiciels et de bibliothèques appropriés, afin de permettre l'intégration et l'interopérabilité entre les différents outils et les plates-formes.
Dans le cas de cohortes en imagerie médicale, les données en DICOM sont souvent converties pour une plus grande facilité de manipulation et d’interpolation au niveau des pipelines. Cependant, des résultats peuvent être in fine converties en DICOM pour exploiter des visualisations avancées par exemple.
-
Structurer des données d'imagerie cérébrale avec BIDS
Depuis quelques années, afin d’assurer une plus grande portabilité et reproductibilité des pipelines en neuroimagerie (et récemment pour d’autres applications), une structuration des données au format NIFTI a été proposée : BIDS (Brain Imaging Data Structure).
Entre autres caractéristiques : les données sont organisées dans une arborescence de répertoires spécifiques, les fichiers sont nommées en suivant une norme significative et précise, les métadonnées sont associées au format json, nommage explicite des variables...
Comparaison entre une organisation classique de fichiers et l'organisation des fichiers avec BIDS. Source : https://bids.neuroimaging.io/
-
Il est important de permettre une interopérabilité entre les pipelines de traitements afin de garantir une large diffusion de ceux-ci, de les enchaîner ou encore de pouvoir comparer leurs performances.
Cette interopérabilité peut être assurée en utilisant des formats uniques (ou convertibles en préservant les informations essentielles) de données, en normalisant les métadonnées (présence obligatoire de celles-ci en se basant sur des normes ou taxonomies) ou en utilisant des RESTful API.
-
Problématiques des pipelines
Gestion des données volumineuses
Dans le contexte de la recherche en imagerie médicale, notamment les cohortes, il est fréquent de collecter une grande quantité de données. Cela est particulièrement vrai pour les données longitudinales, qui impliquent la collecte répétée d'images ou d'examens médicaux sur une période de temps prolongée.
Pour donner un exemple, un ensemble de données d'imagerie CT collectées pendant la pandémie de COVID-19 dans le cadre du COVID-CTPRED project a atteint une taille de 2 téraoctets (To) pour 800 patients.
La volumétrie des données peut rapidement devenir importante, ce qui nécessite des ressources de stockage considérables et des infrastructures informatiques robustes pour le traitement et l'analyse de ces données massives.
-
Besoin de ressources de calcul spécifiques
Il est alors nécessaire d’utiliser des ressources de calcul spécifiques, comme par exemple le cluster Jean-Zay du CNRS, pour traiter massivement et efficacement ces données.
S'il est nécessaire de sauvegarder les résultats intermédiaires ou finaux des pipelines, la volumétrie et l’accès à celles-ci devient un problème en soi car cela peut générer une grande quantité de données supplémentaires. Il y aura donc des défis en termes de stockage, d'accessibilité et de gestion de ces données pour garantir que ces données restent disponibles, organisées et accessibles pour les analyses ultérieures.
-
Rétraction de patients de l'étude
Parfois, un patient participant à une étude médicale peut décider de se retirer de l'étude pour diverses raisons (préoccupations personnelles, effets secondaires indésirables...). Lorsqu'un patient se retire, les données pour lesquelles il a contribuées ne seront plus disponibles pour de futures analyses ou traitements.
Les pipelines de traitement peuvent avoir utilisé les données de ce patient pour créer des modèles de diagnostic ou pour effectuer d'autres analyses. Il devient alors essentiel d'identifier quels pipelines ont utilisé ces données.
Si les données de ce patient ont été utilisées pour établir un modèle de diagnostic, leur retrait pose la question de la validité et de la performance continue de ce modèle. En conséquence, il peut être nécessaire de régénérer le modèle en utilisant les données disponibles à partir d'autres patients ou de mettre à jour le modèle en l'adaptant aux données restantes.
Il est donc important de suivre de près les données des patients retirés, d'identifier les pipelines qui ont utilisé ces données, et de prendre des mesures pour régénérer ou mettre à jour les modèles de diagnostic afin de maintenir la qualité et la validité des résultats dans le cadre d'études médicales longitudinales.
-
Évolution des librairies et de l'environnement de traitement
Les pipelines de traitement s'appuient souvent sur des librairies de programmation ou d'analyse, qui sont des ensembles d'outils logiciels permettant de réaliser diverses tâches de traitement et d'analyse des données. Ces librairies évoluent constamment, avec des mises à jour et des nouvelles versions qui sont régulièrement publiées.
En raison de l'évolution des librairies, il est essentiel de contrôler l'environnement d'exécution des pipelines. Cela signifie que les versions spécifiques des librairies et des dépendances utilisées lors du traitement doivent être documentées et conservées.
La reproductibilité des résultats est cruciale en recherche médicale. Les études récentes ont souligné cette nécessité, car l'utilisation de versions différentes de librairies ou d'environnements d'exécution peut entraîner des variations dans les résultats, ce qui peut avoir un impact sur la validité des conclusions scientifiques.
Pour assurer la stabilité et la validité des résultats dans le temps, il est impératif de conserver un environnement de traitement cohérent, en veillant à ce que toutes les versions de logiciels et de librairies soient bien documentées et que les analyses puissent être reproduites.
-
Bien que les pipelines de traitement en imagerie médicale soient confrontés aux défis que nous venons de voir, ils demeurent essentiels pour exploiter pleinement les données d'imagerie.
Ces pipelines sont soumis à des tests rigoureux lors d'événements, connus sous le nom de challenges, offrant ainsi une opportunité unique d'évaluer leur robustesse et leur performance dans des conditions réelles.
-