Comment anonymiser des images médicales sans perdre d'informations utiles ?
L'anonymisation des données médicales est un processus qui consiste à supprimer ou à modifier les informations personnellement identifiables (PII) des données médicales tout en préservant leur utilité clinique.
L'objectif principal de l'anonymisation est de préserver la confidentialité des patients et de respecter les réglementations en matière de protection des données. L’anonymisation doit permettre de rendre impossible, en pratique, toute identification de
la personne par quelque moyen que ce soit et ce, de manière irréversible.
La complexité, voire la difficulté, de l’anonymisation est de préserver la pertinence des données tout en assurant un niveau de sécurité et confidentialité le plus élevé.
Méthodologies d'anonymisation
Dans le cadre des données de santé, différentes méthodologies sont applicables :
Suppression
On supprime l'ensemble des informations d'identification sur la donnée d’origine. Aucun mécanisme ne permet de remonter à la donnée d’origine.
Substitution / généralisation
Par exemple, on généralise les dates de naissance en les remplaçant par une plage de valeurs ("1974" devenant [1970-1975]). La difficulté vient de la conservation de l’information ou de la statistique pertinente.
Pseudonymisation
On remplace un ensemble de tags par des valeurs nulles, ou sans aucun lien avec les valeurs d’origine ou selon un template. Par exemple : COHORTE_PAT_001 pour remplacer le nom du patient.
Perturbation
On introduit du bruit dans les données en modifiant des valeurs tout en préservant les statistiques générales. Par exemple : si une cohorte se comporte de 70% de patients entre 20-40 ans et 30 % de 40 ans et plus, il suffit de modifier les dates
de naissance tout en conservant cette distribution.
Anonymisation des images DICOM
Concernant les images médicales au format DICOM, l’anonymisation consiste à utiliser un ensemble de mesures de manière à rendre impossible toute identification de la personne par quelque moyen que ce soit et ce, de manière irréversible. Ce qui consisterait à la suppression de la donnée image d’origine.
Dé-identification / Ré-identification des images DICOM
La dé-identification est une autre méthode qui, comme l'anonymisation, supprime les identifiants personnels d'un ensemble de données par la suppression ou le cryptage. La différence est qu'il est possible d'inverser le processus : c'est la ré-identification.
La ré-identification DICOM peut être nécessaire dans certaines situations cliniques ou de recherche où l'accès aux informations d'identification personnelles est crucial pour une prise en charge médicale adéquate ou pour des études longitudinales. Cependant, elle doit être effectuée avec prudence pour éviter tout risque pour la vie privée des patients et en conformité avec les réglementations sur la protection des données.
Certains tags ont obligation à être présents et avoir une valeur valide (type attributes required). Ils doivent donc être modifiés sans lien avec la valeur d’identification originale. La norme définit des profils
de confidentialité afin de sécuriser et “nettoyer” de manière de plus en plus extrême.
Le profil de base (Basic Application Level Confidentiality Profile) demande l'application d’un cryptage sur les attributs obligatoires (50) et de stocker le résultat du cryptage dans une séquence d’attributs modifiés. Les valeurs d’origine devenant
erronées.
Exemple: le tag nom (0010, 0010) DUPONT MARIE devient JOHN DOE par cette opération.
La question des données de santé est aussi encadrée juridiquement par le RGPD (Règlement Général sur la Protection des Données), que nous allons aborder maintenant.