Résumé de section

  • Ce module aborde la question des métadonnées embarquées et leurs risques liés à la divulgation d'informations sensibles.


    Objectifs
    • Définir ce que sont les métadonnées embarquées ;
    • Citer 1 exemple pour lequel les métadonnées embarquées sont utiles ;
    • Expliquer en quoi les métadonnées embarquées peuvent représenter un risque ;
    • Citer 2 outils permettant de vérifier et nettoyer les métadonnées embarquées dans les documents numériques.
    Ce cours est en libre accès !

    Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

    Pour participer aux activités (exercices, forum...), vous devez vous inscrire au cours.

    S'inscrire au cours
    • Auteur(s) / Formateur(s): Urfist Méditerranée
      Production cours: Viet Jeannaud - Fondation Callisto
      Public cible: Chercheurs, doctorants
      Date de publication: 21 juin 2016
      Mise à jour: 22 novembre 2024
      Durée estimée: 30 minutes
      Licence: CC BY-NC-SA
      Open badge: Non
      Nombre d'inscrits: 7
    • Imaginons que vous tenez un livre dans vos mains. Le contenu du livre, l'histoire elle-même, ce sont les données. Mais sur la couverture et les premières pages, vous pouvez trouver :

      • Le titre ;
      • L'auteur ;
      • La date de publication ;
      • L'éditeur ;
      • L'ISBN ;
      • Le nombre de pages ;
      • Le genre littéraire.

      Ces informations qui décrivent le livre sont des métadonnées. Ce sont des "données sur les données" : elles nous renseignent sur le contenu sans être le contenu lui-même.

      Christa Jungnickel and Russell McCormmach, Public domain, via Wikimedia Commons

    • À l'ère numérique, ce principe reste le même. Prenez un fichier quelconque sur votre ordinateur :

      • Son nom ;
      • Sa taille ;
      • Sa date de création ;
      • Son format ;
      • Son emplacement ;
      • Etc.

      Toutes ces informations sont des métadonnées. Elles nous permettent de comprendre, organiser et retrouver ce fichier.

      Il convient de distinguer deux grands types de métadonnées.

      Les métadonnées externes

      Elles concernent les informations stockées séparément du fichier qu'elles décrivent. Ce peut être par exemple les informations descriptives dans un entrepôt de données, ou encore les tags/étiquettes qu'on ajoute dans un système de gestion de fichiers.

      Les métadonnées embarquées

      Comme leur nom l'indique, les métadonnées embarquées sont encodées dans le fichier lui-même. Invisibles au premier coup d'œil, elles contiennent pourtant une mine d'informations sur l'histoire et les caractéristiques du document.

    • Si vous pensez ne pas connaître les métadonnées, détrompez-vous ! Vous les utilisez tous les jours, peut-être sans vous en rendre compte. Par exemple :

      En rédigeant un texte sur le logiciel Word

      En prenant une photo depuis votre smartphone

      En envoyant un e-mail


      Ces activités banales, que l’on fait quotidiennement sans arrière-pensée, laissent pourtant des traces invisibles au premier abord. En effet, quelque soit leur format, tous les fichiers contiennent des informations associées plus ou moins cachées : les métadonnées embarquées.

      Ainsi, des métadonnées sont automatiquement générées :

      • Lorsque vous créez un document sur le logiciel Word ; auteur, date de création, taille, nombre de mots, etc.
      • Lorsque vous prenez une photo sur votre appareil; date, marque de l’appareil, numéro de série, etc.
      • Lorsque vous envoyez un mail ; objet, expéditeur, destinataire, date d’envoi, personnes en copie (CC), etc.

    • Ces métadonnées sont très utiles pour automatiser des traitements de l’information (organiser, rechercher, catégoriser).

      Les services de messagerie par exemple, s’appuient sur les métadonnées pour filtrer la recherche d’un mail dans la boîte de réception :

      • L'expéditeur ;
      • Le destinataire ;
      • L'objet ;
      • Les pièces jointes ;
      • La date ;
      • Etc.

      Description dans la légende.

      Exemple de recherche de courrier dans Gmail s'appuyant sur plusieurs métadonnées.

    • Les métadonnées sont omniprésentes dans nos activités numériques. Un exemple frappant de leur potentiel a été démontré par le Massachusetts Institute of Technology (MIT) entre 2016 et 2019. Leur application Immersion permettait de visualiser les métadonnées issues des services de messagerie (Gmail, Yahoo et Exchange). 

      En autorisant simplement l'accès à une boîte mail, l'application générait un graphique dynamique et interactif de tout l'historique des échanges. Bien que ce service ne soit plus actif aujourd'hui, il illustre parfaitement comment les métadonnées que nous laissons quotidiennement peuvent être analysées pour révéler des informations sur nos activités et nos relations.

      Graphique de l'application Immersion, laissant voir un réseau de connexion basé sur des métadonnées d'e-mail.

      Immersion - MIT Media Lab

    • Transmettre un document, c'est aussi transmettre ses métadonnées embarquées.

      Cette réalité peut avoir des conséquences sérieuses, comme l'a démontré l'incident notable de John McAfee : le créateur du célèbre antivirus, en fuite et recherché par la police, fut localisé grâce aux métadonnées GPS d'une photo publiée par le magazine Vice, repérées par un utilisateur de Twitter.

      Description dans la légende.

      Capture d'écran du tweet ayant permis à la police de retrouver John McAfee. Source : Open Data Security.

      Dans le contexte de la recherche, ces risques sont particulièrement sensibles. Prenons l'exemple des formats d'image TIFF ou JPEG, qui stockent automatiquement dans leurs métadonnées EXIF :

      • Les coordonnées GPS précises de la prise de vue ;
      • Une miniature de l'image originale ;
      • La date et l'heure exactes ;
      • Les caractéristiques de l'appareil.

      Ainsi, une simple photo d'une espèce protégée pourrait, via ses métadonnées GPS (par exemple : 42.8679° N, 0.1250° E), révéler son emplacement exact à des personnes mal intentionnées. Même si l'image est recadrée ou modifiée, la miniature originale reste accessible dans les métadonnées.

    • 1. Vérification rapide

      • Tous systèmes : Clic droit > Propriétés/Informations
      • Mac : Cmd + I pour les informations du fichier
      • Windows : Alt + Entrée pour les propriétés
      • Linux : Propriétés via le gestionnaire de fichiers

      2. Documents bureautiques (Word, Excel, etc.)

      • Menu Fichier > Informations > Inspecter le document
      • Vérifier et supprimer les métadonnées avant le partage
      • Attention particulière aux commentaires et modifications

      3. Gestion des PDF

      ⚠️ Attention : Convertir en PDF ne supprime pas toutes les métadonnées !

      • Utiliser les outils dédiés : 
      • Vérifier systématiquement les propriétés du document
      • Option "Nettoyer le document" dans les logiciels PDF modernes

      4. Images

      • GIMP : Exporter > Décocher toutes les métadonnées
      • Extension navigateur : "Exif Viewer" pour vérification rapide
      • Visualiseur de photos Windows : onglet "Détails"
      • Photos Mac : Cmd + I > onglet "Informations EXIF"

      5. Outils spécialisés multiformat

      • MAT2 (successeur de MAT) : outil libre multiplateforme
      • ExifTool : référence pour la gestion des métadonnées
      • ImageOptim (Mac) : nettoyage simplifié des images
    • Un forum est à votre disposition pour toute question ou remarque.