Résumé de section
-
Dans cette partie nous verrons les types de métadonnées et les concepts associés indispensables pour gérer des références bibliographiques.
Temps estimé : 20 minutes
-
Préambule de l'information
La présentation des relations entre les données, les informations, les connaissances et parfois la sagesse dans un arrangement hiérarchique fait partie du langage des sciences de l'information depuis de nombreuses années. Bien que l'on ne sache pas quand et par qui ces relations ont été présentées pour la première fois, l'omniprésence de la notion de hiérarchie est ancrée dans l'utilisation de l'acronyme DIKW comme représentation abrégée de la transformation des données à l'information, à la connaissance, à la sagesse.
La pyramide DIKW (Data, Information, Knowledge, Wisdom) est une représentation graphique de la hiérarchie entre les données, l'information, la connaissance et la sagesse. The carpentries propose une version revisitée dans laquelle sont illustrés les différents niveaux de l’information pour passer d’une donnée à de la connaissance, d’un symbole à de la sagesse. Ce schéma illustre un processus d'enrichissement cognitif qui s'opère en cinq niveaux distincts, chacun construisant sur le précédent pour créer une valeur ajoutée croissante.
Les données sont de l'information potentielle et doivent être traitées ainsi que contextualisées pour les rendre accessibles au public humain.
Schéma adapté de la ressource Information pyramide by The Carpentries sous licence CC BY 4.0, traduit de l'anglais vers le français.
-
Qu'est-ce qu'une métadonnée ?
Imaginons que vous tenez un livre dans vos mains. Le contenu du livre, l'histoire elle-même, ce sont les informations. Mais sur la couverture et les premières pages, vous pouvez trouver :
- Le titre
- L'auteur
- La date de publication
- L'éditeur
- L'ISBN
- Le nombre de pages
- Le genre littéraire
Ces informations qui décrivent le livre sont des métadonnées. Ce sont des "données sur les données" : elles nous renseignent sur le contenu sans être le contenu lui-même.
Christa Jungnickel and Russell McCormmach, Public domain, via Wikimedia Commons
-
Les métadonnées visibles : l'exemple de la bibliographie
Dans l'écosystème académique, les métadonnées visibles constituent un élément familier et essentiel que tout chercheur manipule quotidiennement. La bibliographie représente l'exemple le plus parlant de ces métadonnées explicites : elle rassemble de manière structurée et normalisée l'ensemble des informations descriptives nécessaires à l'identification, à la localisation et à l'évaluation des sources mobilisées dans un travail de recherche.
Cette approche traditionnelle de l'organisation informationnelle repose sur des standards éprouvés (APA, MLA, Chicago, Vancouver) qui codifient la présentation des éléments métadescriptifs : auteur(s), titre, éditeur, année de publication, pagination, DOI, etc.
Ces informations, directement lisibles et interprétables par la communauté scientifique, facilitent non seulement la vérification et la reproductibilité des recherches, mais constituent également les fondements de l'indexation documentaire.
Exemple : comment citer un chapitre de livre avec la norme APA ?
- Règle de citation : Nom de l'auteur, Initiale(s) du prénom. (Date). Titre du chapitre. In Titre du livre (page de début - page de fin du chapitre). Nom de l'éditeur.
- Exemple : Goleman, D. (2014). 1. L'art de bien s'entendre avec les autres. In L'intelligence émotionnelle (p. 17-19). J'ai lu.
Source : Compilatio (8 septembre 2023).
L'indexation manuelle, pratiquée depuis des siècles par les bibliothécaires et documentalistes, s'appuie précisément sur ces métadonnées visibles pour créer des systèmes de classification (Dewey, CDU) et des catalogues permettant la recherche et la découverte de ressources. Chaque notice bibliographique devient ainsi un point d'accès multiple vers le document source, enrichi de descripteurs thématiques, de mots-clés contrôlés et de classifications hiérarchiques.
Cette tradition documentaire, qui trouve ses origines dans les premières bibliothèques alexandrines, perdure aujourd'hui dans les bases de données académiques où les métadonnées bibliographiques demeurent le socle de la recherche informationnelle. Des plateformes comme PubMed (médecine), Web of Science (multidisciplinaire), Scopus (sciences) ou HAL (archive ouverte française) perpétuent cette logique en structurant leurs interfaces autour des champs métadescriptifs traditionnels. L'informatisation a démultiplié leurs capacités de traitement, mais le principe reste identique.
Le principe fondamental reste le même : renseigner les métadonnées visibles ou invisibles, c'est indexer le document et ainsi le rendre identifiable, repérable et exploitable par les autres.
-
Les métadonnées numériques
Cette logique se retrouve également dans nos fichiers informatiques. Prenez un fichier quelconque sur votre ordinateur :
- Son nom
- Sa taille
- Sa date de création
- Son format
- Son emplacement
- Etc.
Toutes ces informations sont des métadonnées. Elles nous permettent de comprendre, organiser et retrouver ce fichier.

-
Exercice : retrouvez les métadonnées
Les images numériques contiennent également de nombreuses métadonnées : informations sur l'appareil photo, la date de prise de vue, la localisation GPS, les droits d'utilisation, etc. Entraînons-nous à les identifier.
-
Métadonnées externes et embarquées
Il convient de distinguer deux grands types de métadonnées numériques : celles dites externes et celles dites embarquées.
Les métadonnées externes
Elles concernent les informations stockées séparément du fichier qu'elles décrivent. Ce peut être par exemple les informations descriptives dans un entrepôt de données, ou encore les tags/étiquettes qu'on ajoute dans un système de gestion de fichiers, ou bien un fichier Readme (voir un exemple de modèle de fichier Readme).
Les métadonnées embarquées
Comme leur nom l'indique, les métadonnées embarquées sont encodées dans le fichier lui-même. Ce sont par exemple, les métadonnées qui sont automatiquement générées :
- Lorsque vous créez un document sur le logiciel Word ; auteur, date de création, taille, nombre de mots, etc.
- Lorsque vous prenez une photo sur votre appareil; date, marque de l’appareil, numéro de série, etc.
- Lorsque vous envoyez un mail ; objet, expéditeur, destinataire, date d’envoi, personnes en copie (CC), etc.
Invisibles au premier coup d'œil, elles contiennent pourtant une mine d'informations sur l'histoire et les caractéristiques du document. Selon votre contexte, ces informations peuvent être sensibles. Pensez à les vérifier, voire à les supprimer avant de les partager.
-
Métadonnées structurées
Vous avez vu que les métadonnées peuvent être visibles (comme dans une bibliographie) ou cachées dans les propriétés d'un fichier. Mais comment les organiser pour que des milliers de chercheurs, dans des pays différents, puissent se comprendre et échanger leurs données ?
C'est ici qu'interviennent les métadonnées structurées : des métadonnées organisées selon des règles précises et des formats standardisés. Au lieu de laisser chacun décrire ses données à sa manière, on utilise des référentiels contrôlés - c'est-à-dire des listes de termes autorisés que tout le monde partage.
Ces référentiels peuvent prendre différentes formes :
- Des thésaurus qui organisent les termes et leurs relations
- Des taxonomies qui classent les concepts en catégories hiérarchiques
- Des ontologies qui définissent les relations logiques entre concepts
Grâce à ces outils, on garantit la cohérence des données, leur interopérabilité (capacité à être échangées entre systèmes différents), et la précision de l'indexation documentaire à grande échelle.
-
Standards de Métadonnées
Les fondements des référentiels contrôlés
Les standards de métadonnées contemporains s'articulent autour de vocabulaires contrôlés hiérarchisés, où chaque terme est défini de manière univoque et positionné dans un réseau de relations sémantiques (termes génériques, spécifiques, associés, synonymes). Cette structuration permet de dépasser les limites du langage naturel en normalisant l'expression des concepts et en facilitant la recherche par navigation conceptuelle.
Ces référentiels se déclinent selon différents niveaux de spécialisation : certains couvrent l'ensemble des champs disciplinaires avec une approche encyclopédique, tandis que d'autres se concentrent sur des domaines spécialisés pour offrir une granularité maximale dans la description des concepts experts.
-
Exemples de standards
DDI
Standard spécialisé pour documenter les données de sciences sociales, comportementales et économiques, particulièrement adapté aux enquêtes et aux études statistiques.
Dublin Core
Standard simple et universel composé de 15 éléments de base (titre, auteur, date, etc.) pour décrire tout type de ressource numérique, largement utilisé dans les bibliothèques et archives.
Darwin Core
Standard dédié à la biodiversité permettant de structurer les informations sur les espèces, les spécimens et les observations naturalistes, utilisé notamment par les musées d'histoire naturelle et les bases de données biologiques.
-
Les schémas de métadonnées
Pour aller plus loin dans la compréhension et la structuration des métadonnées, on a recours aux schémas de métadonnées. Un schéma de métadonnées permet de construire de façon organisée des informations descriptives et de donner du sens aux données. Il peut aller jusqu'au stade de l’ontologie.
Callisto. (2017, 18 septembre). Les schémas de métadonnées. [Vidéo]. Canal-U. https://www.canal-u.tv/115988. (Consultée le 24 septembre 2025)
-
Exemples de schémas
METS - Metadata Encoding and Transmission Standard
Schéma XML pour encoder les métadonnées descriptives, administratives et structurelles des objets numériques dans les bibliothèques numériques. Permet de regrouper et relier différents types de métadonnées pour un même objet (livre numérisé, archive, etc.).
TEI-XML - Text Encoding Initiative
Schéma XML pour encoder et structurer des textes littéraires, linguistiques ou historiques. Permet de baliser finement la structure d'un document (paragraphes, notes, citations) et ses caractéristiques sémantiques (noms de personnes, lieux, dates).
-
Pour bien comprendre la différence entre index, thésaurus et ontologie, rappelons quelques points :
Index
Un index est essentiellement un outil de localisation qui référence où trouver des informations spécifiques dans une collection. Il établit une correspondance directe entre des termes (mots-clés, concepts, noms propres) et leur localisation dans les documents.
L'index ne modélise pas les relations sémantiques entre concepts : il se contente de pointer vers les occurrences en s'appuyant sur les termes présents dans le thésaurus.
La liste des termes
"La liste de termes est le vocabulaire contrôlé le plus simple. Il s'agit d'un ensemble de mots permettant de décrire un contenu. Une liste de termes peut avoir 2 niveaux de structuration :
- Aucune structuration : une suite de mots constituant le champ lexical d'une thématique. Par exemple, "four", "réfrigérateur", "table", "plan de travail", "vaisselle" décrivent différents éléments de la cuisine, mais ne sont pas structurés entre eux.
- Structuration logique : nous pouvons citer les classements géographiques, alphabétiques ou chronologiques. Par exemple, la liste des départements français sont classés dans l'ordre alphabétique. La liste des planètes du système solaire est construite en fonction de leur distance par rapport au Soleil."
-
Thésaurus
Un thésaurus est un vocabulaire contrôlé qui organise les termes selon des relations sémantiques hiérarchiques et associatives. Il établit des liens entre concepts synonymes, plus généraux (termes génériques), plus spécifiques (termes spécifiques) ou simplement reliés (termes associés). Son objectif principal est de normaliser le vocabulaire pour l'indexation et la recherche documentaire, en proposant un langage documentaire unifié.
Pour aller plus loin
"Les bibliothécaires ont développé le concept de thésaurus, qui complète une taxonomie par des relations de similarité et de synonymes entre les termes. Cela signifie qu'ont été ajoutées d'autres dimensions orthogonales à la simple relation de subordination d'une hiérarchie. Alors que les taxonomies ne présentent qu'une structuration arborescente des termes utilisés, les thésaurus peuvent représenter une collection de descripteurs dans un graphe.
Nous reprenons la définition proposée par Rennesson et al. :
"Un thésaurus est une liste organisée de termes contrôlés et normalisés appelés descripteurs représentant les concepts d'un domaine de connaissance. Les descripteurs sont reliés entre eux par des relations hiérarchiques (terme générique TG, terme spécifique TS), des relations de synonymie (employé pour EP, correspond aux termes rejetés dits "non-descripteurs") et d'association (terme associé TA)." (Rennesson et al. 2019)
Chaque concept peut être sémantiquement lié dans le thésaurus en suivant trois correspondances possibles : un concept donné peut avoir une relation plus large, plus étroite ou associative avec d'autres concepts. Dans un même thésaurus, un certain nombre de micro-thésaurus peuvent être définis. Enfin, les thésaurus peuvent être liés par l'alignement de concepts spécifiques de chacun d'eux.
Il existe différentes normes pour élaborer un thésaurus (AFNOR, ISO, ANSI/NISO). L'ISO 25964 est la norme internationale pour les thésaurus. L'objectif de cette norme concerne les thésaurus destinés à prendre en charge la recherche d'information, et plus particulièrement à guider le choix des termes utilisés dans les requêtes d'indexation, de balisage et de recherche. Elle est publiée en deux parties comme suit : ISO 25964 Information and documentation - Thesauri and interoperability with other vocabularies
- Part 1: Thesauri for information retrieval [published August 2011]
- Part 2: Interoperability with other vocabularies [published March 2013]. Nous évoquons cette partie dans la section Alignement des référentiels."
-
Ontologie
Une ontologie va bien au-delà du thésaurus en modélisant formellement un domaine de connaissance. Elle définit non seulement les concepts et leurs relations, mais aussi les propriétés, les contraintes et les règles logiques qui régissent ce domaine. Exprimée dans des langages formels (comme OWL), elle permet le raisonnement automatisé, l'inférence de nouvelles connaissances et l'interopérabilité sémantique entre systèmes. C'est une représentation computationnelle de la connaissance.
Pour aller plus loin
"Nous reprenons la définition proposée par INRAE (2020) :
"Une ontologie cherche à décrire de façon formelle un domaine de connaissances, en identifiant les types d'objets de ce domaine, leurs propriétés et leurs relations. Les ontologies contiennent des classes, des propriétés, et des règles logiques formelles, éventuellement des instances de classe. Les types de relations utilisées sont :
- Inclusion (classe / sous-classe) ;
- Opérations ensemblistes : union, intersection, exclusion ;
- Caractéristiques des propriétés : domaine, ensemble d'arrivée, transitivité, propriétés inverses, etc.
- Toute relation spécifique au domaine définie formellement par l'auteur à partir des 3 propriétés précédentes.""
-
En résumé
L'index localise, le thésaurus structure le vocabulaire, et l'ontologie modélise formellement la connaissance d'un domaine.

Dans la pratique privilégiez le standard de métadonnées disponible dans votre discipline car cette option assure une homogénéité des termes utilisés. En l'absence de standard, optez pour un schéma de métadonnées s'il en existe dans votre domaine car c'est le modèle le plus exploitable pour les autres, ainsi que le plus complet en termes de structuration des données. Dans le cas contraire, vous pouvez vous rabattre sur un index. Enfin, vous pouvez avoir recours à la création de métadonnées s'il n'existe aucun modèle à disposition.
-