Résumé de section

  • netCDF est un format libre et ouvert, supporté depuis les années 80 par une large communauté internationale de scientifiques. Il permet la pérennité, la compréhension et la réutilisation des informations dans le temps. S’il a été bien conçu, un fichier netCDF devrait pouvoir être relu et réutilisé 10 ou 20 ans plus tard et permettre de comprendre comment les données ont été produites et mesurées sans avoir recours à un autre support d’information. Ce format est recommandé par les pôles Aeris et Odatis de l’infrastructure de recherche Data Terra.

    • netCDF : un format auto-documenté

      Il est vrai qu'un fichier CSV convient bien pour collecter et stocker des données sous forme de tableau avec des lignes et des colonnes, séparées par un caractère convenu. Cependant, si le format CSV est simple et pratique, il n'est pas très adapté pour véhiculer des informations supplémentaires sur les données (métadonnées). Il est important de préciser, par exemple, les unités de mesure, le nom des variables mesurées, la localisation géographique, les dates de mesures, l'appareil de mesure... cela facilite grandement la compréhension des données et leur exploitation par tout réutilisateur.

      Si l'on souhaite fournir ces métadonnées avec le format CSV, il faudrait créer de nombreuses autres lignes supplémentaires dans un en-tête, non standardisé et qui deviendrait vite "fouillis", ou bien fournir un fichier annexe apportant ces informations (du type fichier readme). 

      À contrario, le format netCDF est conçu pour intégrer toutes les métadonnées dans le fichier lui-même. On dit qu'il est auto-documenté (ou auto-descriptif). 

      Ci-dessous un exemple comparatif de données dans un format CSV (à gauche) et netCDF (à droite). On observe que pour chaque variable (température, conductivité, salinité), le fichier netCDF fournit un grand nombre de métadonnées. On verra que ces métadonnées peuvent être standardisées si on utilise des thésaurus disciplinaires.


      Des variables dans un fichier CSV (sans métadonnées)

      Le fichier fournit les variables mesurées mais sans aucune informations complémentaires (l'unité de mesure de la température par exemple).

      Les métadonnées des variables dans un fichier netCDF

      En complément des variables, le fichier fournit de nombreuses informations sur chaque variable mesurée

    • Une description standardisée

      L'auto-documentation a pour but de permettre à d'autres groupes de recherche de comprendre et réutiliser facilement les données. Le problème est qu'il y a d'innombrables façons de décrire des données. Par exemple, faut-il toujours indiquer la date ? Si oui, comment (AAAA/MM/DD, AAAAMMDD...) ? Quelle unité de mesure indiquer pour la température (Kelvin, Celsius...) ? Comment nommer la variable "température de la surface de l'eau" ? Etc.

      La description des données doit donc être standardisée autant que faire se peut, pour que tout le monde se comprenne. Pour cela, des conventions ou des standards internationaux sont élaborés pour la rédaction de ces métadonnées. 

      Ces conventions de nommage dépendent grandement de la discipline scientifique dans laquelle on travaille. Par exemple pour les disciplines océanographie, atmosphère, climatologie, une des premieres conventions (la plus répandue) est la convention CF (convention Climate and Forecast), que nous allons voir par la suite.


    • netCDF : un format portable et multi-plateformes

      Un fichier netCDF est indépendant d’un système d'exploitation ou d’une machine. Les données sont représentées sous une forme lisible par différents systèmes d’exploitation (Linux, MacOS, ou Windows) ayant différentes méthodes de stockage des entiers, des caractères et des nombres à virgule flottante.

        

      netCDF est un format binaire "portable", c'est à dire qu'on peut utiliser, lire et créer des fichiers netCDF sans difficulté sur différents systèmes et machines, avec les logiciels ou langages de programmation connaissant ce format.


    • Des logiciels libres et gratuits pour utiliser les fichiers

      netCDF fournit une bibliothèque de dizaines de logiciels libres et gratuits pour lire, écrire et utiliser les fichiers netCDF.

      Ces programmes permettent différentes actions et traitement sur les fichiers : par exemple accéder à une certaine partie d'un fichier netCDF volumineux sans avoir à lire le fichier entier, découper, assembler, faire des moyennes, visualiser, etc.

      netCDF est un format binaire qui s’utilise avec des commandes et programmes spécifiques à netCDF (voir plus bas). On ne peut pas éditer ou lire un fichier netCDF avec des outils de bureautiques courants.

      Les fichiers .nc s'utilisent avec l'interface en ligne de commande


    • Un outil profilé pour la science ouverte

      Beaucoup de communautés scientifiques ont besoin de mutualiser leurs données pour avancer dans leurs recherches. C'est le cas par exemple en climatologie, en météorologie ou encore en océanographie. Pour cela, il est nécessaire que les données soient dans un format lisible quelle que soit la machine utilisée, mais aussi compréhensibles et interprétables pour pouvoir être ré-exploitées. 

      netCDF a été conçu pour répondre à ces besoins scientifiques. Il permet d'enrichir sémantiquement les données, de faciliter le travail de traitement, d'analyse, le partage et la diffusion des données. Il correspond par essence aux demandes actuelles du mouvement de la science ouverte. Ce format est recommandé par le pôle Odatis de l’infrastructure de recherche Data Terra, car il procure un cadre de standardisation international qui permet l’interopérabilité, la pérennité et la réutilisation des données.


      La science ouverte vise à construire un écosystème dans lequel la science est plus cumulative, plus fortement étayée par des données, plus transparente, et d’accès plus universel.


      Dans ce contexte de science ouverte, la diffusion, le partage et la réutilisation des données sont au coeur de la démarche. On parle de gestion de données "FAIR" afin que les données soient Faciles à trouver, Accessibles, Interopérables et Réutilisables.

      Pour résumer les principes FAIR :

      Findable

      Les données doivent être faciles à trouver et identifiables par les humains et les machines :

      • Les données doivent figurer dans des catalogues, avec des métadonnées, et des mots clés issus de thésaurus disciplinaires
      • Les données doivent être citables et identifiables de manière univoque avec des identifiants uniques et pérennes (DOI)


      Accessible

      Les données doivent être accessibles facilement, avec des conditions d’accès connues :

      • Accompagnées de licences d’utilisation claires, des protocoles ouverts
      • Stockées dans des entrepôts de données TRUST clairement accessibles


      Interoperable

      Les données doivent êtres interopérables à plusieurs niveaux :

      • Sémantique : utilisation de vocabulaires contrôlés, métadonnées disciplinaires précises
      • Syntaxique : utilisation de protocoles d’échanges inter-machines ouverts et standards (CSW, WMS, SOS, DAP …)
      • Contenus : utilisation de formats de fichiers standards disciplinaires (ex : NetCDF, ODV, etc.)


      Reusable

      Les données doivent êtres réutilisables. C'est l’objectif final des principes FAIR : la pérennité et réutilisation des données. La réutilisation n'est pas possible sans les principes précédents :

      • Identifiants uniques et pérennes (DOI) pour l’identification et la citation des données
      • Licences claires d’utilisation des données
      • Standards communs : protocoles d’échanges et formats standards des données qui répondent à des normes communautaires pertinentes pour le domaine
      • Authentification d’accès, si nécessaire


      Pour en savoir plus sur les principes FAIR, vous pouvez consulter la présentation ci-dessous.