netCDF, format de fichier interopérable pour la science ouverte
Aperçu des sections
-
netCDF (network Common Data Form) a été créé en 1988 aux États Unis par Unidata. Financé par la National Science Foundation (NSF). C'est un projet pérenne, très suivi, utilisé internationalement et qui évolue régulièrement.
netCDF permet la gestion de données scientifiques stockées sous la forme de tableaux. C’est un modèle de représentation des données qui s’applique bien pour structurer des données qui évoluent en fonction de certaines dimensions (temps, altitude, profondeur, latitude, longitude etc...). Il est recommandé pour les scientifiques et gestionnaires de données dans le cadre de la science ouverte par l’infrastructure de recherche Data Terra car il procure un cadre de standardisation international qui permet l’interopérabilité, la pérénnité et la réutilisation des données.
Objectifs
- Expliquer ce qu'est netCDF et en quoi il est adapté pour la science ouverte
- Décrire la structure d'un fichier netCDF
- Expliquer l'intérêt des conventions pour construire des fichiers netCDF
- Citer au moins 3 outils permettant de manipuler des fichiers netCDF
Ce cours est en libre accès !
Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.
Pour participer aux activités (exercices, forum...), vous devez vous inscrire au cours
S'inscrire au cours -
netCDF est un format de fichier (son extension est .nc) qui permet de stocker et de représenter des données scientifiques qui évoluent selon certains paramètres. Il est utile à plusieurs étapes du cycle de vie des données.
-
netCDF est un format libre et ouvert, supporté depuis les années 80 par une large communauté internationale de scientifiques. Il permet la pérennité, la compréhension et la réutilisation des informations dans le temps. S’il a été bien conçu, un fichier netCDF devrait pouvoir être relu et réutilisé 10 ou 20 ans plus tard et permettre de comprendre comment les données ont été produites et mesurées sans avoir recours à un autre support d’information. Ce format est recommandé par les pôles Aeris et Odatis de l’infrastructure de recherche Data Terra.
-
Un fichier netCDF comprend 4 parties :
- Une section "dimensions" qui spécifie quelles sont les dimensions (nom et valeur) selon lesquelles les mesures évoluent ;
- Une section de description de toutes les "variables" (paramètres) mesurées, avec de nombreux attributs descriptifs (unités, etc.) ;
- Une section d’attributs globaux ("global attributes") décrivant l’ensemble du fichier avec de nombreuses métadonnées ;
- Une section "data" qui contient les valeurs des paramètres mesurés.
Les trois premières (dimensions, variables et global attributes) font partie de l'en-tête du fichier (header).
-
La bibliothèque netCDF est conçue pour décrire des données, structurées selon des règles bien définies dans l’entête du fichier, facilitant l’interopérabilité sur diverses plateformes informatiques.
Pour autant, le format netCDF permet mais n'exige pas la création d'ensembles de données auto-descriptives.
L'objectif des conventions est de standardiser la description des données pour que les fichiers contiennent suffisamment de métadonnées et soient auto-descriptifs pour être compréhensibles et réutilisables par d'autres utilisateurs.
-
Arrêtons-nous un instant sur ce que nous venons de voir afin de vérifier si les points les plus importants ont été compris.
-
netCDF est un format qui s’utilise avec des commandes et programmes spécifiques à netCDF. On ne peut pas éditer ou lire un fichier netCDF binaire avec des outils de bureautiques courants.
L’utilisation de netCDF n’est pas immédiate, il est nécessaire de prévoir un temps d’apprentissage pour comprendre le format interne des fichiers et l’utilisation des commandes de base pour lire et écrire dans des fichiers.
Cependant le gain d’efficacité et de rigueur scientifique qu’on en retire est sans égal pour traiter les données et les rendre réutilisables. Ce format est d'ailleurs exigé dans certains projets ou communautés scientifiques.
-
Un des grands intérêts des fichiers netCDF est qu'ils sont conçus pour être parfaitement utilisables par le protocole DAP. De ce fait on peut travailler sur des fichiers netCDF à distance à travers le Web.
-
Un forum est à votre disposition pour toute question. Vous pouvez aussi nous aider à améliorer ce cours en donnant votre avis.
-
Autres suggestions