Résumé de section
-
Objectifs :
- appréhender le concept de Plan de Gestion des Données,
- identifier les éléments composant la structure d'un data paper,
- différencier les différentes politiques éditoriales des revues.
30 minutes de lecture
-
Le plan de gestion des données
La rédaction d'un data paper permet la valorisation d'une bonne gestion des données de recherche. La gestion des données de recherche peut commencer par la rédaction d'un plan de gestion, autrement appelé Data Management Plan. Ce document souvent vu comme une formalité administrative dans le cadre d'un financement sera une aide pour votre rédaction d'un data paper.
Le Data Management Plan (DMP) ou Plan de Gestion de Données (PGD) est un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment seront gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage.
Il n’existe pas de trame unique, mais de nombreux modèles de DMP ont toutefois été établis par des organismes, instituts, financeurs à destination de leurs utilisateurs : par exemple le modèle de DMP Science Europe ou celui du Cirad. Les outils d’aide à la rédaction comme DMP OPIDoR donnent accès à des modèles et facilitent la rédaction du DMP grâce à des guides et des exemples personnalisés.
Le degré de précision et l’agencement des champs à compléter peuvent varier d’un modèle à l’autre. Dans tous les cas, il s’agit d’une série de questions organisées en grands chapitres. On retrouve systématiquement les mêmes éléments principaux.
-
Valoriser sa gestion des données : du DMP au data paper, il n'y a qu'un pas ?
Le PGD peut être un document exigé, notamment dans le cadre de financements nationaux ou européens. Ce document vise à décrire les jeux de données, la sauvegarde, les exigences éthiques, etc. Un data paper reprend un grand nombre d’informations présentes dans un PGD, n’hésitez donc pas à vous appuyer sur ce document.
-
Hétérogénéité des structures et lacunes
Les structures des data papers sont hétérogènes et les templates des data journals peuvent présenter des lacunes selon une étude faite sur des data journals du Wos Kim J. (2020)
Si la présence des formats du nommage des fichiers du projet de recherche et des identifiants pérennes type ORCID sont nécessaires, il manque des informations sur la réputation des entrepôts ou sur le contexte.
Or comme l’a souligné Sabina Leonelli (2019), une des questions de la reproductibilité, notamment en SHS, porte sur la description fine des contextes. -
Structure d'un data paper
Ce type d'article n’est pas construit sur le schéma “hypothèse / résultats” comme dans un article scientifique traditionnel, mais plutôt en complément. Dans un data paper, on peut par exemple mettre à disposition le code utilisé, ce qui n’est pas quelque chose que l’on met forcément dans un article. Il faut donc s’interroger sur les données que l’on souhaite transmettre, ainsi que leurs canaux de transmission (entrepôts de données, articles, data paper).
Voici les différents points à renseigner dans un data paper. Cette liste n'est pas exhaustive, ces éléments et leur succession peuvent varier d'une revue à une autre.
Le titre est le premier contact du lecteur avec votre article. Il doit être court afin d’être attractif pour le lecteur et les moteurs de recherche et contenir les termes spécifiques comme data/données ou dataset/jeux de données. Il est recommandé de ne pas donner au data paper le même titre que celui du jeu de données pour différencier les deux ressources en cas de recherche d’information sur le web et de citations.
On parle d'auteur pour les personnes qui rédigent le data paper, là où le terme contributeur pourra désigner les personnes ayant participé à la collecte des données.
- Nom(s) de l'auteur ou des auteurs et leur identifiant ORCID
- Affiliation(s) et mail de contact.
- Rôle(s) des auteurs.
Les différentes dates du processus de publication de l'article :- date de la soumission,
- date de l'acceptation,
- date de la publication.
Vous pourrez constater que ce processus de publication est souvent plus rapide que pour un article classique.
Un bref résumé (court en général, environ 300 mots) du jeu de données décrivant ce que couvrent les données, la manière dont elles ont été collectées, dont elles sont stockées, et présentant leur potentiel de réutilisation. Précisez les mots-clés associés. Vous pouvez mettre par exemple, les mots clés que vous n’avez pas pu mettre dans le titre ici. Rappelez vous que le résumé peut être lu sans l’article.
Vous pouvez aussi proposer un résumé graphique ou visuel.
L'introduction présente l’étude dans laquelle s’insère le jeu de données décrit (contexte, enjeux), les questions de recherche à l’origine de la collecte ou la production des données, ainsi que l’intérêt apporté par cette collecte ou production (originalité, importance et potentiel d’utilisation en recherche).
Vous pouvez également préciser le contexte de production à travers les questions suivantes :- Ces données ont-elles été produites dans le cadre d'un projet de recherche, d'une thèse, de travaux en cours?
- Sont-elles utilisées dans un ou des articles de recherche ?
La description des données a pour objectif de faciliter leur réutilisation : leur structure, le format, l’accès à ces données, l’explication des données qui peuvent paraître aberrantes…
Il est possible de compléter par des informations sur la fiabilité et la rigueur des données, si besoin en accompagnant de l’analyse, de la discussion de figures / tableaux ainsi que la validation de la procédure de collecte de données, analyses statistiques de l'erreur expérimentale…
- Le nom du/des jeu(x) de données déposés dans un entrepôt de données.
- Informatique, économie, sociologie…
- Catégorie disciplinaire : informatique théorique, économie internationale, sociologie des sciences et des techniques…
Format des données
- "Raw", analyzed, filtered,...
- Par exemple, CSV, JPEG…
- Par exemple, un tableau, une image, un graphe, un texte...
Méthodes d'acquisition des données
- Enquête, observation, instrumentales,...
Lieu d'acquisition des données
- Pays, région, ville,...
- Les dates de début et de fin de création des données.
- Le(s) nom(s) de toute personne ayant contribué à la création du jeu de données (qui peut ne pas être un auteur de l’article de données), y compris leurs rôles et affiliations.
- La ou les langue(s) utilisée(s) dans le jeu de données (par exemple, pour les noms de variables).
- La licence ouverte sous laquelle les données ont été déposées (par exemple, CC0).
- DOI, Handle, Purl, ARK
- Le nom de l’entrepôt où sont déposées les données.
- La date à laquelle le jeu de données a été publié dans l’entrepôt.
Une description des méthodes utilisées, du matériel employé, des protocoles expérimentaux déployées de façon à permettre la reproduction de l’étude à l’origine des données décrits (méthode d'échantillonnage, procédures de contrôle…).
Il est possible de compléter par des informations sur la fiabilité et la rigueur des données, si besoin en accompagnant l’analyse et la discussion de figures et de tableaux et la validation de la procédure de collecte de données, analyses statistiques de l'erreur expérimentale…
Recommandations :
- Justifiez l'utilisation d'un logiciel (prioritaire ou autre), ou d'un format de fichier spécifique.
- Indiquez la présence ou l'absence de tests de reproductibilité ainsi que de la présence données non reproductibles.
- Évitez autant que possible les fichiers propriétaires. Retrouvez la liste des formats ouverts et fermés via le bouton ci-dessous.
En rédigeant un data paper, vous contribuez aux enjeux de science ouverte et de capitalisation des connaissances, en permettant à des collègues de les mobiliser dans leur propre recherche. Cette section peut également inclure les limitations ou les barrières potentielles à la réutilisation de ces données.Qui a fait quoi ? Cette question éthique définie par la COPE par exemple vise à clarifier les rôles et le niveau d'implication de chaque auteur. Vous pouvez retrouver la liste de différents types de contributions, comme par exemple la conceptualisation, la méthodologie, la supervision, l'écriture de l'article original, la curation des données, etc. Vous pouvez reprendre ici les catégories proposées par la revue, si elle l'exige.
Si les données résultent d'une recherche financée, indiquer le nom du financeur et l'identifiant de la subvention.Si l'un des auteurs a des conflits d'intérêts, ceux-ci doivent être déclarés, s'ils ont influencés son travail. S'il n'y a pas de conflits d'intérêts à déclarer, la déclaration suivante doit être présente : « L'auteur (ou les auteurs) déclare(nt) ne pas avoir de conflits d'intérêts à déclarer ».Les revues peuvent limiter ou autoriser l'utilisation de l'IA générative pour l'amélioration de la lisibilité et de la langue. En cas d'utilisation, l'usage doit se faire sous supervision et contrôle humain, il n'est donc pas possible d'utiliser une IA dans le traitement des données.Cette partie permet de rappeler la référence à un article et le dépôt des données dans un entrepôt. - Nom(s) de l'auteur ou des auteurs et leur identifiant ORCID
-
Analyse de la structure d'un data paper
Il est important de rendre la description et l’identifiant de ses jeux de données les plus pérennes possible.
Voici un exemple de description synthétique d’un data paper (les catégories listées dans cet exemple ne sont ni obligatoires, ni exhaustives). Celui-ci a été réalisé à partir d'un modèle de la revue GigaByte. Ces templates permettent de guider dans la rédaction d'un data paper, pour autant ils peuvent être modifiés, réduits ou encore complétés en fonction des besoins et de la revue.
Vous pouvez télécharger un exemple de data paper annoté : Data from Entomological Collections of Aedes (Diptera : Culicidae) in a post-epidemic area of Chikungunya, City of Kinshasa, Democratic Republic of Congo. -
-
Data policy
Comme on vient de le voir dans l'exemple précédent, les données peuvent être rendues disponibles selon différents types d'accès. Il convient de faire attention aux recommandations des revues sur le partage des données que vous allez devoir mettre en place.Il existe plusieurs types de politique de données que les chercheurs ont identifiés, et des initiatives récentes comme celle de Springer Nature ont été mises en place pour définir précisément la « data policy » d’une revue.Les 4 types de politiques relatives aux données de la recherche sont fournis en intégralité ci-dessous. Ces textes de politique des données sont des modèles et la revue peut apporter des modifications mineures pour s’adapter à son public et à son style de site Web. Voir la FAQ pour un résumé des exigences de chaque type de politique.Springer Nature a rendu les textes de la politique des données de la recherche, sauf indication contraire, disponibles pour réutilisation par la communauté des données de recherche sous une licence d’attribution Creative Commons.Voici des exemples de revues qui s’appuient sur chaque type de politique :
Types de politiques
Résumé de la politique
Exemples de revue
Type 1Le partage des données et la citation des données sont encouragés.Photosynthesis Research (voir "Instructions for Authors")Type 2Le partage des données et dans ce cas des preuves de ce partage sont encouragésPlant and Soil (voir "Instructions for Authors")Type 3Le partage des données est encouragé et des instructions sur la disponibilité des données sont requises.Palgrave Communications (voir Editorial policies)Type 4Partage des données, preuve de partage des données et examen par les pairs des données requises.Scientific Data (voir Data policies)La liste des revues Springer Nature qui ont adopté l’une de ces politiques se trouve ici. Si vous avez des questions, veuillez communiquer avec le Service d’assistance de la recherche.
-
Data policy standardisation
Le nombre d’informations requises augmente en fonction du niveau.
Tableau 1 : les types de politiques et leurs caractéristiques
Obligatoire
Optionnel
Non requis
Caractéristiques
Explication
Type 1
Type 2
Type 3
Type 4
Instructions sur le partage des données via des entrepôts
Les détails du partage via les dépôts sont mentionnés dans le guide de soumission de la revue.
Citation des données permise
Le guide de rédaction d'un article permet aux auteurs de citer des ensembles de données accessibles au public dans des listes de référence.
Service d'aide par les éditeurs
Coordonnées du service d’assistance incluses dans les informations de la revue pour les auteurs.
Dépôts de données publiques et contrôles de l’identifiant du jeu de données pour des types spécifiques de données
Vérification du dépôt des données dans le cadre du processus de publication par la communauté scientifique concernée.
Déclaration de disponibilité des données
Dans les articles publiés, déclaration indiquant comment accéder aux données.
Dépôt de données publiques et identifiant du jeu de données requis et vérifié
Données rendues publiques et identifiants des données fournis pour tous les articles publiés (avec des exceptions pour les données sensibles/personnelles).
Citation des données
Références de données pertinentes fournies et vérifiées.
Vérification des données par les pairs
Des recommandations sur l’accès aux fichiers de données et leur examen sont fournis pour la relecture par les pairs.
Entrepôt de données intégré
Système de soumission et/ou d’examen intégré, avec un entrepôt spécifique à la revue tel que figshare.
Source : traduit de l'article Hrynaszkiewicz et al, 2017
-
Votre progression : 40 %