Résumé de section

  • Ce cours a pour but de donner un panorama des questions que soulèvent la rédaction et la publication d'un data paper. Vous trouverez dans cet espace de cours des ressources ainsi qu'un accompagnement méthodologique dans la rédaction d'un data paper.


    Objectifs :

    à l'issue de la formation, vous serez en mesure de :

    • Appréhender les spécificités d'une publication de jeu de données.
    • Différencier les différents éléments composants un data paper.
    • Appréhender l'écosystème d'outils dédiés à la publication de jeux de données.
    • Identifier les questions à se poser dans le choix d'une revue ou d'un entrepôt de données.
    • Comprendre l'enjeu de standards de métadonnées partagés et lisibles à la fois par des humains et des machines.
    • Appréhender les particularités du processus de soumission d'un data paper.

    Plan :

    1. Introduction
    2. Structure d'un data paper
    3. Ouvrir les données de la recherche
    4. Choisir une revue
    5. Sélectionner un entrepôt
    6. Affiner ses métadonnées
    7. Procédures soumission et évaluation
    8. Conclusion

    Ce cours est en libre accès !

    Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

    Pour participer à certaines activités (test, forum...), vous pouvez vous inscrire au cours.

    S'inscrire au cours

    • Auteur(s) / Formateur(s): Mariannig Le Béchec - Université de Lorraine
      Production cours: Lucas Ricroch - Urfist Paris
      Public cible: tout public
      Date de publication: 25 mars 2025
      Durée estimée: 2h30
      Prérequis: aucun
      Licence: CC BY-NC-SA
      Citation: Le Béchec, M. (2025) “Rédiger et publier un Data Paper.” Callisto.
      DOI: 10.60538/REDIGER-PUBLIER-DATA-PAPER
      Open badge: Oui
      Nombre d'inscrits: 38

  •  Objectif : appréhender le concept de data paper

    30 minutes de lecture


    • L’humanité est à un tournant de son histoire. La masse des données acquises est formidable. Il faut de nouveaux instruments pour les simplifier, les condenser ou jamais l’intelligence ne saura ni surmonter les difficultés qui l’accablent, ni réaliser les progrès qu’elle entrevoit et auxquels elle aspire.

    • L'émergence des data papers

      Comment et pourquoi est apparu ce type de publication ? Le cas de GBIF (Global Biodiversity Information Facility).


    • Définitions


      Le Data Paper décrit un jeu de données et son contexte, la méthode d’obtention et le potentiel de réutilisation.

      Un data paper est un article décrivant un ou plusieurs jeux de données publié dans une revue à comité de lecture, ainsi que des informations structurées appelées métadonnées. 

      La préparation, la gestion et la description des données prennent du temps. Les Data papers permettent à cet effort d’être reconnu et valorisé par l’intermédiaire d’un article académique. Contrairement aux articles de recherches classiques, les data papers fournissent une voie formalisée pour le partage des données plutôt qu'un espace où tester des articles de recherche classiques ou présenter de nouvelles analyses.

      Nous utilisons ici le terme data paper (article de données en français) mais de multiples appellations existent. Aussi n’hésitez pas à regarder dans les revues que vous avez l’habitude de consulter si une appellation se rapproche de data paper. Voici quelques exemples :

      Au-delà des données, ce sont également les métadonnées, les logiciels, les scripts permettant l'exploitation des données qui peuvent également être décrits.


    • Un data paper permet « la diffusion des données de recherche, des métadonnées associées, de la documentation d'accompagnement et du code logiciel (dans les cas où les données brutes ont été traitées ou manipulées) en vue d'une réutilisation et d'une analyse, et d’une manière telle qu’elle permette de les découvrir sur le Web et d'y faire référence de façon unique et persistante »

    • Pour la réutilisation des données, il faut donc pouvoir y accéder via un entrepôt de données qui garantit que les données sont bien documentées, conservées, archivées, interopérables, citables, vérifiables et de qualité. L'objectif est d'avoir un identifiant pérenne et persistant pour ces données. Nous retrouvons ici des notions au cœur des principes FAIR.

      Source : Austin etal., 2016 (s'ouvre dans un nouvel onglet)


      Les principes FAIR

      Améliorer la "qualité" des données permet d'associer documentation, code et logiciel. On parle alors de data curation. La Data curation concerne les activités de gestion visant à annoter (produire des métadonnées), à épurer les données et à maintenir les données de recherche (y compris le code logiciel, lorsqu'il est nécessaire pour interpréter les données elles-mêmes) en vue de leur utilisation initiale et de leur réutilisation ultérieure.


    • L’objectif majeur du Data Paper est la réutilisation des données. Pour réussir, le Data Paper doit appliquer les bonnes pratiques, notamment disciplinaires, en termes de description, documentation et format ouvert, pour que les données soient trouvables, accessibles, compréhensibles, interprétables et réutilisables.

    • Qui peut rédiger un data paper ?

      Le public concerné dépasse le public habitué à publier des articles de recherche. Un data paper peut être publié par toute personne impliquée dans la gestion des données de recherche : ingénieurs de recherche, ingénieurs d'études, doctorants. Si dans le cadre de votre thèse, vous avez fait un travail important de création de bases de données, le data paper peut vous permettre de valoriser cette réalisation.


    • Intérêts du data paper

      Pour quelles raisons rédiger et publier un data paper :

      • Pour valoriser un travail peu visible dans un article scientifique classique.
      • Pour garantir la reproductibilité et la qualité des données (leur vérification).
      • Pour faciliter la répétabilité des données (leur réutilisation au-delà du champ disciplinaire original).
      • Pour permettre d'agréger et d'analyser les données de recherche.

      Pour les décideurs publics, les données ouvertes sont une source potentielle d'innovation et de nouvelles connaissances, à condition d'offrir des conditions de réutilisation des données et d'intégrer les citations de data papers dans les critères d'évaluation de la recherche.

       

    • Un enjeu de reproductibilité


      Un data paper ne permet pas seulement la valorisation de données de recherche, il répond aussi à des enjeux de science ouverte et des facteurs de reproductibilité. 

      En 2016, 1576 chercheurs ont répondu à un court questionnaire en ligne sur la reproductibilité de la recherche. Si plus de 60 % des interrogés soulignent la pression à la publication, la compétition pour les postes, les financements, etc., ils citent de nombreux problèmes concernant autant les données « brutes » que les méthodes et la disponibilité du code.

      Source :1,500 scientists lift the lid on reproducibility



    • Nombre de téléchargements sans ou avec data paperBoîtes moustache du nombre de téléchargement avec et sans Data Paper

      Rémy Decoupes. Analyse de l'impact des data papers de l'UMR TETIS. UMR TETIS, 500 rue Jean-François Breton, 34000 Montpellier. 2024. ⟨hal-04428092v2⟩

      Des études encore exploratrices tentent à montrer que les jeux de données associés à un data paper sont plus téléchargés que les jeux qui ne sont pas associés avec un data paper.

      Un data paper est un article qui est de plus en plus considéré comme une publication scientifique. Qui dit article, dit potentiel de citation et donc par conséquent plus de visibilité pour vos travaux et vos recherches.

      Il s'agit d'une démarche qui s’inscrit dans une politique publique de mutualisation qui favorise l’innovation et la création de nouvelles connaissances.


    • Un enjeu éditorial

      Les politiques éditoriales intègrent de plus en plus le dépôt et le partage de données mais dans un contexte d’augmentation des volumes des données, les éditeurs :

      • imposent parfois des limites de taille aux données fournies comme matériel supplémentaire des articles (500 MB chez Elsevier),
      • externalisent la gestion la curation et le stockage des données en recommandant souvent des entrepôts spécifiques (ex : Groupe Nature).

      Certains font de la mise à disposition des données une condition préalable à l’acceptation de l’article (Nature ou PLoS One).


    • Des réponses variables

      Les politiques éditoriales des revues sont variables. Certaines revues exigent le dépôt du jeu de données dans un entrepôt spécifique, modéré par la communauté scientifique qui vérifie la conformité des métadonnées par exemple. Les conseils ou interrogations portent sur la présentation du jeu de données, pour en améliorer la qualité. Certaines revues font le choix de ne pas vérifier les données. Ces informations doivent être prises en compte au moment du choix de la revue, notamment pour les questions liées au choix de l’entrepôt : entrepôt national, lié à la communauté, lié à son employeur, etc.


      Types de politiques d’archivage des données publiques (ADP)

      Types of PDA Policies no policy, avaible upon request, data availability statement, mandated repository, peerreviewed dataset

      Source: Scholler et al., 2019


    • Mais qui assure la qualité des données ?

      Résumé :

      Malgré les incitations des revues académiques envers un accès libre aux données sous-jacentes aux manuscrits scientifiques publiés, des interrogations existent autour de la quantité et de la qualité des données disponibles. Pour répondre à cette question, une enquête qualitative a été conduite en 2018, dans des revues académiques d’écologie auprès des rédacteurs en chef et parties prenantes avec 20 entretiens avec les rédacteurs, les rédacteurs adjoints et le personnel du dépôt et des revues. 

      Source : DanSholler, Karthik Ram, Carl Boettiger, Daniel S.Katz, 2019 (s'ouvre dans un nouvel onglet)


      Ce qui ressort de cette enquête, c'est bien que la responsabilité est partagée entre les différents acteurs. Seul le producteur du jeu de données, c'est à dire l'auteur, doit assurer l’exhaustivité et la qualité des données. Les relecteurs n'ont qu'un périmètre d'action limité, sur les métadonnées.


    • Histoire de la Science ouverte

      L'apparition des data papers s'inscrit dans la lignée du mouvement de la Science ouverte, dont la frise temporelle ci-dessous retrace les évènements marquants de ces dernières décennies.

       

      Sources :

       

    • Votre progression : 20 %


  •  Objectifs 

    • appréhender le concept de Plan de Gestion des Données,
    • identifier les éléments composant la structure d'un data paper,
    • différencier les différentes politiques éditoriales des revues.

    30 minutes de lecture


    • Le plan de gestion des données


      La rédaction d'un data paper permet la valorisation d'une bonne gestion des données de recherche. La gestion des données de recherche peut commencer par la rédaction d'un plan de gestion, autrement appelé Data Management Plan. Ce document souvent vu comme une formalité administrative dans le cadre d'un financement sera une aide pour votre rédaction d'un data paper

      Le Data Management Plan (DMP) ou Plan de Gestion de Données (PGD) est un document synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la donnée. Il explique pour chaque jeu de données comment seront gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage.

      Il n’existe pas de trame unique, mais de nombreux modèles de DMP ont toutefois été établis par des organismes, instituts, financeurs à destination de leurs utilisateurs : par exemple le modèle de DMP Science Europe ou celui du Cirad. Les outils d’aide à la rédaction comme DMP OPIDoR donnent accès à des modèles et facilitent la rédaction du DMP grâce à des guides et des exemples personnalisés.

      Le degré de précision et l’agencement des champs à compléter peuvent varier d’un modèle à l’autre. Dans tous les cas, il s’agit d’une série de questions organisées en grands chapitres. On retrouve systématiquement les mêmes éléments principaux.


    • Valoriser sa gestion des données : du DMP au data paper, il n'y a qu'un pas ?

      Le PGD peut être un document exigé, notamment dans le cadre de financements nationaux ou européens. Ce document vise à décrire les jeux de données, la sauvegarde, les exigences éthiques, etc. Un data paper reprend un grand nombre d’informations présentes dans un PGD, n’hésitez donc pas à vous appuyer sur ce document.

      Modèle PGD ANR

    • Hétérogénéité des structures et lacunes

      Les structures des data papers sont hétérogènes et les templates des data journals peuvent présenter des lacunes selon une étude faite sur des data journals du Wos Kim J. (2020)

      Si la présence des formats du nommage des fichiers du projet de recherche et des identifiants pérennes type ORCID sont nécessaires, il manque des informations sur la réputation des entrepôts ou sur le contexte.

      Or comme l’a souligné Sabina Leonelli (2019), une des questions de la reproductibilité, notamment en SHS, porte sur la description fine des contextes.


    • Structure d'un data paper

      Ce type d'article n’est pas construit sur le schéma “hypothèse / résultats” comme dans un article scientifique traditionnel, mais plutôt en complément. Dans un data paper, on peut par exemple mettre à disposition le code utilisé, ce qui n’est pas quelque chose que l’on met forcément dans un article. Il faut donc s’interroger sur les données que l’on souhaite transmettre, ainsi que leurs canaux de transmission (entrepôts de données, articles, data paper).

      Voici les différents points à renseigner dans un data paper. Cette liste n'est pas exhaustive, ces éléments et leur succession peuvent varier d'une revue à une autre. 


        Le titre est le premier contact du lecteur avec votre article. Il doit être court afin d’être attractif pour le lecteur et les moteurs de recherche et contenir les termes spécifiques comme data/données ou dataset/jeux de données. Il est recommandé de ne pas donner au data paper le même titre que celui du jeu de données pour différencier les deux ressources en cas de recherche d’information sur le web et de citations.

      On parle d'auteur pour les personnes qui rédigent le data paper, là où le terme contributeur pourra désigner les personnes ayant participé à la collecte des données. 
      • Nom(s) de l'auteur ou des auteurs et leur identifiant ORCID
      • Affiliation(s) et mail de contact. 
      • Rôle(s) des auteurs.
      Les différentes dates du processus de publication de l'article : 
      • date de la soumission,
      • date de l'acceptation,
      • date de la publication.

      Vous pourrez constater que ce processus de publication est souvent plus rapide que pour un article classique.

      Un bref résumé (court en général, environ 300 mots) du jeu de données décrivant ce que couvrent les données, la manière dont elles ont été collectées, dont elles sont stockées, et présentant leur potentiel de réutilisation. Précisez les mots-clés associés. Vous pouvez mettre par exemple, les mots clés que vous n’avez pas pu mettre dans le titre ici. Rappelez vous que le résumé peut être lu sans l’article.

      Vous pouvez aussi proposer un résumé graphique ou visuel.

      L'introduction présente l’étude dans laquelle s’insère le jeu de données décrit (contexte, enjeux), les questions de recherche à l’origine de la collecte ou la production des données, ainsi que l’intérêt apporté par cette collecte ou production (originalité, importance et potentiel d’utilisation en recherche).

      Vous pouvez également préciser le contexte de production à travers les questions suivantes : 
      • Ces données ont-elles été produites dans le cadre d'un projet de recherche, d'une thèse, de travaux en cours? 
      • Sont-elles utilisées dans un ou des articles de recherche ?

      La description des données a pour objectif de faciliter leur réutilisation  : leur structure, le format, l’accès à ces données, l’explication des données qui peuvent paraître aberrantes…

      Il est possible de compléter par des informations sur la fiabilité et la rigueur des données, si besoin en accompagnant de l’analyse, de la discussion de figures / tableaux ainsi que la validation de la procédure de collecte de données, analyses statistiques de l'erreur expérimentale…


      Nom du/des jeu(x) de données 

      • Le nom du/des jeu(x) de données déposés dans un entrepôt de données. 
      Discipline concernée
      • Informatique, économie, sociologie… 
      Thématique 
      • Catégorie disciplinaire : informatique théorique, économie internationale, sociologie des sciences et des techniques…

      Format des données

      • "Raw", analyzed, filtered,...

      Format d'encodage des fichiers 
      • Par exemple, CSV, JPEG… 
      Types de données 
      • Par exemple, un tableau, une image, un graphe, un texte...

      Méthodes d'acquisition des données

      • Enquête, observation, instrumentales,...

      Lieu d'acquisition des données 

      • Pays, région, ville,...

      Dates de création des fichiers 
      • Les dates de début et de fin de création des données. 
      Noms des créateurs du jeu de données
      •  Le(s) nom(s) de toute personne ayant contribué à la création du jeu de données (qui peut ne pas être un auteur de l’article de données), y compris leurs rôles et affiliations. 
      Langue(s)
      •  La ou les langue(s) utilisée(s) dans le jeu de données (par exemple, pour les noms de variables). 
      Licence 
      • La licence ouverte sous laquelle les données ont été déposées (par exemple, CC0).
      Identifiant
      • DOI, Handle, Purl, ARK
      Nom de l’entrepôt
      • Le nom de l’entrepôt où sont déposées les données. 
      Date de publication 
      • La date à laquelle le jeu de données a été publié dans l’entrepôt.

      Une description des méthodes utilisées, du matériel employé, des protocoles expérimentaux déployées de façon à permettre la reproduction de l’étude à l’origine des données décrits (méthode d'échantillonnage, procédures de contrôle…).

      Il est possible de compléter par des informations sur la fiabilité et la rigueur des données, si besoin en accompagnant l’analyse et la discussion de figures et de tableaux et la validation de la procédure de collecte de données, analyses statistiques de l'erreur expérimentale…

      Recommandations :

      • Justifiez l'utilisation d'un logiciel (prioritaire ou autre), ou d'un format de fichier spécifique.
      • Indiquez la présence ou l'absence de tests de reproductibilité ainsi que de la présence données non reproductibles.
      • Évitez autant que possible les fichiers propriétaires. Retrouvez la liste des formats ouverts et fermés via le bouton ci-dessous.

      En rédigeant un data paper, vous contribuez aux enjeux de science ouverte et de capitalisation des connaissances, en permettant à des collègues de les mobiliser dans leur propre recherche. Cette section peut également inclure les limitations ou les barrières potentielles à la réutilisation de ces données.

      Qui a fait quoi ? Cette question éthique définie par la COPE par exemple vise à clarifier les rôles et le niveau d'implication de chaque auteur. Vous pouvez retrouver la liste de différents types de contributions, comme par exemple la conceptualisation, la méthodologie, la supervision, l'écriture de l'article original, la curation des données, etc. Vous pouvez reprendre ici les catégories proposées par la revue, si elle l'exige.

      Si les données résultent d'une recherche financée, indiquer le nom du financeur et l'identifiant de la subvention.
      Si l'un des auteurs a des conflits d'intérêts, ceux-ci doivent être déclarés, s'ils ont influencés son travail. S'il n'y a pas de conflits d'intérêts à déclarer, la déclaration suivante doit être présente : « L'auteur (ou les auteurs) déclare(nt) ne pas avoir de conflits d'intérêts à déclarer ».
      Les revues peuvent limiter ou autoriser l'utilisation de l'IA générative pour l'amélioration de la lisibilité et de la langue. En cas d'utilisation, l'usage doit se faire sous supervision et contrôle humain, il n'est donc pas possible d'utiliser une IA dans le traitement des données.
      Cette partie permet de rappeler la référence à un article et le dépôt des données dans un entrepôt.


    • Analyse de la structure d'un data paper

      Il est important de rendre la description et l’identifiant de ses jeux de données les plus pérennes possible.
      Voici un exemple de description synthétique d’un data paper (les catégories listées dans cet exemple ne sont ni obligatoires, ni exhaustives). Celui-ci a été réalisé à partir d'un modèle de la revue GigaByte. Ces templates permettent de guider dans la rédaction d'un data paper, pour autant ils peuvent être modifiés, réduits ou encore complétés en fonction des besoins et de la revue. 

      Vous pouvez télécharger un exemple de data paper annoté : Data from Entomological Collections of Aedes (Diptera : Culicidae) in a post-epidemic area of Chikungunya, City of Kinshasa, Democratic Republic of Congo.


    • Data policy

      Comme on vient de le voir dans l'exemple précédent, les données peuvent être rendues disponibles selon différents types d'accès. Il convient de faire attention aux recommandations des revues sur le partage des données que vous allez devoir mettre en place.

      Il existe plusieurs types de politique de données que les chercheurs ont identifiés, et des initiatives récentes comme celle de Springer Nature ont été mises en place pour définir précisément la « data policy » d’une revue.

      Les 4 types de politiques relatives aux données de la recherche sont fournis en intégralité ci-dessous. Ces textes de politique des données sont des modèles et la revue peut apporter des modifications mineures pour s’adapter à son public et à son style de site Web. Voir la FAQ pour un résumé des exigences de chaque type de politique.

      Springer Nature a rendu les textes de la politique des données de la recherche, sauf indication contraire, disponibles pour réutilisation par la communauté des données de recherche sous une licence d’attribution Creative Commons.

      Voici des exemples de revues qui s’appuient sur chaque type de politique :

      Types de politiques
      Résumé de la politique
      Exemples de revue
      Type 1
      Le partage des données et la citation des données sont encouragés.
      Photosynthesis Research (voir "Instructions for Authors")

      Type 2
      Le partage des données et dans ce cas des preuves de ce partage sont encouragés


      Plant and Soil (voir "Instructions for Authors")
      Type 3
      Le partage des données est encouragé et des instructions sur la disponibilité des données sont requises.

      Palgrave Communications (voir Editorial policies)
      Type 4
      Partage des données, preuve de partage des données et examen par les pairs des données requises.
      Scientific Data (voir Data policies)


      La liste des revues Springer Nature qui ont adopté l’une de ces politiques se trouve ici. Si vous avez des questions, veuillez communiquer avec le Service d’assistance de la recherche.

      Source : traduit de l'article Standardisation and harmonising research data policy in scholarly publishing, I. Hrynaszkiewicz, A. Birukou, M. Astell, S. Swaminathan, A. Kenall, V. Khodiyar - 2017
    • Data policy standardisation

      Le nombre d’informations requises augmente en fonction du niveau.


      Tableau 1 : les types de politiques et leurs caractéristiques


      Obligatoire Mandatory
      Optionnel Optional
      Non requis Not required

      Caractéristiques
      Explication
      Type 1
      Type 2
      Type 3
      Type 4

      Instructions sur le partage des données via des entrepôts

      Les détails du partage via les dépôts sont mentionnés dans le guide de soumission de la revue.

      Mandatory

      Mandatory

      Mandatory

      Mandatory

      Citation des données permise

      Le guide de rédaction d'un article permet aux auteurs de citer des ensembles de données accessibles au public dans des listes de référence.

      Mandatory

      Mandatory

      Mandatory

      Mandatory

      Service d'aide par les éditeurs

      Coordonnées du service d’assistance incluses dans les informations de la revue pour les auteurs.

      Optional

      Optional

      Optional

      Optional

      Dépôts de données publiques et contrôles de l’identifiant du jeu de données pour des types spécifiques de données

      Vérification du dépôt des données dans le cadre du processus de publication par la communauté scientifique concernée.

      Not required

      Optional

      Mandatory

      Mandatory

      Déclaration de disponibilité des données

      Dans les articles publiés, déclaration indiquant comment accéder aux données.

      Not required

      Optional

      Mandatory

      Mandatory

      Dépôt de données publiques et identifiant du jeu de données requis et vérifié

      Données rendues publiques et identifiants des données fournis pour tous les articles publiés (avec des exceptions pour les données sensibles/personnelles).

      Not required

      Not required

      Optional

      Mandatory

      Citation des données

      Références de données pertinentes fournies et vérifiées.

      Not required

      Not required

      Optional

      Mandatory

      Vérification des données par les pairs 

      Des recommandations sur l’accès aux fichiers de données et leur examen sont fournis pour la relecture par les pairs.

      Not required

      Not required

      Optional

      Mandatory

      Entrepôt de données intégré

      Système de soumission et/ou d’examen intégré, avec un entrepôt spécifique à la revue tel que figshare.

      Not required

      Not required

      Optional

      Mandatory

      Source : traduit de l'article Hrynaszkiewicz et al, 2017

    • Votre progression : 40 %



  • Un data paper accompagne l'ouverture d'un jeu de données selon les principes FAIR. Afin d'expliciter les méthodes de collecte, de traitement et de contrôle de qualité des données pour favoriser leur réutilisation, il est alors nécessaire d'assurer la découvrabilité des données via un entrepôt de données. 

    Objectif : identifier les outils de l'écosystème dédié aux données de la recherche.

    5 minutes de lecture


    • Nous allons aborder de nouvelles notions que sont les entrepôts de données, les métadonnées qui peuvent être liées au choix de la revue. En effet dans la description du ou des jeux de données, vous avez pu repérer qu’il convient d’indiquer le nom de l'entrepôt où sont mises à disposition des données de la recherche. 


    • Entrepôt de données : 

      Un entrepôt de données (Data repository ou digital repository) est un réservoir constitué majoritairement de données de recherche, brutes ou élaborées, qui sont décrites par des métadonnées de façon à pouvoir être retrouvées. Ces lieux de stockage permettent :

      1. Le dépôt et la conservation des données.
      2. Le contrôle des droits d’accès aux données, les conditions d’utilisation et la licence.
      3. La recherche, l'affichage et l'export des (méta)données.
      4. L'exploration et la visualisation des données.


    • Les données de recherche déposées dans un entrepôt peuvent être explorées via des outils de visualisation des données. Certains entrepôts mettent à disposition des données sans partager un standard commun. Dans l’exemple suivant de GBIF, ce standard commun permet de visualiser les données de recherche dans un entrepôt qui est mentionné dans le data paper. En effet les revues qui publient les data paper sont liées à cet entrepôt pour la mise à disposition des données. Le data paper permet de documenter l'acquisition, les méthodes, les scripts liés aux données déposées dans l'entrepôt. Un entrepôt est donc un outil qui permet la mise en ligne des données, leur partage, mais aussi leur visualisation dans certains cas.

      Capture d'écran de l'interface de visualisation GBIF
    • On retrouve dans les data paper, comme le Biodiversity data journal, un standard de métadonnées commun à la communauté (Darwin Core) et un lien vers le jeu de données déposé dans un entrepôt. 




      Il est donc important d'avoir en tête qu'en amont de la rédaction d'un data paper, les chercheurs doivent déposer toutes les données et toute la documentation associée.



    • Données publiées

      L’image présente ici la différence entre des données de recherche validées, préservées, citables et créditées. Toute la documentation qui accompagne les données peut varier en fonction du choix de l’outil de mise à disposition des données. Il faut donc distinguer des données “publiées” lorsque les données sont accessibles au public et réutilisables, mais ce terme peut ou non impliquer que les données ont été examinées par des pairs. L’ "examen des données par les pairs" comme nous avons pu le constater précédemment dans les attentes des revues peut être variable. Il en est de même pour un entrepôt de données. 

      La question devient d’autant plus complexe que les données peuvent être dynamiques ou appartenir à une base plus large. Leur enrichissement continu pose alors de nouvelles questions sur ce que sont les données de recherche.

    • Ainsi le choix de l'entrepôt de données et de la revue sont liés. Quelles sont les recommandations de la revue que je choisis en termes de mise à disposition des données ?

      Votre progression : 45 %



  •  Objectifs 

    • appréhender le concept de curation des données,
    • identifier les critères de sélection d'un entrepôt de données.

    25 minutes de lecture

      Attention : avant de choisir votre entrepôt de données, pensez à vérifier les conditions d'accès à vos données pendant le processus d’évaluation. Il existe plus de 3000 entrepôts de données que vous pouvez rechercher via re3data.org.

      Les entrepôts sont scannés par des outils de recherche spécifiques : 


      Ils sont ensuite moissonnés par des catalogues, intégrateurs, infrastructures européennes de données…​ de plus en plus nombreux (OpenAIRE, EOSC pilot, …).
      De nombreux critères peuvent rentrer en compte dans le choix de l'entrepôt, que ce soit en fonction des indications de la revue, des disciplines thématiques, disciplinaires, multidisciplinaires, institutionnels, projet de recherche (spécifique), les recommandations du financeur ou encore de votre institution. Si vous souhaitez en savoir plus sur les entrepôts de données en SHS, ainsi que les critères de sélection, vous pouvez consulter la ressource Exemples d'entrepôts de données en SHS.

    • Recherche Data Gouv

      L'entrepôt Recherche Data Gouv est une solution souveraine de publication pour le partage et l’ouverture des données aux communautés ne disposant pas encore d’un entrepôt thématique reconnu. Le dépôt et la publication des données se fait en priorité dans l’espace institutionnel dont dépend(ent) l'(es) auteur(s).

    • Curation des données


      La curation consiste à vérifier la conformité du jeu de données aux règles établies par le Centre de ressources entrepôt-catalogue et par l’administrateur de la collection. Elle vise à assurer une bonne compréhension des données publiées et à favoriser leur réutilisation, en accord avec les principes FAIR.

      Une fois les données publiées, se pose alors la question de leur conservation. C'est là qu'entre en scène un nouvel acteur : l’archiviste mais aussi des scientifiques..

      La conservation est la gestion et la promotion de l’utilisation des données dès leur création, afin de s’assurer qu’elles sont adaptées à un usage contemporain et disponibles pour être découvertes et réutilisées…​ Des niveaux de conservation plus élevés impliqueront également le maintien de liens avec l’annotation et avec d’autres documents publiés.

      Les activités de conservation comprennent :
      • L’archivage : une activité de conservation qui garantit que les données sont correctement sélectionnées, stockées, accessibles et que leur intégrité logique et physique est maintenue dans le temps, y compris la sécurité et l’authenticité.
      • La préservation : une activité d’archivage dans laquelle des éléments spécifiques de données sont conservés dans le temps de sorte qu’ils puissent toujours être accessibles et compris grâce aux changements technologiques.
    • Critères de sélection

      Avant de choisir l'entrepôt pour vos données, pensez à vérifier l'ensemble de ces points :

      Quel est le nom de l’entrepôt et son adresse ? Vous pouvez identifier ici le type de propriétaire de l'entrepôt (institution, entreprise commerciale, etc.).

      Comme pour une revue scientifique classique, un entrepôt peut avoir des attentes, soit en termes de disciplines, de documentation, de métadonnées, etc. Par exemple, voici la documentation pour l'entrepôt Nakala, développé par Huma-Num. D'autres comme Pangea (pengaea.de) mettent à disposition un wiki pour le dépôt des données.

      Existe-t-il une personne contact pour l'entrepôt, si besoin d'assistance ? Si vous n'êtes pas familier avec ce genre de procédure, il peut être intéressant de privilégier un entrepôt proposant ce type d'accompagnement, comme sur Recherche Data Gouv par exemple.

      Il existe différents types d'entrepôts de données :

      Existe il une certification de l'entrepôt comme  "Core Trust seal"? 

      La question est quelles sont les données acceptées, comme des formats spécifiques ou encore des données toujours en cours de traitement. 

      L'entrepôt permet il :
      • un embargo possible, si vous ne souhaitez pas rendre disponibles immédiatement vos données ?
      • un accès uniquement aux métadonnées ?
      • un accès restreint, uniquement sur demande ?
      • Quelles sont les attentes en termes de documentation ?
      • Les métadonnées sont elles libres ou existe il un standard de métadonnées à utiliser, un vocabulaire spécifique ?
      Quelles sont les conditions sous lesquelles votre jeu de données sera accessible, partagé et ré-utilisé par vos pairs ?
      Quelles sont les options d'identifications proposées par l'entrepôt ?
      • DOI
      • Handle

      Quel est le coût de l'entrepôt pour le stockage de vos données ?

      • La taille du jeu de données fait elle varier le coût ?
      • Quelle est la durée du stockage des données ? La question ici est de définir la pérennité des données.

    • Dataverse Project

      Dataverse Project est un logiciel de référentiel de données de recherche open source qui s'adresse aux chercheurs, aux revues, aux établissements ainsi qu'aux développeurs.

      Dans le dataverse il est possible de déposer et associer à la fois les données, de la documentation, les codes et les data files, pour former un ensemble complet. Comme dans la plupart des entrepôts de données, le format utilisé est le Dublin core ou du Dublin Core enrichi (métadonnées associées directement).

      Pour en savoir plus sur cet outil, vous pouvez consulter le guide Dataverse Project (s'ouvre dans un nouvel onglet)

    • Fichier Readme

      Un fichier "Lisez-moi" (Readme) donne des informations sur la façon d’interpréter un fichier de données et diminue les chances que les données soient mal comprises et/ou improprement utilisées par d’autres chercheurs. Il contient autant d’informations que possible sur les fichiers de données pour permettre aux autres de comprendre les données.

      Nommez-le toujours README.txt ou README.md (Markdown) afin de respecter la nomenclature en vigueur et pensez à créer un fichier README.txt pour chacun de vos jeux de données.

      Télécharger le gabarit recommandé de fichier Lisez-moi.


      Source : Données de recherche - Polytechnique Montréal
    • Dans les recommandations des entrepôts de recherche, vous pouvez trouver une spécification des standards de métadonnées. Reste à voir maintenant les métadonnées.

      Votre progression : 65 %



  •  Objectifs 

    • appréhender l'enjeu des standards de métadonnées partagées dans une communauté de recherche,
    • comprendre l'enjeu d'accompagner ses données par des métadonnées, lisibles par des humains et des machines.

    15 minutes de lecture


    • Métadonnées

      Les métadonnées, que l’on peut définir simplement comme « des données sur les données », sont un moyen de nommer les choses et de représenter les données et leurs relations.

    • Donnée qui renseigne sur la nature d’autres données et qui permet ainsi leur utilisation pertinente. Dans la perspective des entrepôts de données, les métadonnées sont un élément primordial et sont destinées à diverses catégories d’utilisateurs. Elles permettent notamment de connaître l’origine et la nature des données stockées dans l’entrepôt, de comprendre comment elles sont structurées, de savoir comment y avoir accès et comment les interpréter, de connaître les différents modèles de données en présence et les règles de gestion de ces données. Certaines métadonnées sont générées dès la création des données, automatiquement ou manuellement. Il est recommandé de fournir les métadonnées le plus rapidement possible après la création des données.
    • La question de l'interopérabilité

      Les métadonnées doivent être interopérables pour permettre à d’autres systèmes de les exploiter. Pour cela elles doivent respecter certains standards. De nombreux modèles existent pour être sûr de ne pas oublier des informations importantes et de remplir correctement chaque champ.
      Il est à noter que de plus en plus d'entrepôts recommandent lors du dépôt la mise à disposition des données, des métadonnées, du code et de la documentation (fichier readme). Dans le cas d’un dépôt sur Recherche data gouv par exemple, un fichier readme vous sera nécessairement demandé, dans lequel vous devrez renseigner un certain nombre d'informations sur la réutilisation des données.

    • Nomenclature et bonnes pratiques

      Il est important de structurer le plus possible le jeu de données déposé afin de faciliter sa réutilisation. Les noms des fichiers doivent être le plus explicite possible pour permettre aux autres utilisateurs d'identifier la nature de chaque fichier à partir de son nom. Pour cela il est recommandé de développer une nomenclature claire et explicite, comme par exemple :


      Parfois seules les métadonnées sont accessibles. On a pu voir que dans certaines communautés, elles étaient développées selon des standards (Darwin Core), comme pour GBIF par exemple. La documentation sert la qualité des données.

      Les métadonnées doivent être interopérables pour permettre à d’autres systèmes de les exploiter. Pour cela elles doivent respecter certains standards. De nombreux modèles existent pour être sûr de ne pas oublier des informations importantes et de remplir correctement chaque champ.


    • Choisir des standards de métadonnées

      Format et standard
      Comme nous l'avons vu il existe une grande diversité de standards de métadonnées, il n'est donc pas toujours évident de savoir comment choisir un modèle plutôt qu'un autre. Pour cela posez-vous les questions suivantes : 
      • Quelle description des données est généralement attendue dans votre discipline ?
      • Existe-t-il un standard dans votre discipline ? Vous pouvez consulter les listes de standards proposées par Digital Curation Centre, FAIRsharing, ou encore Github : Research Data Alliance. S'il n'existe pas d'exemples dans votre discipline, le plus simple est de vous référer au standard Dublin Core .
      • Quels logiciels, procédures ou outils fournissent automatiquement des métadonnées dans votre protocole de recherche ?
      Les métadonnées participent à ce que l'on appelle le web des données : lisibles par les humains (fichier readme.txt) et par les machines (métadonnées embarquées, c'est à dire automatiquement générées).
    • Exemple de standard de métadonnées créé par une communauté scientifique


      Document, Discover and Interoperate (DDI)

      La Data Documentation Initiative (DDI) est une norme internationale pour décrire les données produites par les enquêtes et d’autres méthodes d’observation dans les sciences sociales, comportementales, économiques et de la santé. La DDI est une norme gratuite qui peut documenter et gérer différentes étapes du cycle de vie des données de la recherche, comme la conceptualisation, la collecte, le traitement, la distribution, la découverte et l’archivage. La documentation des données avec la DDI facilite la compréhension, l’interprétation et l’utilisation -- par les personnes, les systèmes logiciels et les réseaux informatiques.


    • La spécification DDI, écrite en XML, fournit un format pour le contenu, l’échange, et la conservation des informations liées à une étude, ses résultats et les données de l’étude elles-mêmes.

      Depuis 1995, des membres de diverses institutions se réunissent pour développer ce standard. N'hésitez pas à consulter la page Wikipédia dédiée à ce standard pour en savoir plus.

    • Exemple de standard de métadonnées embarquées


      Exchangeable image file format (EXIF)

      EXIF est un format de fichier pour les images, utilisé par les appareils photographiques numériques, qui permet de décrire la nature d’autres données pour une réutilisation pertinente, (qui, quand, où, comment, pourquoi) par exemple :

      • auteur, 
      • origine, 
      • nature, 
      • structuration, 
      • modèles, 
      • règles. 

      Il permet de renseigner manuellement ou automatiquement les métadonnées (carte d’identité des données, ressources, documents…) afin de faciliter la recherche d'informations, la réutilisation et l'identification des données pour les créateurs ou encore des tiers.



      Par exemple, une suite de chiffres dans un tableau devient incompréhensible si l’on ne sait pas à quoi correspondent les abscisses et les ordonnées, dans quel but le tableau a été créé et à quelle date. Quand vous créez des métadonnées, vous documentez vos données, ce qui vous permet de : 
      • retrouver et réutiliser facilement vos propres données ; 
      • découvrir, évaluer, et réutiliser les données produites par d’autres ; 
      • aider les autres à découvrir, reproduire, réutiliser, et citer vos données ; 
      • faciliter la préservation des données numériques, alors que les logiciels et les formats ne cessent d’évoluer au fil du temps.

      La description de ces données permet de donner plus d'informations sur: 
      • le contenu intellectuel : titre, résumé, domaine de recherche, mots-clés, type de ressource ; 
      • le contexte de production : date, créateur, projet, financeur, procédés de création ; 
      • les caractéristiques techniques des fichiers et des données : formats, taille, organisation ; 
      • les propriétés et droits d’usage : détenteurs des droits, conditions d’accès, conditions de partage, conditions d’usage, outils spécifiques pour accéder ou lire les données.


    • Diffusions et restrictions

      Il est possible de donner un accès libre aux métadonnées et un accès conditionné aux données, cependant le caractère de ces données peut conditionner ses modalités d'accès. Vous pouvez consulter le logigramme "Où publier vos données?" réalisé par Recherche Data Gouv ou la ressources "Ouverture des données : ... aussi ouvert que possible ... aussi fermé que nécessaire".

      Nous vous recommandons fortement de vous rapprocher de votre DPO ou du service valorisation de votre université si des restrictions peuvent s’appliquer à la diffusion des données de vos recherches. Le droit appliqué aux données de recherche étant un sujet à part entière, nous n'aborderons pas ce point dans ce cours.

    • Une fois que vous avez choisi votre revue et préparé vos données, reste l'étape finale de la soumission à la revue. Nous allons voir dans la partie suivante les points clés de cette procédure.

      Votre progression : 80 %



  •  Objectifs 

    • différencier les types de revues dédiées aux data paper,
    • identifier les critères de sélection d'une revue.

    30 minutes de lecture

    • Pure ou mixed ?

      Il existe deux types de revues : 
      • Les "Pures" pour les revues dédiées uniquement aux data papers
      • Les "Mixed" pour les revues scientifiques classiques comprenant une rubrique data papers.


      Quand on pense au choix de la publication, il est important d'avoir en tête que comme les sites web, les revues peuvent disparaître. Une enquête menée et publiée en 2019 sur ce phénomène montre une forte création en 2013 en 2014 mais aussi des arrêts.

      Attention : certaines revues comprennent des rubriques data paper, mais n'en publient que très peu. Les politiques éditoriales des revues sont variables à ce sujet, il est donc important de bien choisir la revue qui correspond aux besoins.

    • Déplacez la flèche rouge de gauche à droite pour visionner les captures d'écrans en entier.

      La forme d’un article peut varier d’une revue à une autre en fonction de son template mais pas selon son type. La différence entre ces deux types de revues est la facilité d’identification, pour les revues scientifiques classiques, car toutes ne proposent pas de sections dédiées aux jeux de données.


    • Open access journal

      Il existe un grand nombre d'open access journal, portant sur un large spectre de thématiques. Voici une liste non exhaustive de certains d'entre eux :

      Data journal générique :


      Geography :

      Science, Technology, Engineering and Mathematics (STEM)

      Medicine

      Physique Chimie
      • Vous pouvez consulter des listes thématiques mises à disposition en ligne par des bibliothèques universitaires comme Datacc (s'ouvre dans un nouvel onglet) pour la physique chimie par exemple.

    • Critères des choix de la revue

      Pour trouver la revue qui correspond à vos besoins, à partir de la liste ci-dessus, répondez aux questions suivantes :

      Liste des critères

      Pour trouver la revue qui correspond à vos besoins, à partir de la liste ci-dessus, répondez aux questions suivantes :

      • Quel est le type de cette revue ?
      • À qui s'adresse cette revue ?
      • Quelle est la renommée de cette revue  ?
      N’hésitez pas à vous reporter à la rubrique “Aims and scope” ou “Politique éditoriale” présente sur les sites web des revues, elle montre leurs attentes. La non-conformité à la ligne éditoriale est un motif de refus des articles soumis. Vous pouvez également consulter la liste des membres du comité éditorial.
      • La revue est-elle indexée dans une base de données bibliographiques (Scopus, Web of Science) ou des moteurs de recherche spécialisés (Dimensions par exemple)? 
      Nous ne vous inviterons pas à vous baser sur les indices de notoriété comme l’Impact Factor sauf si ces indices vous sont encore explicitement demandés dans vos disciplines.
      • Les données doivent elles êtres traduites en anglais? 
      • Pouvez-vous soumettre l’article en français? 
      • Les données sont-elles mises à disposition comme matériau supplémentaire, dans un entrepôt institutionnel, généraliste ou disciplinaire? 
      1. Généraliste : Zenodo
      2. Disciplinaire : Nakala

      3. Institutionnel : Recherche data gouv

      4. Autre : git

      • Quel est le volume de données autorisé? 

      • Le format recommandé? 

      • Les licences proposées,? 

      • La pérennité de l’archivage?

      • La certification ? 

      • Le standard de métadonnées est-il Libre ou imposé?

      • Quelles sont les options d'identifications proposées par l'entrepôt (DOI, Handle) ?
      • La relecture est-elle en double aveugle ou ouverte? 

      Pensez à vérifier le délai de publication de l’article.

      Quel est le coût de l'entrepôt pour le stockage de vos données ?

      • Taille du jeu de données
      • Durée du stockage

      Ce dernier peut varier en fonction de la revue choisie, vous pouvez vérifier ces couts à l’aide du DOAJ : 


      • Y a-t-il des templates ou des modèles proposés ?


      Pour résumer :

      • Quel est l'usage en vigueur dans ma discipline ?
      • Quelle est la visibilité de la revue ?
      • Quel est le mode de relecture (peer-reviewing) ?
      • Où sont stockées les données et comment y accéder ?
      • Quelle est le niveau de pérennité et de fiabilité des données ?
      • Quel est le public, le lectorat ?
      Il est important de bien définir ce que l’on cherche quand on pense à la publication d’un jeu de données et de garder en tête que cet espace est en train de se stabiliser dans le temps.

    • Privilégiez l'open access

      Les différents points suivants complètent des notions plus larges liées à la publication scientifique et aux choix possibles dans le cadre d’une démarche de science ouverte. 

      Comme nous l'avons vu, le but des data paper est d'exposer les jeux de données, afin de promouvoir la reconnaissance scientifique et la réutilisation des données de la recherche. L'enjeu est donc d'améliorer la transparence des méthodes scientifiques et des résultats, de soutenir les bonnes pratiques en matière de gestion des données, ainsi que de fournir un chemin accessible, permanent et valide vers les jeux de données.


      Dans cette démarche, il est recommandé de se tourner en priorité vers l'open access et les revues en libre accès qui :

      • proposent des modèles de rédaction des data papers ;
      • guident sur les lieux de dépôt (certains ont leurs propres entrepôts) ;
      • valorisent la liaison réciproque data paper / jeu de données ;
      • mettent en place les procédures d’évaluation par les pairs (peer-review)

      Attention toutefois aux lieux qui peuvent être recommandés par les éditeurs ainsi que le lien qui peut être fait entre le data paper et le jeu de données.

      De même, il est recommandé de faire attention aux APC (Article Processing Charges). Les APC sont construits sur le modèle de l’auteur-payeur. Les APC couvrent les frais de publication demandés par les éditeurs pour financer la diffusion en open access des articles scientifiques. Leur développement a un coût non négligeable dans les budgets de recherche. Certains financeurs refusent que les subventions versées servent à payer ces APC.



    • Pour une meilleure visualisation de l'infographie, affichez là en plein écran via le bouton en haut à droite.

    • Focus sur deux revues


      Cybergeo

      Depuis ses débuts en 1996 Cybergeo défend activement la science ouverte et l’accès ouvert à la connaissance. Après avoir ouvert une rubrique sur les modèles ouverts, ils ont inauguré une rubrique sur les données ouvertes. Il s’agit d’articles évalués par les pairs qui sont destinés à décrire, documenter et évaluer des bases de données produites par des auteurs. 

      Dans les data papers de Cybergeo, vous trouverez le lien vers les données qui sont stockées dans un entrepôt et mises à disposition sous licence libre. Ce sont des bases de données géographiques. C’est pourquoi les recommandations aux auteurs demandent de préciser les échelles concernées, les composantes spatiales, la géométrie et la compatibilité avec les systèmes d’information géographique des éléments inclus dans la base de données, en plus des informations requises habituellement telles que les sources originales, la méthode de construction des données et les procédures de validation. Ils publient depuis 2017 des data papers.

    • Data In Brief

      L’image suivante présente une capture d’écran du site de la revue Data in brief. Une carte présente la répartition géographique des auteurs et trois sous-rubriques mentionnent les “Aims and scope”; “Editorial board” et “Abstracting and indexing”. Lisez ces points avant de soumettre pour la première fois dans une revue. 

      Vous pourrez également trouver des informations vous aidant à produire votre data paper.



      Recommandations

      On voit que la publication d'un article dans la revue Data In Brief est très formalisée, il faut donc bien prendre connaissance de son template avant de se choisir ce data journal par exemple. Tous les éléments attendus par la revue et les relecteurs sont listés. Leur oubli peut aboutir au rejet de votre article.

      En consultant le template de 2024 de Data in Brief ci-dessous vous verrez des recommandations (comme indiquer "data" dans le titre) qui sont toujours utiles même en français et qui peuvent être une aide pour vous aider à structurer votre propos si la revue dans laquelle vous soumettez ne propose pas de modèle et que vous ne savez pas trop comment commencer.




    • En résumé

      1. Choisir sa revue
      2. Estimer les coûts
      3. Déposer dans l'entrepôt et récupérer les DOI
      4. Rédiger son article et la cover letter
      5. Lier les data paper au jeu de données
      6. Laisser les évaluateurs travailler
      7. Diffuser le DOI

      En anglais: vérifier si les données doivent être traduites.



    • Vous pouvez constater qu'un certain nombre de recommandations sont communiquées aux auteurs d'un data paper. Nous allons donc nous intéresser aux outils qui accompagnent la mise à disposition des données :
      • Les entrepôts de données
      • Les métadonnées

      Votre progression : 90 %



  •  Objectif : découvrir les modalités du processus de soumission d'un data paper.

    10 minutes de lecture

    • Procédures et modèles

      Pour soumettre un data paper il est conseillé de :

      • suivre les recommandations des revues comme nous avons pu le souligner dans les critères de choix d’une revue,
      • utiliser les templates mis à disposition par les data journal.


    • Rédiger la lettre d'accompagnement / cover letter de l'article scientifique 

      Dans cette lettre, il est important de bien définir le message, ainsi que de mettre en avant les highlights et de souligner que vous êtes en adéquation avec les attentes de la revue sélectionnée.


      Points clés à aborder dans une lettre d'accompagnement :
      • Le nom de l’éditeur.

      • Le titre de votre manuscrit.

      • Le nom de la revue à laquelle vous soumettez.

      • La déclaration que votre article n’a pas été publié auparavant et qu’il n’est actuellement pas à l’étude dans une autre revue.

      • Une brève description de la recherche que vous présentez dans votre article, pourquoi elle est importante et pourquoi les lecteurs de la revue s’y intéresseraient.

      • Les coordonnées pour vous et tous les co-auteurs.

      • La confirmation que vous n’avez pas d’intérêts concurrents à déclarer.

      Source : How to write a cover letter for journal submission de Taylor & Francis author service.

      Vous pouvez également consulter la fiche "Rédiger la lettre d’accompagnement (cover letter) de l’article scientifique en 5 points" proposée par le CIRAD.

    • Grille de relecture

      À l’image des articles scientifiques, les data papers sont évalués par le comité de lecture de la revue choisie. Les critères d’évaluation dépendent de la revue en question, cependant on peut dégager certains éléments communs :

      • Importance et originalité des données ;
      • Potentiel et valeur de réutilisation des données ;
      • Qualité et fiabilité des données : structure de la base de données, organisation logique des données, intégrité des données (vérification des erreurs potentielles) ;
      • Accès aux données : point important. L’auteur doit s’assurer que ses données sont toujours accessibles dans l’entrepôt. Si les données sont retirées de l’entrepôt, la rétractation du data paper pourra être décidée par l’éditeur ;
      • Qualité et rigueur de la méthode de collecte des données : méthode appropriée, actuelle, suffisamment claire pour permettre la reproductibilité ;
      • Choix des métadonnées descriptives et formats: présentation, complétude, degré de précision, etc. ;
      • Autres critères « classiques » : qualité générale du manuscrit, citations appropriées, respect des instructions, etc."

    • Variations des modèles de relecture par les pairs

      Exemples de processus innovant :

      • Suggestion des examinateurs par les auteurs (F1000Research).
      • Examen par les pairs de la communauté (Biodiversity Data Journal).
      • Examen public interactif par les pairs (Earth System Science Data).

      Source : Schöpfel et al, 2019, p. 11


    • Comme vous pouvez le constater, il existe diverses modalités, ainsi qu'une constante réflexion sur l'amélioration de ces procédures.

      Votre progression : 95 %



  • 5 minutes de lecture


    • Maintenant que les data papers n'ont plus de secrets pour vous, vous pouvez tester vos connaissances dans l'activité suivante.

      Votre progression : 100 %



    • Critique et potentiel

      Garcia-Garcia et al. (2015) se demandent si les journaux de données continueront à faire partie de la recherche écosystème ou non. Peut-être ne le feront-ils pas. Peut-être que les revues incluront automatiquement une mise à disposition des données et que la gestion des données sera en partie intégrante de la publication scientifique.

      Avec le développement d'outils d'aide à la rédaction d'autres questions s'ouvrent sur l'authorship et la responsabilité de la qualité des données et des métadonnées.

      N'est-ce pas une écriture par des machines, pour des machines ?

      L'accessibilité des intelligences artificielles (IA) dans la rédaction scientifique représente un tournant majeur pour la recherche. Les data papers, des articles assez standardisés qui mettent en lumière des jeux de données et du code au sens large, pourraient être profondément transformés par la facilité d'usage des IA génératives. Ces IA offrent des perspectives inédites : elles permettent d'automatiser des phases rédactionnelles, d'optimiser la structuration des contenus et d'améliorer la précision du propos ou sa traduction. Cependant, leurs usages soulèvent également des questionnements éthiques concernant l'intégrité scientifique, le droit d'auteur dont la paternité sur le contenu, la transparence méthodologique et la validation scientifique. L'enjeu de la science réside désormais dans notre capacité individuelle et collective à intégrer ces outils avec discernement et responsabilité. Les usages des intelligences artificielles pourraient prolonger et enrichir le travail scientifique. Les communautés scientifiques sont donc invitées à développer un regard critique, quant à la mobilisation de ces outils comme une aide à la rédaction et non de les mobiliser comme des rédacteurs autonomes et de confiance. L'avenir des data papers pourrait se co-construire entre créativité humaine et algorithmique, dans un dialogue permanent entre l'expertise scientifique, une régulation collective et l'innovation de ces technologies.

      Par rapport au dépôt de données dans des entrepôts, ou encore des données annexées dans des articles classiques, les data journals, selon Walters présentent de potentiels avantages :
      • Le contrôle de la qualité, ainsi que de l’exhaustivité des données et de la documentation pour leur réutilisation.
      • La possibilité de découverte grâce à leur indexation dans des grandes bases de données bibliographiques.
      • L'incitation à la publication des données avec une citation de la production ou de l'article.
      • Une reconnaissance par les institutions de ce type de publication.
      • Une rentabilité des efforts des chercheurs, qui peuvent se référer à un data paper, sans devoir redonner les détails des données contenues dans l'article.
      • Pérennité : les entrepôts de données peuvent donner moins de garanties sur leur pérennité par rapport à des revues classiques, soutenues par des éditeurs. 

  • 10 minutes de lecture

    Dans cette partie nous vous proposons de tester vos connaissances, à travers une étude de cas. Si vous obtenez un minimum de 60% de bonnes réponses au test, vous pourrez obtenir un badge attestant de votre bonne compréhension des enjeux et du processus de publication d'un Data Paper. Pour cela vous devez être inscrit·e au cours.
    • 👏 Bravo 👏

      Vous avez terminé avec succès ce cours et obtenu cet open badge !

      Open Badge rédiger et publier un data paper

      Voir le badge

      Non disponible à moins que : L’activité Evaluation finale soit achevée et réussie