Définition et enjeux
-
Qu’est-ce qu’une donnée de la recherche ?
Il existe de nombreuses définitions des données de la recherche :
Il est encore difficile de donner une définition canonique des données de la recherche. Il n'existe pas de consensus réelle, elle peut ainsi varier en fonction des agences de financement ou encore des domaines disciplinaires. Cependant, il est possible de retenir des critères qui sont présents dans l'ensemble des définitions :
- ensemble d’informations factuelles ;
- produites ou collectées ;
- au cours d’un processus de recherche.
Les données de recherche peuvent être :
- produites : données créées, générées dans le cadre d'un projet de recherche (enquêtes, relevés,…) ;
- collectées : données pré-existantes (corpus, archives…) qui sont ré-utilisées dans un nouveau projet de recherche.
Une attention particulière doit être portée aux :
-
Les données de la recherche : quels enjeux ?
De nouvelles exigences et opportunités pour le chercheur
- Le 2ème Plan National pour la Science Ouverte se déploie selon
4 axes. Le deuxième, qui concerne les données, oblige notamment les projets financés sur fonds publics à diffuser ouvertement leurs données selon le principe "aussi ouvert que possible, aussi fermé que nécessaire" et les plan de gestion de données
sont généralisés.
- Le partage des données peut être une condition pour l’obtention du financement de projets scientifiques. Par exemple, pour obtenir un financement dans le cadre d’Horizon Europe, il est nécessaire de rédiger un plan de gestion des données et de diffuser
à minima les métadonnées inhérentes aux données générées dans son projet.
- Pour la publication d’un article, certains éditeurs recommandent, voire exigent, l’accès aux données. Par exemple, l’éditeur PLOS ONE oblige les auteurs d’un article à rendre accessibles toutes les données sous-jacentes aux résultats rapportés dans l’article soumis.
- Les chercheurs peuvent mieux promouvoir leurs recherches et être cités, car les données rentrent dans le processus d’édition scientifique (dépôt de données, publication de data papers).
De nouvelles perspectives pour la science
- Rendre ses données disponibles offre une meilleure garantie contre la fraude scientifique.
- Partager ses données nécessite d’adopter de bonnes pratiques de gestion des données (décrire les données, les documenter, les pérenniser…) ce qui améliore la qualité du travail de recherche.
- Le coût engendré par la création, la collecte, le traitement des données peut être très élevé. Réutiliser des données déjà existantes plutôt que de les recréer permet de rentabiliser la recherche, d’accélérer l’innovation et le retour sur investissement dans la Recherche et Développement.
- La constitution de bases de données permet la fouille de données (Text Data Mining), de les extraire, de les recouper et d’en construire des visualisations. Ces nouveaux procédés facilitent l’initiative de nouvelles recherches et leur interdisciplinarité.
- Le déluge des données numériques (Big Data) impacte la manière de faire de la recherche scientifique. On parle de Data Driven Science, une démarche qui automatise les découvertes en exploitant la puissance des ordinateurs pour trouver des corrélations parmi de grandes quantités de données.
Un meilleur retour pour la société
- Les recherches financées par l’argent public doivent pouvoir bénéficier à tous : ouvrir les données rend la recherche plus transparente, renforce la confiance des citoyens et leur permet de s’impliquer (dans le cadre des sciences participatives par exemple).
- Les données générées par l’Open Data et le Big Data offrent un terrain d’exploitation à la recherche scientifique, qui en retour peut éclairer la société sur ses évolutions les plus récentes.
- Le 2ème Plan National pour la Science Ouverte se déploie selon
4 axes. Le deuxième, qui concerne les données, oblige notamment les projets financés sur fonds publics à diffuser ouvertement leurs données selon le principe "aussi ouvert que possible, aussi fermé que nécessaire" et les plan de gestion de données
sont généralisés.