Cours : Ouvrir les données de recherche en informatique théorique : qu'a-t-on à y gagner ?

Résumé de section

Sélectionner la section Synopsis

Replier Déplier
Synopsis

Tout replier Tout déplier
Nous vous présentons ici les raisons pour lesquelles il convient d'ouvrir les données de recherche, c'est-à-dire de les rendre accessibles publiquement, afin notamment de permettre la reproductibilité des expériences.

À l'aide d'exemples concrets, nous donnerons un certain nombre de raisons (éthiques, pratiques, légales…) d'effectuer la mise à disposition dans des entrepôts de données accessibles à long terme. Nous donnerons également quelques pistes afin de mettre à disposition les données de recherche en accès libre.

La présentation est avant tout destinée aux universitaires en informatique théorique mais, du fait des similitudes dans ces différents domaines, les personnes effectuant leur recherche en informatique en général ou même en mathématiques, devraient y trouver bon nombre d'informations utiles.

Objectif

Définir les données de la recherche en informatique théorique
Comprendre les inconvénients de ne pas ouvrir des données de recherche à partir des mauvaises pratiques issues de retours d'expérience

Connaître les intérêts de rendre public des données de recherche à titre personnel, pour sa communauté scientifique et pour le grand public
Proposer des moyens d'ouvrir des données de recherche facilement

Ce cours est en libre accès !

Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

Pour participer aux activités (exercices, forum...), vous devez vous inscrire au cours
S'inscrire au cours
- Sélectionner l’activité <div class="customfield customfield_text customfield_author"> <span class="customfieldname">Auteur(s) / Formateur(s)</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Étienne ANDRÉ - Université Sorbonne Paris Nord, LIPN, CNRS UMR 7030</span> </div><div class="customfield customfield_text customfield_production"> <span class="customfieldname">Production cours</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Olivier Lu - Urfist Lyon</span> </div><div class="customfield customfield_text customfield_cible"> <span class="customfieldname">Public cible</span><span class="customfieldseparator">: </span><span class="customfieldvalue">toute personne effectuant des recherches en informatique théorique, ou plus généralement en informatique ou en mathématiques.</span> </div><div class="customfield customfield_date"> <span class="customfieldname">Date de publication</span><span class="customfieldseparator">: </span><span class="customfieldvalue">22 novembre 2022</span> </div><div class="customfield customfield_text customfield_duration"> <span class="customfieldname">Durée estimée</span><span class="customfieldseparator">: </span><span class="customfieldvalue"> 45 min</span> </div><div class="customfield customfield_text customfield_preriquisite"> <span class="customfieldname">Prérequis</span><span class="customfieldseparator">: </span><span class="customfieldvalue">aucun</span> </div><div class="customfield customfield_select customfield_license"> <span class="customfieldname">Licence</span><span class="customfieldseparator">: </span><span class="customfieldvalue">CC BY-NC-SA</span> </div><div class="customfield customfield_text customfield_citation"> <span class="customfieldname">Citation</span><span class="customfieldseparator">: </span><span class="customfieldvalue">É. André and O. Lu, “Ouvrir les données de recherche en informatique théorique : qu'a-t-on à y gagner ?” Callisto, 2023, doi: 10.60538/OUVRIR_DR_INFORMATIQUE_THEORIQUE.</span> </div><div class="customfield customfield_text customfield_doi"> <span class="customfieldname">DOI</span><span class="customfieldseparator">: </span><span class="customfieldvalue">https://doi.org/10.60538/ouvrir_dr_informatique_theorique</span> </div><div class="customfield customfield_checkbox customfield_ob"> <span class="customfieldname">Open badge</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Non</span> </div><div class="customfield customfield_text customfield_students"> <span class="customfieldname">Nombre d'inscrits</span><span class="customfieldseparator">: </span><span class="customfieldvalue">6</span> </div><div class="customfield customfield_checkbox customfield_catalogue"> <span class="customfieldname">Catalogue</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Oui</span> </div><div class="customfield customfield_multiselect customfield_thematique"> <span class="customfieldname">Thématique</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Science Ouverte, Données de la recherche</span> </div><div class="customfield customfield_select customfield_duration2"> <span class="customfieldname">Durée</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Format court (< 1h)</span> </div><div class="customfield customfield_multiselect customfield_type_course2"> <span class="customfieldname">Type d'accès</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Libre accès, Auto-inscription</span> </div><div class="customfield customfield_multiselect customfield_partenaire"> <span class="customfieldname">Partenaire</span><span class="customfieldseparator">: </span><span class="customfieldvalue">DoRANum</span> </div><div class="customfield customfield_multiselect customfield_langue"> <span class="customfieldname">Langue</span><span class="customfieldseparator">: </span><span class="customfieldvalue">Français</span> </div>
  
  Auteur(s) / Formateur(s): Étienne ANDRÉ - Université Sorbonne Paris Nord, LIPN, CNRS UMR 7030
  Production cours: Olivier Lu - Urfist Lyon
  Public cible: toute personne effectuant des recherches en informatique théorique, ou plus généralement en informatique ou en mathématiques.
  Date de publication: 22 novembre 2022
  Durée estimée: 45 min
  Prérequis: aucun
  Licence: CC BY-NC-SA
  Citation: É. André and O. Lu, “Ouvrir les données de recherche en informatique théorique : qu'a-t-on à y gagner ?” Callisto, 2023, doi: 10.60538/OUVRIR_DR_INFORMATIQUE_THEORIQUE.
  DOI: https://doi.org/10.60538/ouvrir_dr_informatique_theorique
  Open badge: Non
  Nombre d'inscrits: 6
  Catalogue: Oui
  Thématique: Science Ouverte, Données de la recherche
  Durée: Format court (< 1h)
  Type d'accès: Libre accès, Auto-inscription
  Partenaire: DoRANum
  Langue: Français
Sélectionner la section 1. Comment mal gérer les données de la recherche ?

Replier Déplier
1. Comment mal gérer les données de la recherche ?
- Sélectionner l’activité LA PERTE DES DONNÉES DE RECHERCHE N'ARRIVE-T-ELLE ...
  
  La perte des données de recherche n'arrive-t-elle qu'aux autres ?
  
  Temps de lecture : 5 min.
  
  Callisto. (2023, 5 mai). La perte des données de recherche n'arrive-t-elle qu'aux autres ?. [Vidéo]. Canal-U. https://www.canal-u.tv/145523. (Consultée le 25 août 2023)
Sélectionner la section 2. Comprendre les données de la recherche en informatique

Replier Déplier
2. Comprendre les données de la recherche en informatique
- Sélectionner l’activité Définition des données de la recherche > __ Enregi...
  
  Définition des données de la recherche
  
  Enregistrements factuels (chiffres, textes, images et sons) qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.
  
  OCDE (2007)
  
  Les données ne sont pas (seulement) du code.
  L’accès aux données de la recherche est différent de l’accès aux publications (lequel est également essentiel).
- Sélectionner l’activité ------------------------- 2.1 LES JEUX DE DONNÉES ...
  
  2.1 Les jeux de données en informatique théorique
  
  Exemples
  Les données en informatique théorique peuvent prendre plusieurs formes telles que :
  
  Des programmes rédigés dans un langage informatique
  
  for i in range(1, 2046):
  j += i
  print('Hello ' + j)
  
  Des graphes ou des automates
  
  s1 -(1)-> s1
  s1 -(0)-> s2
  s2 -(0)-> s1
  s2 -(1)-> s2
  
  Des données numériques (logs, suites de nombres…)
  
  @t=2.3: temperature=2.3; vitesse=4.5
  @t=2.7: temperature=3.2; vitesse=6.9
  @t=4.9: temperature=5.1; vitesse=20.46
  
  Des modèles formels exprimés dans un langage formel
  
  VARIABLE clock
  Init == clock \in {0, 1}
  Tick == IF clock = 0 THEN clock' = 1 ELSE clock' = 0
  Spec == Init /\ [][Tick]_<<clock>>
  
  (ci-dessus : extrait de code TLA+)
  
  Spécificités
  En informatique théorique les jeux de données ne ressemblent pas à n'importe quel autre jeu de données. Ils ont pour particularités d'être :
  
  1. Généralement du texte
  
  Code
  
  Modèles formels codés dans des formats textuels (XML, JSON, CSV...)
  
  Suites de nombres
  
  À la différence de : données d’imageries (médecine, géographie...)
  
  2. Taille relativement modeste
  
  Taille typique d’un programme ou d’un modèle : quelques dizaines ou centaines de Kio
  
  Un programme même de grande taille excède très rarement 100 Mio
  
  À la différence de : banques d’images (médecine, géographie, apprentissage artificiel...), relevés météorologiques, etc.
  
  Par exemple, 1 répondant(e) sur 5 mentionne dans une enquête française de 2020 des données de plus de 1To
  
  3. Rarement de questions de confidentialité ou d’éthique
  
  À la différence de : médecine, sociologie...
  
  (Contre-exemple : collaborations industrielles avec accord de confidentialité...)
- Sélectionner l’activité ------------------------- 2.2 LA REPRODUCTIBILITÉ ...
  
  2.2 La reproductibilité des données en informatique théorique :
  
  Une évidence ?
  
  Dans de nombreux domaines, il est extrêmement difficile voire impossible de reproduire des expériences à l’identique :
  
  Médecine, biologie, sociologie, linguistique...
  
  Cause principale : impossibilité d’appliquer deux fois la même méthode sur exactement les mêmes données avec le même environnement
  
  En informatique, un algorithme ou un programme avec les mêmes entrées devrait produire le même résultat :
  
  Les temps d’exécution devraient être similaires (mais pas identiques : bruit lié à l’occupation de la machine)
  
  Pas universel pour autant (Contre-exemples : algorithmes distribués, programmes fonctionnant sur des réseaux, programmes avec une part d’aléatoire...)
  
  Les obstacles :
  
  Obstacles à la reproductibilité des expériences en informatique :
  
  Absence de partage des logiciels ou manque d’informations (version, environnement)
  
  Absence de partage des données d’entrée ou manque d’informations (version)
  
  Absence de partage des résultats attendus
  
  Problématique de l’environnement (matériel, système d’exploitation)
- Sélectionner l’activité POINT-CLÉ REPRODUCTIBILITÉ DES EXPÉRIENCES * Il de...
  
  Point-clé
  
  Reproductibilité des expériences
  
  Il devrait être extrêmement facile de reproduire des expériences à l’identique en informatique théorique
  
  Cette reproductibilité repose en grande partie sur l’ouverture des données de la recherche
Sélectionner la section 3. Pourquoi partager les données de la recherche ?

Replier Déplier
3. Pourquoi partager les données de la recherche ?
- Sélectionner l’activité Temps de lecture : 10 min.
  
  Temps de lecture : 10 min.
Sélectionner la section 4. Comment partager les données de la recherche ?

Replier Déplier
4. Comment partager les données de la recherche ?
- Sélectionner l’activité QUE PARTAGER ? SI LA TAILLE LE PERMET : TOUT * log...
  
  Que partager ?
  
  Si la taille le permet : tout
  
  logiciel (code + binaire)
  
  données brutes (modèles...)
  
  résultats
  
  Ne pas oublier :
  
  Documentation : système, bibliothèques nécessaires, etc.
  
  Versions
  
  Description formelle ou (au moins) informelle des formats
  
  Penser à partager les résultats négatifs
  
  Décret n°2021-1572 du 3 décembre 2021 : incite « à la publication des résultats de recherche dits négatifs »
  
  Évite à d’autres collègues de réessayer une « mauvaise » solution
- Sélectionner l’activité ------------------------- OÙ PARTAGER ? DONNÉES ET...
  
  Où partager ?
  
  Données et code permettant la reproductibilité :
  
  Entrepôt national Recherche Data Gouv ⇒ Propose également des ateliers de la donnée dans toute la France.
  
  Obtention systématique d’un DOI, qui peut ensuite être cité
  
  Versions du code :
  
  système git (par exemple GitLab)
  
  Software Heritage
Sélectionner la section Testez vos connaissances

Replier Déplier
Testez vos connaissances
- Sélectionner l’activité Ce test QCM comporte 4 questions donnant 10 points...
  
  Ce test QCM comporte 4 questions donnant 10 points au total, certaines questions peuvent avoir plusieurs réponses.
  
  L'obtention de 8 point validera votre réussite du test.
Sélectionner la section Bibliographie

Replier Déplier
Bibliographie
- Sélectionner l’activité RESSOURCES GÉNÉRALISTES * Recherche Data Gouv * Do...
  
  Ressources généralistes
  
  Recherche Data Gouv
  
  DoRANum
  
  Mini-guide Partager les données liées aux publications scientifiques - Guide pour les chercheurs
  
  Références supplémentaires
  
  Le guide des licences ouvertes de DoRANum
  
  Rédiger un plan de gestion de données et de logiciels avec DMP OPIDoR
  
  Rédiger et publier un data paper (Urfist de Lyon, cc-by Mariannig Le Béchec)
  
  🏴󠁧󠁢󠁥󠁮󠁧󠁿 Les principes de l'ACM pour l'artifact review
  
  🏴󠁧󠁢󠁥󠁮󠁧󠁿 Plesser: Reproducibility vs. Replicability: A Brief History of a Confused Terminology (2018)
  
  🏴󠁧󠁢󠁥󠁮󠁧󠁿 NFDIxCS (National Research Data Infrastructure for and with Computer Science)
Sélectionner la section Remerciements

Replier Déplier
Remerciements
- Sélectionner l’activité * Olivier Lu : Ingénieur pédagogique, Urfist-Lyon....
  
  Olivier Lu : Ingénieur pédagogique, Urfist-Lyon. Médiatisation numérique
  
  Laëtitia Bracco : Conservatrice des bibliothèques, Data librarian à l’Université de Lorraine
  
  David Bernal : ingénieur pédagogique, Université Sorbonne Paris Nord
  
  Relecture disciplinaire : Fabrice Kordon, Engel Lefaucheux, Stephan Merz
  
  Beta-testers : Dylan Marinho
Sélectionner la section Sur le même thème

Replier Déplier
Sur le même thème
Cours: Rédiger un DMP pour sa thèse en biologie

Cours: La question des données en Bio-Informatique

Cours: La gestion des données de recherche en environnement

Cours: Comprendre les données géographiques

Cours: Ouvrir les données de recherche en informatique théorique : qu'a-t-on à y gagner ?

Cours: Cohortes en santé : données ouvertes en imagerie médicale

Autres suugestions

Cours: Exemples d'entrepôts de données en SHS

Cours: Étude de cas Économie-Gestion

Cours: Droit de la concurrence : approche quantitative de jeux de données juridiques

Cours: Humanités numériques : gérer ses données dans une équipe interdisciplinaire

Cours: La diffusion des données de recherche en linguistique

Cours: Langues minorisées à corpus restreint : partager pour survivre

Cours: Au-delà du secret statistique : comment accéder à des données confidentielles issues de la statistique publique ?

Cours: netCDF, format de fichier interopérable pour la science ouverte

Cours: Comment inscrire une recherche (action) participative respectueuse des principes FAIR ?

Cours: Le Plan de Gestion de Données pas à pas

Résumé de section

Objectif

Ce cours est en libre accès !

La perte des données de recherche n'arrive-t-elle qu'aux autres ?

2.1 Les jeux de données en informatique théorique

Exemples

Des programmes rédigés dans un langage informatique

Des graphes ou des automates

Des données numériques (logs, suites de nombres…)

Des modèles formels exprimés dans un langage formel

Spécificités

1. Généralement du texte

2. Taille relativement modeste

3. Rarement de questions de confidentialité ou d’éthique

2.2 La reproductibilité des données en informatique théorique :

Une évidence ?

Les obstacles :

Obstacles à la reproductibilité des expériences en informatique :

Point-clé

Reproductibilité des expériences

Que partager ?

Si la taille le permet : tout

Ne pas oublier :

Penser à partager les résultats négatifs

Où partager ?

Données et code permettant la reproductibilité :

Obtention systématique d’un DOI, qui peut ensuite être cité

Versions du code :

Ressources généralistes

Références supplémentaires

Autres suugestions

Liens de bas de page

Doranum

Callisto

Aide

Nous suivre