Résumé de section

  • Nous vous présentons ici les raisons pour lesquelles il convient d'ouvrir les données de recherche, c'est-à-dire de les rendre accessibles publiquement, afin notamment de permettre la reproductibilité des expériences.

    À l'aide d'exemples concrets, nous donnerons un certain nombre de raisons (éthiques, pratiques, légales…) d'effectuer la mise à disposition dans des entrepôts de données accessibles à long terme. Nous donnerons également quelques pistes afin de mettre à disposition les données de recherche en accès libre.

    La présentation est avant tout destinée aux universitaires en informatique théorique mais, du fait des similitudes dans ces différents domaines, les personnes effectuant leur recherche en informatique en général ou même en mathématiques, devraient y trouver bon nombre d'informations utiles.

    Objectif
    • Définir les données de la recherche en informatique théorique
    • Comprendre les inconvénients de ne pas ouvrir des données de recherche à partir des mauvaises pratiques issues de retours d'expérience
    • Connaître les intérêts de rendre public des données de recherche à titre personnel, pour sa communauté scientifique et pour le grand public
    • Proposer des moyens d'ouvrir des données de recherche facilement

    Logo titre

    Ce cours est en libre accès !

    Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

    Pour participer aux activités (exercices, forum...), vous devez vous inscrire au cours

    S'inscrire au cours


    • Auteur(s) / Formateur(s): Étienne ANDRÉ - Université Sorbonne Paris Nord, LIPN, CNRS UMR 7030
      Production cours: Olivier Lu - Urfist Lyon
      Public cible: toute personne effectuant des recherches en informatique théorique, ou plus généralement en informatique ou en mathématiques.
      Date de publication: 22 novembre 2022
      Durée estimée: 45 min
      Prérequis: aucun
      Licence: CC BY-NC-SA
      Citation: É. André and O. Lu, “Ouvrir les données de recherche en informatique théorique : qu'a-t-on à y gagner ?” Callisto, 2023, doi: 10.60538/OUVRIR_DR_INFORMATIQUE_THEORIQUE.
      DOI: https://doi.org/10.60538/ouvrir_dr_informatique_theorique
      Open badge: Non
      Nombre d'inscrits: 6
      Catalogue: Non


    • La perte des données de recherche n'arrive-t-elle qu'aux autres ?

      Temps de lecture : 5 min.

      Callisto. (2023, 5 mai). La perte des données de recherche n'arrive-t-elle qu'aux autres ?. [Vidéo]. Canal-U. https://www.canal-u.tv/145523. (Consultée le 25 août 2023)

    • Définition des données de la recherche

       Enregistrements factuels (chiffres, textes, images et sons) qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.

      • Les données ne sont pas (seulement) du code.

      • L’accès aux données de la recherche est différent de l’accès aux publications (lequel est également essentiel).


    • 2.1 Les jeux de données en informatique théorique

      Exemples
      Les données en informatique théorique peuvent prendre plusieurs formes telles que :

      • Des programmes rédigés dans un langage informatique
          for i in range(1, 2046):
      j += i
      print('Hello ' + j)
      • Des graphes ou des automates
      image1
      image2
       s1 -(1)-> s1
      s1 -(0)-> s2
      s2 -(0)-> s1
      s2 -(1)-> s2
      • Des données numériques (logs, suites de nombres…)
          @t=2.3: temperature=2.3; vitesse=4.5
      @t=2.7: temperature=3.2; vitesse=6.9
      @t=4.9: temperature=5.1; vitesse=20.46
      • Des modèles formels exprimés dans un langage formel
          VARIABLE clock
      Init == clock \in {0, 1}
      Tick == IF clock = 0 THEN clock' = 1 ELSE clock' = 0
      Spec == Init /\ [][Tick]_<<clock>>

      (ci-dessus : extrait de code TLA+)

      Spécificités

      En informatique théorique les jeux de données ne ressemblent pas à n'importe quel autre jeu de données. Ils ont pour particularités d'être :

      1. Généralement du texte
      • Code
      • Modèles formels codés dans des formats textuels (XML, JSON, CSV...)
      • Suites de nombres
      • À la différence de : données d’imageries (médecine, géographie...)
      2. Taille relativement modeste
      • Taille typique d’un programme ou d’un modèle : quelques dizaines ou centaines de Kio
      • Un programme même de grande taille excède très rarement 100 Mio
      • À la différence de : banques d’images (médecine, géographie, apprentissage artificiel...), relevés météorologiques, etc.
      3. Rarement de questions de confidentialité ou d’éthique
      • À la différence de : médecine, sociologie...
      • (Contre-exemple : collaborations industrielles avec accord de confidentialité...)

    • 2.2 La reproductibilité des données en informatique théorique :

      Une évidence ?

      Dans de nombreux domaines, il est extrêmement difficile voire impossible de reproduire des expériences à l’identique :

      • Médecine, biologie, sociologie, linguistique...
      • Cause principale : impossibilité d’appliquer deux fois la même méthode sur exactement les mêmes données avec le même environnement

      En informatique, un algorithme ou un programme avec les mêmes entrées devrait produire le même résultat :

      • Les temps d’exécution devraient être similaires (mais pas identiques : bruit lié à l’occupation de la machine)
      • Pas universel pour autant (Contre-exemples : algorithmes distribués, programmes fonctionnant sur des réseaux, programmes avec une part d’aléatoire...)
      Les obstacles :
      Obstacles à la reproductibilité des expériences en informatique :
      • Absence de partage des logiciels ou manque d’informations (version, environnement)
      • Absence de partage des données d’entrée ou manque d’informations (version)
      • Absence de partage des résultats attendus
      • Problématique de l’environnement (matériel, système d’exploitation)
    • Point-clé
      Reproductibilité des expériences
      • Il devrait être extrêmement facile de reproduire des expériences à l’identique en informatique théorique
      • Cette reproductibilité repose en grande partie sur l’ouverture des données de la recherche
    • Temps de lecture : 10 min.

    • Que partager ?

      Si la taille le permet : tout
      • logiciel (code + binaire)
      • données brutes (modèles...)
      • résultats
      Ne pas oublier :
      •   Documentation : système, bibliothèques nécessaires, etc.
      •   Versions
      •   Description formelle ou (au moins) informelle des formats
      Penser à partager les résultats négatifs


      Capture d'écran du décret n° 2021-1572 relatif au respect des exigences de l'intégrité scientifique.

    • Où partager ?

      Données et code permettant la reproductibilité :

      Entrepôt national Recherche Data Gouv ⇒ Propose également des ateliers de la donnée dans toute la France.

      Obtention systématique d’un DOI, qui peut ensuite être cité
      Capture d'écran d'une publication sur Zenodo, montrant l'attribution d'un DOI à la publication.
      Versions du code :
    • Ce test QCM comporte 4 questions donnant 10 points au total, certaines questions peuvent avoir plusieurs réponses.

      L'obtention de 8 point validera votre réussite du test.