Résumé de section

    • Définition des données de la recherche

       Enregistrements factuels (chiffres, textes, images et sons) qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.

      • Les données ne sont pas (seulement) du code.

      • L’accès aux données de la recherche est différent de l’accès aux publications (lequel est également essentiel).


    • 2.1 Les jeux de données en informatique théorique

      Exemples
      Les données en informatique théorique peuvent prendre plusieurs formes telles que :

      • Des programmes rédigés dans un langage informatique
          for i in range(1, 2046):
      j += i
      print('Hello ' + j)
      • Des graphes ou des automates
      image1
      image2
       s1 -(1)-> s1
      s1 -(0)-> s2
      s2 -(0)-> s1
      s2 -(1)-> s2
      • Des données numériques (logs, suites de nombres…)
          @t=2.3: temperature=2.3; vitesse=4.5
      @t=2.7: temperature=3.2; vitesse=6.9
      @t=4.9: temperature=5.1; vitesse=20.46
      • Des modèles formels exprimés dans un langage formel
          VARIABLE clock
      Init == clock \in {0, 1}
      Tick == IF clock = 0 THEN clock' = 1 ELSE clock' = 0
      Spec == Init /\ [][Tick]_<<clock>>

      (ci-dessus : extrait de code TLA+)

      Spécificités

      En informatique théorique les jeux de données ne ressemblent pas à n'importe quel autre jeu de données. Ils ont pour particularités d'être :

      1. Généralement du texte
      • Code
      • Modèles formels codés dans des formats textuels (XML, JSON, CSV...)
      • Suites de nombres
      • À la différence de : données d’imageries (médecine, géographie...)
      2. Taille relativement modeste
      • Taille typique d’un programme ou d’un modèle : quelques dizaines ou centaines de Kio
      • Un programme même de grande taille excède très rarement 100 Mio
      • À la différence de : banques d’images (médecine, géographie, apprentissage artificiel...), relevés météorologiques, etc.
      3. Rarement de questions de confidentialité ou d’éthique
      • À la différence de : médecine, sociologie...
      • (Contre-exemple : collaborations industrielles avec accord de confidentialité...)

    • 2.2 La reproductibilité des données en informatique théorique :

      Une évidence ?

      Dans de nombreux domaines, il est extrêmement difficile voire impossible de reproduire des expériences à l’identique :

      • Médecine, biologie, sociologie, linguistique...
      • Cause principale : impossibilité d’appliquer deux fois la même méthode sur exactement les mêmes données avec le même environnement

      En informatique, un algorithme ou un programme avec les mêmes entrées devrait produire le même résultat :

      • Les temps d’exécution devraient être similaires (mais pas identiques : bruit lié à l’occupation de la machine)
      • Pas universel pour autant (Contre-exemples : algorithmes distribués, programmes fonctionnant sur des réseaux, programmes avec une part d’aléatoire...)
      Les obstacles :
      Obstacles à la reproductibilité des expériences en informatique :
      • Absence de partage des logiciels ou manque d’informations (version, environnement)
      • Absence de partage des données d’entrée ou manque d’informations (version)
      • Absence de partage des résultats attendus
      • Problématique de l’environnement (matériel, système d’exploitation)
    • Point-clé
      Reproductibilité des expériences
      • Il devrait être extrêmement facile de reproduire des expériences à l’identique en informatique théorique
      • Cette reproductibilité repose en grande partie sur l’ouverture des données de la recherche