Résumé de section

  • Cette formation vise à aider des personnes utilisatrices de notebooks computationnels tels que les Jupyter notebook, à mieux les inscrire dans une démarche de diffusion ouverte. Après un court rappel sur les notebooks et leur fonction avec des exemples tirés des SHS, un focus sera fait sur les aspects juridiques de la diffusion ouverte du code source avec des licences libres et Open Source.


    Objectifs généraux

    • Produire des notebooks s’intègrant dans une démarche de science ouverte
    • Connaître les bonnes pratiques de diffusion pour faciliter la réutilisation à appliquer pour les notebooks
    • Se repérer dans les différents types de licences à associer aux notebooks pour le partage du code source

    Ce cours est en libre accès. Aucune inscription n'est nécessaire.

    Bonne lecture !

    • Auteur(s) / Formateur(s): Célya Gruson Daniel - Inno3, Clémence Lascombes - Inno3
      Production cours: Viet Jeannaud - Fondation Callisto
      Relecture: Mari Le Béchec - Université de Lorraine
      Public cible: Utilisateurs de notebooks computationnels souhaitant les rendre disponibles selon les principes de science ouverte
      Date de publication: 12 décembre 2025
      Durée estimée: 30 minutes
      Prérequis: Utiliser des notebooks (Jupyter notebook, suite Google Colab...), connaissances de base sur la science ouverte et les principes FAIR
      Licence: CC BY-SA
      Citation: Gruson-Daniel, C., & Lascombes, C. (2025). Diffuser un notebook selon les principes FAIR (Version 1). Callisto.
      DOI: https://doi.org/10.60538/DIFFUSER-NOTEBOOK-PRINCIPES-FAIR
      Open badge: Non
      Catalogue: Oui
      Thématique: Science Ouverte, Aspects juridiques, Communication / médiation scientifique, Outils / logiciels
      Durée: Format court (< 1h)
      Type d'accès: Libre accès, Ressource éducative libre
      Partenaire: Callisto
      Langue: Français
  • Durée estimée : 10 minutes

        • Les notebooks dits computationnels sont des supports numériques permettant d’intégrer des éléments de contenu (du texte), des éléments de programmation pour faire des traitements (du code produit dans différents langages comme du python, du R, etc.) et le résultat de ces traitements : des visualisations, des statistiques .

          Capture d'écran montrant un notebook, avec l'arborescence des fichiers à gauche et la visualisation d'un fichier à droite.

          Exemple de notebook - Source : Émilien Schultz, GitHub

        • Les notebooks sont largement utilisés au sein des communautés de recherche. Lors d’un focus group animé en 2024 et d’entretiens analysés en 2025, ce sont essentiellement les ingénieur.e.s de recherche qui intègrent les notebooks dans leurs pratiques de recherche. Les chercheurs et chercheuses interviennent dans un second temps et souhaitent avoir un document concis, clair et facile à réutiliser.

          Diagramme : 12/20 participants sont ingénieur.e.s de recherche, 5 personnels IST, 3 autres profils

          Cependant, les communautés scientifiques déjà largement familiarisées à des outils de programmation, notamment en sciences et techniques (médicales, informatique, biologie) et les communautés plus éloignées de ces outils, comme les sciences sociales, ne vont sûrement pas utiliser de la même manière ces nouveaux outils.

        • Usages pédagogiques

          L’un des usages des notebooks est d’ordre pédagogique. Cet usage est avant tout possible par la dimension narrative et structurée des notebooks offrant une démarche pédagogique pas à pas. En effet, l’exécution cellule par cellule permet de montrer le fonctionnement du code à des étudiant·e·s et construire une progression pédagogique.

          Exemple de notebook pédagogique : alternance entre cellules de texte (Markdown) et cellules de code exécutables, permettant une progression narrative et l'apprentissage pas à pas.

          Ainsi, le notebook se présente comme un tutoriel ou un modèle et est un outil de médiation, soit pour des étudiant·e·s, soit pour des collègues de recherche peu familiarisé·e·s avec la démarche. 

        • Usages en recherche

          Au-delà de l'usage pédagogique, les notebooks sont largement utilisés en recherche, au sein de différentes disciplines. Différents usages ont déjà été observés :

          Décrire la méthodologie de recherche

          Comme un carnet de laboratoire numérique, en détaillant les réflexions et présentant les étapes successives

          Faciliter la discussion collaborative

          Permettre les échanges autour du code et des résultats au sein d'une équipe de recherche

          Documenter un projet

          Créer une base de documentation technique (fonctions utilisées, packages installés, code employé) pour la pérennité du projet

          Partager des traitements reproductibles

          Diffuser via des plateformes collaboratives (Google Colab, GitLab, GitHub, Binder)

          Enrichir une publication scientifique

          Compléter un article en hébergeant les figures interactives et la méthodologie complète

        • Quelques exemples d'usages par discipline

          Ces différents usages se déclinent de manière spécifique selon les disciplines et leurs besoins méthodologiques. Voici quelques exemples concrets :

          Géographie

          Constitution de cartes à partir de données géospatiales.

          Histoire

          Analyse de corpus textuels par text and data mining et OCRisation de sources anciennes. La revue Journal of Digital History publie des articles sous forme de notebooks détaillant méthodologie et réflexion.

          Physique

          Analyse et visualisation de gros volumes de données impossibles à traiter manuellement.

          Traitement automatique des langues

          Démonstration de modèles et algorithmes lors de conférences, soutenances de thèse ou ateliers de formation.

  • Durée estimée : 5 minutes

        • La science ouverte vise à favoriser une diffusion des connaissances dès qu'elles sont disponibles, en utilisant les technologies numériques et collaboratives. Le libre accès (open access) est depuis longtemps au cœur des préoccupations de la science ouverte. Les données de recherche jouent un rôle essentiel et sont soumises à un ensemble de normes et de principes regroupés sous l'acronyme FAIR : Findable Accessible Interoperable Reusable (voir aussi le cours "C'est quoi les principes FAIR ?" - OSCAR INRAE). Les codes sources et logiciels ont quant à eux fait l'objet d'une attention plus tardive des politiques publiques en matière de science ouverte alors que le mouvement de l'Open Source et de logiciels libres est largement ancré dans des principes organisationnels, économiques et juridiques.

        • Les notebooks ont souvent été cités comme facteur clef de la science ouverte en favorisant la reproductibilité. Si la "reproductibilité" des résultats est la principale qualité recherchée et mise en avant dans plusieurs études (Pimentel et al., 2021; Samuel & Mietchen, 2022), les travaux montrent qu'elle est loin d'être atteinte dans la plupart des notebooks disponibles publiquement, notamment sur GitHub .

          Pour parvenir à une reproductibilité ou une reproduction, il est important que les notebooks, les données et l'environnement de travail associé s'insèrent eux-mêmes dans les principes FAIR. Aujourd'hui, peu de notebooks respectent ces principes, par exemple il peut manquer une licence, un DOI ou les métadonnées sont incomplètes.

        • Plusieurs chemins sont donc envisageables pour amener une meilleure prise en compte des critères FAIR dans les notebooks. Il peut s'agir par exemple de réfléchir aux enjeux d'accessibilité et d'indexation, notamment d'identification des versions des notebooks lors de l'archivage, ou de la réutilisation avec la mention de licences libres.

          La diffusion des notebooks participe au respect des principes FAIR en mettant à disposition :

          • votre notebook avec une licence libre et Open Source (cf. section 3 : Focus sur la diffusion ouverte via l'utilisation de licences libres);
          • vos données en les liant à votre notebook pour favoriser sa réutilisation.
        • Exemple de notebook FAIR

          Ci-dessous se trouve un exemple de notebook déposé dans l'entrepôt Zenodo. Les éléments mis en évidence par les icônes "+" précisent en quoi ils contribuent à respecter les principes FAIR.

          Yang, K., Meyer, A., Fischer, A., & Strutton, P. (2025). Global trends in ocean fronts: impacts on air-sea CO2 flux and chlorophyll concentrations - Jupyter notebooks (Python) used to reproduce figures. Zenodo. https://doi.org/10.5281/zenodo.15581162

  • Durée estimée : 15 minutes

        • Tout d’abord, le cadre juridique entourant les notebooks et leur environnement n’est que peu présent et abordé. En 2019, Schröder et al. montrent par exemple une absence majeure de licence sur des Jupyter notebooks avec au moins un tiers des ressources sans licences .

          Diagramme en barres des licences de notebooks et articles (n=36), séparé par une ligne verticale.

          Chaque barre représente les notebooks utilisant une licence donnée (axe horizontal). Les couleurs indiquent la licence de l'article associé. La ligne verticale distingue les licences problématiques (gauche) des licences standardisées (droite). Source : Schröder et al., 2019

          Lorsque des licences sont indiquées, les plus fréquentes sont la MIT, la GPL (sans nécessairement la version précise de la licence concernée) et la CC0. Les choix d’une licence ou d’une autre n’ont pas été justifiés. Le choix de la licence Creative Commons Zero (CC0) est peu commun dans le domaine de l’Open Source. Par ailleurs, il n'existe que peu de recommandations pour citer correctement le code source ou les données dans un notebook accompagnant une publication scientifique .

        • Les licences reposent sur le cadre juridique de la propriété intellectuelle (PI). C’est toute la force des modèles ouverts (Open Source, open data, open access) de s’appuyer sur le cadre juridique de la PI, tout en l'utilisant de manière inclusive et ouverte : l’idée derrière les licences est de diffuser non pas en limitant, mais en fixant un cadre de partage possible. Pour cela, chaque licence détermine un ensemble précis d’autorisations et de modalités d’exploitation, définissant ainsi le cadre juridique applicable à la mise à disposition de l’œuvre. Les plus connues sont notamment :

          • les licences Creative Commons
          • et les licences open data telle que la “Licence Ouverte 2.0” utilisée par l’administration française

          Les licences Creative Commons (CC) sont mondialement connues et utilisées par leur lecture facilitée par des pictogrammes. Toutes les CC ont en commun un socle contractuel qui permet l'utilisation de la ressource et du repartage. Les différentes conditions de partage présentées ci-dessous peuvent être combinées pour créer une licence personnalisée plus ou moins permissive (CC BY, CC BY-SA, CC BY-NC, CC BY-NC-SA...).


          Attribution
          (BY : citation de l'auteur·e)


          Partage dans les mêmes conditions
          (SA : share alike)


          Pas d'utilisation commerciale
          (NC : non commercial)


          Pas de modification
          (ND : non derivs)

        • À noter

          Les notebooks contiennent à la fois du texte, du code source, des images, etc.. De ce fait, le statut juridique du notebook est complexe. Il peut se rapprocher des oeuvres multimédias qui se décomposent en plusieurs œuvres.

          Les licences Creative Commons ne sont donc pas les seules licences à considérer, car elles sont employées pour fixer les conditions de partage et d’utilisation d’œuvre sous forme de textes, d’images, d’audios de vidéos, et non pas de code source. La Fondation Creative Commons elle-même recommande de ne pas utiliser les licences Creative Commons sur du code source.

        • Il convient donc de se tourner vers des licences libres et Open Source qui vont s’appliquer à l’ensemble du notebook. Ces licences libres peuvent être perçues comme un contrat par lequel l’auteur met à disposition son travail en accordant une cession non-exclusive de ses droits de propriété intellectuelle sur celui-ci. L’objectif de ce type de licence est de favoriser l’utilisation, l’amélioration, la réutilisation et la rediffusion

        • Un peu d'histoire

          La plupart des recherches actuelles abordent le mouvement "Free/Libre Open Source Software" (FLOSS), soit les logiciels libres et Open Source, sans faire de distinction entre les deux mouvements. Ce rappel historique permet néanmoins de mieux comprendre les origines respectives, et notamment les raisons pour lesquelles les licences dites “copyleft” ou “avec clause de réciprocité” (qui impose de reverser les améliorations apportées sous la même licence) sont généralement privilégiées au sein du courant Logiciel Libre, là où l’Open Source est relativement neutre sur le sujet et labellise autant de telles licences copyleft que des licences dites “permissives” qui imposent très peu de contraintes (et permettent notamment que les versions modifiées du logiciel puissent être placées sous licence fermée).

        • Il y a deux types de licences libres et Open Source : les licences permissives et les licences types "copyleft".

          Critère Licences permissives Licences copyleft
          Définition Permettent l'exploitation et la réutilisation du notebook avec des conditions peu restrictives. Un code sous licence Open Source peut être intégré dans un autre logiciel, même commercial. Les principales obligations : maintenir la licence, mentionner l'auteur·rice, indiquer la licence, s'interdire toute action en matière de brevets. Rendent persistantes les libertés accordées initialement. Obligent les réutilisateur·rices à appliquer la même licence (partage "à l'identique"). Si un notebook sous licence copyleft est réutilisé, il doit être republié sous la même licence. Les effets peuvent concerner certaines parties ou l'intégralité du notebook.
          ✓ Avantages
          • Favorisent un partage plus large et une réutilisation maximale de votre notebook
          • Le code peut être intégré dans des projets plus larges tout en respectant les obligations de la licence
          • Plus grande compatibilité entre licences, permettant de mixer du code de différentes origines
          • Garantissent que le travail sera toujours diffusé selon des principes libres et Open Source
          • Favorisent une relation de confiance entre auteur·rices et réutilisateur·rices
          • Créent un "pot commun" et une solidarité entre contributeur·rices
          ⚠ Désavantages La diffusion large rend plus difficile le suivi des différentes réutilisations et modifications. Le partage à l'identique peut limiter les réutilisations, notamment pour les organisations souhaitant redistribuer sous licence propriétaire ou plus permissive dans des contextes commerciaux.
          Quand choisir ?
          • Vous souhaitez diffuser largement sans vous soucier des réutilisations
          • Objectif de partager le plus largement possible vos idées
          • Votre code peut nourrir des systèmes plus larges (ex : une brique pour faire des cartes topographiques)
          • Vous souhaitez suivre l'évolution de votre code et ses réutilisations
          • Démarche collaborative avec d'autres projets Open Source
          • Vous voulez garantir que les améliorations restent ouvertes
          Exemples MIT BSD Apache
          Ex : Android est distribué essentiellement sous licence Apache
          GNU GPL Mozilla Public License
          La GPL est la plus largement utilisée
    • Le notebook est un outil souvent incontournable pour analyser des données et faire ses premiers pas en programmation. Il facilite les échanges et peut être didactique. Leur mise en ligne permet à d'autres personnes de vérifier l'analyse dans une démarche de reproductibilité, voire de les réutiliser.

      Pour rendre accessible votre notebook, trois aspects sont essentiels :

      • Rendre claire la démonstration et l'analyse menée ;
      • Apposer une licence adaptée (permissive ou copyleft) sur le notebook lui-même ;
      • Décrire l'environnement technique associé.

      Enfin, n'oubliez pas de réfléchir à la diffusion des données associées en respectant les principes FAIR, tout en tenant compte des éventuelles contraintes (données sensibles ou personnelles).

      • Pimentel, João Felipe, Leonardo Murta, Vanessa Braganholo, et Juliana Freire. « Understanding and Improving the Quality and Reproducibility of Jupyter Notebooks ». Empirical Software Engineering 26, no 4 (2021): 65. https://doi.org/10.1007/s10664-021-09961-9.
      • Samuel, Sheeba, et Daniel Mietchen. « Computational reproducibility of Jupyter notebooks from biomedical publications ». arXiv:2209.04308. Prépublication, arXiv, 9 septembre 2022. https://doi.org/10.48550/arXiv.2209.04308.
      • Le Béchec, Mariannig, Célya Gruson-Daniel, Clémence Lascombes, Émilien Schultz. « Notebook and Open Science : Toward More FAIR Play ». Journal of Data Mining & Digital Humanities Atelier Digit\_Hum (décembre 2024). https://doi.org/10.46298/jdmdh.13428.
      • Le Béchec, Mariannig, Célya Gruson-Daniel, Clémence Lascombes, Émilien Schultz. NOOS - Report on the focus group « Uses and practices of notebooks in an open research approach ». Zenodo, 2024. https://doi.org/10.5281/zenodo.14185617.