Résumé de section

  • Face aux tensions identifiées entre IA et science ouverte, il est essentiel de comprendre le cadre juridique qui encadre ces pratiques et les enjeux éthiques qu'elles soulèvent. Ce chapitre explore les règles existantes, les droits des chercheurs et les questions de responsabilité qui émergent dans ce nouveau paysage numérique.

    10 minutes de lecture

    • 1. Le cadre juridique protecteur existant

      La Loi pour une République numérique : un socle rassurant

      Michel Fraysse rappelle qu'avant même de s'inquiéter des IA, les chercheurs français disposent d'un cadre juridique solide pour leurs dépôts en archives ouvertes. La loi du 7 octobre 2016 "pour une République numérique" a créé l'article L. 533-4 du Code de la recherche, qui établit un "droit de seconde publication" inaliénable pour les chercheurs.


      Concrètement, même après avoir accordé des droits exclusifs à un éditeur, l'auteur conserve le droit de mettre gratuitement à disposition la version finale de son manuscrit acceptée pour publication. Ce droit s'applique aux recherches financées au moins pour moitié par des fonds publics, avec des délais de 6 mois pour les sciences exactes et 12 mois pour les sciences humaines et sociales.

      L'aspect le plus rassurant de cette loi réside dans son caractère d'ordre public : toute clause contractuelle qui tenterait de s'y opposer est automatiquement réputée non écrite. Les éditeurs ne peuvent donc pas empêcher légalement un chercheur français de déposer son travail en archive ouverte.

    • Le RGPD : protection des données personnelles

      Laïsa Ferreira précise que le Règlement Général sur la Protection des Données, entré en vigueur en 2018, encadre spécifiquement le traitement des données personnelles, y compris celles utilisées par les systèmes d'IA. Ce règlement introduit des principes fondamentaux comme la transparence, le consentement éclairé et le droit à l'oubli.

      Pour les chercheurs, le RGPD impose des obligations importantes lorsqu'ils manipulent des données personnelles, que ce soit dans leurs propres recherches ou lorsqu'ils utilisent des outils d'IA. Toute collecte de données se rapportant à une personne identifiée ou identifiable doit respecter ce cadre légal, incluant les obligations post-traitement pour maintenir la conformité.

    • L'IA Act : un cadre européen pionnier

      Michel Fraysse et Laïsa Ferreira soulignent que le règlement européen sur l'intelligence artificielle du 13 juin 2024 constitue une protection unique au monde. Ce texte adopte une approche par les risques :

      • Risque minime (peu régulés)
      • Haut risque
      • Usage général à risque systémique
      • Risque inacceptable (interdits)

      L'application de ce règlement se fait de manière échelonnée : les pratiques interdites (manipulation, reconnaissance biométrique abusive) sont entrées en vigueur en février 2025, les codes de bonnes pratiques en mai 2025, et les obligations des fournisseurs en août 2025.

      Bien que l'IA Act ne traite pas extensivement du droit d'auteur (seulement deux articles), il établit des principes de transparence, de partage d'informations et de conformité au droit d'auteur qui peuvent rassurer les chercheurs. Le règlement s'applique à toute activité d'IA en Europe, même pour des plateformes basées à l'étranger.

    • 2. Droits d'opposition et fouille de textes

      L'évolution de la fouille de textes et de données

      La fouille de texte et de données (text and data mining) est une technique informatique qui permet d'analyser automatiquement de grandes quantités de documents numériques pour en extraire des informations utiles.

      Laïsa Ferreira retrace cette évolution : la France a été pionnière en consacrant dès 2016 le droit à la fouille de textes et de données à des fins de recherche. Cette exception au droit d'auteur permet aux chercheurs d'utiliser ces techniques sur des œuvres protégées, à condition que l'accès soit licite.

      L'Union européenne a ensuite élargi cette exception en 2019 avec une directive qui prévoit deux niveaux d'autorisation :

      • d'une part, l'exploration de textes et de données reste libre dans le cadre de la recherche scientifique lorsque les œuvres ont été légalement consultées (ce qui équivaut à la Loi pour une République numérique de 2016) ;
      • d'autre part, une exception plus large autorise cette fouille pour toute finalité, sauf si l'auteur a manifesté explicitement son opposition (ce qu'on appelle "opt-out").
      Le mécanisme d'opt-out : un droit d'opposition limité

      Michel Fraysse souligne les limites pratiques de l'opt-out : cette opposition permet théoriquement aux auteurs de s'opposer à l'utilisation de leurs œuvres pour l'entraînement d'IA. Cependant, cette mesure de protection, bien que réelle et importante, sera certainement très difficile à mettre en œuvre et à contrôler dans les faits. Comment un auteur peut-il s'assurer que son opposition est respectée par tous les systèmes d'IA existants ? Comment peut-il même identifier quels systèmes utilisent ses travaux ?

    • Limites pratiques des recours juridiques

      Michel Fraysse souligne que la complexité des preuves constitue l'un des obstacles majeurs aux recours juridiques. Comment démontrer qu'une IA a utilisé spécifiquement vos travaux ? La traçabilité reste extrêmement difficile, et établir un lien de causalité direct entre un dépôt et une reproduction par l'IA relève souvent du défi technique.

      L'affaire New York Times VS OpenAI illustre ces difficultés : même avec des preuves apparemment évidentes (copier-coller manifeste), la défense peut contester la méthodologie utilisée pour obtenir ces reproductions, créant un doute sur la validité des preuves.

    • En résumé

      Les chercheurs français disposent d'un cadre juridique protecteur avec la loi de 2016 qui garantit le droit de seconde publication. Le RGPD et l'IA Act européen renforcent cette protection, bien que leur application pratique reste perfectible. Les droits d'opposition (opt-out) existent mais demeurent difficiles à mettre en œuvre concrètement.

      Plutôt que de se replier sur les archives fermées, la stratégie recommandée consiste à privilégier la "dépollution numérique" en alimentant les IA avec de la science de qualité. La validation humaine reste indispensable et les chercheurs doivent utiliser l'IA comme un outil d'assistance, non comme une source d'information.

      L'avenir semble pointer vers une complémentarité possible entre IA et science ouverte, à condition de développer une approche éthique et responsable. Cette cohabitation harmonieuse nécessite l'implication active de toute la communauté scientifique pour faire de l'IA un levier de progrès au service du savoir.