Résumé de section

  • Si l'IA peut effectivement servir la science ouverte, son utilisation dans le champ académique n'est pas sans risque. Comme le souligne Rim-Sarah Alouane : "Cette efficacité soulève également quelques inquiétudes quant aux dérives potentielles d'une automatisation excessive du processus scientifique, notamment en termes de rigueur méthodologique et d'intégrité intellectuelle."

    20 minutes de lecture

    • 1. Les craintes légitimes des chercheurs

      Michel Fraysse souligne que les inquiétudes ne sont pas propres à la recherche. Tous les jours apportent leur lot de preuves que les IA génératives suscitent des craintes, des doutes, beaucoup de pessimisme dans de nombreuses professions créatives : traducteurs, photographes, musiciens, concepteurs de jeux vidéo...

      L'exemple révélateur des studios Ghibli

      Un cas concret illustre ces tensions : l'affaire des studios d'animation Ghibli opposés à ChatGPT. Des images dans le style Ghibli ont massivement circulé sur les réseaux sociaux, créées par la nouvelle version de ChatGPT. On devine qu'il y a un problème de reproduction d'un matériel protégé sans autorisation.

    • Le retour de la peur du plagiat

      Si on en vient au chercheur, c'est une crainte tout à fait compréhensible de voir ses articles "pillés", absorbés par des IA. Cette crainte rappelle le retour de la peur du plagiat, tel qu'il a été exprimé lorsque les premiers outils d'archives ouvertes sont apparus. Cette peur du plagiat avait alors été un frein à la généralisation de l'archive ouverte.

      Des chercheurs très favorables à la science ouverte, qui l'ont intégrée dans leurs pratiques [...] ceux-là même nous disent : "Je suis en train d'hésiter parce qu'avec l'IA, ça change tout, je n'ai pas de garantie par rapport à des plateformes pouvant moissonner, récupérer ces articles."

      Face à ces inquiétudes, une réaction naturelle consiste à penser que déposer uniquement dans des bases de données payantes ou des "coffres-forts numériques" offrirait une meilleure protection...

    • L'illusion du "coffre-fort numérique"

      Penser pouvoir se protéger des IA en ne déposant plus ses travaux en accès ouvert est en réalité une illusion. Les IA ne puisent pas uniquement dans le web gratuit

      Chaque document copié-collé dans une IA générative contribue à enrichir sa base de connaissances. Or, de nombreux utilisateurs alimentent involontairement ces systèmes en y versant des contenus protégés, notamment des articles issus de bases de données payantes qu'ils soumettent pour traduction, résumé ou analyse.

    • 2. Les risques techniques : "régurgitation" et hallucinations

      Au-delà du plagiat, d'autres craintes peuvent être identifiées :

      Déformation des propos

      Michel Fraysse utilise une image parlante pour décrire le comportement des IA : celle d'un "ogre qui régurgite et mâche des travaux de recherche". Cette métaphore illustre bien le processus par lequel l'IA ingère massivement des contenus pour ensuite les restituer de manière déformée, multipliant les erreurs, les fausses citations et les bibliographies fantaisistes.

      Cette préoccupation dépasse la question du vol intellectuel pour toucher à l'intégrité scientifique et au droit moral de l'auteur. Quand un chercheur est "cité" par une IA qui déforme ses idées, cela peut porter atteinte à sa réputation et à la qualité du débat scientifique.

      Hallucinations

      Rim-Sarah Alouane ajoute que les hallucinations représentent l'un des risques les plus sérieux de l'IA générative. Il s'agit d'erreurs parfois graves où l'IA produit des informations complètement erronées, approximatives ou totalement inventées. Ces erreurs sont d'autant plus dangereuses qu'elles peuvent sembler crédibles et être utilisées sans vérification par des chercheurs pressés.

      Le problème s'aggrave par la facilité d'utilisation de ces outils : obtenir une réponse ne prend que quelques secondes, ce qui incite à un usage sans discernement. Cette rapidité peut conduire à introduire des biais dans la littérature scientifique et altérer la crédibilité de la recherche.

    • 3. Les biais algorithmiques et leurs conséquences

      Contrairement aux processus de réflexion humains, les algorithmes d'IA prennent des décisions basées sur des données et des critères de calcul prédéfinis. Cette caractéristique peut introduire plusieurs types de biais systémiques qui se répercutent ensuite sur la production scientifique.

      Les biais liés aux données d'entraînement

      Ils constituent la première source de distorsion. Si les données utilisées pour entraîner l'IA sont elles-mêmes biaisées ou incomplètes, l'algorithme reproduira et amplifiera ces défauts.

      Les biais des concepteurs

      Ils représentent une deuxième source de problème. Les personnes qui créent ces algorithmes peuvent involontairement y injecter leurs propres préjugés culturels ou sociaux, sans même en avoir conscience.

      Les biais d'échantillonnage

      Ils constituent le troisième écueil. Les jeux de données utilisés peuvent être trop homogènes ou ne pas représenter suffisamment la diversité des situations réelles.

    • Quelques exemples d'impacts concrets sur la recherche

      Rim-Sarah Alouane illustre ces risques de biais algorithmiques par trois exemples concrets tirés de la recherche.

      Exemple en recherche médicale

      Certaines études ont été menées en recherche médicale. Elles montrent que si les modèles d'IA sont entraînés sur des données historiques qui sous-représentent certaines populations (femmes, minorités ethniques, personnes handicapées), ils produiront des résultats biaisés. Ces biais peuvent avoir des conséquences dramatiques sur l'efficacité des traitements pour les populations négligées.

      Distorsions dans la diffusion scientifique

      Les biais affectent également la circulation des connaissances. Les IA utilisées pour trier et recommander des publications scientifiques peuvent privilégier certains articles ou auteurs en fonction de leurs biais intégrés. Cette sélection automatisée crée un "biais de visibilité" qui peut marginaliser des recherches importantes ou des perspectives alternatives.

      Reproduction des inégalités dans le recrutement

      Le monde académique n'échappe pas aux biais algorithmiques dans ses processus de recrutement. L'utilisation d'algorithmes pour sélectionner des chercheurs risque de perpétuer les inégalités existantes si les critères d'évaluation reflètent des préjugés sociaux ou culturels.

    • 4. Les risques éthiques : "boîtes noires", privatisation et paper mills

      Rim-Sarah Alouane identifie trois risques éthiques majeurs qui menacent les fondements de la science ouverte.

      Le problème des "boîtes noires"

      L'opacité constitue un problème fondamental de nombreux systèmes d'IA. Ces "boîtes noires" prennent des décisions selon des processus que même leurs créateurs peinent parfois à expliquer. Cette opacité soulève des questions cruciales de responsabilité, d'éthique et de transparence, valeurs pourtant centrales dans la science ouverte.

      La menace de privatisation du savoir

      L'un des risques les plus préoccupants concerne la privatisation progressive du savoir scientifique. Cette évolution va à l'encontre des principes fondamentaux de la science ouverte qui prône l'accessibilité universelle des connaissances.

      Une fracture numérique risque d'émerger entre les institutions disposant des moyens financiers pour accéder aux outils d'IA les plus performants et celles qui en seront exclues. Cette inégalité d'accès menace l'idéal d'une science équitable et ouverte à tous, créant potentiellement deux vitesses dans la recherche mondiale.

      L'émergence des "paper mills"

      Un nouveau fléau menace l'intégrité scientifique : les "usines à papier" (paper mills) où l'IA génère en masse des articles pseudo-scientifiques de qualité douteuse. Le plus inquiétant dans ce phénomène, c'est qu'il arrive que ces contenus soient produits à la demande de chercheurs eux-mêmes.

      Cette dérive traduit une problématique plus large où la quantité de publications prime sur leur qualité. Lorsque les systèmes d'évaluation académique privilégient le nombre d'articles publiés, l'IA peut devenir un outil de contournement qui sape les fondements de l'intégrité scientifique.

    • Cas pratique : New York Times VS OpenAI

      Michel Fraysse cite l'exemple révélateur de l'affaire opposant le New York Times à OpenAI.

    • En résumé

      Les craintes exprimées par les chercheurs face à l'IA sont légitimes et rappellent les réticences initiales vis-à-vis des archives ouvertes. Les risques techniques sont bien réels, depuis les hallucinations jusqu'aux biais algorithmiques qui peuvent déformer la production scientifique.

      Se replier sur les archives fermées ne constitue pas une solution efficace puisque les IA accèdent également aux contenus protégés par d'autres voies. Les enjeux éthiques sont considérables, notamment le risque de privatisation du savoir et l'émergence de "paper mills" qui menacent l'intégrité scientifique.

      La difficulté à établir des preuves de contrefaçon et la complexité de la traçabilité rendent les recours juridiques incertains. Face à ces défis, l'intégrité scientifique est en jeu, avec un risque de dérive vers la quantité au détriment de la qualité.