Résumé de section

  • Cette formation explore l'impact de l'Intelligence Artificielle (IA) sur la recherche documentaire. Elle examine comment les outils d'IA générative transforment nos pratiques de recherche d'information, depuis les évolutions des moteurs de recherche traditionnels jusqu'à l'émergence de nouveaux assistants conversationnels.


    Objectifs généraux

    • Comprendre le fonctionnement des robots conversationnels et leurs différences avec les moteurs de recherche traditionnels
    • Identifier les limites et les biais des IA génératives dans un contexte de recherche documentaire
    • Distinguer les différentes approches de recherche (simple, approfondie)
    • Analyser de manière critique les réponses fournies par les outils d'IA et vérifier leur fiabilité

    Ce cours est en libre accès !

    Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

    Pour participer à certaines activités (test, forum...), vous pouvez vous inscrire au cours.

    S'inscrire au cours

    • Auteur(s) / Formateur(s): Aline Bouchard - Urfist de Paris
      Production cours: Viêt Jeannaud - Fondation Callisto
      Public cible: Doctorants, chercheurs et professionnels de l'information
      Date de publication: 8 décembre 2025
      Durée estimée: 1h30
      Licence: CC BY-NC-SA
      Open badge: Non
      Nombre d'inscrits: 0
      Recours à une IA: Amélioration ponctuelle de formulations et création d'interfaces HTML simulées : Claude Sonnet 4.5 - Image du cours : Leonardo.AI
      Catalogue: Oui
      Thématique: Recherche d'informations, Intelligence artificielle
      Durée: Format moyen (1h - 1h30)
      Type d'accès: Libre accès, Auto-inscription
      Partenaire: Urfist
      Langue: Français
  • La notion d'Intelligence Artificielle (IA) n'est pas récente, mais elle s'est démocratisée en fin d'année 2022 avec le lancement de ChatGPT au grand public. Depuis, les IA génératives ont pris une place considérable dans la vie de millions de personnes, que ce soit dans le cadre de la sphère privée ou professionnelle.

    2 minutes de lecture

    • Selon l'étude Ipsos "L’usage de l’intelligence artificielle par les Français" publiée en février 2025, 88% des français ont déjà entendu parler des IA et 39% les utilisent, ChatGPT étant l'IA la plus largement utilisée.

      Les IA de type agent conversationnel (ou chatbot) comme ChatGPT sont capables d'une multitude de services : converser, répondre à des questions, rédiger / corriger / résumer / traduire du texte, générer du code informatique, etc. Toutefois, toujours selon cette étude Ipsos, l'usage le plus plébiscité par les Français est la recherche d'information.

    • Les IA vont-elles remplacer les moteurs de recherche ?

      Si, à la base, les chatbots ou robots conversationnels n'y étaient pas destinés, force est de constater qu'ils sont de plus en plus utilisés pour effectuer des recherches. Depuis la fin des années 90, nous avions pris l'habitude d'utiliser les moteurs de recherche ("Google est ton ami"), mais au vu des tendances actuelles, nous pouvons nous demander si tout cela ne va pas changer.

      La question paraît légitime, mais la réponse n'est pas toute faite. Pour comprendre cela, il est nécessaire de revenir sur l'origine de ces IA, leur fonctionnement et leurs évolutions.

  • Les IA actuellement connues du grand public sont celles qui peuvent générer des contenus (texte, image, musique, vidéo...), que l'on appelle IA génératives. Certaines sont capables de converser avec nous, on les appelle aussi IA conversationnelles. Elles peuvent ainsi écrire un poème, créer du code informatique, expliquer un concept complexe, tenir une vraie conversation.

    15 minutes de lecture

    • Quelques exemples d'IA connues

      ChatGPT

      IA générative conversationnelle (crée du texte, du code, analyse des documents...) créé par OpenAI


      Le Chat

      IA générative conversationnelle (crée du texte, du code, analyse des documents...) créé par la société française Mistral

      Gemini

      IA générative conversationnelle (crée du texte, du code, analyse des documents...) créé par Google

      Midjourney

      IA générative d'images (crée des illustrations et visuels)

      Suno

      IA générative musicale (compose des chansons avec paroles et mélodie)

      Runway

      IA générative de vidéos (crée des vidéos à partir de descriptions textuelles ou d'images)

    • Ces IA populaires ne sont en fait qu'une des étapes les plus récentes de l'intelligence artificielle, qui est une discipline à part entière depuis les années 1940. Le Conseil de l'Europe apporte la définition suivante :

      INTELLIGENCE ARTIFICIELLE (IA)

      Ensemble de sciences, théories et techniques dont le but est de reproduire par une machine des capacités cognitives d’un être humain.

    • Une IA → Des IA

      Toutefois, il n'y a pas de définition unique de l'IA. C'est plutôt un mot valise dont le sens peut varier selon les spécialistes, les objectifs et les usages. Nous devrions plutôt parler des IA au pluriel, car il en existe des extrêmement spécialisées pour un type de tâches basées sur des modèles mathématiques et des règles bien définies, à l'image du célèbre Deep Blue d'IBM dans les années 90 pour les parties d'échec, ou encore Alphago de Google pour le jeu de go dans les années 2015-2017.

      Qui plus est, de nombreuses fonctionnalités que nous avons pris l'habitude d'utiliser s'appuient aussi sur des systèmes d'IA : l'auto-complétion sur le clavier des smartphones, les propositions d'itinéraires dans le GPS, la recherche vocale, les applications de traduction, le tri automatique des photos...

      Pour mieux s'en rendre compte, faisons une rapide rétrospective de l'IA, de ses débuts à aujourd'hui.

    • Un bref historique de l'IA

      La présentation ci-dessous retrace l'évolution des travaux sur l'IA, depuis ses débuts reposant sur des règles de logique jusqu'aux modèles récents devenant autonomes et se basant sur des probabilités.

      L'IA ne se limite donc pas aux outils les plus connus aujourd'hui. C'est une discipline qui évolue et qui passe par plusieurs courants (IA théorique / symbolique / connexionniste / générative). À noter que ces approches peuvent coexister. L'IA générative utilise techniquement le deep learning (IA connexionniste), mais nous l'avons distinguée des autres pour marquer son impact important sur l'évolution de l'IA.

    • En savoir plus sur le fonctionnement des IA
    • En résumé

      Nous avons vu que l'IA est un champ de recherche assez vaste et que les IA génératives, que tout le monde connaît aujourd'hui, n'en sont qu'une évolution récente. Ces IA génératives ont trois fonctions principales :

      1. Interaction en langage naturel ;
      2. Synthèse de réponse ;
      3. Conversation.

      Leur place grandissante les amène à concurrencer les traditionnels moteurs de recherche, qui ont pourtant une finalité différente (chercher des informations). Pour mieux comprendre cela, penchons-nous maintenant sur les liens et différences entre IA génératives et moteurs de recherche.

  • Les IA génératives sont désormais de plus en plus utilisées pour la recherche d'information. Quelles sont les convergences et divergences avec les moteurs de recherche classiques ?

    30 minutes de lecture

    • Les limites des IA génératives pour la recherche d'information

      Comme nous l'avons vu, les robots conversationnels sont souvent utilisés pour chercher des informations, chose qui était autrefois réservée aux moteurs de recherche. Toutefois, ces IA n'ont pas été conçues initialement pour ces usages (même si les choses évoluent, nous le verrons par la suite). 

      En effet, le principe d'une IA générative conversationnelle, tel que ChatGPT, est de générer du texte, d'avoir une conversation naturelle. Ces IA sont des outils linguistiques ayant pour objectif de mimer le langage humain, en s’appuyant sur des LLM (grands modèles de langage). C'est pourquoi elles ne font quasiment aucune faute grammaticale, sont capables de traduire, résumer, rédiger dans différents registres. 

    • L'aspect probabiliste

      D'un point de vue technique, les IA conversationnelles analysent les mots de votre question pour prédire statistiquement quels mots ont le plus de chances de former une réponse cohérente. Pour cela, elles s'appuient sur les patterns (motifs récurrents) qu'elles ont appris dans d'énormes volumes de textes lors de leur entraînement.

      Exemple

      Si l'IA générative génère ce début de texte "Le chat mange ses...", les probabilités du mot suivant pourraient être :

      1. "croquettes" (85%)
      2. "souris" (12%)
      3. "légumes" (3%)

      Dans la même logique, si vous lui demandez "Quel temps fait-il aujourd'hui ?", il pourrait vous répondre :

      1. "Il fait beau" (50%)
      2. "Il pleut" (50%)

      Cet exemple météo illustre bien que l'IA peut donner des réponses factuellement incorrectes (prétendre connaître la météo actuelle alors qu'elle n'a pas accès aux données en temps réel) tout en ayant une forte probabilité. Cette approche probabiliste explique pourquoi les IA génératives, malgré leurs capacités impressionnantes, ne sont pas optimales pour la recherche d'information.

    • Des réponses aléatoires

      L'aspect probabiliste entraîne des réponses aléatoires, qui varient pour des interactions similaires.

      Exemple

      Dans les deux exemples ci-dessous, il a été demandé la même question à ChatGPT : "Est-ce que François Bayrou a déjà été premier ministre ?".

      Dans le premier cas, la réponse donnée est que François Bayrou a été premier ministre sous la présidence de Jacques Chirac.

      Capture d'écran de l'exemple de réponse indiquant que François Bayrou a été premier ministre sous Jacques Chirac.

      Dans le second cas, la réponse donnée est que François Bayrou a été premier ministre sous la présidence de Nicolas Sarkozy.

      Capture d'écran de l'exemple de réponse indiquant que François Bayrou a été premier ministre sous Nicolas Sarkozy.

      Bien que les deux réponses soient fausses, on constate qu'elles varient pour la même question, illustrant l'impact de l'aspect probabiliste du fonctionnement du LLM.

    • Des données datées

      Les données sur lesquelles les LLM se sont entraînées s'arrêtent à une certaine date. Par exemple, pour GPT-5, sorti à l'été 2025, ses données d'entraînement s'arrêtent fin septembre 2024.

      Exemple

      Dans la capture d'écran ci-dessous, nous avons demandé à ChatGPT si François Bayrou a déjà été premier ministre. Sa réponse est "Non, François Bayrou n’a jamais été Premier ministre." alors qu'il a bien été, du 13 décembre 2024 au 9 septembre 2025.

      Capture d'écran de ChatGPT montrant la réponse "Non, François Bayrou n’a jamais été Premier ministre."

      Prompt réalisé le 10 octobre 2025 avec GPT-5.

    • Des hallucinations

      Les LLM sont conçus pour générer du texte fluide et cohérent, pas pour garantir la véracité des informations. Comme déclaré sous sa zone de saisie, "ChatGPT peut commettre des erreurs. Il est recommandé de vérifier les informations importantes." Et en effet, il arrive aux LLM de générer des réponses fausses, tout en les présentant comme des affirmations certaines

      Exemple

      Dans la capture d'écran ci-dessous, il a été demandé à ChatGPT la question suivante : "Dans sa dernière aventure, Harry Potter fait-il équipe avec un brocoli ou un carotte ?". La question semble absurde, pour peu que l'on connaisse Harry Potter, mais le chatbot ne reconnaît pas cette absurdité. Au lieu de répondre qu'il n'existe pas de tel personnage dans l'univers de Harry Potter, l'IA génère une réponse détaillée et cohérente sur un personnage végétal imaginaire nommé "Brocilus".
       

      Hallucination d'un ChatBot (ChatGPT) qui invente une histoire sur Harry Potter et un légume.

      Lobepaq, CC BY-SA 4.0, via Wikimedia Commons

      Comme nous l'avons vu, une des raisons des hallucinations est que le modèle fonctionne par prédiction statistique. Face à cette question, il génère le texte le plus probable en combinant ses connaissances sur Harry Potter avec la contrainte imposée (un légume). Il privilégie la cohérence narrative sur la véracité factuelle.

    •  Des biais intégrés

      Au-delà des hallucinations, les LLM peuvent également véhiculer des biais présents dans leurs données d'entraînement :

      • biais de genre, par exemple : associer certaines professions à un sexe plutôt qu'un autre, 
      • biais culturels, par exemple : sur-représenter certaines perspectives géographiques,
      • biais linguistiques, par exemple : privilégier les contenus anglophones. 

      Pour illustrer ces biais, observons les résultats obtenus avec la même requête posée à trois IA différentes : "Je cherche les 10 romans de science-fiction les plus importants ces 30 dernières années".

      Exemple

      Je cherche les 10 romans de science-fiction les plus importants ces 30 dernières années (au 22/08/2025)

      ChatGPT

      1. Le Problème à trois corps - Liu Cixin (2008)
      2. La Route (The Road) - Cormac McCarthy (2006)
      3. Altered Carbon - Richard K. Morgan (2002)
      4. Cloud Atlas - David Mitchell (2004)
      5. Blindsight - Peter Watts (2006)
      6. The Left Hand of Darkness - Ursula K. Le Guin (1969)
      7. The Windup Girl - Paolo Bacigalupi (2009)
      8. Autonomous - Annalee Newitz (2017)
      9. The Water Knife - Paolo Bacigalupi (2015)
      10. Semiosis - Sue Burke (2018)

      Le Chat

      1. Spin – Robert Charles Wilson (2005)
      2. Children of Time – Adrian Tchaikovsky (2015)
      3. La Horde du Contrevent – Alain Damasio (2004)
      4. Le Problème à trois corps – Liu Cixin (2008)
      5. Les Furtifs – Alain Damasio (2019)
      6. La Mer de la Tranquillité – Emily St. John Mandel (2022)
      7. Latium – Romain Lucazeau (2019)
      8. Semiosis – Sue Burke (2018)
      9. Carbone modifié – Richard K. Morgan (2002)
      10. Le Château des millions d’années – Alastair Reynolds (2018)

      Gemini

      1. La Trilogie martienne de Kim Stanley Robinson (1992-1996)
      2. L'Âge de diamant de Neal Stephenson (1995)
      3. La Cité des permutants de Greg Egan (1994)
      4. La Zone du Dehors d'Alain Damasio (1999)
      5. Le Cycle des Inhibiteurs d'Alastair Reynolds (2000)
      6. Carbone modifié de Richard Morgan (2002)
      7. Le Problème à trois corps de Liu Cixin (2008)
      8. Silo de Hugh Howey (2011)
      9. The Expanse de James S.A. Corey (2011)
      10. La Terre fracturée de N. K. Jemisin (2015)

      Cet exemple révèle plusieurs problèmes. D'abord, on remarque qu'il y a beaucoup d'œuvres anglo-saxonnes, avec une absence de traduction pour certains titres pourtant publiés en français. Ensuite, on constate que chaque IA propose une liste différente pour la même question, sans qu'il soit possible d'expliquer ces divergences. Enfin, les LLM peuvent adapter leurs réponses selon le profil supposé de l'utilisateur, créant ainsi des bulles de filtre sans que celui-ci en ait conscience.

    • Des données d'entraînement issues de contenus grand public

      Un autre biais particulièrement important pour la recherche documentaire concerne la nature même des données d'entraînement. Les LLM généralistes sont entraînés majoritairement sur des contenus "grand public" : articles de presse, forums, blogs, réseaux sociaux, Wikipédia...

      Les publications scientifiques, rapports techniques spécialisés ou bases de données académiques représentent une part minime de leur apprentissage. Au final, ces IA peuvent être très approximatives ou erronées sur des sujets académiques ou techniques pointus.

    • Rôle des IA génératives dans le processus de recherche d'information / de veille professionnelle

      Les IA de type chatbot s'appuient majoritairement sur des contenus grand public et se montrent confiantes dans leurs réponses (même si celles-ci sont fausses).

      Elles peuvent cependant avoir un rôle à jouer dans le processus de recherche d'information / de veille professionnelle :

      • Pour la préparation
        • Aide pour le brainstorming
        • Identification de mots-clés (listes, synonymes, occurences) en plusieurs langues
        • Pistes pour problématiques
      • Pour l'analyse
        • Préparation de tableaux, catégories, à partir de listes de vocabulaires, de données
        • Résumés et extraction de données de pages internet, de PDF
        • Rédaction de plans
        • Explication et reformulation
        • Analyse (ex. : matrices SWOT)
        • Proposition de questions complémentaires et de prévisions
      • Pour la rédaction
        • Proposition de présentation d'idées (lutte contre le syndrome de la page blanche)
        • Rédaction de contenus (ex. : slides de présentation, emails, communiqués réseaux sociaux, billets de blogs)
        • Reformulation et réécriture de contenus
        • Traduction

      Dans tous les cas, il conviendra de superviser le travail et de vérifier les éléments fournis. L'automatisation est possible seulement jusqu'à un certain point, et c'est cela qui fait encore la plus-value du professionnel de l'information, du chercheur, de l'étudiant...

    • L'évolution des moteurs de recherche et l'intelligence artificielle

      Nous venons de voir que les IA génératives actuelles présentent des limites importantes pour la recherche documentaire. Cependant, il faut noter que les moteurs de recherche utilisent l'intelligence artificielle depuis longtemps, bien avant l'émergence de ChatGPT et des chatbots conversationnels.

      Pour rappel, un moteur de recherche est un site qui permet de trouver des informations sur internet en tapant des mots-clés. Le processus se déroule en trois étapes principales :


      L'exploration (crawling)

      Le moteur envoie des robots automatiques (appelés crawlers ou spiders) qui parcourent le web en continu. Ces robots découvrent les sites et suivent tous les liens de page en page.


      L'indexation

      Toutes les pages découvertes sont analysées et stockées dans d'immenses bases de données. Le moteur extrait les mots-clés, analyse le contenu, et classe ces informations pour pouvoir les retrouver rapidement.


      Le classement (ranking)

      Quand vous tapez une requête, le moteur compare vos mots-clés avec son index, sélectionne les pages les plus pertinentes, classe les résultats selon des critères de qualité et de pertinence et affiche la liste des résultats en quelques millisecondes.

      Dès les années 2000, les moteurs de recherche ont progressivement intégré des technologies d'IA pour améliorer leurs performances, comme le crawling automatisé pour explorer et indexer le web ou les suggestions automatiques de requêtes.

      Les algorithmes des moteurs de recherche visent à fournir les résultats les plus pertinents et pour cela, ils doivent comprendre le contexte, l'intention de l'internaute derrière la question. Il y a en effet une course à l'attention : les internautes veulent tout et tout de suite, mais pas forcément en étant très actifs dans leur recherche d'information (trouver les bons mots-clés, utiliser des opérateurs booléens...). 

    • Du moteur de recherche au moteur de réponse

      Avec les progrès des IA, du web sémantique, de la compréhension du langage, et suite au développement des smartphones, les moteurs de recherche classiques se transforment en moteurs de réponse. Plutôt que de simplement fournir une liste de liens, ces outils cherchent désormais à donner directement l'information recherchée, sans que l'utilisateur ait besoin de naviguer sur d'autres sites.

      Cette évolution s'accompagne du développement de la recherche conversationnelle et de la personnalisation des résultats basée sur l'historique de l'utilisateur. Les moteurs sont à la recherche du "zéro clic".

      Description dans la légende ci-dessous.

      Page de résultat Google suite à la recherche "hauteur tour de Pise", montrant la réponse directe, les suggestions automatiques et la liste des résultats naturels.

    • Un écosystème en mutation

      L'arrivée des IA génératives a accéléré cette transformation, particulièrement depuis le printemps 2023. Les principaux moteurs de recherche ont annoncé ou déjà mis en place le développement d'agents conversationnels à l'image de Microsoft Bing (s'appuyant sur GPT), Qwant, Brave, ou encore Google AI Overview.

      Description dans la légende ci-dessous.

      Capture d'écran du moteur de recherche Brave intégrant une IA (Leo AI).

      En parallèle, les chatbots comme ChatGPT, Le Chat ou Claude proposent désormais d'effectuer des recherches sur le web présentant les sources, ce qui permet de vérifier les réponses données.

      Description dans la légende.

      Capture d'écran de ChatGPT intégrant la recherche d'information sur le web.

    • Convergences et divergences

      Si moteurs de recherche et robots conversationnels semblent converger, il n'en reste pas moins qu'ils ont, pour l'heure, des spécificités et domaines d'application privilégiés. Pour mieux comprendre ces différences, comparons les deux approches :

      Comparatif LLM et moteurs de recherche
        LLM Moteurs de recherche généralistes
      Source de données Données préformatées à partir de bases de données parfois anciennes Bases de données (index) mises à jour régulièrement
      Approche de traitement Approche par énoncé (langage naturel), permettant plus de contexte et de personnalisation Approche par mots-clés (et de plus en plus langage naturel aussi)
      Mode d'interrogation Prompt (plus ou moins précis) Requête (avec ajout possible de booléens, filtres, tris)
      Format de réponse Réponse rédigée (parfois sans source) Liste de résultats avec sources (et de plus en plus réponse rédigée aussi)
      Historique et suivi Recherche conversationnelle (contexte maintenu dans la conversation) Pas de conservation d'historique entre requêtes (itérations)
      Finalité → Outils de réponse
      (fournir une réponse directe)
      → Outils de recherche
      (orienter vers les bonnes sources)
    • En résumé

      Nous avons vu que les IA génératives et les moteurs de recherche répondent à des logiques différentes : les premières privilégient la génération de réponses conversationnelles à partir de données préformées, tandis que les seconds organisent l'accès à des sources actualisées. Cette complémentarité explique pourquoi de nouveaux outils hybrides émergent, tentant de combiner le meilleur des deux approches.

      Cependant, pour une recherche documentaire rigoureuse, notamment dans un contexte académique ou professionnel, ces distinctions soulèvent des questions importantes sur la fiabilité des sources, la vérification des informations et les méthodes de recherche appropriées. C'est ce que nous allons explorer dans la section suivante.

  • Les chatbots proposent maintenant des fonctions de recherche. Comment ça fonctionne ? Et surtout, est-ce que ça fonctionne ?

    40 minutes de lecture

    • La recherche simple

      Nous l'avons vu, les robots conversationnels peuvent faire des recherches sur le web. Il s'agit d'une fonctionnalité optionnelle ou ponctuelle : l'IA peut chercher sur le web quand on lui demande ou quand elle détecte qu'elle a besoin d'informations actuelles.

      D'un point de vue technique, le processus reste assez basique et ne prend que quelques secondes :

      1. Le LLM transforme le prompt en mots-clés optimisés pour la recherche ;
      2. Il fait sa requête sur un index de moteur de recherche ;
      3. Il accède aux sites pertinents, puis combine le prompt original avec les informations qu'il vient de récupérer ;
      4. Il génère une réponse finale sourcée et en langage naturel.

      Schéma du processus du RAG dans une recherche simple.

      Ce processus est appelé RAG (Retrieval Augmented Generation ou génération augmentée par récupération).

    • Fonctionnement du RAG

      Voyons le processus du RAG de façon détaillée à travers cet exemple de prompt.

      Quels sont les derniers records sportifs en 2025 ?
      Étape 1 : Prompt utilisateur - L'utilisateur pose sa question en langage naturel.
       
      Analyse du prompt...
      Étape 2 : Analyse & Transformation - Le LLM détecte qu'il a besoin d'informations actuelles et transforme le prompt en requêtes optimisées, par exemple avec les mots-clés suivants : "records du monde 2025"
       
      Recherche sur le web...
      Étape 3 : Recherche web - Le système utilise les mots-clés pour interroger un index de moteur de recherche et accède aux sites pertinents (sites d'actualités sportives, pages officielles, articles 2025). 
       
      Génération de la réponse...

      Voici quelques-uns des records sportifs récents et notables en 2025 :

      Athlétisme
      • Mondo Duplantis (Suède) : record du monde de saut à la perche avec 6,30 m
      • Jakob Ingebrigtsen (Norvège) : record du monde en salle pour le 1500 m

      [...]

      4 sources

      Étape 4 : Génération augmentée - Le LLM combine le prompt original avec les informations récupérées pour générer une réponse en langage naturel, structurée, cohérente et à jour. 
      Étape 5 : Sources vérifiables - Les sources sont fournies, permettant de vérifier l'exactitude des informations présentées.
      Temps total du processus RAG : quelques secondes
    • Intérêt du RAG

      La fonction de recherche reposant sur le RAG permet de s'affranchir de certaines limites des LLM, notamment en s’appuyant sur des bases de connaissances externes (index des moteurs de recherche par exemple) plutôt que de se limiter à générer des mots s'enchaînant de façon probabiliste à partir de données d'entraînement parfois obsolètes. 

      De plus, l'utilisateur peut voir le processus entrepris par l'IA et vérifier les sources qu'elle a récupérées pour générer sa réponse, ce qui améliore la transparence et la fiabilité des informations et permet de réduire les hallucinations.

      Toutefois, cette recherche simple reste limitée : elle effectue seulement quelques recherches ciblées et ne garantit pas une exploration exhaustive du sujet. Pour des besoins de recherche plus approfondis, une autre approche existe : la recherche approfondie.

    • La recherche approfondie (deep search)

      Contrairement à la recherche simple qui effectue quelques requêtes ciblées en quelques secondes, la recherche approfondie (ou deep search) utilise le RAG de manière intensive et itérative.

      Concrètement, lorsqu'on lance une recherche approfondie, l'IA ne se contente pas d'une seule série de recherches. Elle suit un plan de recherche structuré et effectue de multiples cycles successifs de manière autonome : elle recherche des informations, analyse les résultats, identifie les manques ou contradictions, puis relance de nouvelles recherches plus ciblées. Ce processus peut impliquer 10 à 50 recherches ou plus, avec lecture complète de sources, croisement d'informations et vérification des données.

      Schéma du processus itératif du RAG dans une recherche approfondie.

      Temps total du processus RAG en deep search : plusieurs minutes

      Le résultat n'est plus une simple réponse conversationnelle, mais un rapport détaillé comprenant une synthèse argumentée, une analyse comparative des sources, et une bibliographie complète. Cette approche méthodique prend généralement 5 à 15 minutes, mais offre une profondeur d'analyse comparable à la démarche itérative de la recherche documentaire.

      Pour exemple, vous trouverez ci-dessous un rapport généré après une recherche approfondie sur ChatGPT.

    • Exemple de rapport détaillé généré en 9 minutes par la fonction deep search de ChatGPT 5.

    • Quelques limites de la recherche approfondie
      • le nombre de sources vraiment couvertes ne permet pas de considérer une recherche comme exhaustive ;
      • on reste dans un contexte de recherche web classique, les pages sélectionnées le sont davantage sur leur popularité que sur leur pertinence scientifique (ranking).
    • Quelles limites pour les fonctions de recherche ?

      La recherche approfondie, proposée par des outils comme Perplexity ou ChatGPT, est potentiellement utile pour des besoins académiques ou professionnels nécessitant une exploration large d'un sujet.

      De plus, la fonction de recherche, qu'elle soit simple ou approfondie, permet de combler certaines lacunes des IA génératives "basiques" : moins d'hallucinations, plus de transparence sur la façon de procéder, possibilité de vérifier les sources...

      Mais comme vous vous en doutez, il subsiste quelques limites. Voyons cela à travers 3 rapides études de cas.

    • Étude de cas 1 : "Quels sont les signes avant-coureurs d'une guerre civile ?"

      Dans cet exemple, nous avons demandé à Perplexity la question suivante : "Quels sont les signes avant coureurs d'une guerre civile ?".

      Observez l'extrait de la réponse ci-dessous. Quel problème pouvez-vous relever ?


      🤔 Prenez un moment pour réfléchir. Vous avez votre réponse ? Vérifiez ci-dessous 👇

      Si l'on observe les sources, on constate que la première référence est un site survivaliste (Plandesurvie). Mais les autres sources ne sont pas nécessairement académiques (Reddit, Boursorama...) et peuvent être orientées (exemple : sites survivalistes, politiques...). Perplexity est un moteur de recherche généraliste, les sources sélectionnées le reflètent. Dès lors, quel crédit donner à la réponse ?

    • Étude de cas 2 : "Do we really need more optimistic science-fiction?"

      Dans cet exemple, nous avons demandé à ChatGPT la question suivante : "Do we really need more optimistic science-fiction?".

      Observez l'extrait de la réponse ci-dessous. Quel problème pouvez-vous relever ?


      🤔 Prenez un moment pour réfléchir. Vous avez votre réponse ? Vérifiez ci-dessous 👇

      Contrairement aux moteurs de recherche classiques qui se contentent de présenter une liste de références, les outils d'IA peuvent présenter des réponses sans neutralité. Comme on peut le voir, la réponse prend position dès le début ("Yes") et en conclusion ("Yes, we truly need more optimistic science fiction"). Dès lors, comment faire pour trouver des réponses n'allant pas dans le sens de l'outil ?

    • Étude de cas 3 : "Quels sont les usages par les lycéens des IA génératives en général et de ChatGPT en particulier en 2025 ?"

      Dans cet exemple, nous avons demandé à Perplexity la question suivante : "Quels sont les usages par les lycéens des IA génératives en général et de ChatGPT en particulier en 2025 ?".

      Observez l'extrait de la réponse ci-dessous. Quels sont les deux problèmes que vous pouvez relever ?

      Note : cet échange a eu lieu en mai 2025.


      🤔 Prenez un moment pour réfléchir. Vous avez votre réponse ? Vérifiez ci-dessous 👇

      La présence de sources ne signifie pas absence d'erreurs. On constate deux erreurs factuelles sur l'extrait :

      1. L'outil semble associer les lycéens à la tranche 18-25 ans ("93 % des jeunes de 18 à 25 ans") pour une question portant spécifiquement sur les lycéens.
      2. L'outil n'est pas capable de comprendre le contexte. On le voit avec la mention "Depuis la rentrée 2025, des cours obligatoires sur l’IA [...] sont déployés en lycée..." alors que la question a été posée en mai 2025.

      Dès lors, peut-on faire totalement confiance à un tel outil ?

    • En résumé

      Comme pour tout outil de recherche d'information, il convient de s'interroger sur le périmètre et les réponses obtenues.

      Les moteurs de recherche augmentés à l'IA combinent les limites des deux technologies :

      1. Moteurs de recherche : interrogation sur les critères de sélection et de représentativité des sources, notamment dans un cadre académique ;
      2. IA : interrogation sur la neutralité et la fiabilité des éléments narratifs (rédigés) notamment pour les sujets polémiques ou les données factuelles.

      À l'ère de l'IA, il convient de redoubler de vigilance pour la recherche d'information et de faire encore plus preuve d'esprit critique.

  • Tout au long de ce cours, nous avons exploré l'impact des IA génératives sur la recherche documentaire. Nous avons vu qu'elles transforment nos pratiques d'information en proposant des approches conversationnelles et des synthèses rapides, mais qu'elles présentent aussi des limites importantes : hallucinations, biais, manque de reproductibilité et sources parfois peu fiables.

    Les fonctions de recherche basées sur le RAG (simple ou approfondie) permettent de pallier certaines de ces limites en s'appuyant sur des bases de connaissances externes actualisées. Toutefois, elles ne remplacent pas une démarche de recherche rigoureuse et critique, essentielle dans un contexte académique ou professionnel.

    Dans tous les cas, gardez en tête ces quatre principes :

    1. comparez différentes requêtes ;
    2. comparez les outils entre eux ;
    3. vérifiez systématiquement les réponses des outils (présence de sources, contenus générés) ;
    4. tenez vous au courant des évolutions des outils que vous utilisez.
    • Et demain ? L'IA agentique ?

      La prochaine évolution se dessine déjà : l'IA agentique.

      Contrairement à l’IA générative, qui crée des réponses sur demande, l’IA agentique a la faculté de fonctionner de manière autonome et de prendre des décisions en fonction d’un ensemble d’objectifs prédéfinis par l’utilisateur ou l’utilisatrice. Il peut donc interagir avec plusieurs systèmes, bases de données et autres modèles d’IA.

      Les IA agentiques capables d'enchaîner des tâches complexes dans différents environnements sont pour l'instant plutôt utilisées dans le monde de l'entreprise ou dans le cadre de la sphère privée, par exemple :

      • réserver un billet d'avion, un hôtel et un restaurant pour un voyage ;
      • planifier un rendez-vous en consultant votre agenda et en envoyant les invitations ;
      • gérer vos courses en ligne en fonction de votre budget et de vos préférences alimentaires...

      Néanmoins, en l'état actuel de la technique, il convient de rester très prudent sur les résultats fournis par ces outils. En cumulant différents types d'IA à différents moments du processus, l'IA agentique tend en effet à renforcer les erreurs et le manque de contrôle humain.

      Toutefois, des plateformes comme SciSpace illustrent le potentiel de l'IA agentique en recherche documentaire : recherche de publications scientifiques, extraction de données, génération de synthèses, création de visualisations... le tout de manière automatisée et intégrée.

      Exemples de fonctionnalités d'IA agentique de SciSpace : chercher des articles, faire une revue de littérature, créer un site

      Si ce sujet vous intéresse, restez attentifs : un prochain cours dédié aux outils spécialisés en recherche documentaire explorera plus en détail comment ces technologies peuvent être mises au service d'une recherche académique.

    • Ce forum est à votre disposition pour tout échange sur le cours. Vos retours sont aussi les bienvenus.