Résumé de section

    • Licence : CC-BY 4.0

      Le breton est utilisé ici comme exemple mais il peut être remplacé par toute autre langue minorisée à corpus restreint.

    • 1. Définition

    • Bulb

      Le corpus est « une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon de langage ». 

    • 2. Types de corpus

    • Plusieurs types de corpus peuvent être utilisés pour alimenter le développement en TAL :

      • Les corpus de données brutes sont les données monolingues "au kilomètre" directement telles que produites par les locuteurs. Par exemple, il peut s'agir d'enregistrements de collectages, d'archives de radios locales, d'interviews, de bandes sons de films, de données vocales libres enregistrées sur Common Voice, de publications sur les réseaux sociaux, d'articles de journaux, de textes de chanson, de romans et nouvelles, d'articles Wikipédia dans la langue...

      • Les corpus annotés sont des données enrichies d'annotations linguistiques. Par exemple, il peut s'agir de traductions mot-à-mot, d'informations morphologiques et catégorielles, d'informations grammaticales et sémantiques sur la structure de la phrase...
    • Il existe plusieurs formats d'annotation pour les corpus.

      Choisissez des formats largement établis et utilisés à l'international comme, par exemple le format CoNLL (Conference on Natural Language Learning), qui permet de décrire des données textuelles en colonne selon un nombre d'attributs (catégorie grammaticale, traits de flexion, relations grammaticales, etc.). Ce format permet d'établir un schéma d'annotation syntaxique UD (Universal Dependencies).

      Pour voir d'autres formats d'annotation, consultez la ressource "Annotation collaborative de corpus : Formats" (Fort, 2023).

      • Les corpus parallèles sont une autre forme de corpus enrichi. Ils organisent une correspondance entre un corpus monolingue et sa traduction dans une autre langue, ou dans une autre modalité. Il peut s’agir de versions corrigées de traductions universitaires, d’archives de bureaux de traductions, de traduction de films doublés, de traductions d’articles de Wikipédia, de transcription de collectages, etc.

      • Un corpus multimodal est un corpus parallèle qui met en relation plusieurs modalités. Par modalité, on entend : oralécrit ou gestuel. Par exemple, un corpus multimodal pourrait être un corpus qui documente la gestualité du langage oral, ou qui transcrit une langue signée.

    • Dans la perspective d'un développement d'outils pour le TAL, il est intéressant de produire une traduction vers une langue à corpus large (anglais, français, allemand...).

    • 3. Qu'est-ce qu'un bon corpus pour le TAL ?

    • Un bon corpus de départ est produit par des locuteurs natifs dont le dialecte est spécifié. Il représente des styles d’expression différents (journalistique, littéraire, familier, narratif et d’échanges, etc.).

      En ce qui concerne l’écrit, on peut commencer par un premier écrit de 10 000 mots, et en préparer le traitement en désambiguïsant les points (ceux qui marquent la fin d’une phrase vs. ceux d’un acronyme par exemple), et les espaces (y a-t-il des mots qui comprennent un espace ou l’espace est-il toujours une frontière de mots ?). Pour améliorer les performances de plusieurs outils de traitement de la phrase, on peut estimer avoir besoin d’un bon corpus de taille assez importante (1 million de mots). Si on veut pouvoir établir le poids des différentes constructions dans l’usage, il faudra des échantillons équilibrés dans leurs styles, avec des phrases isolées, des textes suivis, mais aussi des conversations.
      En ce qui concerne l’oral, on peut commencer par un enregistrement brutmonolingue, dont le format d’enregistrement est standard. Pour les premières ressources, on peut éviter les chevauchements de la parole, et nettoyer les sons parasites éventuels (tout en conservant en parallèle l'enregistrement original).

    • Pour des recommandations pour la constitution de corpus oraux en particulier, se reporter à Baude et al. (2006), ainsi qu’aux modalités de leur dépôt dans l'entrepôt de données CoCoON (COllections de COrpus Oraux Numériques).

    • Quantité vs. qualité ?
    • Il est difficile de déterminer précisément la bonne taille pour un corpus. Est-ce 1000 mots ? 500 000 ? 1 000 000 ? En réalité, cela dépend fortement de la complexité de l'outil que l'on veut entraîner avec ledit corpus. En revanche, pour obtenir des résultats similaires, un corpus annoté nécessitera moins de mots qu'un corpus brut.
      En effet, un corpus annoté demande un travail et un temps de conception non négligeable mais la richesse des annotations diminue la quantité de données nécessaire pour l'entraînement de l'outil. À l'inverse, un corpus brut doit être massif pour que l'algorithme puisse en déduire statistiquement des règles.

      C'est d'ailleurs ce qui se passe lorsque l'on apprend naturellement une langue par immersion. On entend des expressions incorrectes, des fautes de langage mais notre cerveau parvient à trier et à distinguer la forme la plus utilisée, qui est généralement la forme correcte.

      C'est aussi en partie pour cette raison qu'il n'est pas nécessaire d'essayer de produire des corpus bruts dans une langue dite "parfaite". En effet, même si des corpus contiennent des "fautes" (formes typiques des apprenants, typos, données intraitables, fautes nombreuses, mais différentes d’un corpus à l’autre…), si la forme correcte est suffisamment représentée, alors l'algorithme saura trier le "bruit".
      Ce qui est vrai pour un apprenant humain, l'est d'autant plus pour un algorithme qui n’est pas limité par sa mémoire. C'est pourquoi il est inutile de corriger l'intégralité des dissonances. 


      Licence : CC-BY 4.0

    • Attention, dans certains cas, la correction est contre-productive. Par exemple, si l'on souhaite apprendre à une application de reconnaissance vocale à reconnaître plusieurs variétés de langue, en incluant les formes « fautives », et les prononciations d’apprenants et de non-natifs de la langue, il est alors nécessaire d'avoir des corpus de "fautes".
      Cela ne signifie pas que les formes fautives vont être irrémédiablement mélangées aux autres types de corpus, baissant globalement leur qualité. Il faut alors associer à chaque corpus des étiquettes claires (pour les métadonnées, voir partie 3.1.). On pourra les associer ou les dissocier à un set d’entraînement donné.


    • Produire de bons corpus est une chose mais, pour qu'ils servent à un développement TAL, encore faut-il qu'ils soient FAIR : Faciles à trouver, Accessibles, Interopérables et Réutilisables.