Langues minorisées à corpus restreint : partager pour survivre
Aperçu des sections
-
-
Bienvenue dans ce parcours destiné aux doctorantes, doctorants, chercheuses, chercheurs en sciences humaines et sociales qui produisent et/ou travaillent sur des corpus de langues minorisées ! Découvrez et comprenez comment les corpus peuvent être utilisés pour faire avancer la recherche, servir à la société et contribuer à la survie numérique de langues à corpus restreint.
Ce parcours a été pensé et conçu pour être suivi de façon linéaire et progressive. Un sommaire s'affiche à la gauche de votre écran et vous permet de naviguer à votre convenance.
Bonne visite !
Si vous rencontrez des difficultés à ouvrir certains liens du cours, essayez de les ouvrir dans un autre navigateur.
Objectifs
- Identifier les enjeux du partage des corpus pour les langues minorisées
- Comprendre la chaîne de développement des applications du TAL
- Distinguer différents types de corpus pouvant alimenter un développement en TAL
- Identifier quelques caractéristiques d’un bon corpus pour le TAL
- Intégrer les principes FAIR dans vos pratiques de partage des corpus
- Interroger le cadre juridique qui s’applique à votre corpus
Ce cours est en libre accès !
Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous pouvez vous inscrire à ce cours si vous le souhaitez.
S'inscrire au cours -
Ce cours est disponible en plusieurs langues sur la plateforme de formation autrichienne IMooX : anglais, allemand, espagnol. -
Auteur(s) / Formateur(s): Mélanie Jouitteau - IKER-CNRSProduction: Lynda KEHLI - DoRANum, Inist-CNRSPublic cible: tout publicDate de publication: 19 octobre 2023Durée estimée: 1hPrérequis: aucunLicence: CC BY-NC-NDCitation: Jouitteau, M. & Kehli, L. (2023). Langues minorisées et à corpus restreint : partager pour survivre. Callisto Formation. DOI : https://doi.org/10.13143/G6RW-EB28DOI: 10.13143/g6rw-eb28Open badge: NonNombre d'inscrits: 0
-
-
-
Licence : CC-BY 4.0
Le breton est utilisé ici comme exemple mais il peut être remplacé par toute autre langue minorisée à corpus restreint.
-
1. Définition
-
Le corpus est « une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon de langage ».
Delais-Roussarie E. Corpus et données en phonologie post-lexicale : forme et statut. Langages [En ligne]. 2008 [consulté le 27 juin 2023] ; 171(3) : 60. Disponible : https://doi.org/10.3917/lang.171.0060 -
2. Types de corpus
-
Plusieurs types de corpus peuvent être utilisés pour alimenter le développement en TAL :
- Les corpus de données brutes sont les données monolingues "au kilomètre" directement telles que produites par les locuteurs. Par exemple, il peut s'agir d'enregistrements de collectages, d'archives de radios locales, d'interviews, de bandes sons de films, de données vocales libres enregistrées sur Common Voice, de publications sur les réseaux sociaux, d'articles de journaux, de textes de chanson, de romans et nouvelles, d'articles Wikipédia dans la langue...
- Les corpus annotés sont des données enrichies d'annotations linguistiques. Par exemple, il peut s'agir de traductions mot-à-mot, d'informations morphologiques et catégorielles, d'informations grammaticales et sémantiques sur la structure de la phrase...
- Les corpus de données brutes sont les données monolingues "au kilomètre" directement telles que produites par les locuteurs. Par exemple, il peut s'agir d'enregistrements de collectages, d'archives de radios locales, d'interviews, de bandes sons de films, de données vocales libres enregistrées sur Common Voice, de publications sur les réseaux sociaux, d'articles de journaux, de textes de chanson, de romans et nouvelles, d'articles Wikipédia dans la langue...
-
Il existe plusieurs formats d'annotation pour les corpus.
Choisissez des formats largement établis et utilisés à l'international comme, par exemple le format CoNLL (Conference on Natural Language Learning), qui permet de décrire des données textuelles en colonne selon un nombre d'attributs (catégorie grammaticale, traits de flexion, relations grammaticales, etc.). Ce format permet d'établir un schéma d'annotation syntaxique UD (Universal Dependencies).
Pour voir d'autres formats d'annotation, consultez la ressource "Annotation collaborative de corpus : Formats" (Fort, 2023).
-
Capture d'écran d'une annotation linguistique réalisée par l'outil FrMG de l'INRIA au schéma universal dependencies
Capture d'écran d'une annotation au format CoNLL -CLARIN. LINDAT/CLARIAH-CZ [En ligne]. UDPipe ; [consulté le 26 sep 2023]. Disponible : https://lindat.mff.cuni.cz/services/udpipe/?data=https://switchboard.clarin.eu/api/storage/cb833e5f-943e-4957-8db5-5cab24b41970?mediatype=text%2Fplain&model=fra
-
- Les corpus parallèles sont une autre forme de corpus enrichi. Ils organisent une correspondance entre un corpus monolingue et sa traduction dans une autre langue, ou dans une autre modalité. Il peut s’agir de versions corrigées de traductions universitaires, d’archives de bureaux de traductions, de traduction de films doublés, de traductions d’articles de Wikipédia, de transcription de collectages, etc.
- Un corpus multimodal est un corpus parallèle qui met en relation plusieurs modalités. Par modalité, on entend : oral, écrit ou gestuel. Par exemple, un corpus multimodal pourrait être un corpus qui documente la gestualité du langage oral, ou qui transcrit une langue signée.
- Les corpus parallèles sont une autre forme de corpus enrichi. Ils organisent une correspondance entre un corpus monolingue et sa traduction dans une autre langue, ou dans une autre modalité. Il peut s’agir de versions corrigées de traductions universitaires, d’archives de bureaux de traductions, de traduction de films doublés, de traductions d’articles de Wikipédia, de transcription de collectages, etc.
-
Dans la perspective d'un développement d'outils pour le TAL, il est intéressant de produire une traduction vers une langue à corpus large (anglais, français, allemand...).
-
3. Qu'est-ce qu'un bon corpus pour le TAL ?
-
Un bon corpus de départ est produit par des locuteurs natifs dont le dialecte est spécifié. Il représente des styles d’expression différents (journalistique, littéraire, familier, narratif et d’échanges, etc.).
En ce qui concerne l’écrit, on peut commencer par un premier écrit de 10 000 mots, et en préparer le traitement en désambiguïsant les points (ceux qui marquent la fin d’une phrase vs. ceux d’un acronyme par exemple), et les espaces (y a-t-il des mots qui comprennent un espace ou l’espace est-il toujours une frontière de mots ?). Pour améliorer les performances de plusieurs outils de traitement de la phrase, on peut estimer avoir besoin d’un bon corpus de taille assez importante (1 million de mots). Si on veut pouvoir établir le poids des différentes constructions dans l’usage, il faudra des échantillons équilibrés dans leurs styles, avec des phrases isolées, des textes suivis, mais aussi des conversations.
En ce qui concerne l’oral, on peut commencer par un enregistrement brut, monolingue, dont le format d’enregistrement est standard. Pour les premières ressources, on peut éviter les chevauchements de la parole, et nettoyer les sons parasites éventuels (tout en conservant en parallèle l'enregistrement original). -
Pour des recommandations pour la constitution de corpus oraux en particulier, se reporter à Baude et al. (2006), ainsi qu’aux modalités de leur dépôt dans l'entrepôt de données CoCoON (COllections de COrpus Oraux Numériques).
-
Quantité vs. qualité ?
-
Il est difficile de déterminer précisément la bonne taille pour un corpus. Est-ce 1000 mots ? 500 000 ? 1 000 000 ? En réalité, cela dépend fortement de la complexité de l'outil que l'on veut entraîner avec ledit corpus. En revanche, pour obtenir des résultats similaires, un corpus annoté nécessitera moins de mots qu'un corpus brut.
En effet, un corpus annoté demande un travail et un temps de conception non négligeable mais la richesse des annotations diminue la quantité de données nécessaire pour l'entraînement de l'outil. À l'inverse, un corpus brut doit être massif pour que l'algorithme puisse en déduire statistiquement des règles.C'est d'ailleurs ce qui se passe lorsque l'on apprend naturellement une langue par immersion. On entend des expressions incorrectes, des fautes de langage mais notre cerveau parvient à trier et à distinguer la forme la plus utilisée, qui est généralement la forme correcte.
C'est aussi en partie pour cette raison qu'il n'est pas nécessaire d'essayer de produire des corpus bruts dans une langue dite "parfaite". En effet, même si des corpus contiennent des "fautes" (formes typiques des apprenants, typos, données intraitables, fautes nombreuses, mais différentes d’un corpus à l’autre…), si la forme correcte est suffisamment représentée, alors l'algorithme saura trier le "bruit".
Ce qui est vrai pour un apprenant humain, l'est d'autant plus pour un algorithme qui n’est pas limité par sa mémoire. C'est pourquoi il est inutile de corriger l'intégralité des dissonances.
Licence : CC-BY 4.0
-
Attention, dans certains cas, la correction est contre-productive. Par exemple, si l'on souhaite apprendre à une application de reconnaissance vocale à reconnaître plusieurs variétés de langue, en incluant les formes « fautives », et les prononciations d’apprenants et de non-natifs de la langue, il est alors nécessaire d'avoir des corpus de "fautes".
Cela ne signifie pas que les formes fautives vont être irrémédiablement mélangées aux autres types de corpus, baissant globalement leur qualité. Il faut alors associer à chaque corpus des étiquettes claires (pour les métadonnées, voir partie 3.1.). On pourra les associer ou les dissocier à un set d’entraînement donné. -
Produire de bons corpus est une chose mais, pour qu'ils servent à un développement TAL, encore faut-il qu'ils soient FAIR : Faciles à trouver, Accessibles, Interopérables et Réutilisables.
-