Section : II. Quels corpus pour le TAL ? | Langues minorisées à corpus restreint : partager pour survivre

Sélectionner l’activité * * * * [1 des lapins demande à son collègue si so...
Précédente Suivante

Licence : CC-BY 4.0

Le breton est utilisé ici comme exemple mais il peut être remplacé par toute autre langue minorisée à corpus restreint.
Sélectionner l’activité 1. DÉFINITION

1. Définition
Sélectionner l’activité [Bulb] > __ Le corpus est « une collection de donn...

Le corpus est « une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon de langage ».

Delais-Roussarie E. Corpus et données en phonologie post-lexicale : forme et statut. Langages [En ligne]. 2008 [consulté le 27 juin 2023] ; 171(3) : 60. Disponible : https://doi.org/10.3917/lang.171.0060
Sélectionner l’activité 2. TYPES DE CORPUS

2. Types de corpus
Sélectionner l’activité Plusieurs types de corpus peuvent être utilisés po...
Plusieurs types de corpus peuvent être utilisés pour alimenter le développement en TAL :

Les corpus de données brutes sont les données monolingues "au kilomètre" directement telles que produites par les locuteurs. Par exemple, il peut s'agir d'enregistrements de collectages, d'archives de radios locales, d'interviews, de bandes sons de films, de données vocales libres enregistrées sur Common Voice, de publications sur les réseaux sociaux, d'articles de journaux, de textes de chanson, de romans et nouvelles, d'articles Wikipédia dans la langue...

Les corpus annotés sont des données enrichies d'annotations linguistiques. Par exemple, il peut s'agir de traductions mot-à-mot, d'informations morphologiques et catégorielles, d'informations grammaticales et sémantiques sur la structure de la phrase...
Sélectionner l’activité Il existe plusieurs formats d'annotation pour les ...

Il existe plusieurs formats d'annotation pour les corpus.
Choisissez des formats largement établis et utilisés à l'international comme, par exemple le format CoNLL (Conference on Natural Language Learning), qui permet de décrire des données textuelles en colonne selon un nombre d'attributs (catégorie grammaticale, traits de flexion, relations grammaticales, etc.). Ce format permet d'établir un schéma d'annotation syntaxique UD (Universal Dependencies).
Pour voir d'autres formats d'annotation, consultez la ressource "Annotation collaborative de corpus : Formats" (Fort, 2023).
Sélectionner l’activité Phrase annotée avec le schéma UD (universal depend...

Phrase annotée avec le schéma UD (universal dependencies) Phrase annotée au format CoNLL (Conference on Natural Language Learning)

Capture d'écran d'une annotation linguistique réalisée par l'outil FrMG de l'INRIA au schéma universal dependencies

Capture d'écran d'une annotation au format CoNLL -

CLARIN. LINDAT/CLARIAH-CZ [En ligne]. UDPipe ; [consulté le 26 sep 2023]. Disponible : https://lindat.mff.cuni.cz/services/udpipe/?data=https://switchboard.clarin.eu/api/storage/cb833e5f-943e-4957-8db5-5cab24b41970?mediatype=text%2Fplain&model=fra
Sélectionner l’activité * Les CORPUS PARALLÈLES sont une autre forme de CO...
Les corpus parallèles sont une autre forme de corpus enrichi. Ils organisent une correspondance entre un corpus monolingue et sa traduction dans une autre langue, ou dans une autre modalité. Il peut s’agir de versions corrigées de traductions universitaires, d’archives de bureaux de traductions, de traduction de films doublés, de traductions d’articles de Wikipédia, de transcription de collectages, etc.

Un corpus multimodal est un corpus parallèle qui met en relation plusieurs modalités. Par modalité, on entend : oral, écrit ou gestuel. Par exemple, un corpus multimodal pourrait être un corpus qui documente la gestualité du langage oral, ou qui transcrit une langue signée.
Sélectionner l’activité DANS LA PERSPECTIVE D'UN DÉVELOPPEMENT D'OUTILS PO... (copie)

Dans la perspective d'un développement d'outils pour le TAL, il est intéressant de produire une traduction vers une langue à corpus large (anglais, français, allemand...).
Sélectionner l’activité 3. QU'EST-CE QU'UN BON CORPUS POUR LE TAL ?

3. Qu'est-ce qu'un bon corpus pour le TAL ?
Sélectionner l’activité Un bon corpus de départ est produit par des LOCUTE...

Un bon corpus de départ est produit par des locuteurs natifs dont le dialecte est spécifié. Il représente des styles d’expression différents (journalistique, littéraire, familier, narratif et d’échanges, etc.).

En ce qui concerne l’écrit, on peut commencer par un premier écrit de 10 000 mots, et en préparer le traitement en désambiguïsant les points (ceux qui marquent la fin d’une phrase vs. ceux d’un acronyme par exemple), et les espaces (y a-t-il des mots qui comprennent un espace ou l’espace est-il toujours une frontière de mots ?). Pour améliorer les performances de plusieurs outils de traitement de la phrase, on peut estimer avoir besoin d’un bon corpus de taille assez importante (1 million de mots). Si on veut pouvoir établir le poids des différentes constructions dans l’usage, il faudra des échantillons équilibrés dans leurs styles, avec des phrases isolées, des textes suivis, mais aussi des conversations.
En ce qui concerne l’oral, on peut commencer par un enregistrement brut, monolingue, dont le format d’enregistrement est standard. Pour les premières ressources, on peut éviter les chevauchements de la parole, et nettoyer les sons parasites éventuels (tout en conservant en parallèle l'enregistrement original).
Sélectionner l’activité Pour des recommandations pour la constitution de c...

Pour des recommandations pour la constitution de corpus oraux en particulier, se reporter à Baude et al. (2006), ainsi qu’aux modalités de leur dépôt dans l'entrepôt de données CoCoON (COllections de COrpus Oraux Numériques).
Sélectionner l’activité QUANTITÉ VS. QUALITÉ ?

Quantité vs. qualité ?
Sélectionner l’activité Il est difficile de déterminer précisément la bonn...

Il est difficile de déterminer précisément la bonne taille pour un corpus. Est-ce 1000 mots ? 500 000 ? 1 000 000 ? En réalité, cela dépend fortement de la complexité de l'outil que l'on veut entraîner avec ledit corpus. En revanche, pour obtenir des résultats similaires, un corpus annoté nécessitera moins de mots qu'un corpus brut.
En effet, un corpus annoté demande un travail et un temps de conception non négligeable mais la richesse des annotations diminue la quantité de données nécessaire pour l'entraînement de l'outil. À l'inverse, un corpus brut doit être massif pour que l'algorithme puisse en déduire statistiquement des règles.
C'est d'ailleurs ce qui se passe lorsque l'on apprend naturellement une langue par immersion. On entend des expressions incorrectes, des fautes de langage mais notre cerveau parvient à trier et à distinguer la forme la plus utilisée, qui est généralement la forme correcte.

C'est aussi en partie pour cette raison qu'il n'est pas nécessaire d'essayer de produire des corpus bruts dans une langue dite "parfaite". En effet, même si des corpus contiennent des "fautes" (formes typiques des apprenants, typos, données intraitables, fautes nombreuses, mais différentes d’un corpus à l’autre…), si la forme correcte est suffisamment représentée, alors l'algorithme saura trier le "bruit".
Ce qui est vrai pour un apprenant humain, l'est d'autant plus pour un algorithme qui n’est pas limité par sa mémoire. C'est pourquoi il est inutile de corriger l'intégralité des dissonances.

Licence : CC-BY 4.0
Sélectionner l’activité Attention, dans certains cas, la correction est co...

Attention, dans certains cas, la correction est contre-productive. Par exemple, si l'on souhaite apprendre à une application de reconnaissance vocale à reconnaître plusieurs variétés de langue, en incluant les formes « fautives », et les prononciations d’apprenants et de non-natifs de la langue, il est alors nécessaire d'avoir des corpus de "fautes".
Cela ne signifie pas que les formes fautives vont être irrémédiablement mélangées aux autres types de corpus, baissant globalement leur qualité. Il faut alors associer à chaque corpus des étiquettes claires (pour les métadonnées, voir partie 3.1.). On pourra les associer ou les dissocier à un set d’entraînement donné.
Sélectionner l’activité Produire de bons corpus est une chose mais, pour q...

Produire de bons corpus est une chose mais, pour qu'ils servent à un développement TAL, encore faut-il qu'ils soient FAIR : Faciles à trouver, Accessibles, Interopérables et Réutilisables.

II. Quels corpus pour le TAL ?

Résumé de section

1. Définition

2. Types de corpus

3. Qu'est-ce qu'un bon corpus pour le TAL ?

Quantité vs. qualité ?

Doranum

Callisto

Aide

Nous suivre

Résumé de section

1. Définition

2. Types de corpus

3. Qu'est-ce qu'un bon corpus pour le TAL ?

Quantité vs. qualité ?

Liens de bas de page

Doranum

Callisto

Aide

Nous suivre