Langues minorisées à corpus restreint : partager pour survivre
Aperçu des sections
-
-
Bienvenue dans ce parcours destiné aux doctorantes, doctorants, chercheuses, chercheurs en sciences humaines et sociales qui produisent et/ou travaillent sur des corpus de langues minorisées ! Découvrez et comprenez comment les corpus peuvent être utilisés pour faire avancer la recherche, servir à la société et contribuer à la survie numérique de langues à corpus restreint.
Ce parcours a été pensé et conçu pour être suivi de façon linéaire et progressive. Un sommaire s'affiche à la gauche de votre écran et vous permet de naviguer à votre convenance.
Bonne visite !
Si vous rencontrez des difficultés à ouvrir certains liens du cours, essayez de les ouvrir dans un autre navigateur.
Objectifs
- Identifier les enjeux du partage des corpus pour les langues minorisées
- Comprendre la chaîne de développement des applications du TAL
- Distinguer différents types de corpus pouvant alimenter un développement en TAL
- Identifier quelques caractéristiques d’un bon corpus pour le TAL
- Intégrer les principes FAIR dans vos pratiques de partage des corpus
- Interroger le cadre juridique qui s’applique à votre corpus
Ce cours est en libre accès !
Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous pouvez vous inscrire à ce cours si vous le souhaitez.
S'inscrire au cours -
Ce cours est disponible en plusieurs langues sur la plateforme de formation autrichienne IMooX : anglais, allemand, espagnol. -
Auteur(s) / Formateur(s): Mélanie Jouitteau - IKER-CNRSProduction: Lynda KEHLI - DoRANum, Inist-CNRSPublic cible: tout publicDate de publication: 19 octobre 2023Durée estimée: 1hPrérequis: aucunLicence: CC BY-NC-NDCitation: Jouitteau, M. & Kehli, L. (2023). Langues minorisées et à corpus restreint : partager pour survivre. Callisto Formation. DOI : https://doi.org/10.13143/G6RW-EB28DOI: 10.13143/g6rw-eb28Open badge: NonNombre d'inscrits: 0
-
-
-
-
1. Définition
-
Le traitement automatique du langage naturel [TALN] est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle. Il vise à créer des outils capables d’interpréter et de synthétiser du texte pour diverses applications.
CNIL - Commission nationale de l'informatique et des libertés. CNIL [En ligne]. Traitement automatique du langage naturel (natural language processing ou NLP) ; [consulté le 20 juil 2023]. Disponible : https://www.cnil.fr/fr/definition/traitement-automatique-du-langage-naturel-natural-language-processing-ou-nlp -
2. Le TAL(N) au quotidien
-
Sans même nous en rendre compte, nous, grand public, bénéficions au quotidien des avancées en TAL. Ces dernières ont permis le développement d'une myriade d'applications que nous utilisons dans notre vie privée et/ou professionnelle.
Pour en savoir plus sur quelques applications issues des recherches et développements en TAL, consultez l'infographie interactive ci-dessous :
-
-
Les applications présentées ci-dessus existent déjà, et la plupart d'entre nous les utilisent quotidiennement. Cependant, les progrès en TAL ne cessent de croître, la puissance de calcul des machines également, et de nouvelles applications sont en cours de développement.
-
Traduction instantanée, apprentissage d'une langue étrangère grâce à la réalité augmentée, communication par la pensée... Pour en savoir plus sur les technologies du langage de demain, vous pouvez visionner ces courtes vidéos (en anglais), de moins de 3 minutes chacune, réalisées par le réseau de coopération européenne LITHME (Language In The Human-Machine Era)
-
3. Outils informatiques de TAL
-
Pour développer des applications, il faut d'abord développer des outils informatiques, c'est-à-dire des programmes spécialisés sur une tâche particulière. Ces programmes spécialisés sont les pièces détachées du développement numérique. Ils permettent de construire des applications. Mieux ces outils fonctionnent, plus il est aisé de développer des applications.
Consultez l'infographie interactive ci-dessous pour en savoir plus sur ces outils :
-
-
Les informaticiennes et les informaticiens qui développent ces outils n'ont pas nécessairement besoin de parler la langue pour laquelle ils les développent. L'expertise linguistique est surtout déployée en amont, lors de la première étape du développement TAL : la production de ressources, c'est-à-dire de corpus numériques. Il peut s'agir de textes mais aussi de lexiques, de dictionnaires, d'enregistrements, etc.
-
4. Les 3 étapes du développement TAL
-
Le développement TAL est construit en trois étapes :
-
-
Les ressources, qui sont les données langagières produites par la communauté parlante et que l’on peut capturer sous forme numérique, sont à la base du développement TAL. Sans ressources, il n'est pas possible de développer des outils informatiques et encore moins des applications. Cette première étape, cruciale, de constitution de ressources ne demande pas de connaissances profondes en informatique mais des connaissances dans la langue.
-
Les langues minorisées sont bien souvent sous-représentées et sous-utilisées sur le web. Elles souffrent ainsi d'un manque cruel de ressources pour alimenter des développements d'outils et d'applications. Pour pallier à ce manque, il faut collecter et produire des corpus.
-