Langues minorisées à corpus restreint : partager pour survivre
Aperçu des sections
-
-
Bienvenue dans ce parcours destiné aux doctorantes, doctorants, chercheuses, chercheurs en sciences humaines et sociales qui produisent et/ou travaillent sur des corpus de langues minorisées ! Découvrez et comprenez comment les corpus peuvent être utilisés pour faire avancer la recherche, servir à la société et contribuer à la survie numérique de langues à corpus restreint.
Ce parcours a été pensé et conçu pour être suivi de façon linéaire et progressive. Un sommaire s'affiche à la gauche de votre écran et vous permet de naviguer à votre convenance.
Bonne visite !
Si vous rencontrez des difficultés à ouvrir certains liens du cours, essayez de les ouvrir dans un autre navigateur.
Objectifs
- Identifier les enjeux du partage des corpus pour les langues minorisées
- Comprendre la chaîne de développement des applications du TAL
- Distinguer différents types de corpus pouvant alimenter un développement en TAL
- Identifier quelques caractéristiques d’un bon corpus pour le TAL
- Intégrer les principes FAIR dans vos pratiques de partage des corpus
- Interroger le cadre juridique qui s’applique à votre corpus
Ce cours est en libre accès !
Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous pouvez vous inscrire à ce cours si vous le souhaitez.
S'inscrire au cours -
Ce cours est disponible en plusieurs langues sur la plateforme de formation autrichienne IMooX (s'ouvre dans un nouvel onglet) : anglais, allemand, espagnol. -
Auteur(s) / Formateur(s): Mélanie Jouitteau - IKER-CNRSProduction: Lynda KEHLI - DoRANum, Inist-CNRSPublic cible: tout publicDate de publication: 19 octobre 2023Durée estimée: 1hPrérequis: aucunLicence: CC BY-NC-NDCitation: Jouitteau, M. & Kehli, L. (2023). Langues minorisées et à corpus restreint : partager pour survivre. Callisto Formation. DOI : https://doi.org/10.13143/G6RW-EB28DOI: 10.13143/g6rw-eb28Open badge: NonNombre d'inscrits: 0
-
-
-
D'où proviennent les données du corpus ? Quels droits y sont attachés ? Le corpus contient-il des données personnelles ? Qu'ai-je le droit de faire avec ces données ? Voici autant de questions qu'il est nécessaire de se poser lors de la constitution d'un corpus, et plus particulièrement lorsque ce dernier a vocation à être partagé et réutilisé.
-
1. Quelques points de vigilance juridique
-
Dans un premier temps, pour mieux comprendre quels problèmes juridiques et éthiques peut soulever la constitution de corpus, visionnez cette vidéo réalisée par l'Université Grenoble Alpes dans le cadre du cours Introduction à la linguistique de corpus (s'ouvre dans un nouvel onglet) :
Cette vidéo est sous licence CC BY-NC-ND 4.0 (s'ouvre dans un nouvel onglet)
-
Cliquez sur le bouton ci-dessous pour accéder à une transcription de la vidéo ci-dessus :
Transcription de la vidéo de l'UGA (s'ouvre dans un nouvel onglet) -
Cette vidéo explique bien que des données accessibles facilement et gratuitement sur le web ne sont pas forcément des données libres de droits. Lorsque l'on collecte des données produites par d'autres, il est nécessaire de vérifier quels droits y sont attachés, et, dans certains cas, de demander des autorisations pour les réutiliser et/ou les diffuser.
Lorsque l'on constitue soi-même un corpus en collectant des données langagières directement auprès de locuteurs, il faut veiller au respect de la vie privée en ne diffusant pas des données personnelles sans le consentement éclairé (s'ouvre dans un nouvel onglet) des personnes concernées.
-
Il revient aux chercheuses et aux chercheurs de choisir et de mettre en place les protocoles permettant une activité de recherche qui respecte le Règlement Général sur la Protection des Données (s'ouvre dans un nouvel onglet). Pour en savoir plus sur le traitement et la protection des données personnelles dans le cadre de la recherche scientifique, vous pouvez consulter le dossier "Recherche scientifique (hors santé) (s'ouvre dans un nouvel onglet)" sur le site de la CNIL (Commission nationale de l'informatique et des libertés) et le guide "Les SHS et la protection des données à caractère personnel (s'ouvre dans un nouvel onglet)" réalisé par l'InSHS (Institut des sciences humaines et sociales) du CNRS.
-
2. Mais aussi...
-
Afin de constituer des corpus, vous pourriez être amené à collecter des données issues d'une base de données. Cependant, les bases de données bénéficient de droits spécifiques. Pour prendre connaissance du cadre juridique qui s'applique aux bases de données, consultez la ressource ci-dessous :
-
-
En France, depuis 2021, la fouille de textes et de données (TDM, Text and Data Mining) à des fins de recherche est autorisée. Pour savoir ce que le TDM permet de réaliser, sous quelles conditions, et dans quels cas il ne peut pas être utilisé, visionnez la vidéo suivante :
-
Les questions juridiques et éthiques sont des questions complexes. Entre interdictions formelles et exceptions, mieux vaut se faire accompagner et demander conseil auprès de juristes spécialisés et/ou de collègues expérimentés. Pour que les langues minorisées à corpus restreint survivent et s'intègrent à la nouvelle ère digitale des langues, des corpus numériquement traitables dans ces langues doivent être disponibles. Pour qu'ils soient visibles et réutilisables, il faut les constituer, les documenter, les formater, et les partager en respectant les principes FAIR et en respectant les principes juridiques et éthiques de la recherche.
-