Langues minorisées à corpus restreint : partager pour survivre
Aperçu des sections
-
-
Bienvenue dans ce parcours destiné aux doctorantes, doctorants, chercheuses, chercheurs en sciences humaines et sociales qui produisent et/ou travaillent sur des corpus de langues minorisées ! Découvrez et comprenez comment les corpus peuvent être utilisés pour faire avancer la recherche, servir à la société et contribuer à la survie numérique de langues à corpus restreint.
Ce parcours a été pensé et conçu pour être suivi de façon linéaire et progressive. Un sommaire s'affiche à la gauche de votre écran et vous permet de naviguer à votre convenance.
Bonne visite !
Si vous rencontrez des difficultés à ouvrir certains liens du cours, essayez de les ouvrir dans un autre navigateur.
Objectifs
- Identifier les enjeux du partage des corpus pour les langues minorisées
- Comprendre la chaîne de développement des applications du TAL
- Distinguer différents types de corpus pouvant alimenter un développement en TAL
- Identifier quelques caractéristiques d’un bon corpus pour le TAL
- Intégrer les principes FAIR dans vos pratiques de partage des corpus
- Interroger le cadre juridique qui s’applique à votre corpus
Ce cours est en libre accès !
Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous pouvez vous inscrire à ce cours si vous le souhaitez.
S'inscrire au cours -
Ce cours est disponible en plusieurs langues sur la plateforme de formation autrichienne IMooX : anglais, allemand, espagnol. -
Auteur(s) / Formateur(s): Mélanie Jouitteau - IKER-CNRSProduction: Lynda KEHLI - DoRANum, Inist-CNRSPublic cible: tout publicDate de publication: 19 octobre 2023Durée estimée: 1hPrérequis: aucunLicence: CC BY-NC-NDCitation: Jouitteau, M. & Kehli, L. (2023). Langues minorisées et à corpus restreint : partager pour survivre. Callisto Formation. DOI : https://doi.org/10.13143/G6RW-EB28DOI: 10.13143/g6rw-eb28Open badge: NonNombre d'inscrits: 0
-
-
-
Les quatre principes FAIR sont un ensemble de principes directeurs établis pour gérer les données de la recherche. Ils visent à faciliter la découverte et l'accès aux données, ainsi qu'à favoriser leur interopérabilité et leur réutilisation.
Licence : CC-BY 4.0
Illustrations : Patrick Hochstenbach / Modifié par : DoRANum -
1. Facile à trouver
-
Le premier principe FAIR vise à rendre vos corpus faciles à trouver par des humains et par des machines.
Pour cela, plusieurs pratiques doivent être mises en place. -
Des métadonnées riches
-
Il faut décrire les corpus avec des métadonnées riches.
DéfinitionLes métadonnées sont un ensemble d'informations qui servent à documenter et décrire des données, et à faciliter leur réutilisation.
-
Un livre sans métadonnées Un livre avec métadonnées -
En ce qui concerne les corpus, les métadonnées peuvent être des informations génériques telles que :
- le titre du corpus,
- la date de création,
- les logiciels (et version) utilisés pour la collecte et le traitement des données,
- etc.
Et des informations plus spécifiques telles que :
- la taille du corpus,
- la langue du corpus,
- des informations sur les locuteurs (âge, sexe, langue maternelle, dialecte utilisé), sur la situation d'élocution,
- etc.
-
Dans tous les cas, et pour faciliter la recherche à l'aide de critères précis et uniformes, il est très important que les métadonnées soient standardisées.
Pour cela, on peut s'appuyer sur des standards de métadonnées reconnus par la communauté scientifique internationale.DéfinitionLe standard a pour objectif de fournir un ensemble d’éléments caractéristiques qui permettent de décrire les données. La description des éléments peut elle-même être précisée par l’emploi de vocabulaires dédiés.
-
Il existe plusieurs standards de métadonnées en linguistique, utilisés et reconnus, qui permettront de décrire des corpus de façon riche, précise et uniforme. Par exemple :
-
La TEI (Text Encoding Initiative) est un ensemble de recommandations et un format pour l'encodage numérique des documents textuels. Cet encodage, basé sur le XML (Extensible Markup Language, un métalangage informatique de balisage), permet, sans modifier le texte original, de le rendre lisible par les machines grâce à l'ajout de balises.L'en-tête TEI (TEI header) contient un ensemble de métadonnées utilisées pour décrire des ressources textuelles.
Ce format de balisage est largement utilisé et reconnu à l'international en linguistique et, plus largement, en Sciences Humaines et Sociales (SHS).Pour en savoir plus sur la TEI (intérêts, exemples, applications...), vous pouvez visionner cette vidéo réalisée par Lo Congrès permanent de la lenga occitana qui a formaté ses données en TEI.
Ci-dessous, un exemple de balisage au format TEI contenant l'en-tête TEI:
Le standard de métadonnées OLAC (Open Language Archives Community) est une extension d'un standard de métadonnées générique utilisé en SHS, le Dublin-Core. OLAC propose des extensions pour certains champs de métadonnées du Dublin-Core qualifié, permettant ainsi une description plus précise des ressources linguistiques. Ces extensions sont liées à des vocabulaires contrôlés en linguistique.Il s'agit d'un standard de métadonnées relativement simple à appréhender. Il est proposé par les entrepôts de données français CoCoOn et ORTOLANG pour la description de ressources linguistiques.
Pour vous faire une idée, vous trouverez ici l'exemple d'un corpus (Corpus Oral de Français de Suisse Romande) décrit avec le standard OLAC dans l'entrepôt CoCoOn.
Ci-dessous, une capture d'écran de la notice de métadonnées de ce corpus déposé dans l'entrepôt CoCoOn :
Il s'agit d'une approche développée par l'infrastructure européenne dédiée au partage de ressources et d’outils autour du langage, CLARIN (Common Language Resources and Technology Infrastructure).Le CMDI (Component MetaData Infrastructure) permet la création et l'utilisation d'un schéma de métadonnées flexible et modulable. Il permet de sélectionner, parmi des standards existants, les métadonnées jugées pertinentes pour la description d'une ressource, voire d'en créer de nouvelles, et de les assembler dans un modèle appelé "profil". Chaque utilisateur obtient ainsi un profil au plus près des besoins spécifiques de description de ses ressources tout en préservant une relative interopérabilité. Pour préserver cette dernière, les utilisateurs sont encouragés à partager les profils ainsi créés dans le Registre des Composants.
-
L'utilisation de standards de métadonnées est aussi importante pour faciliter la réutilisation des corpus (voir dernier principe FAIR).
-
Un entrepôt de données
-
Licence : CC-BY 4.0
-
Il faut que les corpus et les métadonnées qui les décrivent soient indexés et puissent être recherchés dans un dispositif le permettant.
Pour cela, la pratique recommandée est de les déposer dans un entrepôt de données.DéfinitionLes entrepôts de données sont des plateformes web sur lesquelles les chercheurs peuvent déposer et rechercher des données scientifiques. Ils proposent des services spécifiques à l'activité de recherche (description des jeux de données, choix des conditions d'accès, attribution de licence...) et offrent une garantie de sécurité. La plupart présente un système de recherche détaillé avec de nombreux filtres.
-
Il existe plusieurs entrepôts de données en linguistique qui sont adaptés au dépôt de corpus oraux et/ou écrits. En France, il y a par exemple :
Pangloss
Offre, en libre accès, des documents linguistiques sonores, avec une spécialité de langues rares ou peu étudiées. Pangloss a également mis en place des outils pour faciliter les recherches en linguistique et en TAL
ORTOLANG
Un entrepôt de données pour les ressources et outils sur la langue écrite et orale.
Par ailleurs, CLARIN propose, à l'échelle européenne, une liste d'entrepôts certifiés pour la linguistique. Les entrepôts ORTOLANG et CoCoOn cités précédemment en font partie.
Il existe aussi :
Nakala
Un entrepôt de données multidisciplinaire en Sciences Humaines et Sociales (SHS) porté par la IR* (très grande infrastructure de recherche) Huma-Num
-
Attention, un entrepôt de données est destiné au partage des données. La plupart du temps, il ne garantit qu'une conservation à moyen terme des données (5-10 ans en moyenne). Pour une conservation à long terme (env. 30 ans), il faut alors se tourner vers l'archivage pérenne. Tous les entrepôts ne proposent pas ce service. La possibilité de conserver les données à long terme peut être un critère de choix d'un entrepôt.
-
En complément, et pour augmenter la visibilité de vos corpus, vous pouvez aussi renseigner les critères de votre langue et référencer vos corpus sur la plateforme de l'OLAC (Open Language ArchivesCommunity), et pour les langues de l'État français, sur Entrelangues [IKER-CNRS, MoDyCo].
-
Un identifiant unique et pérenne
-
Il faut attribuer aux corpus un identifiant unique et pérenne.
DéfinitionUn identifiant pérenne (Persistent identifier ou PID) est un identifiant qui est assigné à un objet de façon permanente. Il est disponible et gérable à long terme ; il ne changera pas si l'objet est renommé ou déplacé (changement de site, d'entrepôt de données...).
-
La plupart des entrepôts de données permettent l'attribution automatique d'un identifiant pérenne lors du dépôt. Le DOI est l'identifiant pérenne objet le plus couramment utilisé.
-
Quoi qu'il en soit, l'identifiant pérenne ainsi attribué doit être signalé dans les métadonnées.
-
2. Accessible
-
Le second principe FAIR vise à rendre vos corpus facilement accessibles et téléchargeables.
-
Protocole de communication
-
Pour cela, il est important que les corpus et les métadonnées associées soient récupérables par leur identifiant via un protocole de communication :
- standardisé ;
- libre (accessible à tous gratuitement) ;
- ouvert (sans licence restrictive d'utilisation) ;
- et qui peut être implémenté de manière universelle (utilisé par tous, n'importe où).
Le HTTP (HyperText Transfer Protocol) et le FTP (File Transfer Protocol) sont des protocoles standards, libres et ouverts utilisés respectivement pour consulter des pages Web et pour partager des fichiers. Des corpus FAIR doivent donc être accessibles via des protocoles tels que le HTTP et le FTP.
-
Processus d'authentification et demande d'autorisation
-
Pour des raisons de sécurité, de confidentialité, de respect de la vie privée ou autres, il peut être nécessaire de limiter l'accès aux données à un groupe restreint de personnes. Dans ce cas, pour rester FAIR, l'accès aux corpus doit pouvoir se faire via authentification et/ou demande d'autorisation. Le protocole d'accès doit être clair et explicite (qui contacter, comment, etc.).
Licence : CC-BY 4.0
-
La possibilité de définir un accès restreint via authentification et/ou demande d'autorisation peut être un critère pour choisir l'entrepôt de données dans lequel déposer votre corpus.
-
Accès permanent aux métadonnées
-
Pour rester FAIR, les métadonnées qui accompagnent un corpus doivent toujours rester accessibles, y compris si ce dernier ne l'est pas ou plus.
-
3. Interopérable
-
Le troisième principe FAIR incite à privilégier les langages et formats ouverts, et largement partagés, qui permettent les échanges entre machines, les échanges entre humains et augmentent les capacités des métadonnées à être combinées.
-
Utilisation de vocabulaires contrôlés
-
Licence : CC-BY 4.0 -
Ainsi, pour que des corpus soient interopérables, il faut les décrire en utilisant :
- des référentiels (ex : idRef, RNSR),
- des normes (ex : norme ISO 639-3 pour identifier une langue ; norme ISO 8601 pour écrire une date...),
- et des vocabulaires contrôlés (ex : OLAC-Role Vocabulary, Linguistics vocabulary...).
DéfinitionUn vocabulaire contrôlé est une liste de termes prédéfinis servant à organiser des informations afin d'en faciliter la recherche et l'accès.
-
En général, les standards de métadonnées définissent et s'appuient sur des vocabulaires contrôlés. Par exemple, pour remplir le champ de métadonnées 'Linguistic Subject' du standard OLAC, il faut choisir une valeur parmi une liste fermée de termes, le OLAC Linguistic Subject Vocabulary.
-
Vocabulaires FAIR
-
Idéalement, ces vocabulaires et normes doivent eux-mêmes être FAIR. Par exemple, le Linguistics vocabulary cité précédemment est un vocabulaire FAIR, on peut retrouver sa documentation sur FAIRsharing.
-
(Méta)données liées
-
Afin d'enrichir la connaissance contextuelle des données, ces dernières doivent être liées entre elles. Autrement dit, un corpus déposé dans un entrepôt de données devrait inclure des liens (de type PID si possible) vers d'autres données qui lui sont liées (auteurs/contributeurs, articles scientifiques, sources, autres corpus...).
-
4. Réutilisable
-
Ce dernier principe vise à rendre vos corpus réutilisables pour d'autres recherches (par exemple en TAL) ou d'autres finalités (pour le développement d'applications, l'enseignement...).
Pour ce faire, il faut :
- Renseigner un maximum de métadonnées. En effet, il faut partir du principe que toute sorte d'information peut être utile, car chaque réutilisateur aura potentiellement besoin d'un élément précis suivant son contexte. Certaines métadonnées sont inutiles dans un champ de recherche, et cruciales dans d'autres. Par exemple, il est préférable de préciser si un locuteur est natif de la langue dans laquelle il s'exprime, et s'il parle d'autres langues.
- Indiquer la provenance des corpus (source, méthodes/protocoles de production...).
- Utiliser les standards de la communauté scientifique linguistique (formats, vocabulaires, métadonnées...).
- Attribuer aux corpus une licence explicite et accessible (par exemple une licence Creative Commons ou la licence ouverte Etalab).
DéfinitionLa licence permet d'informer précisément un utilisateur potentiel de ce qu'il est permis, ou non, de faire avec les données. Plus la licence sera ouverte, meilleur sera le potentiel de réutilisation des corpus.
-
Cliquez sur le bouton ci-dessous pour accéder à une fiche synthétique qui présente les licences Creative Commons et leur fonctionnement :
En savoir plus sur les licences Creative Commons -
En appliquant les principes FAIR à vos corpus, vous serez sûrs d'optimiser leur partage et leurs chances d'être réutilisés. Mais avant même de partager, ou même de constituer un corpus, vous devez vous assurer de respecter les lois et l'éthique de la recherche...
-