Bienvenue dans ce parcours destiné aux doctorants et chercheurs en linguistique qui souhaitent découvrir et comprendre pourquoi, comment et quelles données de recherche diffuser en linguistique.
Ce parcours a été pensé et conçu pour être suivi de façon linéaire et progressive, mais aussi de manière fragmentée. Vous pouvez consulter uniquement les parties qui vous intéressent.
Un sommaire s'affiche à la gauche de votre écran et vous permet de naviguer à votre convenance.
Bonne visite !
Si vous rencontrez des difficultés à ouvrir certains liens du cours, essayez de les ouvrir dans un autre navigateur.
Objectifs
Identifier les enjeux liés à l’ouverture des données.
Trier les données diffusables de celles non diffusables.
Sélectionner les données à déposer.
Choisir un entrepôt de données en linguistique adapté à ses besoins.
Préparer le dépôt de ses données dans un entrepôt de données.
Ce cours est en libre accès !
Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous pouvez vous inscrire à ce cours si vous le souhaitez.
Auteur(s) / Formateur(s): Martina OGNIBENE - INALCO, Sara TANDAR - Huma-Num
Production: Lynda KEHLI -DoRANum Inist-CNRS
Public cible: tout public
Date de publication: 28 septembre 2023
Durée estimée: 1h30
Prérequis: aucun
Licence: CC BY-NC-ND
Citation: Ognibene, M. & Tandar, S. & Kehli, L. (2023). La diffusion des données de recherche en linguistique. Callisto Formation. DOI : https://doi.org/10.13143/HNNA-X820
Pour déposer des données dans un entrepôt, il faut renseigner des métadonnées et procéder à une série de vérifications.
Métadonnées
Les métadonnées sont les informations qui décrivent et aident à gérer les données. Elles sont essentielles pour la recherche, la compréhension et la réutilisation des données.
Prenons un exemple simple : dans une bibliothèque remplie de livres, comment feriez-vous pour vous repérer si ces livres n'avaient pas de couvertures ? Sans connaître le titre, l'auteur, la date de publication, le sujet abordé, sauriez-vous trouver le livre dont vous avez besoin ?
Faites glisser le curseur pour voir un livre sans ou avec métadonnées :
Des données ou jeux de données bien documentés à l'aide de métadonnées enrichies facilitent le travail de fouille des données par les humains et les machines.
Cela rend vos jeux de données plus visibles dans le web de données !
Dans le monde de la recherche, les métadonnées peuvent :
aider à comprendre l'origine des données et leur contexte de création ou de collecte
décrire un contenu, la méthode de production
préciser des droits d'utilisation
fournir des informations utiles lorsque les données elles-mêmes ne peuvent pas être partagées (embargo, accès restreint) ou lorsqu'elles sont retirées (données obsolètes...)
gérer le suivi des modifications
etc.
Le Consortium Huma-Num CORpus, Langues et Interactions (CORLI) propose deux pages explicatives sur le rôle des métadonnées en linguistique :
Afin de choisir les métadonnées les plus adaptées à la description des ressources linguistiques et de permettre la réutilisation des données par le plus grand nombre, vous pouvez vous appuyer sur des standards de métadonnées reconnus au sein de votre communauté.
Open Language Archives Community (OLAC) Metadata Standard
Par exemple, les deux entrepôts de données cités précédemment dans ce cours, CoCoOn et ORTOLANG, proposent sur leur plateforme d'utiliser le standard de métadonnées Open Language Archives Community (OLAC) pour décrire les ressources hébergées.
Ce modèle est une extension du Dublin-Core : un standard de métadonnées générique très utilisé pour la description des données en Sciences Humaines et Sociales. Plus précisément, OLAC est une extension du modèle Dublin-Core qualifié (une version détaillée du Dublin-Core) auquel ont été ajoutés 5 attributs liés à des vocabulaires contrôlés qui permettent de décrire plus finement des ressources linguistiques.
L'en-tête TEI (TEI header) contient un ensemble de métadonnées utilisées pour décrire des ressources textuelles.
Il s'agit de conventions de balisage de textes sous la forme élément/attribut, encodées en XML. Le schéma TEI possède une architecture évolutive qui accepte d'être enrichie d'éléments propres à un domaine particulier.
Il s'agit d'un format de métadonnées développé au sein de CLARIN.
Le CMDI permet la création et l'utilisation d'un schéma de métadonnées flexible et modulable. Il permet de sélectionner, parmi des standards existants, les métadonnées jugées pertinentes pour la description d'une ressource, voire d'en créer de nouvelles, et de les assembler dans un modèle appelé "profil". Chaque utilisateur obtient ainsi un profil au plus près des besoins spécifiques de description de ses ressources. Pour préserver l'interopérabilité, les utilisateurs sont invités à partager les profils ainsi créés dans le Registre des Composants
Avant de déposer vos données dans un entrepôt, vous devez vérifier qu'elles sont prêtes à être déposées et partagées. Dans le document pdf ci-dessous, vous trouverez une liste des points à vérifier. Vous pouvez l'imprimer et l'utiliser comme une checklist.
Pour finir, testez-vous grâce au mini-jeu ci-dessous en aidant Sylviane, la chercheuse en linguistique, à vérifier que ses données sont prêtes à être déposées dans l'entrepôt Ortolang. Pour accéder à l'exercice, cliquez sur l'image ci-dessous :
Pour un partage efficace des données de recherche, il est important de bien préparer cette étape. Savoir quelles données vous souhaitez et pouvez partager, sous quelles conditions, dans quel entrepôt, quelles métadonnées renseigner... Une fois ces éléments réfléchis et toutes les vérifications faites,vos données seront prêtes à être partagées... et peut-être réutilisées!