Résumé de section

    • D'où proviennent les données du corpus ? Quels droits y sont attachés ? Le corpus contient-il des données personnelles ? Qu'ai-je le droit de faire avec ces données ? Voici autant de questions qu'il est nécessaire de se poser lors de la constitution d'un corpus, et plus particulièrement lorsque ce dernier a vocation à être partagé et réutilisé.

    • 1. Quelques points de vigilance juridique

    • Dans un premier temps, pour mieux comprendre quels problèmes juridiques et éthiques peut soulever la constitution de corpus, visionnez cette vidéo réalisée par l'Université Grenoble Alpes dans le cadre du cours Introduction à la linguistique de corpus :

         

      Cette vidéo est sous licence CC BY-NC-ND 4.0

    • Cliquez sur le bouton ci-dessous pour accéder à une transcription de la vidéo ci-dessus :

      Transcription de la vidéo de l'UGA
    • Cette vidéo explique bien que des données accessibles facilement et gratuitement sur le web ne sont pas forcément des données libres de droits. Lorsque l'on collecte des données produites par d'autres, il est nécessaire de vérifier quels droits y sont attachés, et, dans certains cas, de demander des autorisations pour les réutiliser et/ou les diffuser.

      Lorsque l'on constitue soi-même un corpus en collectant des données langagières directement auprès de locuteurs, il faut veiller au respect de la vie privée en ne diffusant pas des données personnelles sans le consentement éclairé des personnes concernées.

    • Il revient aux chercheuses et aux chercheurs de choisir et de mettre en place les protocoles permettant une activité de recherche qui respecte le Règlement Général sur la Protection des Données. Pour en savoir plus sur le traitement et la protection des données personnelles dans le cadre de la recherche scientifique, vous pouvez consulter le dossier "Recherche scientifique (hors santé)" sur le site de la CNIL (Commission nationale de l'informatique et des libertés) et le guide "Les SHS et la protection des données à caractère personnel" réalisé par l'InSHS (Institut des sciences humaines et sociales) du CNRS.

    • 2. Mais aussi...

    • Afin de constituer des corpus, vous pourriez être amené à collecter des données issues d'une base de données. Cependant, les bases de données bénéficient de droits spécifiques. Pour prendre connaissance du cadre juridique qui s'applique aux bases de données, consultez la ressource ci-dessous :

    • En France, depuis 2021, la fouille de textes et de données (TDM, Text and Data Mining) à des fins de recherche est autorisée. Pour savoir ce que le TDM permet de réaliser, sous quelles conditions, et dans quels cas il ne peut pas être utilisé, visionnez la vidéo suivante : 



    • Les questions juridiques et éthiques sont des questions complexes. Entre interdictions formelles et exceptions, mieux vaut se faire accompagner et demander conseil auprès de juristes spécialisés et/ou de collègues expérimentés. Pour que les langues minorisées à corpus restreint survivent et s'intègrent à la nouvelle ère digitale des langues, des corpus numériquement traitables dans ces langues doivent être disponibles. Pour qu'ils soient visibles et réutilisables, il faut les constituer, les documenter, les formater, et les partager en respectant les principes FAIR et en respectant les principes juridiques et éthiques de la recherche