Langues minorisées à corpus restreint : partager pour survivre
Aperçu des sections
-
-
Bienvenue dans ce parcours destiné aux doctorantes, doctorants, chercheuses, chercheurs en sciences humaines et sociales qui produisent et/ou travaillent sur des corpus de langues minorisées ! Découvrez et comprenez comment les corpus peuvent être utilisés pour faire avancer la recherche, servir à la société et contribuer à la survie numérique de langues à corpus restreint.
Ce parcours a été pensé et conçu pour être suivi de façon linéaire et progressive. Un sommaire s'affiche à la gauche de votre écran et vous permet de naviguer à votre convenance.
Bonne visite !
Si vous rencontrez des difficultés à ouvrir certains liens du cours, essayez de les ouvrir dans un autre navigateur.
Objectifs
- Identifier les enjeux du partage des corpus pour les langues minorisées
- Comprendre la chaîne de développement des applications du TAL
- Distinguer différents types de corpus pouvant alimenter un développement en TAL
- Identifier quelques caractéristiques d’un bon corpus pour le TAL
- Intégrer les principes FAIR dans vos pratiques de partage des corpus
- Interroger le cadre juridique qui s’applique à votre corpus
Ce cours est en libre accès !
Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous pouvez vous inscrire à ce cours si vous le souhaitez.
S'inscrire au cours -
Ce cours est disponible en plusieurs langues sur la plateforme de formation autrichienne IMooX : anglais, allemand, espagnol. -
Auteur(s) / Formateur(s): Mélanie Jouitteau - IKER-CNRSProduction: Lynda KEHLI - DoRANum, Inist-CNRSPublic cible: tout publicDate de publication: 19 octobre 2023Durée estimée: 1hPrérequis: aucunLicence: CC BY-NC-NDCitation: Jouitteau, M. & Kehli, L. (2023). Langues minorisées et à corpus restreint : partager pour survivre. Callisto Formation. DOI : https://doi.org/10.13143/G6RW-EB28DOI: 10.13143/g6rw-eb28Open badge: NonNombre d'inscrits: 0
-
-
-
- André-Poyaud I, Astor S, Baude O, Boudjaaba F, Bujan G, Collignon B, et al. Les sciences humaines et sociales et la protection des données à caractère personnel dans le contexte de la science ouverte [En ligne]. InSHS Communication ; juin 2019 [consulté le 1 juin 2023]. 35 p. Institut des sciences humaines et sociales du CNRS (InSHS) – Guide pour la recherche – Version 1. Disponible : https://www.ouvrirlascience.fr/les-sciences-humaines-et-sociales-et-la-protection-des-donnees-a-caractere-personnel-dans-le-contexte-de-la-science-ouverte/
- Baude O, Blanche-Benveniste C. Corpus oraux : Guide des bonnes pratiques, 2006 [En ligne]. Paris : CNRS ; 2006 [consulté le 19 juil 2023]. 203 p. Disponible : https://hal.science/hal-00357706
- Berger KC, Hernaiz AG, Baroni P, Hicks D, Kruse E, Quochi V, et al. The DLDP Digital Language Survival Kit [En ligne]. Erasmus+ ; 2018 [consulté le 27 nov 2023]. 38 p. Disponible : http://wp.dldp.eu/wp-content/uploads/2018/09/Digital-Language-Survival-Kit.pdf
- BnF - Bibliothèque nationale de France. BnF - Site institutionnel [En ligne]. Dublin Core ; [consulté le 1 sep 2023]. Disponible : https://www.bnf.fr/fr/dublin-core
- CLARIN ERIC [En ligne]. CLARIN ERIC ; [consulté le 5 juil 2023]. Disponible : https://www.clarin.eu/
- CLARIN-FR National Consortium [En ligne]. Le Consortium CLARIN-FR ; [consulté le 1 sep 2023]. Disponible : https://www.clarin-fr.fr/
- CLARIN. LINDAT/CLARIAH-CZ [En ligne]. UDPipe ; [consulté le 26 sep 2023]. Disponible : https://lindat.mff.cuni.cz/services/udpipe/?data=https://switchboard.clarin.eu/api/storage/cb833e5f-943e-4957-8db5-5cab24b41970?mediatype=text%2Fplain&model=fra
- CNIL - Commission nationale de l'informatique et des libertés. CNIL [En ligne]. Protéger les données personnelles, Accompagner l'innovation, Préserver les libertés individuelles ; [consulté le 1 août 2023]. Disponible : https://www.cnil.fr/fr
- COCOON - COllection de COrpus Oraux Numériques [En ligne]. CRDO/COCOON : La plateforme COCOON ; [consulté le 31 août 2023]. Disponible : https://cocoon.huma-num.fr/exist/crdo
- Delais-Roussarie E. Corpus et données en phonologie post-lexicale : forme et statut. Langages [En ligne]. 2008 [consulté le 27 juin 2023] ; 171(3) : 60. Disponible : https://doi.org/10.3917/lang.171.0060
- DINUM - Direction interministérielle du numérique. guides.etalab.gouv.fr [En ligne]. La pseudonymisation par l'IA en pratique ; [consulté le 1 août 2023]. Disponible : https://guides.etalab.gouv.fr/pseudonymisation/en-pratique/#formater-ses-donnees-annotees
- doi Foundation [En ligne]. [consulté le 1 sep 2023]. Disponible : https://doi.org/
- DoRANum. Données de la recherche : apprentissage numérique [En ligne]. France : DoRANum ; 2015. [consulté le 1 avril 2023]. Disponible : https://doranum.fr/
- Douet L. MasterTSM@Lille [En ligne]. La traduction automatique, mère des activités TAL ; 11 avril 2021 [consulté le 15 juin 2023]. Disponible : https://mastertsmlille.wordpress.com/2021/04/11/la-traduction-automatique-mere-des-activites-tal/
- Etalab – Politique publique de la donnée [En ligne]. Licence Ouverte / Open Licence – Etalab ; [consulté le 30 juil 2023]. Disponible : https://www.etalab.gouv.fr/licence-ouverte-open-licence/
- FAIRsharing [En ligne]. Linguistics Vocabulary ; [consulté le 1 sep 2023]. Disponible : https://fairsharing.org/FAIRsharing.48b735
- Fort, Karën. Annotation collaborative de corpus : Formats. (2023) [En ligne]. [consulté le 18 septembre 2023]. Disponible : https://members.loria.fr/KFort/files/fichiers_cours/Formats.pdf
- GO FAIR [En ligne]. FAIR Principles - GO FAIR ; [consulté le 1 sep 2023]. Disponible : https://www.go-fair.org/fair-principles/
- Handle.Net Registry [En ligne]. [consulté le 1 sep 2023]. Disponible : http://www.handle.net/
- IdRef - Identifiants et référentiels pour l'Enseignement supérieur et la Recherche [En ligne]. [consulté le 1 sep 2023]. Disponible : https://www.idref.fr/
- ISO [En ligne]. ISO - ISO 8601 — Représentation de la date et de l'heure ; [consulté le 1 sep 2023]. Disponible : https://www.iso.org/fr/iso-8601-date-and-time-format.html
- ISO [En ligne]. ISO 639-3:2007 ; [consulté le 1 sep 2023]. Disponible : https://www.iso.org/fr/standard/39534.html
- Jouitteau M. Guide de survie des langues minorisées à l’heure de l’intelligence artificielle - lingbuzz/007289 , [En ligne]; jan 2023 [consulté le 4 sep 2023]. Disponible : https://lingbuzz.net/lingbuzz/007289
- Kunze J, Rodgers R. The ARK Identifier Scheme. UC Off Pres [En ligne]. 2008 [consulté le 31 août 2023]. Disponible : https://escholarship.org/uc/item/9p9863nc
- LACITO - CNRS. Pangloss [En ligne]. [consulté le 30 août 2023]. Disponible : https://pangloss.cnrs.fr/?mode=pro
- LITHME - Language in the Human-Machine Era [En ligne]. What will it be like to communicate in the ‘human-machine era’ ? ; [consulté le 25 mai 2023]. Disponible : https://lithme.eu/animations-and-survey/
- Lo Congrès [En ligne]. Lo Congrès ; [consulté le 22 août 2023]. Disponible : https://locongres.org/fr/
- Loterre [En ligne]. Loterre : Linguistique ; [consulté le 1 sep 2023]. Disponible : https://skosmos.loterre.fr/X64/fr/
- Ministère de la Culture [En ligne]. Les licences Creative Commons ; 2 juin 2014 [consulté le 25 août 2023]. Disponible : https://www.culture.gouv.fr/Thematiques/Innovation-numerique/Actualites/Les-licences-Creative-Commons
- Ministère de l'Enseignement Supérieur, de la Recherche et de l'innovation. Répertoire national des structures de recherche [En ligne]. [consulté le 1 sep 2023]. Disponible : https://appliweb.dgri.education.fr/rnsr/
- Open Language Archives Community [En ligne]. OLAC Linguistic Subject Vocabulary ; [consulté le 1 sep 2023]. Disponible : http://www.language-archives.org/REC/field.html
- Open Language Archives Community [En ligne]. OLAC Role Vocabulary ; [consulté le 1 sep 2023]. Disponible : http://www.language-archives.org/REC/role.html
- ORTOLANG – Plate-forme d'outils et de ressources linguistiques pour un traitement optimisé de la langue française [En ligne]. ORTOLANG – Plate-forme d'outils et de ressources linguistiques pour un traitement optimisé de la langue française ; [consulté le 3 juil 2023]. Disponible : https://www.ortolang.fr/fr/accueil/
- Persistent Identifiers for eResearch [En ligne]. [consulté le 7 août 2023]. Disponible : http://www.pidconsortium.net/
- Poon G. Didak'tic [En ligne]. L'Importance des protocoles de communication (HTTP, FTP) pour le respect des principes FAIR ; 6 oct 2021 [consulté le 25 août 2023]. Disponible : https://www.didaktic.fr/fair-open-data/limportance-des-protocoles-de-communication-http-ftp-pour-le-respect-des-principes-fair/
- PURL Administration [En ligne]. [consulté le 7 août 2023]. Disponible : https://purl.prod.archive.org/
- TEI : Text Encoding Initiative [En ligne]. TEI : Text Encoding Initiative ; [consulté le 1 sep 2023]. Disponible : https://tei-c.org/
- UNESCO - Organisation des Nations Unies pour l’éducation la science et la culture. Déclaration universelle des droits linguistiques [En ligne]. Gallimard ; 1988 [consulté le 4 juil 2023]. 123 p. Disponible : https://www.axl.cefan.ulaval.ca/Langues/Declaration_univ-droits_ling1996.htm#:~:text=Toute%20communauté%20linguistique%20a%20le,communication,%20l'édition,%20la
- Universal Dependencies [En ligne]. Universal Dependencies ; [consulté le 25 août 2023]. Disponible : https://universaldependencies.org/
- Université Grenoble Alpes. FUN MOOC [En ligne]. Introduction à la linguistique de corpus ; [consulté le 21 juin 2023]. Disponible : http://www.fun-mooc.fr/fr/cours/introduction-a-la-linguistique-de-corpus/
- Wikipédia, l'encyclopédie libre [En ligne]. Extensible Markup Language ; 29 sep 2002 [consulté le 1 sep 2023]. Disponible : https://fr.wikipedia.org/w/index.php?title=Extensible_Markup_Language&oldid=204981519
- Wikipédia, l'encyclopédie libre [En ligne]. Open Language Archives Community ; 7 juin 2013 [consulté le 1 sep 2023]. Disponible : https://fr.wikipedia.org/w/index.php?title=Open_Language_Archives_Community&oldid=195319396
- Windhouwer M, Goosen T. CLARIN [En ligne]. De Gruyter ; 2022. Component Metadata Infrastructure ; [consulté le 1 sep 2023] ; p. 191-222. Disponible : https://doi.org/10.1515/9783110767377-008
-