Tour d'horizon des données ouvertes
4. Corpus
4.1. Wikipedia
Contenu techniquement réutilisable
Dumps de données
"dumps wikipedia " OR "wikipedia dumps". Exemples de réutilisation du contenu de Wikipedia (Nielsen, 2018) :- Enriching Word Vectors with Subword Information (Bojanowski et al., 2016),
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2018),
- Overcoming the brittleness bottleneck using Wikipedia: enhancing text categorization with encyclopedic knowledge (Gabrilovich et Markovitch, 2006),
- Open semantic analysis: The case of word level semantics in Danish (Nielsen et Hansen, 2017).
Dumps XML
| Nom du fichier |
Taille | |
|---|---|---|
| frwiki-20231020-pages-articles-multistream1.xml-p1p306134.bz2 | 594,9 Mo | |
| frwiki-20231020-pages-meta-current.xml.bz2 | 7,9 Go | |
| frwiki-20231020-stub-meta-history.xml.gz | 14,0 Go | |
| frwiki-20231101-stub-meta-current1.xml.gz | 20,9 Mo |
|
|
|
|
|
Uniquement les pages dans l'espace principal (articles encyclopédiques pour Wikipedia). Disponible au format de compression bz. Généralement disponible avec |
|
|
Pages dans tous les espaces de nom. |
|
|
Métadonnées sans le contenu des pages, tels que les titres des pages, les modèles de contenu, les identifiants des pages et des révisions, noms d'utilisateurs et espaces de nom, horodatages et résumés de modification. Disponible au format gzip. |
|
|
Comprend le contenu de la page et les métadonnées. |
|
|
La dernière révision uniquement. |
|
|
Intégralité de l'historique de révision des pages, pour les informations sur les auteurs. |
Fichiers XML
siteinfo et l'objet page, chacun ayant de multiples objets associés, champs et attributs.siteinfo
dbname: le nom de la base de donnéesitename: le nom du projet Wikimedia concernébase: le lien vers la page d'accueil du wikigenerator: la version de MediaWiki au moment de la génération du dumpcase: indique si la première lettre du titre d'une page est sensible à la casse (case-sensitive) ou non (first-letter). Contrairement à Wikipedia, le Wiktionnaire distingue les pages Bac et bac.
page
id: identifiant unique au sein du wiki concernétitle: nom de la pagens: espace de nom dans lequel figure la pageredirect: apparait lorsque la page est une redirection
revision
id: identifiant de la révisionparentid: identifiant de la précédente révisiontimestamp: date de publication de la révisioncontributor: information sur l'utilisateur qui a publié la révisionminor: révision qualifiée de mineur ou non par l'utilisateurcomment: commentaire de modification laissé par l'utilisateurmodel: modèle (wikitext,JavaScript,CSS,plain textouJSON)format: format de sérialisation (text/plain,text/x-wiki,text/javascript,application/jsonoutext/css)text: le contenu de la page en wikitextesha1: identifiant de vérification généré par l'algorithme SHA-1
Wikitexte versus HTML
Dumps HTML
Depuis octobre 2021, Wikimedia Entreprise, une filiale de Wikimedia Foundation, met à dispositon gratuitement des dumps au format HTML afin de faciliter l'utilisation des dumps.
Ce jeu de données s'accompagne d'une librairie Python mwparserfromhtml qui permet d'extraire facilement des données (liens internes, liens externes, catégories, modèles, etc) des articles en HTML.
