Objectif de Wikidata
I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A "Semantic Web", which makes this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The "intelligent agents" people have touted for ages will finally materialize.
J’ai fait un rêve pour le Web [dans lequel les ordinateurs] deviennent capables d’analyser toutes les données sur le Web — le contenu, liens, et les transactions entre les personnes et les ordinateurs. Un « Web Sémantique », qui devrait rendre cela possible, n’a pas encore émergé, mais quand ce sera fait, les mécanismes plan-plan d’échange, de bureaucratie et de nos vies quotidiennes seront traités par des machines dialoguant avec d’autres machines. Les « agents intelligents » qu’on nous promet depuis longtemps vont enfin se concrétiser.
Wikidata vise à créer une base de connaissance multilingue que les machines et les humains peuvent lire et enrichir. Le projet permet une mutualisation des données entre les projets Wikimedia. Les données peuvent ainsi être affichées sur Wikipedia ou par des sites web externes. Les données de Wikidata sont ajoutées par une communauté de bénévoles, que ce soit manuellement ou à l'aide de programmes.
Wikidata a plus de 100 millions d'éléments, comme celui sur Douglas Adams, qui représentent par exemple une personne, un lieu, une œuvre d'art, un concept abstrait, ou d'autres types d’entité (telles qu'une université, un centre de recherche, une revue, un article académique, etc.). Chaque élément est défini par des déclarations, chaque déclaration consistant à son tour en une propriété comme date de naissance et la valeur appropriée pour l'élément (paires clé-valeur). De même, il peut y avoir des déclarations pour des identifiants externes, comme un identifiant DOI. Wikidata se concentre sur un niveau basique d'informations utiles sur le monde et les relie à d'autres ressources spécialisées sur le sujet. Les sources de données de Wikidata doivent être fiables et accessibles publiquement.
Depuis son lancement en 2012, Wikidata contenait principalement des concepts : les éléments Q sont liés à une chose ou une idée, pas au mot qui le décrit. Depuis 2018, Wikidata stocke un nouveau type de données : des mots, des locutions et des phrases. Ces informations sont stockées dans de nouveaux types d'entités, appelés lexèmes (L), formes (F) et sens (S). Wikidata comporte plus de 650 000 lexèmes. Pour en savoir plus sur le modèle de données, reportez-vous à la page de documentation.
Licence des données
Les données de Wikidata sont publiées sous la mention Creative Commons Zero (CC0) permettant au titulaire de droits d’auteur de renoncer au maximum à ceux-ci dans la limite des lois applicables. CC0 permet à toute personne de réutiliser librement les données, les améliorer, les modifier, quel que soit le but et sans aucune restriction de droit, sauf celles imposées par la loi.
Format des données
Les dumps de Wikidata sont proposés aux formats JSON (recommandé), RDF (
all et
truthy) et XML (déconseillé). Ils sont téléchargeables depuis
dumps.wikimedia.org (uniquement les 3 derniers mois) et divers sites miroirs. Les dumps sont à utiliser lorsque vous avez besoin d'un grand nombre de données ou si vous souhaitez mettre en place un service de requêtage. Les dumps sont déconseillés si vous avez peu de bande passante, d'espace de stockage ou de puissance de calcul. Et s'il vous faut des données très récentes.
wdumper permet d'obtenir des dumps RDF partiels.
Exemples
Le directeur R&D de JSTOR Labs, Ron Snyder, a présenté en 2022 différentes réutilisations du contenu de Wikidata (
présentation).