Résumé de section

  • Inspiré d'un projet de recherche en sciences économiques et en droit de la concurrence, disponible sur le site web de l'Institut des Études et de la Recherche sur le Droit et la Justice, ce cas d'étude pointe certaines pratiques liées à la gestion et la diffusion des données. 

    Il a pour but de s'appuyer sur ces pratiques pour vous alerter sur les points de vigilance et d'amélioration à prévoir dans vos travaux scientifiques, notamment dans une perspective de reproductibilité.


    Objectifs
    • Identifier quelques formats ouverts couramment utilisés
    • Identifier les bonnes pratiques dans la façon de coder les variables d'une base de données
    • Définir l'utilité des fichiers readme
    • Identifier des bonnes pratiques permettant de réduire le risque de perte des données
    • Déterminer, dans un contexte donné, les éléments que l'on peut partager en complément d'un article publié
    Ce cours est en libre accès !

    Aucune création de compte ou d'inscription n'est nécessaire, toutefois vous ne pourrez le parcourir qu'en lecture seule.

    Pour participer aux activités (exercices, forum...), vous devez vous inscrire au cours

    S'inscrire au cours
    • Auteur(s) / Formateur(s): Sothearath Seang - Project Manager | Sevea Consulting
      Production cours: Viet Jeannaud - Callisto Formation
      Public cible: chercheurs, Doctorants en droit et économie
      Date de publication: 9 février 2023
      Durée estimée: 30 min
      Prérequis: aucun
      Licence: CC BY-NC-SA
      Citation: Seang, S., & Jeannaud, V. (2023). Droit de la concurrence : approche quantitative de jeux de données juridiques (Version 1). Callisto Formation.
      DOI: https://doi.org/10.60538/APPROCHE-QUANTITATIVE-DONNEES-JURIDIQUES
      Open badge: Non
      Nombre d'inscrits: 3
      Catalogue: Non


  • En tant que doctorante au sein d’un projet en sciences économiques et en droit, vous êtes chargée de réaliser une analyse quantitative de l’ensemble des décisions rendues par la cour d’appel de Paris et la Cour de Cassation en matière de pratiques anticoncurrentielles entre 2003 et 2017. 

    Plus précisément vous êtes amenée en premier temps à réaliser des statistiques descriptives sur le niveau des sanctions pécuniaires et le taux de réformation des décisions par la cour d’appel à partir des outils économiques utilisés en économie industrielle. 

    Votre étude s’achève sur une étude économétrique qui mesure le lien entre l’usage de ces outils économiques et la probabilité de confirmation par la cour d’appel de la décision rendue en première instance. Le modèle ultime doit ainsi  déterminer si la diffusion de l’expertise économique au sein du droit français de la concurrence a contribué à le rendre plus robuste.

    • Téléchargement de données publiques

      Votre travail de recherche commence par la collecte de données publiques. Ce sont des comptes-rendus des décisions sur les sites web de la cour d’appel et de cassation sous format PDF.

      Téléchargement d'une décision de la cour d'appel de Paris en PDF

      Capture d'écran d'un téléchargement d'une décision de la cour d'appel de Paris en PDF - Cour de cassation | Judilibre



    • Téléchargement d'une décision de la cour d'appel de Paris en PDF

      Construction de la base de données

      Vous avez ensuite créé un tableau Excel en format xlsx avec les variables qui vous intéressent et entré manuellement vos données dessus : ce tableau est votre base de données principale.



    • Production de graphiques

      Vous avez réalisé des visualisations graphiques pour les analyses descriptives à partir de ces données que vous enregistrez en tant qu’images sous format JPG.

      Téléchargement d'une décision de la cour d'appel de Paris en PDF


    • Capture d'écran - Écrire un script dans R - Série d'ateliers R du CSBQ

      Création du script

      Enfin vous avez créé un script R à partir du tableau pour l’analyse économétrique sur le logiciel R Studio.



    • Questions



    • Convention de nommage et fichier Readme

      Aucune convention de nommage commune au projet a été mise en place et vous ne créez pas de fichier Readme pour vos tableaux.

      Vous vous justifiez sur le fait que vous êtes toute seule à traiter cette étude donc il n’y a pas besoin de convention de nommage ou de fichiers Readme.



    • Questions



    • Nettoyage de la base de données

      Vous avez généré des visualisations graphiques sur Excel pour les statistiques descriptives.

      Mais vous constatez tardivement que certaines variables de votre tableur Excel ne sont pas codées correctement (présence d'espaces, d'accents, de majuscules...).

      Vous devez donc passer du temps pour recoder les variables et nettoyer la base sur R générant un fichier script R pour la partie analyse économétrique de l’étude.

    • Perte de la dernière version du fichier

      Vous gardez vos bases de données sur votre ordinateur personnel.

      Vous réalisez des sauvegardes sur votre disque dur personnel environ tous les 10 jours.

      À cause d’une panne de votre ordinateur, une version de votre base de données principale est corrompue et vous avez perdu les modifications que vous avez apportées à cette dernière version.



    • Questions



    • Publication de l'article

      Votre étude complète est disponible au public sur le site de l'Institut des Études et de la Recherche sur le Droit et la Justice.

      Elle intègre les visualisations graphiques pour les analyses descriptives ainsi que le dictionnaire des variables en annexe.

      Vous ne mentionnez pas dans votre étude l’ouverte des données et la possibilité d’avoir accès aux données (sur demande ou pas).



    • Téléchargement d'une décision de la cour d'appel de Paris en PDF

      Partage des données

      Vous vous rendez compte que le partage du dictionnaire de variables n’est pas très utile pour les lecteurs sans les bases de données et le fichier de script RVous envisagez donc de les déposer dans un entrepôt de données afin de les rendre accessibles.

      Votre étude ne contient aucune donnée sensible ou personnelle et ne pose aucun souci d’éthique.

      Vous n’avez pas prêté attention à la convention mais le Responsable du projet affirme que la base de données vous appartient car c’est vous qui l’avez constitué.



    • Questions



  • Vous avez publié votre étude et partagé les données sous-jacentes, avec en complément toutes les informations nécessaires pour comprendre et réutiliser les données.

    Toutefois, vous avez commis quelques erreurs en terme de gestion et de partage de données qui vous ont fait perdre du temps.

    En conclusion, voici des propositions d'amélioration si vous êtes amené à refaire l’étude.

    • Appliquer des bonnes pratiques de sauvegarde et de stockage des données

      Sauvegarder les données avec une fréquence régulière courte et sur des supports différents permet d’éviter les pertes définitives de données. Une règle intéressante à suivre est la sauvegarde 3-2-1 : 3 copies sur 2 supports différents dont 1 à distance.

      Callisto. (2022, 14 juin). La sauvegarde 3-2-1. [Vidéo]. Canal-U. https://www.canal-u.tv/117058. (Consultée le 15 mars 2023)


      Pensez aussi à choisir des solutions de stockage facilitant l'accès de vos données à vos collaborateurs. Cela vous évitera d'avoir à envoyer des courriels à chaque fois aux collaborateurs du projet. Ci-dessous un tableau comparatif des supports de stockage en termes de sécurité et de partage.

      Tableau comparatif support stockage


    • Appliquer une convention simple de nommage des variables

      Partir sur des abbréviations simples vous facilitera le travail de nettoyage de la base de données sur R et Excel : une meilleure transcription des données pour éviter la perte de temps pour recoder sur les logiciels de traitement.

      Il convient de rendre le nom des variables le plus court et le plus simple possible. Quelques règles de bonnes pratiques : 

      • ne pas mettre d’espace, 
      • privilégier le _ (tiret du 8), 
      • pas d’accent, de caractère spécial, ou de majuscule. 


      Le but est de simplifier au maximum tout en rendant lisible et réutilisable votre base de données principale. En parallèle, il convient de créer un dictionnaire des variables pour préciser les éléments du codage, ce qui est d'autant plus nécessaire lorsque ces derniers sont nombreux et complexes.


    • Vérifier les conditions possibles de partage dans le cadre de votre projet

      Il est nécessaire de prêter plus d’attention à la convention et aux conditions légales du projet. Dans cette étude de cas, il n'y avait pas de contraintes au partage des données. Toutefois, et de façon générale, plusieurs aspects sont à réfléchir en amont, comme les droits et obligations quant à la diffusion des données et le choix de licences adaptées, notamment aux bases de données.

  • Un forum est à votre disposition pour toute question. Vous pouvez aussi nous aider à améliorer ce cours en nous donnant votre avis.