Résumé de section

Page d’accueil du cours


    • Afin de construire un modèle au plus près des besoins du projet, quelques questions techniques (qui auront un impact sur la programmation informatique) doivent se poser et trouver des réponses.

    • Par exemple, il faudra définir :

      Quelles seront les méthodes de collecte et de numérisation des objets étudiés ?

      Photographie, saisie en traitement de texte, OCR (Optical Character Recognition), HTR (Handwritten Text Recognition)...

      Quel volume (Mo/Go/To/Po) de données sera produit ?

      Pour donner un ordre d'idée :

      10 Mo

      une photo numérique haute définition (imprimable dans un ouvrage) 

      16 Go

      la capacité de stockage d'une petite clé USB

      1 To

      la capacité de stockage d'un disque dur d'ordinateur portable

      6 Po

      l'intégralité des archives numériques de la BNF (2021)

      Ces icônes Icofont sont sous licence : CC-BY 4.0

      Quels formats de stockage pour le texte, les images, les métadonnées, etc., sont envisageables et sont les plus appropriés ?

      XML, XML-TEI, JSON, CSV, txt...

      N.B.: Il est recommandé d'opter pour des formats ouverts et non-propriétaires.
      Pour tester vos connaissances sur les formats ouverts et fermés, consulter cette page DoRANum.

      Quel encodage utiliser pour les images ?

      Bitmap (pour les photos), vectoriel (pour les plans)

      Quel encodage pour le texte ?

      Format binaire, format plat

      Quel encodage pour les caractères ?

      Universel (UTF-8), européen (ISO 8859-1)

      A quel traitement les données seront-elles soumises ?

      Textualisation, lemmatisation, détection de concepts, spatialisation… 

      Quelle résolution et définition choisir pour les images ?

      Ces décisions auront un impact sur le stockage et l'accessibilité des images. Des niveaux élevés de résolution et de définition seront plus gourmands en stockage et en bande-passante mais peuvent s'avérer absolument nécessaires pour certains projets. 

      Où va-t-on stocker les données ?

      Sur quel(s) serveur(s) ? De quel(s) type(s) ? MédiHAL, serveurs académiques de l'entité de recherche, Huma-Num avec Omeka... ?

      L'ingénieur des systèmes et réseaux est à consulter pour cette prise de décision.

      Concernant le corpus : quelles seront les modalités d'accès et de consultation du corpus ?

      Sera-t-il accessible sur une seule machine localisée dans un institut spécifique ? Ou via un site web ? L'accès sera-t-il ouvert à tous ? A partir de quand ? Pendant combien de temps ?
       

      Comment organiser la restitution des données au grand public (y compris aux chercheurs) ?

      Les données seront-elles exportables ? Pourra-t-on choisir les formats d'exportation ? La qualité ? Sous quelle licence les données seront-elles publiées ? Avec quelle documentation (métadonnées) seront-elles accompagnées ?

      Comment va-t-on valoriser et rendre visibles les données du projet (en dehors d’un simple dépôt) ?

      Vous trouverez des pistes de réponses dans la section "Restituer et valoriser les données" de ce cours. 


    • Le bon conseil

      Au moment de choisir un espace de dépôt pour vos données, jeux de données, corpus : pensez pérennité et maintenabilité du code. Même si l'ingénieur en informatique de votre équipe réussit à construire un dispositif de consultation et/ou de stockage des données "fait maison", parfaitement adapté à vos besoins, rien ne vous garantit que ce dispositif soit maintenu dans le temps.

      Une fois le projet terminé, il y a peu de chances pour qu'une maintenance soit assurée à moyen-long terme. Pour contourner ce problème, déposez vos jeux de données dans des plateformes pérennes (par exemple, dans des entrepôts de données reconnus) et vos codes sources de logiciels dans HAL/Software Heritage. Pour créer votre base de données, sollicitez des plateformes comme Huma-Num qui proposent des infrastructures numériques de type framework (Omeka, CakePHP) plus susceptibles d'être maintenues dans le temps.