Section : 5 - Construire le modèle en fonction de... | Humanités numériques : gérer ses données dans une équipe interdisciplinaire

Résumé de section

Page d’accueil du cours

- Sélectionner l’activité Afin de construire un modèle au plus près des beso...
  
  Afin de construire un modèle au plus près des besoins du projet, quelques questions techniques (qui auront un impact sur la programmation informatique) doivent se poser et trouver des réponses.
- Sélectionner l’activité Par exemple, il faudra définir : QUELLES SERONT LE...
  
  Par exemple, il faudra définir :
  
  Quelles seront les méthodes de collecte et de numérisation des objets étudiés ?
  
  Photographie, saisie en traitement de texte, OCR (Optical Character Recognition), HTR (Handwritten Text Recognition)...
  
  Quel volume (Mo/Go/To/Po) de données sera produit ?
  
  Pour donner un ordre d'idée :
  
  10 Mo
  une photo numérique haute définition (imprimable dans un ouvrage)
  
  16 Go
  la capacité de stockage d'une petite clé USB
  
  1 To
  la capacité de stockage d'un disque dur d'ordinateur portable
  
  6 Po
  l'intégralité des archives numériques de la BNF (2021)
  
  Ces icônes Icofont sont sous licence : CC-BY 4.0
  
  Quels formats de stockage pour le texte, les images, les métadonnées, etc., sont envisageables et sont les plus appropriés ?
  
  XML, XML-TEI, JSON, CSV, txt...
  
  N.B.: Il est recommandé d'opter pour des formats ouverts et non-propriétaires.
  Pour tester vos connaissances sur les formats ouverts et fermés, consulter cette page DoRANum.
  
  Quel encodage utiliser pour les images ?
  
  Bitmap (pour les photos), vectoriel (pour les plans)
  
  Quel encodage pour le texte ?
  
  Format binaire, format plat
  
  Quel encodage pour les caractères ?
  
  Universel (UTF-8), européen (ISO 8859-1)
  
  A quel traitement les données seront-elles soumises ?
  
  Textualisation, lemmatisation, détection de concepts, spatialisation…
  
  Quelle résolution et définition choisir pour les images ?
  
  Ces décisions auront un impact sur le stockage et l'accessibilité des images. Des niveaux élevés de résolution et de définition seront plus gourmands en stockage et en bande-passante mais peuvent s'avérer absolument nécessaires pour certains projets.
  
  Où va-t-on stocker les données ?
  
  Sur quel(s) serveur(s) ? De quel(s) type(s) ? MédiHAL, serveurs académiques de l'entité de recherche, Huma-Num avec Omeka... ?
  
  L'ingénieur des systèmes et réseaux est à consulter pour cette prise de décision.
  
  Concernant le corpus : quelles seront les modalités d'accès et de consultation du corpus ?
  
  Sera-t-il accessible sur une seule machine localisée dans un institut spécifique ? Ou via un site web ? L'accès sera-t-il ouvert à tous ? A partir de quand ? Pendant combien de temps ?
  
  Comment organiser la restitution des données au grand public (y compris aux chercheurs) ?
  
  Les données seront-elles exportables ? Pourra-t-on choisir les formats d'exportation ? La qualité ? Sous quelle licence les données seront-elles publiées ? Avec quelle documentation (métadonnées) seront-elles accompagnées ?
  
  Comment va-t-on valoriser et rendre visibles les données du projet (en dehors d’un simple dépôt) ?
  
  Vous trouverez des pistes de réponses dans la section "Restituer et valoriser les données" de ce cours.
- Sélectionner l’activité LE BON CONSEIL Au moment de choisir un espace de d...
  
  Le bon conseil
  
  Au moment de choisir un espace de dépôt pour vos données, jeux de données, corpus : pensez pérennité et maintenabilité du code. Même si l'ingénieur en informatique de votre équipe réussit à construire un dispositif de consultation et/ou de stockage des données "fait maison", parfaitement adapté à vos besoins, rien ne vous garantit que ce dispositif soit maintenu dans le temps.
  
  Une fois le projet terminé, il y a peu de chances pour qu'une maintenance soit assurée à moyen-long terme. Pour contourner ce problème, déposez vos jeux de données dans des plateformes pérennes (par exemple, dans des entrepôts de données reconnus) et vos codes sources de logiciels dans HAL/Software Heritage. Pour créer votre base de données, sollicitez des plateformes comme Huma-Num qui proposent des infrastructures numériques de type framework (Omeka, CakePHP) plus susceptibles d'être maintenues dans le temps.

5 - Construire le modèle en fonction de...

Résumé de section

Quelles seront les méthodes de collecte et de numérisation des objets étudiés ?

Quel volume (Mo/Go/To/Po) de données sera produit ?

Quels formats de stockage pour le texte, les images, les métadonnées, etc., sont envisageables et sont les plus appropriés ?

Quel encodage utiliser pour les images ?

Quel encodage pour le texte ?

Quel encodage pour les caractères ?

A quel traitement les données seront-elles soumises ?

Quelle résolution et définition choisir pour les images ?

Où va-t-on stocker les données ?

Concernant le corpus : quelles seront les modalités d'accès et de consultation du corpus ?

Comment organiser la restitution des données au grand public (y compris aux chercheurs) ?

Comment va-t-on valoriser et rendre visibles les données du projet (en dehors d’un simple dépôt) ?

Le bon conseil

Doranum

Callisto

Aide

Nous suivre

Résumé de section

Quelles seront les méthodes de collecte et de numérisation des objets étudiés ?

Quel volume (Mo/Go/To/Po) de données sera produit ?

Quels formats de stockage pour le texte, les images, les métadonnées, etc., sont envisageables et sont les plus appropriés ?

Quel encodage utiliser pour les images ?

Quel encodage pour le texte ?

Quel encodage pour les caractères ?

A quel traitement les données seront-elles soumises ?

Quelle résolution et définition choisir pour les images ?

Où va-t-on stocker les données ?

Concernant le corpus : quelles seront les modalités d'accès et de consultation du corpus ?

Comment organiser la restitution des données au grand public (y compris aux chercheurs) ?

Comment va-t-on valoriser et rendre visibles les données du projet (en dehors d’un simple dépôt) ?

Le bon conseil

Liens de bas de page

Doranum

Callisto

Aide

Nous suivre