Par exemple, il faudra définir :
Quelles seront les méthodes de collecte et de numérisation des objets étudiés ?
Photographie, saisie en traitement de texte, OCR (Optical Character Recognition), HTR (Handwritten Text Recognition)...
Quel volume (Mo/Go/To/Po) de données sera produit ?
Pour donner un ordre d'idée :
10 Mo
une
photo numérique haute définition (imprimable dans un ouvrage)

16 Go
la capacité de stockage d'une
petite clé USB

1 To
la capacité de stockage d'
un disque dur d'ordinateur portable

6 Po
l'intégralité des
archives numériques de la BNF (2021)

Ces icônes Icofont sont sous licence : CC-BY 4.0
Quels formats de stockage pour le texte, les images, les métadonnées, etc., sont envisageables et sont les plus appropriés ?
XML, XML-TEI, JSON, CSV, txt...
N.B.: Il est recommandé d'opter pour des formats ouverts et non-propriétaires.
Pour tester vos connaissances sur les formats ouverts et fermés, consulter cette page DoRANum.
Quel encodage utiliser pour les images ?
Bitmap (pour les photos), vectoriel (pour les plans)
Quel encodage pour le texte ?
Format binaire, format plat
Quel encodage pour les caractères ?
Universel (UTF-8), européen (ISO 8859-1)
A quel traitement les données seront-elles soumises ?
Textualisation, lemmatisation, détection de concepts, spatialisation…
Quelle résolution et définition choisir pour les images ?
Ces décisions auront un impact sur le stockage et l'accessibilité des images. Des niveaux élevés de résolution et de définition seront plus gourmands en stockage et en bande-passante mais peuvent s'avérer absolument nécessaires pour certains projets.
Où va-t-on stocker les données ?
Sur quel(s) serveur(s) ? De quel(s) type(s) ? MédiHAL, serveurs académiques de l'entité de recherche, Huma-Num avec Omeka... ?
L'ingénieur des systèmes et réseaux est à consulter pour cette prise de décision.
Concernant le corpus : quelles seront les modalités d'accès et de consultation du corpus ?
Sera-t-il accessible sur une seule machine localisée dans un institut spécifique ? Ou via un site web ? L'accès sera-t-il ouvert à tous ? A partir de quand ? Pendant combien de temps ?
Comment organiser la restitution des données au grand public (y compris aux chercheurs) ?
Les données seront-elles exportables ? Pourra-t-on choisir les formats d'exportation ? La qualité ? Sous quelle licence les données seront-elles publiées ? Avec quelle documentation (métadonnées) seront-elles accompagnées ?
Comment va-t-on valoriser et rendre visibles les données du projet (en dehors d’un simple dépôt) ?
Vous trouverez des pistes de réponses dans la section "Restituer et valoriser les données" de ce cours.