Aperçu des sections

  • Translittérer avec WinIBW

    La translittération dans WinIBW : les raisons de son utilisation, les différentes techniques à utiliser, les écueils à éviter, les résultats obtenus.
    Avant de commencer, vérifiez vos connaissances en cliquant sur l'image ci-dessous !
    En cas de difficulté, consultez les cours ci-après.
    QCM prérequis translittération
    Production: Abes
    Date de publication: 16 octobre 2012
    Licence: CC BY-NC
    Open badge: Non
    Nombre d'inscrits: 0
  • Leçon 1 : pourquoi translittérer ?

    Pourquoi donc translittérer encore, à l'heure où l'Unicode permet de faire coexister de multiples écritures dans la même base, dans le même index ?
  • Leçon 2 : Quelles sont les écritures que le Sudoc peut translittérer automatiquement ?

    Le Sudoc ne prétend pas -encore- permettre de translittérer de et vers toutes les écritures. Ce chapitre vous montrera les possibilités existantes. Les alphabets traités par le Sudoc sont codés, pour uniformiser leur nom. Ce sont les codes utilisés dans le format UNIMARC.

    Liste des écritures translittérées automatiquement
    arabe
    cyrillique
    grec
    hébreu
    latin

    Liste des codes de ces écritures
    Code Ecriture
    ba latin
    ca cyrillique
    fa arabe
    ga grec
    ha hébreu

  • Leçon 3 : Langue et écriture

    Si à un alphabet correspondait une langue, le monde serait plus simple. Mais attention, un texte écrit en alphabet cyrillique peut être du russe, du serbe, du bulgare, du macédonien, de l'ukrainien, du biélorusse, ou du ruthène ! Et notre alphabet latin sert bien sûr à toutes les langues latines, mais pas seulement. Parallèlement, le japonais utilise deux écritures différentes, le kanji ou le kana. Une notice bibliographique doit comporter les deux informations, quelle est la langue utilisée, exprimée dans quel alphabet.
  • Leçon 4 : cataloguer un document en caractères autres que latins

    Vous avez vu dans le chapitre précédent que l'UNIMARC demande de doubler les zones en écriture originale par des zones translittérées en caractères latins. Nous allons voir quelles zones doivent être doublées.
    Quelles zones à doubler ?

    Toutes les zones de la notice ne sont pas à doubler.
    Les zones concernées sont :

    • 200, 205, 206, 207, 208, 210, 225
    • 327
    • toutes les 4XX
    • toutes les 5XX
    • 600, 601, 602, 605
    • toutes les 7XX

    Donc, on ne double pas les zones des numéros d'identification (0XX), ni celles des données codées (1XX), ni la zone 215, par exemple, qui reste en français, ou est traduite en français : le français est la "langue de catalogage". C'est par conséquent la langue des zones de notes.

    Les indispensables sous-zones $6 et $7

    Les zones doublées doivent être distinguées l'une de l'autre (c'est le rôle du code de l'alphabet), mais elles doivent aussi être appariées, pour que la machine -ou l'utilisateur qui ne connaît pas l'écriture du document- sache que telle zone en caractères latins est le reflet de telle zone en écriture originale.
    Pour jouer ces deux rôles, UNIMARC a créé une sous-zone $6 et une sous-zone $7

    La sous-zone $6 contient les "données de liens entre zones", qui permettent l'appariement. Le contenu de cette sous-zone, malgré sa dénomination ronflante, est un simple numéro sur deux caractères, il est contrôlé dans le Sudoc

    La sous-zone $7 contient sur deux caractères également le code de l'écriture utilisée dans la zone en question. Ce code est aussi contrôlé dans le Sudoc

    $6 et $7 : c'est tout simple !

    Distinguer deux éditeurs intellectuels

    L'affaire se corse : deux éditeurs, qui auront la même étiquette, et le même code de fonction, tout cela sur 4 zones ! Comment s'y retrouver, lorsqu'on ne connaît pas le chinois, par exemple ? Le ppn 125703082 est emblématique :

    étiquette et indicateurs données de lien entre les zones code de l'écriture ppn de la notice autorité affichage de la vedette code de fonction
    702 #1 $605‎ $7ea $3125703821 鲁, 健骥 $4340
    702 #1 $605‎ $7ba $3125703821 Lu, Jianji $4340
    702 #1 ‎$606 $7ea ‎$3125704003 吕, 文华 $4340
    702 #1 ‎$606 $7ba ‎$3125704003 Lü, Wenhua $4340

     
    Vous pouvez remarquer que dans la colonne "ppn de la notice autorité", on lit deux fois le même numéro, qui donne deux affichages différents. Cet effet est produit par la présence du code de l'écriture, et la notice autorité elle-même est construite de la même façon.

    étiquette et indicateurs données de liens entre zones code de l'écriture données codées autorités nom prénom
    200 #1 $601 $7ea $90y $a鲁 $b健骥
    200 #1 $601 $7ba $90 $aLu‎ ‎$bJianji


  • Leçon 5 : les outils à votre disposition

    Il serait fastidieux de saisir deux fois chaque zone à doubler d'une notice. C'est pourquoi le Sudoc comporte plusieurs outils de translittération, certains vous demandant un travail en amont, d'autres plus automatisés.

    Bouton Translittérer : un bon début

    Il est fastidieux de saisir deux fois, une fois dans chaque écriture, les zones à doubler. Le principal outil à votre disposition est le bouton "translittérer" de WinIBW.

    Bouton translittérer


    Script translittération : il fait tout !

    L'outil le plus précieux et le dernier mis à votre disposition avec la nouvelle
    version 2011 de WinIBW insère automatiquement les $6 (compose les paires de
    zones) et les $7 (d'après vos indications sur les écritures source et
    cible).

    VOIR LA VIDEO : Le doublage des zones et la translittération faites, vous n'avez
    plus qu'à vérifier la notice !


    Scripts ALA-ISO : pour l'arabe et le cyrillique

    Comme vous l'avez vu plus haut, tout le monde ne suit pas les mêmes normes de translittération.
    Pour faciliter le passage d'un type de translittération à l'autre, deux scripts sont à votre disposition. Entendons-nous bien, ces scripts agissent sur les zones de l'écriture "ba", c'est à dire en alphabet latin.

    1. Transformer un texte écrit en cyrillique, translittéré suivant la norme ALA en translittération selon la norme ISO.
    2. Transformer un texte écrit en arabe, translittéré suivant la norme ALA en translittération selon la norme ISO.
  • Leçon 6 : Ecritures non latines et recherche

    Retrouver un document en écriture non latine n'est pas toujours aussi facile que le cataloguer ! Pourquoi ? A cause des différences de translittération


    Vous avez vu que nous avons besoin de la translittération, et vous avez appris comment l'UNIMARC la gère. Le Sudoc utilise les normes ISO de translittération, mais le monde existait avant le Sudoc, et existe autour de lui ! La base de données est composée de notices de diverses origines, dont on ne peut pas savoir d'avance comment elles ont été translittérées. Vous avez retenu que les américains du nord, par exemple, ne suivent pas les mêmes règles que nous.

    Une bouée de secours : les autorités.

    Vous avez vu que les notices autorité sont translittérées à l'égal des notices bibliographiques. Cette notice autorité permet de noter dans les renvois toutes les formes rencontrées. Il devient donc possible de trouver ce que l'on cherche par n'importe quelle écriture, ou n'importe quelle orthographe issue d'une translittération.

    Un exemple : Léon Tolstoï

    200 #1‎$601‎$7ca‎$90y‎$aТолстой‎$bЛев Николаевич‎$f1828-1910
    200 #1‎$601‎$7ba‎$91e‎$aTolstoï‎$bLev Nikolaevitch‎$f1828-1910
    400 #1‎$9#y‎$aTolstoï‎$bLéon
    400 #1‎$9#y‎$aTolstoy‎$bLeo
    400 #1‎$9#y‎$aTolstoi‎$bLeone
    400 #1‎$602‎$7ca‎$9#y‎$aТолстой‎$bЛевъ Николаевичъ
    400 #1‎$602‎$7ba‎$9#a‎$aTolstoj‎$bLevʺ Nikolaevičʺ

    Une autre bouée de secours : la troncature

    Aussi bien dans la recherche professionnelle que dans la recherche publique, l'utilisation des troncatures et masques permet de trouver plus que ce que l'on cherche ...

    Un exemple : la littérature grecque moderne est surtout riche de nouvelles, beaucoup plus que de romans. Le mot grec est "διηγήματα". La translittération ISO est "diigimata", la translittération ALA (anglo-saxonne) est "diegemata" - ignorons les signes diacritiques qui ne jouent pas de rôle dans la recherche. Pour trouver toutes les orthographes issues des différentes translittérations, la recherche doit être "di!g!mata", où le point d'exclamation remplace un seul caractère (i ou e).

  • Leçon 7 : Le résultat à l'affichage

    Comment faire coexister plusieurs écritures dans la même notice, tout en affichant une notice compréhensible à la fois par les lecteurs de l'écriture originale, et par les autres, ignorants que nous sommes ?

    Affichage liste professionnel

    Vous pouvez voir qu'une liste de résultats dans WinIBW est très décorative, car beaucoup d'écritures différentes y cohabitent.
    L'affichage en liste montre toujours la première zone 200 s'il y en a deux. Et la première zone est toujours rédigée dans l'écriture du document (elle ne contient pas "ba" dans le $7). La même règle est suivie pour les auteurs personnes physiques, si deux zones 200 sont présentes, la première (qui ne contiendra pas "ba" en $7) sera affichée.

    Affichage ISBD

    L'affichage ISBD était une véritable gageure : pouvait-on entremêler les zones de différentes écritures ? La solution retenue est l'affichage de deux notices, l'une en écriture originale, l'autre en caractères latins.

    Affichage libellé

    L'affichage libellé est semblable au format d'affichage du Sudoc public, mais il n'est pas identique.
    Contrairement à l'affichage ISBD, il n'y a pas deux notices, mais une seule comportant des zones répétées.
    On peut remarquer sur la notice exemple l'effet curieux produit par la cohabitation d'une écriture droite-gauche et d'une écriture gauche-droite.

  • Leçon 8 : Recevoir du Sudoc des notices multiécritures

    Le Sudoc est un outil destiné à alimenter les systèmes locaux des bibliothèques. Les notices sont envoyées sous des formats différents selon les besoins des bibliothèques.

    Si le SIGB de la bibliothèque reçoit de l'Unicode

    Dans le cas où le SIGB de la bibliothèque sait gérer l'Unicode, il peut afficher toutes les écritures utilisées.
    Le choix sera le format de catalogage (UNIMARC ou MARC21), et toutes les zones des notices seront envoyées au SIGB.
    Si l'on regarde le format UNIMARC d'échange, on verra quelques détails qui diffèrent du format de catalogage, mais l'esprit reste le même : chaque zone est doublée.

    Si la bibliothèque travaille en Marc21, elle recevra la même notice dans ce format. Et ci-dessous on constate que ce dernier format gère les zones en écriture originale d'une manière différente : elles ont toutes l'étiquette 880, mais le $6 permet d'apparier la zone à répéter et la zone 880 correspondante.

    Si le SIGB de la bibliothèque ne sait pas traiter l'Unicode

    Dans le cas où le SIGB de la bibliothèque ne sait pas gérer l'Unicode, ou si la bibliothèque n'en a pas l'utilité car ses fonds ne sont qu'en caractères latins, les notices qui présentent des zones doublées seront filtrées.
    Le format d'export éliminera les zones en caractères non latins - qui n'ont pas "ba" dans un $6 quand la zone est répétée.