Translittérer avec WinIBW
Aperçu des sections
-
La translittération dans WinIBW : les raisons de son utilisation, les différentes techniques à utiliser, les écueils à éviter, les résultats obtenus.Avant de commencer, vérifiez vos connaissances en cliquant sur l'image ci-dessous !
En cas de difficulté, consultez les cours ci-après. -
Pourquoi donc translittérer encore, à l'heure où l'Unicode permet de faire coexister de multiples écritures dans la même base, dans le même index ?
-
Le Sudoc ne prétend pas -encore- permettre de translittérer de et vers toutes les écritures. Ce chapitre vous montrera les possibilités existantes. Les alphabets traités par le Sudoc sont codés, pour uniformiser leur nom. Ce sont les codes utilisés dans le format UNIMARC.Liste des écritures translittérées automatiquement
arabe cyrillique grec hébreu latin Liste des codes de ces écrituresCode Ecriture ba latin ca cyrillique fa arabe ga grec ha hébreu
-
Si à un alphabet correspondait une langue, le monde serait plus simple. Mais attention, un texte écrit en alphabet cyrillique peut être du russe, du serbe, du bulgare, du macédonien, de l'ukrainien, du biélorusse, ou du ruthène ! Et notre alphabet latin sert bien sûr à toutes les langues latines, mais pas seulement. Parallèlement, le japonais utilise deux écritures différentes, le kanji ou le kana. Une notice bibliographique doit comporter les deux informations, quelle est la langue utilisée, exprimée dans quel alphabet.
-
Vous avez vu dans le chapitre précédent que l'UNIMARC demande de doubler les zones en écriture originale par des zones translittérées en caractères latins. Nous allons voir quelles zones doivent être doublées.
Quelles zones à doubler ?
Toutes les zones de la notice ne sont pas à doubler.
Les zones concernées sont :- 200, 205, 206, 207, 208, 210, 225
- 327
- toutes les 4XX
- toutes les 5XX
- 600, 601, 602, 605
- toutes les 7XX
Donc, on ne double pas les zones des numéros d'identification (0XX), ni celles des données codées (1XX), ni la zone 215, par exemple, qui reste en français, ou est traduite en français : le français est la "langue de catalogage". C'est par conséquent la langue des zones de notes.
Les indispensables sous-zones $6 et $7
Les zones doublées doivent être distinguées l'une de l'autre (c'est le rôle du code de l'alphabet), mais elles doivent aussi être appariées, pour que la machine -ou l'utilisateur qui ne connaît pas l'écriture du document- sache que telle zone en caractères latins est le reflet de telle zone en écriture originale.
La sous-zone $6 contient les "données de liens entre zones", qui permettent l'appariement. Le contenu de cette sous-zone, malgré sa dénomination ronflante, est un simple numéro sur deux caractères, il est contrôlé dans le Sudoc
Pour jouer ces deux rôles, UNIMARC a créé une sous-zone $6 et une sous-zone $7La sous-zone $7 contient sur deux caractères également le code de l'écriture utilisée dans la zone en question. Ce code est aussi contrôlé dans le Sudoc$6 et $7 : c'est tout simple !Distinguer deux éditeurs intellectuels
L'affaire se corse : deux éditeurs, qui auront la même étiquette, et le même code de fonction, tout cela sur 4 zones ! Comment s'y retrouver, lorsqu'on ne connaît pas le chinois, par exemple ? Le ppn 125703082 est emblématique :
étiquette et indicateurs données de lien entre les zones code de l'écriture ppn de la notice autorité affichage de la vedette code de fonction 702 #1 $605 $7ea $3125703821 鲁, 健骥 $4340 702 #1 $605 $7ba $3125703821 Lu, Jianji $4340 702 #1 $606 $7ea $3125704003 吕, 文华 $4340 702 #1 $606 $7ba $3125704003 Lü, Wenhua $4340
Vous pouvez remarquer que dans la colonne "ppn de la notice autorité", on lit deux fois le même numéro, qui donne deux affichages différents. Cet effet est produit par la présence du code de l'écriture, et la notice autorité elle-même est construite de la même façon.étiquette et indicateurs données de liens entre zones code de l'écriture données codées autorités nom prénom 200 #1 $601 $7ea $90y $a鲁 $b健骥 200 #1 $601 $7ba $90 $aLu $bJianji -
Il serait fastidieux de saisir deux fois chaque zone à doubler d'une notice. C'est pourquoi le Sudoc comporte plusieurs outils de translittération, certains vous demandant un travail en amont, d'autres plus automatisés.
Bouton Translittérer : un bon début
Il est fastidieux de saisir deux fois, une fois dans chaque écriture, les zones à doubler. Le principal outil à votre disposition est le bouton "translittérer" de WinIBW.
Script translittération : il fait tout !
L'outil le plus précieux et le dernier mis à votre disposition avec la nouvelle
version 2011 de WinIBW insère automatiquement les $6 (compose les paires de
zones) et les $7 (d'après vos indications sur les écritures source et
cible).
VOIR LA VIDEO : Le doublage des zones et la translittération faites, vous n'avez
plus qu'à vérifier la notice !Scripts ALA-ISO : pour l'arabe et le cyrillique
Comme vous l'avez vu plus haut, tout le monde ne suit pas les mêmes normes de translittération.
Pour faciliter le passage d'un type de translittération à l'autre, deux scripts sont à votre disposition. Entendons-nous bien, ces scripts agissent sur les zones de l'écriture "ba", c'est à dire en alphabet latin.- Transformer un texte écrit en cyrillique, translittéré suivant la norme ALA en translittération selon la norme ISO.
- Transformer un texte écrit en arabe, translittéré suivant la norme ALA en translittération selon la norme ISO.
-
Retrouver un document en écriture non latine n'est pas toujours aussi facile que le cataloguer ! Pourquoi ? A cause des différences de translittération
Vous avez vu que nous avons besoin de la translittération, et vous avez appris comment l'UNIMARC la gère. Le Sudoc utilise les normes ISO de translittération, mais le monde existait avant le Sudoc, et existe autour de lui ! La base de données est composée de notices de diverses origines, dont on ne peut pas savoir d'avance comment elles ont été translittérées. Vous avez retenu que les américains du nord, par exemple, ne suivent pas les mêmes règles que nous.
Une bouée de secours : les autorités.
Vous avez vu que les notices autorité sont translittérées à l'égal des notices bibliographiques. Cette notice autorité permet de noter dans les renvois toutes les formes rencontrées. Il devient donc possible de trouver ce que l'on cherche par n'importe quelle écriture, ou n'importe quelle orthographe issue d'une translittération.
Un exemple : Léon Tolstoï
200 #1$601$7ca$90y$aТолстой$bЛев Николаевич$f1828-1910200 #1$601$7ba$91e$aTolstoï$bLev Nikolaevitch$f1828-1910400 #1$9#y$aTolstoï$bLéon400 #1$9#y$aTolstoy$bLeo400 #1$9#y$aTolstoi$bLeone400 #1$602$7ca$9#y$aТолстой$bЛевъ Николаевичъ400 #1$602$7ba$9#a$aTolstoj$bLevʺ NikolaevičʺUne autre bouée de secours : la troncature
Aussi bien dans la recherche professionnelle que dans la recherche publique, l'utilisation des troncatures et masques permet de trouver plus que ce que l'on cherche ...
Un exemple : la littérature grecque moderne est surtout riche de nouvelles, beaucoup plus que de romans. Le mot grec est "διηγήματα". La translittération ISO est "diigimata", la translittération ALA (anglo-saxonne) est "diegemata" - ignorons les signes diacritiques qui ne jouent pas de rôle dans la recherche. Pour trouver toutes les orthographes issues des différentes translittérations, la recherche doit être "di!g!mata", où le point d'exclamation remplace un seul caractère (i ou e).
-
Comment faire coexister plusieurs écritures dans la même notice, tout en affichant une notice compréhensible à la fois par les lecteurs de l'écriture originale, et par les autres, ignorants que nous sommes ?
Affichage liste professionnel
Vous pouvez voir qu'une liste de résultats dans WinIBW est très décorative, car beaucoup d'écritures différentes y cohabitent.
L'affichage en liste montre toujours la première zone 200 s'il y en a deux. Et la première zone est toujours rédigée dans l'écriture du document (elle ne contient pas "ba" dans le $7). La même règle est suivie pour les auteurs personnes physiques, si deux zones 200 sont présentes, la première (qui ne contiendra pas "ba" en $7) sera affichée.Affichage ISBD
L'affichage ISBD était une véritable gageure : pouvait-on entremêler les zones de différentes écritures ? La solution retenue est l'affichage de deux notices, l'une en écriture originale, l'autre en caractères latins.
Affichage libellé
L'affichage libellé est semblable au format d'affichage du Sudoc public, mais il n'est pas identique.
Contrairement à l'affichage ISBD, il n'y a pas deux notices, mais une seule comportant des zones répétées.
On peut remarquer sur la notice exemple l'effet curieux produit par la cohabitation d'une écriture droite-gauche et d'une écriture gauche-droite. -
Le Sudoc est un outil destiné à alimenter les systèmes locaux des bibliothèques. Les notices sont envoyées sous des formats différents selon les besoins des bibliothèques.
Si le SIGB de la bibliothèque reçoit de l'Unicode
Dans le cas où le SIGB de la bibliothèque sait gérer l'Unicode, il peut afficher toutes les écritures utilisées.
Le choix sera le format de catalogage (UNIMARC ou MARC21), et toutes les zones des notices seront envoyées au SIGB.
Si l'on regarde le format UNIMARC d'échange, on verra quelques détails qui diffèrent du format de catalogage, mais l'esprit reste le même : chaque zone est doublée.Si la bibliothèque travaille en Marc21, elle recevra la même notice dans ce format. Et ci-dessous on constate que ce dernier format gère les zones en écriture originale d'une manière différente : elles ont toutes l'étiquette 880, mais le $6 permet d'apparier la zone à répéter et la zone 880 correspondante.
Si le SIGB de la bibliothèque ne sait pas traiter l'Unicode
Dans le cas où le SIGB de la bibliothèque ne sait pas gérer l'Unicode, ou si la bibliothèque n'en a pas l'utilité car ses fonds ne sont qu'en caractères latins, les notices qui présentent des zones doublées seront filtrées.
Le format d'export éliminera les zones en caractères non latins - qui n'ont pas "ba" dans un $6 quand la zone est répétée.