Codage Multilingue

De WikiA3C7
Aller à : navigation, rechercher

ÉVOLUTION DES MÉTHODES DE CODAGE DE CARACTÈRES POUR LA PRISE EN COMPTE DU MULTILINGUISME

Au commencement, partout était l'anglais. Et encore, fallait-il l'écrire tout en majuscules. La capacité de reproduction des caractères par les imprimantes était limitée à un répertoire d'une cinquantaine de caractères et tous les langages informatiques étaient limités à l'utilisation de ces quelques caractères.

Le premier code de caractères à usage de traitement électronique, l'alphabet international n° 2, ou code télex, avec 5 bits et un astucieux système d'échappement ne permettait effectivement que la traduction codée d'une soixantaine de caractères.

En 1963, le premier code normalisé pour le traitement de l'information est adopté par l'ISO (norme ISO 646) après de laborieuses discussions qui ont duré 4 ans. En effet, ce code à 7 éléments ne permet que 128 significations et regroupe des fonctions de commandes et des caractères. 95 valeurs ont été conservées pour les caractères et cela est encore insuffisant pour faire autre chose que de l'anglais. Malgré cela, sur les signes auxiliaires, de nombreuses options possibles sont en débat. Un compromis est finalement trouvé. Le code international, dit version internationale de référence (lRV) de l'alphabet international n° 5 (IA5) comporte donc l'ensemble de 26 majuscules et minuscules de l'alphabet latin simple, des chiffres, des signes de ponctuation et des caractères spéciaux. Parmi ceux-ci, un signe inconnu, dit caractère monétaire international (¤), a,été introduit à la demande de pays qui refusaient de voir le signe dollar ($) considéré avec cet usage. À ce signe près, l'IRV, c'est la norme nationale américaine ASCII. A coté de cet IRV , la norme ISO 646 prévoir une table de base comportant des cases vides réservées aux options nationales : ce geste est la première reconnaissance officielle des nécessités de localisation des applications et c'est aussi l'origine de bien des ennuis. Chacun appelle donc ASCII sa version nationale d'une norme devenue ainsi floue et cause de multiples incompatibilités. II y a cependant loin de ces versions nationales à un codage multilingue.

Les pionniers en la matière ont été les bibliographes du TC46 de l'ISO. Entre 1972 et 1980, ils définissent une série de 3 normes pour l'échange d'informations bibliographiques respectivement en alphabet latin, grec ou cyrillique. Ces normes comportent plus d'une idée originale.

D'abord ils utilisent la capacité d'échappement vaguement évoquée dans l'ISO 646 pour utiliser simultanément deux tables de code. Une table primaire qui, pour le latin est l'ASCII, comporte l'alphabet de base, une table secondaire comporte des symboles complémentaires et, seconde innovation, parmi ceux-ci, les signes diacritiques. Ainsi un caractère diacrité est codé comme la succession du code du signe diacritique et de celui du caractère porteur. Cette méthode est étendue aux caractères grecs et cyrilliques par la création des jeux de base nécessaires.

Ces idées originales donnent lieu à trois types de développements normatifs. Le premier c'est la norme des techniques d'extension qui permet d'utiliser simultanément jusqu'à 4 jeux de caractère, avec une diversification intéressante des techniques d'appel. Dans le système original pour passer d'un jeu à l'autre, il faut commuter les jeux par le code de sortie (SO) puis revenir au jeu d'origine par le code SI et enfin imposer la superposition de l'accent et du caractère en interposant le code BS (Retour arrière). Ainsi un caractère accentué réclame-t-il 5 octets de code. Dans le système d'extension nouveau de la norme ISO 2022, la technique du simple appel permet de n'utiliser qu'un seul code pour chercher un caractère unique dans un jeu accessoire sans avoir à commander le retour. On réduit ainsi le code d'un caractère accentué à 4 octets.

On améliore encore la situation en introduisant enfin un codage à 8 élements : l'élément supplémentaire permet de distinguer entre deux jeux et le code d'un caractère diacrité tombe à trois octets.

Enfin, en 1977, les télécommunicants du CCITT décident d'adopter la méthode par composition du jeu de caractères codés pour la communication de texte. Ce travail est précédé d'une étude comparative de 39 langues européennes utilisant l'alphabet latin, permettant un inventaire exhaustif des caractères nécessaires. La norme 6937 est adoptée simultanément par l'ISO et le CCITT (sous le nom de T.51). En 1980, est constituée la base de codage de tous les services télématiques. La dernière amélioration apportée par cette norme est que l'accent flottant est considéré comme caractère sans chasse, c'est à dre de largeur nulle ce qui évite d'avoir à utiliser la fonction de retour arrière: un caractère est donc représenté en deux octets dans la version 8 bits de ce code.

Immédiatement, l'ISO essaie d'étendre ce mécanisme à des langues non latines mais des évènements internes interrompent le processus. Celui-ci est repris dans un tout autre esprit en 1984. À ce moment le SC2 entreprend une norme multilingue concurrente de la 6937. Cette norme reprend l'idée de versions nationales en codage à 8 éléments. Un jeu de base, l'ASCII et un jeu de caractères complémentaires composés forment chaque partie de la norme. Chaque partie est affectée à une zone géographique. Six alphabets latins sont ainsi définis puis un alphabet latin-cyrillique, un latin arabe, un latin grec, un latin hébreu, tous basés sur le même principe : chaque caractère est codé sur un seul octet. Bien adapté au traitement local, cette méthode ne permet pas la communication multilingue strico-sensu. C'est ainsi, pour la petite histoire, que le projet initial comportait 4 alphabets "ISO-latin", un pour l'Europe Occidentale, un autre pour l'Europe Orientale, un pour l'Europe du Sud, un autre pour l'Europe du Nord. Après cela, les Turcs, classés géographiquement à l'Est, ont considéré que leurs besoins de communication étaient plus forts avec français, italiens ou allemands qu'avec les lettons ou les polonais. Pour ce faire, un alphabet ISO-latin N°5 a donc été établi. Enfin, un alphabet complémentaire comportant tous les caractères oubliés (dont le couple œ -Œ du français) a été publié récemment Comme on le voit, cette méthode d'ailleurs non approuvée par le France, ne permet pas réellement la communication multilingue. C'est cependant celle à qui l'actuel rapport de forces à l'ISO donne la faveur et les travaux sur les versions non latines du 6937 ont été stoppés.

À l'autre extrémité de la gamme des travaux de l'ISO, a été entrepris en 1987 un véritable travail de titans : établir un inventaire exhaustif de tous les caractères de toutes les écritures du Monde ainsi qu'un codage sur plusieurs octets de ces caractères. Déjà le codage systématique sur deux octets est utilisé par chinois et japonais pour le codage de 6 à 7 mille idéogrammes. Chaque idéogramme est representé par deux codes ASCII et la capacité du système multi-octet est donc de 95 x 95 =9025 caractères par table. L'extension à plus de deux octets ouvre donc des possibilités fabuleuses mais ... à quel prix ! Cependant, la baisse du prix des mémoires rend cette méthode praticable et, devant les lenteurs de l'ISO à sortir sa norme 10646, des standards de fait (Unicode) basés sur les mêmes principes commencent à apparaître.

CONCLUSION

Le multilinguisme dans les applications informatiques est de plus en plus à l'ordre du jour. Les usagers attendent des normes et lorsqu'elles tardent à venir, ils font des standards. Au niveau français, il faut mettre en avant la faiblesse du dispositif : le comité français correspondant ne comporte que 4 personnes, ce qui est insuffisant pour faire face à la fois au codage de caractères et à celui des images et des sons, ainsi qu'à assurer les contacts internationaux nécessaires. Je terminerai donc ce rappel de travaux en faisant un appel au peuple: engagez-vous, rengagez-vous, le comité national n° 2, chargé de ces travaux au plan national manque de bras et de cerveaux, ce qui a, entre autres conséquences, celle d'affaiblir le statut de la langue française dans ce mouvement accéléré de recherche des solutions aux besoins de la communication multilingue.