Vous avez peut-être déjà entendu parler du terme Unicode et vous vous êtes demandé ce qu’il signifiait. Schémas de codage normaux à un octet (tels que ASCII et ANSI)

n’autorisez que jusqu’à 256 caractères individuels uniques à coder et à afficher sur l’ordinateur. Dans la communauté informatique mondiale, où chaque membre doit travailler dans sa propre langue, c’est un problème.

Il existe bien plus de 256 caractères couramment utilisés dans le monde.

C’est là qu’Unicode entre en jeu. La norme Unicode nécessite l’allocation de deux octets (seize bits) pour le codage de chaque caractère. Cela signifie qu’il peut y avoir 65 536 caractères uniques définis. Cette norme, conçue et promue par le Consortium Unicode (http://www.unicode.org), permet l’affichage de pratiquement tous les caractères de langue uniques au monde. Une équipe de professionnels de l’informatique, de linguistes et d’universitaires a travaillé sur le développement actuel d’Unicode.

L’utilisation de deux octets pour définir chaque caractère signifie que l’Unicode peut être utilisé pour encoder la plupart des caractères utilisés dans les principales langues du monde. Il existe également un mécanisme d’extension intégré à la norme, ce qui signifie qu’il est possible d’encoder près d’un million de caractères supplémentaires, si nécessaire. Cette capacité devrait être suffisante pour toutes les exigences linguistiques connues, plus l’encodage de tous les scripts historiques du monde. (Cela inclut les langues et les symboles qui ne sont plus utilisés.)

Tel que défini actuellement, Unicode 6.1 (la dernière version) comprend des codes pour les caractères utilisés dans les principales langues écrites du monde, y compris l’arabe, l’arménien, le balinais, le bengali, le bopomofo, le buhid, la syllabe canadienne, le cherokee, le chinois, le cyrillique, le désert, le devanagari , Ethiopique, géorgien, gothique, grec, gujarati, Gurmukhi, Han, Hangul, Hanunoo, hébreu, Hiragana, Kannada, Katakana, Khmer, Lao, Latin, Malayalam, Mongolian, Myanmar, Ogham, Old Italic (étrusque), Oriya, Phoenician , Runique, cinghalais, syriaque, tagalog, tagbanwa, tamoul, télougou, thaana, thaï, tibétain et yi. Les travaux progressent pour ajouter plus de caractères de langues moins connues.

En outre, Unicode comprend également de nombreux symboles différents, y compris des chiffres, des signes diacritiques généraux, une ponctuation générale, des symboles généraux, des dingbats, des flèches, des blocs, des formes de dessin de boîte, des formes géométriques, des symboles mathématiques, des symboles musicaux (occidentaux et byzantins), des symboles techniques, du braille modèles et radicaux Kangxi.

Unicode est pris en charge dans toutes les versions modernes de Windows et Word.

WordTips est votre source pour une formation Microsoft Word rentable.

(Microsoft Word est le logiciel de traitement de texte le plus populaire au monde.) Cette astuce (1788) s’applique à Microsoft Word 97, 2000, 2002 et 2003. Vous pouvez trouver une version de cette astuce pour l’interface ruban de Word (Word 2007 et plus tard) ici:

link: / wordribbon-Understanding_Unicode_Characters [Comprendre les caractères Unicode].