Comprendre les caractères Unicode (Microsoft Word)

Posted on: 2020年11月12日 2020年11月12日

Vous avez peut-être déjà entendu parler du terme Unicode et vous vous êtes demandé ce qu’il signifiait. Schémas de codage normaux à un octet (tels que ASCII et ANSI)

n’autorisez que jusqu’à 256 caractères individuels uniques à coder et à afficher sur l’ordinateur. Dans la communauté informatique mondiale, où chaque membre doit travailler dans sa propre langue, c’est un problème.

Il existe bien plus de 256 caractères couramment utilisés dans le monde.

C’est là qu’Unicode entre en jeu.

Selon la version d’Unicode utilisée, la norme requiert entre deux et cinq octets pour le codage de chaque caractère. Au moment d’écrire ces lignes, la norme Unicode actuelle est 9.0.0, qui utilise cinq octets et 128 172 caractères définis. Cette norme, conçue et promue par le Consortium Unicode (http://www.unicode.org), permet l’affichage de pratiquement tous les caractères de langue uniques au monde. Une équipe de professionnels de l’informatique, de linguistes et d’universitaires continue de travailler au développement actuel d’Unicode.

L’utilisation de plusieurs octets pour définir chaque caractère signifie que l’Unicode peut être utilisé pour encoder la plupart des caractères utilisés dans les principales langues du monde. Il existe également un mécanisme d’extension intégré à la norme, ce qui signifie qu’il est possible d’encoder près d’un million de caractères supplémentaires, si nécessaire. Cette capacité devrait être suffisante pour toutes les exigences linguistiques connues, plus l’encodage de tous les scripts historiques du monde. (Cela inclut les langues et les symboles qui ne sont plus utilisés.)

Tel qu’il est actuellement défini, Unicode 9.0.0 (la dernière version, publiée en juin 2016) comprend des codes pour les caractères utilisés dans les principales langues écrites du monde, notamment l’arabe, l’arménien, le balinais, le bengali, le bopomofo, le buhid, la syllabe canadienne, le cherokee, Chinois, cyrillique, déseret, devanagari, éthiopien, géorgien, gothique, grec, gujarati, gurmukhi, han, hangul, hanun-o, hébreu, hiragana, kannada, katakana, khmer, lao, latin, malayalam, mongol, Myanmar, Ogham, Ancien italique (étrusque), oriya, phénicien, runique, cinghalais, syriaque, tagalog, tagbanwa, tamoul, télougou, thaana, thaï, tibétain et yi. Les travaux progressent pour ajouter plus de caractères de langues moins connues.

En outre, Unicode comprend également de nombreux symboles différents, y compris des nombres, des signes diacritiques généraux, une ponctuation générale, des symboles généraux, des dingbats, des emojis, des flèches, des blocs, des formes de dessin de boîte, des formes géométriques, des symboles mathématiques, des symboles musicaux (occidentaux et byzantins), des symboles techniques , les modèles en braille et les radicaux Kangxi.

Unicode est pris en charge dans toutes les versions modernes de Windows et Word. La norme Unicode prise en charge dépend exactement de la version de Windows et de Word en question.

WordTips est votre source pour une formation Microsoft Word rentable.

(Microsoft Word est le logiciel de traitement de texte le plus populaire au monde.) Cette astuce (11277) s’applique à Microsoft Word 2007, 2010, 2013 et 2016. Vous pouvez trouver une version de cette astuce pour l’ancienne interface de menu de Word ici:

link: / word-Understanding_Unicode_Characters [Comprendre les caractères Unicode].