Comprensión de los caracteres Unicode (Microsoft Word)

Publicado en: 2020年11月12日 2020年11月12日

Es posible que haya oído hablar del término Unicode antes y se haya preguntado qué significa. Esquemas de codificación normales de un solo byte (como ASCII y ANSI)

Permita que solo se codifiquen y muestren en la computadora hasta 256 caracteres individuales únicos. En la comunidad informática mundial, donde cada miembro debe trabajar en su propio idioma, esto es un problema.

Hay más de 256 caracteres de uso común en todo el mundo.

Aquí es donde entra en juego Unicode.

Dependiendo de la versión de Unicode que se utilice, el estándar requiere entre dos y cinco bytes para codificar cada carácter. En el momento de escribir estas líneas, el estándar Unicode actual es 9.0.0, que utiliza cinco bytes y 128.172 caracteres definidos. Este estándar, ideado y promovido por Unicode Consortium (http://www.unicode.org), permite la visualización de prácticamente todos los caracteres lingüísticos únicos del mundo. Un equipo de profesionales de la computación, lingüistas y académicos continúa trabajando en el desarrollo real de Unicode.

El uso de varios bytes para definir cada carácter significa que Unicode se puede utilizar para codificar la mayoría de los caracteres utilizados en los principales idiomas del mundo. También hay un mecanismo de extensión integrado en el estándar, lo que significa que es posible codificar cerca de un millón de caracteres más, si es necesario. Esta capacidad debería ser suficiente para todos los requisitos de idiomas conocidos, además de la codificación de todas las escrituras históricas del mundo. (Esto incluye idiomas y símbolos que ya no se utilizan).

Tal como se define actualmente, Unicode 9.0.0 (la última versión, lanzada en junio de 2016) incluye códigos para caracteres utilizados en los principales idiomas escritos del mundo, incluidos árabe, armenio, balinés, bengalí, Bopomofo, Buhid, Canadian Syllabics, Cherokee, Chino, cirílico, deseret, devanagari, etíope, georgiano, gótico, griego, gujarati, gurmukhi, han, hangul, hanun — o, hebreo, hiragana, canarés, katakana, jemer, lao, latín, malayalam, mongol, Myanmar, Ogham, Cursiva antigua (etrusca), oriya, fenicia, rúnica, cingalés, siríaca, tagalo, tagbanwa, tamil, telugu, thaana, tailandés, tibetano y yi. Se está trabajando para agregar más caracteres de idiomas menos conocidos.

Además, Unicode también incluye muchos símbolos diferentes, incluidos números, diacríticos generales, puntuación general, símbolos generales, dingbats, emojis, flechas, bloques, formas de dibujo de cajas, formas geométricas, símbolos matemáticos, símbolos musicales (occidentales y bizantinos), símbolos técnicos. , patrones braille y radicales Kangxi.

Unicode es compatible con todas las versiones modernas de Windows y Word. Exactamente qué estándar de Unicode que se admite depende de la versión de Windows y Word en cuestión.

WordTips es su fuente de formación rentable en Microsoft Word.

(Microsoft Word es el software de procesamiento de texto más popular del mundo). Este consejo (11277) se aplica a Microsoft Word 2007, 2010, 2013 y 2016. Puede encontrar una versión de este consejo para la interfaz de menú anterior de Word aquí:

link: / word-Understanding_Unicode_Characters [Comprensión de caracteres Unicode].