Una representación de caracteres universal
UNICODE

Uno de los mayores retos que existen con internet y la globalización de las comunicaciones es la representación de los caracteres de cada escritura. Desde luego los japoneses no tienen nuestra forma de escritura, ni nosotros la que existe en Rusia. Esta diferencia de representación también existe en la informática. Un ordenador español no puede mostrar caracteres chinos o japoneses (a menos que se le instale el correspondiente programa, y hacer esto para cada lenguaje del mundo...) Los ordenadores usan números para representar los caracteres. Y estos números no coinciden entre las distintas representaciones de caracteres (por ejemplo, una A, no tiene el mismo número en España que en Rusia).

Para solucionar esto se inventó el estandar de codificacion de caracteres UNICODE. Es un sistema que asigna un número único (e inequivoco) a cada caracter existente en nuestro planeta. Es un estandar que se está imponiendo a pasos agigantados (el lenguaje de programación JAVA ya lo incorpora).

El UNICODE no es la panacea, presenta el inconveniente del tamaño. Cada lenguaje de este mundo tiene un tamaño de caracter. Este tamaño de caracter es proporcional al número de caracteres. En el mundo occidental este tamaño máximo de caracteres está fijado en 256. Sin embargo en ASIA, el número de caracteres es sensiblemente superior a 256. Por ese motivo, un estandar como el UNICODE tiene que tener el tamaño del MAYOR número de caracteres. Pondré un pequeño ejemplo para que lo entendais: si necesitamos un cubo de agua capaz de transportar 7, 8 y 16 litros, necesitamos un cubo capaz de soportar 16 litros, aunque cuando transportemos 7 litros estemos desaprovechando mucho espacio. Este es el inconveniente de UNICODE.

Cada país tiene sus símbolos structurados en lo que se conoce como páginas de codigos de caracteres. Y una fuente UNICODE soportara una serie de estos códigos de caracteres. No todas las fuentes UNICODE soportan todos los caracteres de nuestro planeta. Las fuentes truetype que contienen todas las páginas de caracteres ocupan la friolera de ¡25 MEGAS!, en comparación con los 100kbs que ocupan nuestras fuentes españolas (de media). Este es el motivo de que las fuentes UNICODE funcionen como fuentes japonesas. Por ejemplo la fuente freeware CBKANJI.TTF que podéis descargar de esta página es UNICODE, pero tiene sólo los códigos de caracteres japoneses ¡por eso funciona para mostrar kanji y kana!. Esta compatibilidad de fuentes es una gran ventaja de UNICODE.

Por defecto Unicode es un sistema de codificación de 16 bit. Esto significa que los caracteres Unicode a menudo despedician espacio porque la mayoría del texto es de 8 bit. El estandar ASCII, por ejemplo, usa sólo codificación de 8 bit. UTF-8 (que ocupa 8 bit) es una transformación de la codificación para transmitir y/o enviar texto Unicode. La transformación entre UTF-8 a Unicode es sencilla y fácil.

Con toda esta pesada explicación espero que esté claro que UNICODE es un sistema universal de representación de representación de caracteres. Que podemos usar UNICODE para tener en un mismo texto el número de lenguas que queramos al mismo tiempo (español, japonés, chino, ruso, etc...).

Esta página no usa UNICODE porque sencillamente no lo necesita. Emplea un truco para mostrar japonés y español al mismo tiempo. Fijaros bien en el las traducciones bilingües y apreciaréis que los caracteres propiamente españoles (á,é,í,ñ, etc...) aparecen con una fuente distinta. Este truco sólo es soportado por el Internet Explorer y la versión 6 del Netscape.

Pero, aunque esta página no use UNICODE, es necesario que conozcais su significado, porque muy problablemente encontréis páginas WEB que usen esta codificación. Además de que cada día su uso será más habitual (en entorno LINUX su uso es casi generalizado). Algún día esta página tendrá que ser adaptada a UNICODE. Si queréis más información sobre Unicode, no dejéis de consultar la página www.unicode.org.




©Copyright Juan José Ferres Serrano 2001
Correo electrónico: gunkan@terra.es
Lista de correo: gunkan@elistas.net
WEB principal: http://dino.ugr.es/~gunkan
1er. mirror : http://gunkan.dreamers.com
Mirror en construcción : http://varilex.dhs.org/ferres/
WEB sensei: http://varilex.dhs.org/ling-japonesa/
Foro de mensajes : http://varilex.dhs.org/phpBB/