UTF 8 y 16

Hoy la mayoría de los traductores, si no son todos, utiliza algún tipo de herramienta de traducción asistida (CAT, por su sigla en inglés) a fin de agilizar y ordenar su trabajo.

Trados ha sido la norma durante los últimos años, y todavía hoy es la herramienta de traducción asistida más utilizada.

La codificación utilizada por esta herramienta para sus documentos de trabajo (TTX, sdlxliff) y memorias de traducción exportadas (TMX) es UTF 16. Ahora bien, la diferencia entre UTF 16 y UTF 8 es interesante. Veamos.

Como hemos visto antes, el código ASCII es una codificación de siete bits utilizada para los caracteres en inglés, incluida la mayoría de los signos de puntuación. Un byte contiene ocho bits, por lo que hay un bit libre en cada byte que puede utilizarse como señal de que el carácter se encuentra fuera de ese rango.

El “8” en la expresión “UTF 8” se refiere a estos ocho bits. El UTF 8 es una codificación de ancho variable. Un carácter particular podría ser de uno, dos, tres o cuatro bytes.
Por otro lado, en UTF 16, también de ancho variable, los caracteres utilizan 16 bits, o 2 bytes para cada carácter de los más comunes, o 4 bytes si el carácter para codificar cae fuera del rango.

Una de las razones por las cuales UTF 8 se ha convertido en el estándar de codificación de la industria es que su codificación del abecedario inglés coincide con ASCII. Esto significa que si tomamos un archivo básico ASCII y le agregamos unos pocos caracteres codificados en UTF 8, funciona perfectamente bien, y el archivo es un archivo con una codificación válida en UTF 8. Esto no ocurre en UTF 16.

Pruebe forzar a su navegador para que cargue la codificación con la cual se visualiza esta página (o cualquier otra) yendo a Ver > Codificación de Caracteres (View > Character Encoding), en Firefox o Personalizar > Herramientas > Codificación (Customize > Tools > Encoding), en Chrome. Después de recuperar su aliento, puede cambiarlo nuevamente sin sufrir consecuencias negativas (solo recargue la página).

Otro resultado inconveniente de la codificación de dos bytes de UTF 16 es que para los especialistas en informática que nos gusta trabajar en la línea de comandos de un sistema sólido Unix, todas las operaciones de texto que pueden realizarse dejan de funcionar. He optado por la detección de la codificación del archivo automáticamente con el comando

file -b --mime-encoding

y por convertirlo, si es necesario, con

iconv -f utf16 -t utf8 nombredelarchivo.tmx > nombredelarchivo_utf8.tmx

y por procesarlo como es habitual.

 

Artículo original: UTF-8 vs UTF-16