Las lenguas que escapan a la traducción automática

En un mundo en el que la globalización avanza cada día más rápido, no hay duda de que la traducción automática ha llegado para quedarse. A pesar de todas las burlas por las traducciones automáticas, las aplicaciones de idiomas construidas sobre redes neuronales (sistemas informáticos interconectados que imitan los procesos del pensamiento humano) siguen siendo imbatibles en cuanto a velocidad (resultados instantáneos) y costo (gratis).

Sin embargo, ningún algoritmo ha podido reemplazar al cerebro humano, ni mucho menos la sensibilidad al contexto y a las expresiones idiomáticas (llueve a cántaros) de los traductores profesionales.

Rápido, gratuito y defectuoso — pero mejorando

Gracias a la influencia de organizaciones internacionales (como Naciones Unidas) e instituciones multilingües (como el Parlamento Europeo), unas bases de datos colosales han estado acumulando enormes cantidades de datos paralelos durante más de cincuenta años. Sin embargo, fue solo durante la segunda década del siglo XXI, con la llegada de las redes neuronales profundas (DNN), que a toda esta documentación traducida por humanos pudo dársele un uso más práctico.

Utilizando estos recursos lingüísticos, varios de los principales actores tecnológicos han desarrollado plataformas de traducción gratuitas, como las siguientes.

  • Google Translate funciona con 133 idiomas y es accedido por más de 500 millones de usuarios diarios, siendo el inglés, el español, el árabe, el ruso, el portugués y el indonesio los más utilizados, mientras que el bengalí, el criollo haitiano y el tayiko son de los menos utilizados.
  • Bing Translator de Microsoft maneja 103 idiomas y es un servicio en la nube que forma parte de Microsoft Cognitive Services, integrado en múltiples productos que incluyen Bing, Office, Edge, Skype y Windows, como también en dispositivos de Apple y con Android.
  • DeepL funciona con 28 idiomas y actualmente se está expandiendo desde su base europea para incluir idiomas de todo el mundo. Se basa en un corpus gigantesco de oraciones, expresiones idiomáticas y otros sintagmas traducidos por humanos que se encuentran en el diccionario en línea de Linguee.

Ampliar el enfoque

Mientras que la traducción automática alcanza lenguas europeas como el finlandés, hay lenguas como el Oromo, que cuenta con 48 millones de hablantes, que quedan afuera todavía. Esto quizá se deba a que muchos de los motores dependen de las bases de datos paralelos fueron desarrolladas en Europa. Otras lenguas maternas que aún moran en el limbo tecnológico incluyen el bhoyapuri (51 millones de hablantes), el fula (24 millones de hablantes), sylheti (11 millones de hablantes) y el kirundi (9 millones de hablantes).

Sin embargo, esta situación está cambiando gracias a la inclusión de nuevos idiomas que amplían el alcance de traducción automática. Como señaló Carl Rubino, gerente de programa IARPA (Centro de Investigación de los Servicios de Inteligencia de EE.UU.): “Muchos de los desafíos que enfrentamos hoy, como la inestabilidad económica y política, la pandemia de COVID-19 y el cambio climático, trascienden nuestro planeta, y, por lo tanto, son de naturaleza multilingüe”.

Salvar vidas gracias a los idiomas

Dado que estos desafíos suelen pesar más en las comunidades desfavorecidas, que cuentan con menos recursos, las comunicaciones instantáneas pero precisas se están convirtiendo rápidamente en una cuestión de vida o muerte. Mientras que el trabajo de los traductores humanos está limitado por restricciones físicas, las computadoras pueden funcionar las 24 horas del día, los 7 días de la semana, a velocidades sobrehumanas. Estas se pueden utilizar para generar flujos ininterrumpidos de análisis, informes y pautas que, si bien pueden ser gramaticalmente imperfectos, sirven para cumplir con los plazos acotados de las emergencias.

Este es el verdadero valor de ampliar el alcance de la traducción automática. Al facilitar la comunicación instantánea a través de barreras lingüísticas y culturales cuando están en juego las vidas y los medios de subsistencia de muchas personas, estos algoritmos sin rostro les ofrecen un salvavidas a las comunidades con escasos recursos tecnológicos que luchan por sobrevivir en condiciones adversas.

Idiomas con pocos recursos

Aunque los hablan millones de personas, muchos idiomas ofrecen recursos escritos limitados (y, a menudo, monolingües), a pesar de sus ricas tradiciones orales. Para las redes neuronales profundas, estos idiomas de bajos recursos, como se los conoce en la industria, han sido difíciles de abordar. Mientras tanto, los hablantes de estas lenguas están ocupados cargando publicaciones y blogs que podrían asegurar la supervivencia de sus sociedades, a pesar de su tradicional falta de registros y libros.

En términos históricos, las fuentes multilingües de algunas de estas culturas a menudo se limitaban a conjuntos de datos conformados por libros sagrados ampliamente traducidos, como el Corán y la Biblia. En tiempos más modernos, los medios impresos, los medios audiovisuales y las redes sociales están acumulando inventarios contundentes de datos en una sola lengua que pueden analizarse y traducirse mediante redes neuronales profundas.

Las redes sociales crean redes de contención comunitarias

Actualmente, los modelos modernos de redes neuronales se pueden preentrenar con fuentes monolingües habladas y escritas. La teoría es que los modelos neuronales han aprendido ciertas características y estructuras del lenguaje humano, establecidas a través de parámetros que se aplican a las tareas de traducción.

Como los usuarios de todo el mundo publican contenidos que se repiten a través de las fronteras culturales en sus respectivas lenguas madre, los modelos neuronales pueden resumir textos para los usuarios. Para hacerlo, estas aplicaciones parecen necesitar muy poco entrenamiento bilingüe con datos paralelos. Con unos cientos de miles de palabras (quizás media docena de novelas) basta.

Conclusión: como existen alrededor de 7000 lenguas que se hablan en todo el mundo, pero solo unos 4000 producen textos escritos, las aplicaciones de traducción automática tienen mucho potencial para expandirse. Desde la atención médica hasta la agricultura, romper las barreras lingüísticas y culturales a través de la traducción automática es claramente el camino hacia un futuro mejor para la humanidad. Pero estos siempre dependerán la ayuda de traductores profesionales, que no solo son expertos en más de una lengua, sino que también conocen más de una cultura.

Imagen de Yatheesh Gowda en Pixabay