不会自动翻译的语言

随着稳步全球化的世界每天不断地加速发展,毫无疑问,自动翻译将继续存在。尽管有人对机器翻译的质量嗤之以鼻,但基于神经网络(模仿人类思维过程的互连计算机系统)的语言应用程序在速度(即时)和成本(免费)方面仍然无与伦比。

然而,没有多少算法可以取代人脑,更不用说专业翻译人员对上下文和成语(例如 it’s raining cat and dogs)的敏感性了。

快速、免费且有缺陷——但正在不断成熟中

由于国际组织(如联合国)和多语言机构(如欧洲议会)的影响,五十多年来,海量数据库一直在构建大量并行数据。然而,直到 21 世纪的第二个十年——随着深度神经网络 (DNN) 的出现——所有的人工翻译文档才可以更实际地得以运用。

利用这些语言宝库,一些主要的技术参与者开发了免费翻译平台,例如:

  • 谷歌翻译:(133 种语言)日均访问量超过 5 亿,其中英语、西班牙语、阿拉伯语、俄语、葡萄牙语和印度尼西亚语使用频率最高,而孟加拉语、海地克里奥尔语和塔吉克语则居于其后;
  • 微软必应翻译:(103 种语言)作为微软认知服务一部分的云服务,集成在多种产品中,包括 Bing、MS Office、Edge、Skype 和 Windows,以及 Apple 和 Android 设备;
  • DeepL:(28 种语言)该引擎现在正在从其欧洲基地扩展到纳入世界各地的其他语言;其数据库是以 Linguee 在线词典中包含的大量人工翻译的句子、成语和片段之语料库为基础搭建。

拓宽焦点

对这些平行数据数字金矿的最初依赖或许可以解释为什么自动翻译目前纳入了像芬兰语(500 万使用者)等欧洲语言,而忽略了 4800 万讲奥罗莫语的埃塞俄比亚人。其他仍处于技术边缘的母语包括博杰普尔语(5100 万)、弗拉语(2400 万)、锡尔赫蒂语(1100 万)和基隆迪语(900 万)。

但是,这种情况正在发生变化,对翻译语言的添加扩大了机器翻译的范围。正如 IARPA(美国情报服务研究中心)的项目经理 Carl Rubino 所说,“我们现今面临的许多挑战,例如经济和政治的不稳定、Covid-19 大流行和气候变化,都超越国界影响全球——因此它们本质上是多语言的。”

通过语言拯救生命

由于上述挑战往往对无力应对它们的贫困社区造成最沉重的负担,因此即时但准确的通信正迅速成为生死攸关的问题。虽然人工翻译的输出受到于物理限制,但计算机可以全年无休24小时的以超人的速度运行。它们可以不间断地生成分析、报告和指导方针,而这些分析、报告和指导方针尽管在语法上可能不完善,但在紧迫的紧急时间范围内却适用于其目的。

这才是扩大自动翻译范围的真正价值所在。当生命和生计受到威胁时,通过促进跨越语言和文化障碍的即时交流,这些幕后的算法为低技术社区提供了生命线保障,让社区得以在不利条件下生存。

低资源语言

许多语言虽然有数百万人在使用,但其只能提供有限的(通常是单语的)书面资源,就算它们有着丰富的口头传统。对于深度神经网络,这些低资源语言——正如它们在行业中所熟知的那样——一直是难以解决的课题。与此同时,会说这些语言的人正忙着上传可能确保其社会存续的帖子和博客,虽然他们传统上缺乏记录和书籍。

从历史角度来看,其中一些文化中的多语言资源通常仅限于基于信仰的文献提供的狭窄数据集,特别是被广泛翻译的圣书,如《古兰经》和《圣经》。在现代,印刷、视听媒体和社交网络正在建立可被深度神经网络分析和翻译的单一语言数据的可靠数据库。

建立社区安全网的社交网络

现代神经网络模型现在可以使用口语和书面单语源进行预训练。其背后的理论认为,基于当前应用于翻译任务的参数,神经模型已经学习了人类语言的某些特征和结构。

随着世界各地的用户发布跨越文化边界和使用母语的重复内容,神经模型现在可以为用户总结文本。为此,这些应用程序似乎只需要很少的平行数据双语训练,几十万字(可能是六本小说)就足够了。

重点:全球约有 7,000 种正在使用的口语(但其中只有约 4,000 种有书面语),因此虚拟翻译应用程序有广阔的领域可供扩展。从医疗保健到农业,通过自动翻译弥合语言和文化鸿沟显然是通向人类更美好未来的途径——但始终需要专业翻译人员的协助,因为他们不仅精通一种以上的语言,而且还了解多种文化。

该图片由Yatheesh Gowda在Pixabay上发布