人工智能可以破译失落的语言吗?

在古老的记忆和传说中所赞颂的古代文明及其被遗忘的语言,长期以来一直吸引着历史学家、考古学家和语言学家。如今,这些研究人员在他们的专业工具箱中拥有了一种新工具:那就是“人工智能”——一种可以帮助人们揭开几千年前消失的文明社会秘密的技术。

象形文字和罗塞塔石碑

从苏美尔楔形文字到前罗马伊特鲁里亚铭文,学术界和业余爱好者已经研究了几个世纪。其中包括了年轻的法国学者,让-弗朗索瓦·商博良(Jean-Francois Champollion,1790-1832 年)破译了最著名的古代书写系统之一:埃及象形文字。通过使用著名的 塞塔石碑(Rosetta Stone)。一块以三种不同的语言刻铸同一篇文章的花岗闪长岩石碑——32 行 的埃及世俗题、14 行的埃及象形文字和 54 行的希腊文字。

楔形文字和其他古代谜题

另一个有趣的例子是乌加里特语。通过研究当时 20 年代在乌加里特省发现的一系列粘土片,法国考古学家终于在 1929 年破译由辅音楔形字母书写的语言。希伯来学者使用这种已灭绝的西北闪米特语来分析圣经希伯来文本,揭示古代以色列和犹大及其邻近文化之间的相似之处。

在世界其他地方,仍有大量神秘文本有待破译,例如欧洲的伏尼契手稿(Voynich manuscript)、中美洲的奥尔梅克语(Cascajal Block)和拉帕努伊/复活节岛的朗果朗果语(Rongorongo)。

青铜时代之谜

也许现代最著名的例子是线性文字B,最初发现于可追溯到青铜时代的克里特岛遗址中。尽管通常人们认为线性文字B(现在被认为是最早的希腊正字法,并在公元前 1400 年左右发展起来)是由英国建筑师迈克尔·文特里斯(Michael Ventris)破译,但他是根据美国古典学家爱丽丝·科伯(Alice Kober)的研究完成的。爱丽丝在纽约的家中编制了一个原始的模拟“数据库”,在烟盒中存储了大约 180,000 张纸条。可惜的是,她在 1952 年文特里斯破解这个神秘密码前两年就去世了。

他们两个人相加,一共花了六年的艰苦努力来理解线性文字 B,它是线性 A 音节的一个分支,被神秘的米诺斯文明使用,可能与印欧语系无关。然而,距离英国考古学家亚瑟·埃文斯爵士(1851-1941 年)发掘克诺索斯仅一个世纪之后,技术正在加速破译这些古代语言。

印度河流域之谜

在 1870 年代,从旁遮普邦一个被毁坏的城镇打捞出来的砖块被用作支撑木尔坦和拉合尔城镇之间近一百英里的铁路轨道的道碴。然而,陆军工程师和考古测量员亚历山大·坎宁安(Alexander Cunningham)发现了一些古代陶器碎片,以及一块约 1.5 英寸见方的小石碑,上面刻有六个不熟悉的字符和一头独角公牛或犀牛(甚至可能是独角兽)。

从那以后,又出土了大约 4000 件其他文物,其中大部分在巴基斯坦的印度河沿岸,还有一些在印度甚至伊拉克。这些发现包含多达 700 个独特的符号,它们似乎是被用作税收和贸易控管的印章,并且可能从右到左阅读。然而,没有人知道这些前吠陀时期标志的含义,尽管在过去的一个世纪中已经发表了一百多次尝试,但在 AI 尖端技术的推动下,破译古老语言的势头将重新焕发生机。

深度学习的局限

印度文研究员 Bahata Ansumali Mukhopadhyay 等专家非常清楚即使是最强大的计算机也存在局限性。她认为,许多认知层面无法被编码到方便的框架中,因为当前的 AI 迭代不能处理计算机理解方式无法量化的信息。

即使是深度学习——目前占主导地位的人工智能技术——也只是模式识别的问题,通过同时提高输入系统的信息量来取得输出结果的改善。然而,这种提供大量数据的方法在资源匮乏的学科(如古代语言)将会步履蹒跚,因为这些学科往往不完整、受到时间破坏和侵蚀。学者(和计算机)无法知道一个划痕是否赋予了符号新的含义,或者仅仅是随机损坏导致。

未来会如何?

即使是像麻省理工学院科学家罗家明这样的机器学习爱好者,也不指望会有某些“考古翻译”应用程序可以自动翻译失落的语言。在最理想的情况下,他设想将这些语言片段与周边地区的现代语言进行对比,寻找语言联系的片段。

他认为混合方法最有可能产生积极的结果。最初,大型计算机的蛮力可用于检查工件并列出与已知语言的可能关系。这可能会节省早期拼字学家数十年的努力,让当今的专家学者能够接管更细微的层面,并让灵感激发其放手一搏的信仰飞跃。

重点提要:字母与符号是过去使用它们的文明的独特反映。在数千年后的今天,很明显即使是最复杂的机器也无法与人脑匹敌,尤其是在翻译使每个社会独一无二的思想和概念方面。

图片由 Peace,love,happy 在 Pixabay 上发布