古代の碑板とAI翻訳

2言語間の翻訳は、原文の意味を最もよく伝える文章を慎重に構成する作業です。各単語をターゲット言語からソース言語に切り替えるという単純なものではありません。構成要素の個々の意味よりも全体的なニュアンスを重視するため、ある程度の柔軟性が求められます。

これは、機械翻訳が長年にわたって継続的に訓練され、漸進的な改良を加えられてきたプロセスです。自然言語を扱う人工知能の力をさらに示そうと、最近、研究者らが5000年前のアッカド語の碑板を概訳させるためにAIを訓練しました。

死語への挑戦

原語が何千年も前に消滅した言語の場合、その翻訳にまつわる難題は拡大の一途をたどるため、死語への挑戦は特に感動的なものになります。例えばアッカド語は初期のセム語で、娘言語がありません。このような言語については、古代社会の生活、政治、信仰に関する洞察を得ることだけが理由であったとしても、研究する価値が十分にあります。世界における私たち自身の歴史的地位に光を当てる取り組みです。

控えめに見積もっても、考古学者によって発見されたアッカド語の文章は数十万にのぼります。その多くはすでにデジタル化されています。それなのに、ほんの一握りの学者がこれらの文章を少し理解できるだけです。パピルス紙などの素材よりもはるかに丈夫で何世紀も持ちこたえる粘土で作られているにもかかわらず、経年劣化により文脈の多くが失われており、彼らでも断片的にしか理解できません。

断片的にしか残っていないことに加え、そのような言語の専門家が一般的に不足していることも、翻訳が複雑になる要因です。残念ながら、これらの文書の翻訳には時間も人手も必要なのです。

AIトランスレーター

そのような負担を軽減するために、考古学者とコンピューター科学者で編成されたチームがアッカド語を翻訳するAIを開発しました。このAIは、アッカド語に特化して設計されたニューラル機械翻訳(NMT)モデルに従って瞬時に機能します。

アッカド語はいわゆる「多義語」であり、その記号は、文中でどう機能するかによって意味が変わります。そのため、翻訳者はいわゆる2段階のプロセスを踏む必要があります。1段階目は音訳というプロセスで、ターゲット言語の似た発音を使って原語の文字を書き直します。つまり、ラテンアルファベットの文字から言語の単語に最も近いものを使って単語を再構築するのです。このプロセスの一般的な例を挙げると、アラビア語で神を意味するاللهで、これは「Allah」(アッラー)と訳されます。 このプロセスが終わったら、この新たに構築された文をターゲット言語に翻訳します。

このことを踏まえて、NMTは楔形文字とその音訳の両方を扱えるように訓練されています。機械翻訳されたテキストの評価を目的とするアルゴリズムBLEU4(Bilingual Evaluation Understudy 4)を使用してこのモデルを評価した結果、37.47点と36.52点を獲得しました。これらの得点はいずれも、質の高い翻訳として許容される範囲にあります。

NMTについては、多くの機能が一定水準に達していません。文章が長いとうまく処理できず、また、判決や記録のような「定型的ジャンル」とは対照的な「文学的ジャンル」を与えると迷いやすくなります。欠点はさておき、特定のジャンルを認識する精度は非常に高く、これは時間の節約にもつながる機能です。

このモデルでは、割り振られたテキストとはまったく関係のない結果が生み出されることがありました。研究チームはこれをAI側の「幻覚」と呼んでいました。

共同作業

翻訳者はどうなるのか?このテクノロジーは、ほとんどの場合、迅速かつ正確な翻訳を示す便利な補助として機能します。現在でも、翻訳作業の大部分は人間の翻訳者が行わなければなりません。たとえ翻訳が閾値に達していていても、レビューや編集、さらには見直しも必要です。当面は、こういった作業は人間が行うのが最善でしょう。

現在、NMTモデルにはオンラインノートブックを通じてアクセスすることができ、「Akkademia」というプロジェクト名でソースコードがGitHubで公開されています。 これは誰もが利用できるテクノロジーです。学者らがこのようなNMTモデルを活用することで、古代世界の翻訳が格段に容易になり、アクセス性も向上します。

しかしながら、現在広く使用されている言語に関しては、世界中からプロの翻訳者や言語学者を集めたTrusted Translationsが提供するようなサービスこそが、お客様のプロフェッショナルな翻訳ニーズに応え、それを上回る成果をもたらすのです。

写真提供: Bilge Şeyma Kütükoğlu(pexels.com)