人工知能は消滅した言語を解読できるか。

伝承と伝説で広く語られる古代文明とその消滅した言語は、長きにわたり歴史家、考古学者、言語学者を魅了してきました。今日、これらの研究者はツールボックスに新しい道具を持っています。それは人工知能 (AI)。何千年も前に消滅した社会の秘密を解明するのに役立つテクノロジーです。

象形文字とロゼッタストーン

シュメール人の楔形文字からローマ時代以前のエトルリアの碑文まで、多くの学者やアマチュア学者は何世紀にもわたりこれらの遺物を研究し続けてきました。ジャン=フランソワ・シャンポリオン (1790-1832) は、最も有名な古代文字体系の 1 つであるエジプト象形文字を解読した若いフランス人です。解読のために彼が使ったのは、有名なロゼッタストーンでした。この花崗閃緑岩でできた石柱には、同じ碑文が3 つの文字 (民衆文字 (デモティック) 32 行、神聖文字 (ヒエログリフ) 14 行、ギリシャ文字 54 行) で刻まれていました。

楔形文字とその他の古代の謎

もう一つの興味深い例はウガリット文字です。1920 年代にウガリットのテルで見つかった複数の粘土板に刻まれている文字を 1929 年にフランスの考古学者たちが発見。ここで使われていたのは子音のみの楔形文字でした。この絶滅した北西セム語は、聖書のヘブライ語のテキストを明確にするためにヘブライ語聖書の学者によって使用され、古代イスラエルとユダ、そしてその近隣文化の間の類似性が明らかになりました。

世界各地には、ヴォイニッチ手稿 (ヨーロッパ)、カスカハルの石塊 (中央アメリカ)、ロンゴロンゴ (ラパ・ヌイ/イースター島) など、未だ解読されていない謎のテキストが数多く残っています。

青銅器時代の謎

おそらく、現代で最もよく知られている例は線文字 Bでしょう。これは青銅器時代に栄えたクレタ文明の地、クレタ島の遺跡で最初に発見されました。英国の建築家マイケル・ヴェントリスは通常、紀元前 1400 年頃に使用されていたギリシャ正書法の最古の形式として認知されている線文字 B の解読者として語られますが、彼の業績は古典主義者アリス・コーバーの研究を引き継いだものでした。彼女はニューヨークの自宅に、たばこの箱に約 180,000 枚の紙片をアナログの「データベース」として蓄積していました。残念なことに、彼女は 1952 年にヴェントリスがこの謎のコードの解読に成功する 2 年前に亡くなりました。

線文字 B の解読には二人の努力を合わせて 60 年間の年月が費やされました。線文字 B は線文字 A 音節文字の派生語であり、神秘的なミノア文明で使用され、インド・ヨーロッパ語族とは無関係だろうと言われています。しかし、英国の考古学者アーサー エヴァンス (1851–1941) がクノッソス遺跡を発掘してからわずか 1 世紀後、テクノロジーはこれらの古代言語の解読を加速させています。

インダス渓谷の謎

1870 年代、パンジャーブ州の荒廃した町から集められたレンガは、ムルタンとラホールの町の間の約 100 マイルの鉄道線路を支えるバラストとして使用されました。しかし、陸軍技師で考古学測量士のアレクサンダー・カニンガムは、そこで古代の陶器の破片と、約 1.5 インチ四方の小さな石板を発見します。これらには、見慣れない図柄が 6 つと、角のある雄牛またはサイ (またはユニコーン) の姿が刻まれていました。

それ以来、約 4,000 の他の遺物が見つかっており、そのほとんどはパキスタンのインダス川沿いで、その他はインドやイラクで発掘されています。最大 700 個の固有の記号が刻まれており、これらは課税および貿易管理の印として使用された可能性が高く、右から左に読む形式であった可能性があります。この 100 年間に 100 を超える試みがなされましたが、これらのヴェーダ語以前の記号の解明には至っていません。しかし、AI の最先端技術でその研究が前進するかもしれません。

ディープラーニングの限界

インダス文字の研究者であるバハタ・アンスマリ・ムコパディヤイのような専門家は、最も強力なコンピューターであってもその限界があることを十分理解しています。現在の AI の反復学習は定量化できない情報に対応できないため、多くの認知的側面を便利なフレームワークにエンコードすることはできないと彼女は考えています。

現在主流の AI 技術であるディープラーニングも、パターン認識で理解が進むため、システムに供給される情報量が増えれば、それと並行してアウトプットが向上するのが現状です。ただし、大量のデータを必要とするアプローチは、多くの場合、不完全でかつ時間の経過とともにその遺物が欠けたり侵食されたりする古代言語のようなリソースの少ない主題ではうまく機能しません。学者 (およびコンピューター) は、傷が記号に新しい意味を与えるのか、それとも単なる破損なのかを知る術がありません。

今後の展望

マサチューセッツ工科大学 (MIT) の科学者で、機械学習に情熱を捧げるジアミン・ルオ (Jiaming Luo) でさえ、失われた言語の即時解読がいわゆる「考古学翻訳」アプリによって実現し、その翻訳が自動的に大量に生成されることは期待していません。せいぜい、これらの言語の断片を周辺地域の現代言語と比較して分析し、言語的なつながりの断片を見つけ出すことくらいは可能であろうとの見方をしています。

彼は、これまでの研究方法と AI を組み合わせたハイブリッドアプローチこそが最も実のある成果を生み出す方法であると考えています。当初は、大量のコンピューターで総当たりし、アーティファクトを調べ、既知の言語との考えられる関係性を絞り込むことができました。これにより、これまでの正書法学者が必要としていた何十年にもわたる作業を省くことができ、今日の専門家がより繊細な側面を、論理を超えたひらめきを用いて引き継ぐことができるようになりました。

結論:アルファベットと記号は、かつてそれらを使用していた文明の姿を反映するものです。何千年も経った今、最も洗練された機械でさえ、特に社会を独自なものに作り上げた思考や概念を解読することは容易ではありません。これはつまり、人間の脳に匹敵するものはないことを証明しています。

Image by Peace,love,happiness from Pixabay