Может ли искусственный интеллект расшифровывать утраченные языки?

Древние цивилизации и их забытые языки, прославленные в преданиях и легендах, давно привлекали особое внимание историков, археологов и лингвистов. Сегодня в профессиональных наборах этих исследователей появился новый инструмент: искусственный интеллект — технология, которая в состоянии разгадать тайны обществ, исчезнувших тысячелетия назад.

Иероглифы и Розеттский камень

Ученые и любители веками изучали различные реликвии — от шумерской клинописи до дороманских этрусских надписей. Среди них был Жан-Франсуа Шампольон (1790-1832), молодой француз, расшифровавший одну из самых известных древних систем письма: египетские иероглифы. Для этого он использовал знаменитый Розеттский камень. На этой гранодиоритовой стеле тремя шрифтами были начертаны фрагменты одного и того же текста: 32 строки демотического текста, 14 строк иероглифического и 54 строки греческого.

Клинопись и другие древние загадки

Другой интригующий пример — угаритская письменность. Текст, обнаруженный французскими археологами в 1929 году на серии глиняных табличек, найденных в 1920-х годах в Телле из Угарит, был написан клинописью согласным алфавитом. Этот вымерший северо-западный семитский язык использовался еврейскими учеными, анализировавшими библейские тексты на иврите, благодаря чему было обнаружено сходство между культурой древнего Израиля, Иудеи и соседними культурами.

В других частях света еще предстоит расшифровать множество таинственных текстов, таких как Рукопись Войнича (Европа), Каскахальский блок (Центральная Америка) и Ронгоронго (Рапа-Нуи/Остров Пасхи).

Тайны бронзового века

Вероятно, самым известным примером в наше время является линейное письмо Б, первоначально найденное среди критских руин, относящихся к бронзовому веку. Расшифровку линейного письма Б, которое сейчас признано самой ранней формой греческой орфографии и которое сложилось около 1400 г. до н.э., обычно приписывают британскому архитектору Майклу Вентрису. Но ему помогала классический филолог Алиса Кобер. В своем доме в Нью-Йорке она собрала примитивную аналоговую «базу данных», в которой хранилось около 180 000 клочков бумаги в пачках из-под сигарет. К сожалению, она умерла за два года до того, как в 1952 году Вентрис взломал этот таинственный код.

Потребовалось более шести десятилетий кропотливых совместных усилий, чтобы понять линейное письмо Б, являющееся ответвлением слогового линейного письма А, которое использовалось загадочной минойской цивилизацией и, возможно, не имело отношения к индоевропейским языкам. Однако всего лишь столетие спустя после раскопок Кносса британским археологом сэром Артуром Эвансом (1851–1941) новые технологии ускоряют расшифровку этих древних языков.

Тайна долины Инда

В 1870-х годах кирпичи, извлеченные из разрушенного города в Пенджабе, использовались в качестве балласта, поддерживающего железнодорожные пути, простирающиеся почти на сто миль между городами Мултан и Лахор. Однако армейский инженер и геодезист Александр Каннингем нашел несколько осколков древней глиняной посуды, а также крошечную каменную табличку площадью около 1,5 квадратных дюймов с шестью незнакомыми буквами и изображением однорогого быка или носорога (или, может быть, даже единорога).

С тех пор было обнаружено около 4000 других реликвий, большинство из них — вдоль реки Инд в Пакистане, а некоторые другие — в Индии и даже Ираке. Они содержат до 700 уникальных символов. Вероятно, они использовались как печати при взимании налогов и торговом контроле и, возможно, читались справа налево. Однако никто не знает, что означают эти знаки доведического периода, несмотря на то, что за последнее столетие было опубликовано более сотни попыток их расшифровки. Но благодаря передовой технологии искусственного интеллекта появляются новые возможности.

Пределы технологии глубокого обучения

Такие эксперты, как исследователь индийской письменности Бахата Ансумали Мукхопадхьяй, хорошо осведомлены об ограничениях компьютеров, включая самые мощные. Она считает, что многие когнитивные аспекты не могут быть закодированы в удобных рамках, поскольку текущие итерации искусственного интеллекта не в состоянии справиться с информацией, которая не поддается количественному измерению способами, понятными компьютерам.

Даже технология глубокого обучения — в настоящее время доминирующий метод искусственного интеллекта — является всего лишь вопросом распознавания образов. При этом результат улучшается по мере того, как увеличивается количество информации, загружаемой в систему. Тем не менее, этот подход, который можно назвать «грузим данные грузовиками», дает сбои в таких сферах с низким уровнем ресурсов, как древние языки, которые часто являются неполными, отколотыми и разрушенными временем. У ученых (и у компьютеров) нет возможности знать, придает ли царапина новое значение какому-либо символу или речь идет всего лишь о случайном повреждении.

Что ждет нас в будущем?

Даже такие энтузиасты машинного обучения как ученый из Массачусетского технологического института Цзямин Луо не рассчитывают на то, что какие-то «архео-транс»-приложения смогут автоматически выдавать мгновенные переводы с утерянных языков. В лучшем случае он предполагает, что возможен анализ этих лингвистических фрагментов на фоне современных языков в окружающих их регионах, поиск фрагментов лингвистических связей.

Он считает, что положительные результаты с наиболее высокой вероятностью принесет гибридный подход. Грубую силу мощных компьютеров первоначально удалось использовать для изучения артефактов и определения возможных связей с известными языками. Это, возможно, сэкономит десятилетия усилий, которые требовались ранним орфографам, и позволит сегодня экспертам взяться за более тонкие аспекты с вдохновением, стимулирующим слепую веру.

Вывод. Алфавиты и символы являются уникальным отражением цивилизаций, в которых они когда-то использовались. Тысячи лет спустя стало предельно ясно, что даже самые совершенные машины по-прежнему не могут сравниться с человеческим мозгом, особенно в том, что касается перевода мыслей и концепций, которые делают каждое общество уникальным.

Изображение: Peace,love,happiness, Pixabay