다른 언어 설정

Blog de traducción
Blog di traduzione
Blog de traduction
Übersetzungsblog
Blog de tradução
Vertaal Blog
翻訳ブログ
 Блог на тему перевода
翻译博客
 مدونة الترجمة
번역 블로그

Home » Blog » 언어 » 고대 서판과 AI 번역

고대 서판과 AI 번역

8월 3, 2023
Aaron Damas
태그: AI 번역, 사멸한 언어, machine vertaling, 기계 번역

두 언어 간의 번역은 원문의 의미를 가장 잘 전달할 수 있는 문장을 주의깊게 구성하는 것이 관건입니다. 따라서 이것은 대상 언어에서 소스 언어로의 단순한 단어 대 단어의 전환이 아닙니다. 구성 요소의 개별적인 의미보다는 글 전체의 뉘앙스에 관한 것이기 때문에 어느 정도의 일정한 유연성이 요구됩니다.

이는 기계 번역이 수년에 걸쳐 점진적으로 개선되면서 지속적으로 학습된 프로세스입니다. 자연어를 처리하는 인공 지능의 힘을 보여주는 또 다른 사례로, 연구원들은 최근 5000년 된 아카드어 서판을 대략적으로 번역하도록 AI를 훈련시켰습니다.

사멸한 언어에 대한 도전

번역과 관련된 문제는 원어가 수천 년 동안 멸종된 경우에만 확장되기 때문에 특히 인상적입니다. 딸린 언어가 없는 초기의 셈족어인 아카드어가 바로 그런 경우이며, 이러한 언어는 고대 사회의 삶과 정치, 신념에 대한 통찰력을 얻을 수 있다는 점에서 연구할 가치가 충분합니다. 세계 속에서 우리 자신의 역사적 위치를 조명하고자 하는 노력입니다.

보수적인 추정에 따르면 아카드어는 고고학자들이 발견한 수십만 개의 텍스트에 포함된다고 합니다. 이 중 상당수는 이미 디지털화되었지만, 소수의 학자만이 이러한 텍스트들을 이해할 수 있습니다. 파피루스 보다 수 세기에 걸쳐 훨씬 더 잘 보존되는 점토로 만들어졌음에도 불구하고 시간의 흐름에 따라 문맥의 많은 부분이 훼손되어 단편적으로만 이해할 수 있습니다.

이러한 언어의 단편적인 특성으로 인해 번역의 복잡성은 가중되고, 일반적으로 이러한 언어에 대한 전문가가 부족하기 때문에 더욱 복잡해집니다. 안타깝게도 이러한 문서를 번역하는 데는 시간과 인력이 많이 필요합니다.

AI 번역기

이러한 부담을 덜어주기 위해 고고학자와 컴퓨터 과학자들로 구성된 팀이 아카드어를 번역하는 AI를 개발했습니다. 이 AI는 해당 언어를 특별히 처리하도록 설계된 신경망 기계 번역(NMT) 모델에 따라 즉각적으로 작동합니다.

아카드어는 문장 내에서 기호의 기능에 따라 의미가 달라지는 ‘다의성’ 언어로 알려져 있습니다. 따라서 번역사들은 2단계 프로세스를 거쳐야 합니다. 먼저 원본 스크립트를 가져와 음역(transliteration)이라는 프로세스를 통해 대상 언어와 비슷한 소리를 내는 음성학을 사용하여 다시 작성합니다. 즉, 원어에서 단어를 가장 가깝게 표현하는 라틴 알파벳 문자를 사용하여 단어를 재구성합니다. 이 과정의 일반적인 예는 “알라”로 번역되는 아랍어로 하나님을 뜻하는 단어인 الله가 있습니다. 이 작업이 완료되면 새 텍스트를 대상 언어로 번역합니다.

이를 염두에 두고 NMT는 설형문자뿐만 아니라 음역문자 까지 모두 다룰 수 있도록 훈련받았습니다. 이 모델은 기계 번역 텍스트를 평가하도록 설계된 알고리즘인 이중 언어 평가 언더스터디 4(BLEU4)를 사용하여 각각 37.47점, 36.52점을 받았습니다. 각각 고품질의 번역에 허용되는 범위 내에 있습니다.

NMT는 여러 가지 기능에서 부족함이 있습니다. 긴 문장을 잘 처리하지 못하며, 법령이나 기록과 같이 ‘공식적인’ 장르가 아닌 ‘문학적인 장르’가 주어질 때 쉽게 손실됩니다. 단점은 제외하더라도, 이 방법은 특정 장르를 인식하는 데 매우 정확하며, 시간을 절약하는 또 다른 기능이기도 합니다.

어떤 경우에는 모델이 표면적으로는 대입된 텍스트와 전혀 관련이 없는 결과를 생성하기도 했습니다. 연구진은 이를 인공지능의 ‘환각’이라고 불렀습니다.

공동의 노력

번역가들은 어떤 상황에 처하게 될까요? 대부분의 경우 이 기술은 빠르고 정확한 번역을 위한 유용한 보조 수단으로 사용됩니다. 번역이 임계값을 통과하더라도 검토, 편집, 심지어 재검토까지 거쳐야 하므로 대부분의 작업은 여전히 번역가가 담당해야 합니다. 당분간은 사람이 수행하는 것이 가장 좋은 프로세스입니다.

현재 NMT 모델은 온라인 노트북을 통해 액세스할 수 있으며, 소스 코드는 프로젝트 이름 “Akkademia”로 GitHub에 공개되어 있습니다. 이는 누구나 사용할 수 있는 기술입니다. 이러한 방식으로 학자들이 이러한 NMT 모델을 활용하면 고대 세계를 번역하는 것이 훨씬 더 쉽고 접근하기 쉬워집니다.

그러나 오늘날 널리 사용되는 현대 언어의 경우, 전 세계의 전문 번역가와 언어학자를 고용하고 있는 Trusted Translations에서 제공하는 것과 같은 서비스를 이용하면 전문적인 번역 요구 사항을 충족하는 데 큰 도움이 될 것입니다.

사진: Bilge Şeyma Kütükoğlu (pexels.com)