기계 번역은 전기양(Electric Sheep)을 환각시키나요?

로봇은 꿈을 꾸지는 않지만 환각에 빠질 수는 있습니다. 최근 인공지능이 미디어의 주목을 받고 있는 가운데, 알고리즘 기반의 기술이 자료를 ‘환각’시키는 경향은 AI 사용과 관련하여 주요 관심사가 되었으며, 이는 기계 번역 분야도 마찬가지입니다.

이 포스트에서는 기계 번역 환각이란 무엇이며, 왜 발생하는지, 그리고 잠재적인 번역 프로젝트에 영향을 미치지 않게 하는 방법에 대해 살펴보겠습니다.

기계 번역 환각이란 무엇인가요?

기계 번역은 컴퓨터 소프트웨어(일반적으로 인공 지능 또는 머신 러닝 솔루션)를 사용하여 텍스트를 한 언어에서 다른 언어로 번역하는 것으로, 사람에 의한 번역과는 대조적입니다. 기계 번역은 시간과 비용을 절약하는 데 도움이 될 수 있지만, 안타깝게도 이러한 기계 번역은 환각을 일으켜 원본 입력과 전혀 관련이 없는 번역 결과물(종종 기괴한 번역)을 생성할 수도 있습니다.

예를 들어, 기계 번역을 사용한 한 실험에서는 사용된 모델이 완전히 새로운 이야기를 환각시키는 것으로 나타났습니다. 원래 문장은 콜롬비아에서 진행 중인 파업에 대한 성명서였습니다. 이 글은 우선 구글 번역기를 통해 마라타어로 번역된 후 기계 번역기로 다시 영어로 번역되었습니다. 그 후 이 문장은 여호와의 증인에서 봉사하는 미국 어린이들에 대한 사실과 크게 동떨어진 내용이 되었습니다. 이 예에서 알 수 있듯이 환각은 영어를 특히 기계가 신뢰할 수 있는 데이터가 많지 않은 비교적 일반적으로 사용되지 않는 언어로 번역할 때 자주 발생할 수 있습니다.

환각은 왜 일어날까요?

일부 신경망 기계 번역(NMT) 환각은 “입력 교란” 또는 결과적으로 출력을 오염시키는 예상치 못한 입력 요소로 인해 발생합니다. 입력에는 오타, 특이한 스타일이나 단어 또는 단순히 모델에서 설명되지 않는 단어가 포함될 수 있습니다.

기타 환각은 모델 학습에 사용된 데이터의 근본적인 문제에서 비롯됩니다. 예를 들어, 연구자들은 일부 모델에서 문구를 과도하게 암기하는 문제, 즉 기계가 문맥이나 관용구를 인식하지 못하고 매번 똑같은 방식으로 반복하려는 문구를 과도하게 암기하는 문제가 있다는 사실을 발견했습니다. 학습 데이터 본문에 많은 양의 ‘노이즈'(소스 문장과 대상 문장 사이에 잘못되거나 정렬되지 않은 쌍이 너무 많은 경우)가 있는 경우에도 환각이 발생할 수 있습니다.

ChatGPT와 같은 LLM 기반의 모델도 마찬가지로 문제가 될 수 있습니다. 목표에서 벗어난 번역과 번역 결함 또는 실패 외에도 학습 데이터에는 번역 출력에 몰래 침투하는 독성 자료가 포함될 수 있습니다.

번역 환각은 어떻게 피할 수 있나요?

상상할 수 있듯이, 기계 번역의 오역은 사용자의 신뢰를 떨어뜨리고 심각한 보안 문제를 야기하는 등 비즈니스에 재앙을 초래할 수 있습니다. 기계 자체를 미세하게 조정하는 시도를 해 볼 수도 있겠으나, 의심할 여지없이 환각 현상을 해결할 수 있는 유일한 방법은 실제 전문 번역가의 손을 거치는 것입니다.

인간 번역을 이용한다고 해서 주요 프로젝트의 첫 단계로 기계 번역을 사용할 수 없다는 의미는 아닙니다. 대신 인간 번역가를 고용한 후 포스트 에디팅 프로세스에서 기계 번역의 “초안”을 정리할 수 있습니다. 포스트 에디터는 기계 번역을 검토하고 수정하여 높은 수준으로 글을 다듬을 뿐만 아니라, 재번역을 기계 자체의 메모리에 통합하여 향후 프로젝트를 위한 “학습”으로 개선할 수도 있습니다.

최상의 결과를 얻기 위해 엄격한 프로세스에 따라 각 번역의 품질을 보장하는 Trusted Translations전문 포스트 에디터처럼 기계 번역 포스트 에디팅에 특별히 훈련된 전문 언어학자를 찾아야 합니다.

이미지: Enrique (Pixabay)