Машинный перевод вызывает галлюцинации электрических овец?

Роботы, возможно, не видят снов, но у них бывают галлюцинации. Поскольку в последнее время искусственный интеллект оказался в центре внимания средств массовой информации, тенденция алгоритмических технологий «галлюцинировать» материал стала основной проблемой в отношении использования ИИ, и это не является исключением для сферы машинного перевода.

В этой статье мы рассмотрим, что такое галлюцинации машинного перевода, почему они возникают и как предотвратить влияние этой серьезной проблемы на ваши потенциальные переводческие проекты.

Что такое галлюцинации машинного перевода?

В отличие от человеческого перевода, в машинном переводе используется компьютерное программное обеспечение — обычно искусственный интеллект или решения на основе машинного обучения — для перевода текста с одного языка на другой. Хотя машинный перевод может помочь сэкономить время и деньги, к сожалению, эти машины также могут создавать галлюцинации, то есть результаты перевода, которые совершенно не связаны с изначально введенным текстом (и которые часто являются нелепыми).

Например, один эксперимент с машинным переводом показал, что использованная модель воспроизвела совершенно новые истории. Первоначальное предложение представляло собой заявление о продолжающейся забастовке в Колумбии; после того, как это предложение сначала было переведено через Google Translate на маратхи, а затем обратно на английский машинным переводчиком, оно стало совершенно необоснованным утверждением об американских детях, служащих в Свидетелях Иеговы. Как показывает этот пример, галлюцинации могут возникать особенно часто при переводе с английского на менее распространенные языки, о которых у машины может быть не так много надежных данных.

Почему возникают галлюцинации?

Некоторые галлюцинации нейронного машинного перевода (НМП) вызваны «входным возмущением», или неожиданным элементом входных данных, который, следовательно, искажает выходные данные. Во входных данных может быть опечатка, необычный стиль, необычное слово или слово, которое просто не учтено в данной модели.

Другие галлюцинации возникают из-за проблем с данными, используемыми для обучения модели. Исследователи обнаружили, например, что у некоторых моделей есть проблемы с чрезмерным запоминанием фраз, то есть фраз, которые настолько запоминаются машиной, что она хочет повторять эти фразы каждый раз совершенно одинаково, не распознавая контекст или идиому. Большое количество «шума» в объеме обучающих данных — слишком много ошибочных или несогласованных пар между исходным и целевым предложениями — также может приводить к галлюцинациям.

Когда дело доходит до моделей на основе LLM, таких как ChatGPT, картина возникает не менее тревожная. Помимо нецелевых переводов, переводческих «глюков» или сбоев, набор данных для обучения может также содержать токсичные материалы, которые проникают в результат перевода.

Как избежать переводческих галлюцинаций

Как вы можете себе представить, галлюцинации машинного перевода могут иметь катастрофические последствия для бизнеса, подрывая доверие пользователей и вызывая серьезные проблемы с безопасностью. Хотя существуют способы попытаться настроить сами машины, единственный проверенный и надежный способ исправить галлюцинации, вне всякого сомнения — это участие человека, то есть настоящего, профессионального переводчика.

Использование человеческого перевода не означает, что вы не можете использовать машинный перевод в качестве первого шага в крупном проекте. Но вы можете нанять переводчика-человека, чтобы он почистил «первый вариант» машинного перевода в процессе, известном как постредактирование. Постредакторы не только просматривают и исправляют машинные переводы, доводя их до высокого уровня, но и их повторные переводы также могут быть включены в память самой машины, улучшая ее «подготовку» для будущих проектов.

Для достижения оптимальных результатов следует обратиться к профессиональным лингвистам, специально обученным постредактированию машинного перевода, например к опытным постредакторам Trusted Translations, которые соблюдают строгий процесс, чтобы гарантировать качество каждого перевода.

Фото: Enrique, Pixabay