Языки, для которых не работает автоматический перевод

В условиях неуклонной глобализации, в мире, который с каждым днем становится все более динамичным, нет никаких сомнений в том, что автоматический перевод никуда не денется. Несмотря на насмешки над машинным переводом, языковые приложения, основанные на нейронных сетях (взаимосвязанных компьютерных системах, имитирующих мыслительные процессы человека), по-прежнему не имеют себе равных по скорости и стоимости (они работают мгновенно и бесплатно).

Однако никакие алгоритмы пока не могут заменить человеческий мозг, не говоря уже о чувствительности к контексту и идиомам (таким как, например, английское выражение «it’s raining cats and dogs»), которой обладают профессиональные переводчики.

Быстро, бесплатно и несовершенно — но со временем все лучше и лучше

Благодаря влиянию международных организаций (таких как Организация Объединенных Наций) и многоязычных институтов (таких как Европейский парламент), на протяжении более пятидесяти лет в гигантских базах данных накапливались огромные объемы параллельных данных. Однако лишь во втором десятилетии 21-го века — с появлением глубоких нейронных сетей (ГНС) — всей этой переведенной человеком документации удалось найти более практическое применение.

Используя эти лингвистические сокровища, ряд крупных технологических игроков разработали следующие бесплатные платформы для перевода:

  • Google Translate: (133 языка) На этих языках ежедневно говорят более чем 500 миллионов пользователей, и из них чаще всего используются английский, испанский, арабский, русский, португальский и индонезийский языки, а реже всего — бенгальский, гаитянский креольский и таджикский;
  • Bing Translator от Microsoft: (103 языка) Облачный сервис, являющийся частью Microsoft Cognitive Services, интегрированный в несколько продуктов, включая Bing, MS Office, Edge, Skype и Windows, а также устройства Apple и Android;
  • DeepL: (28 языков) Этот движок раньше работал на базе европейских языков, но теперь уже начинает включать в себя языки со всего мира; он основан на гигантском корпусе переведенных людьми предложений, идиом и фрагментов, содержащихся в онлайн-словаре Linguee.

Расширение направлений деятельности

Первоначальная зависимость от этих золотых цифровых сокровищ параллельных данных, возможно, объясняет тот факт, почему автоматический перевод в настоящее время работает с такими европейскими языками как финский (на котором говорят пять миллионов человек), но игнорирует 48 миллионов эфиопов, говорящих на языке оромо. Другие праязыки, все еще томящиеся в технологической неопределенности — это бходжпури (51 миллионов носителей), фула (24 миллиона), сильхети (11 миллионов) и кирунди (9 миллионов).

Однако ситуация меняется: добавляются новые языки, что расширяет возможности машинного перевода. Как отмечает Карл Рубино, руководитель программы IARPA (Исследовательский центр разведывательных служб США), «многие проблемы, с которыми мы сталкиваемся сегодня, такие как экономическая и политическая нестабильность, пандемия Covid-19 и изменение климата, охватывают всю планету и, таким образом, являются многоязычными по своей природе».

Спасение жизней с помощью языков

Поскольку эти проблемы часто ложатся тяжелым бременем на неблагополучные сообщества, которые меньше всего способны справиться с ними, мгновенная, но точная связь становится вопросом жизни и смерти. В то время как производительность людей-переводчиков ограничена физическими возможностями, компьютеры могут круглосуточно работать со сверхчеловеческой скоростью. Они могут безостановочно выдавать потоки анализов, отчетов и руководств, которые, возможно, несовершенны с грамматической точки зрения, но пригодны для использования в сжатые сроки в чрезвычайных ситуациях.

Вот где истинная ценность расширения возможностей автоматического перевода. Способствуя мгновенному общению благодаря преодолению языковых и культурных барьеров, когда на карту поставлены жизни и средства к существованию, эти безликие алгоритмы бросают спасательные круги низкотехнологичным сообществам, борющимся за выживание в неблагоприятных условиях.

Языки с ограниченными ресурсами

Несмотря на то, что на них говорят миллионы людей, многие языки располагают лишь ограниченными (и часто одноязычными) письменными ресурсами, несмотря на богатые устные традиции. Такие языки с ограниченными ресурсами, как их называют в отрасли, являются «крепким орешком» для глубоких нейронных сетей. Тем временем носители этих языков активно загружают посты и пишут блоги, которые вполне могут обеспечить выживание их обществ, несмотря на традиционное отсутствие у них записей и книг.

С исторической точки зрения, многоязычные источники среди некоторых из этих культур часто ограничивались узкоспециальными наборами данных, предоставленными религиозной литературой, в особенности священными писаниями, которые широко переводились на многие языки, такими как Коран и Библия. В современные времена печать, аудиовизуальные СМИ и социальные сети накапливают солидные запасы одноязычных данных, которые можно анализировать и переводить с помощью глубоких нейронных сетей.

Социальные сети создают сети безопасности сообщества

Современные модели нейронных сетей теперь можно предварительно тренировать с помощью устных и письменных одноязычных источников. В теории нейронные модели изучили определенные особенности и структуры человеческого языка, установленные с помощью параметров, которые теперь применяются к задачам перевода.

Поскольку пользователи по всему миру публикуют контент, который часто повторяется в разных культурах и на их родных языках, нейронные модели теперь могут обобщать тексты для пользователей. Для этого этим приложениям, по-видимому, требуется лишь совсем немного потренироваться, используя параллельные данные на двух языках: достаточно нескольких сотен тысяч слов (возможно, полдюжины романов).

Главный вывод. В мире говорят приблизительно на 7000 языков (но только около 4000 из них являются письменными), и приложения виртуального перевода открывают широкие возможности для расширения деятельности. Преодоление языковых и культурных различий с помощью автоматического перевода, от здравоохранения до сельского хозяйства, несомненно, является путем к построению более благоприятного будущего для человечества. Но это всегда должно сопровождаться помощью профессиональных переводчиков, которые хорошо разбираются не только более чем в одном языке, но и более чем в одной культуре.

Изображение: Yatheesh Gowda, Pixabay