عملية تطوير الترجمة الآلية العصبية المخصصة

لبدء تشغيل “محرك ترجمة آلية عصبية مخصّصة” جديد، تتطلب شركة Trusted Translations فترة تدريب وإعداد أولية. فيما يلي عملية تنفيذ نموذجية لإنشاء محرك ترجمة آلية عصبية جديد.

اختيار محرك الأساس

يجري تطوير قدر كبير من المحتوى حول إضفاء الطابع الديمقراطي على الخوارزميات. ومع ذلك، يجب أن يكون هذا المفهوم أكثر شمولية. على سبيل المثال، بدأت حلول إضفاء الطابع الديمقراطي على التكنولوجيا في جعل محركات الأساس القوية أساساً جيداً لبناء حل مخصص. ستساعدك عروض الخدمة من Google أو Microsoft أو Amazon في تغذية بياناتك المُنسّقة إلى المحركات المدّربة تدريبًا جيدًا بالفعل.

اختيار البيانات وإعداد الجزء الأساسي

هناك العديد من الأساليب لجمع بيانات التدريب لبناء محرك مخصص.

  • المحتوى المترجم الحالي:

    تُعد نقطة البدء المثالية لأي محرك ترجمة آلية عصبية مخصص هي البحث عن المواد التي تمت ترجمتها مسبقًا والتي تتضمن محتوى يشبه إلى حد كبير المحتوى المراد ترجمته. وكلما كانت المواد المُترجمة سابقًا متوفرة، كانت العملية أقل في التكلفة وأسرع في تنفيذها. إذا لم يكن النص المصدر والهدف مرتبطين بوحدات ذاكرة الترجمة، فيمكن إجراء محاذاة للحصول على المحتوى ثنائي اللغة اللازم لتعزيز أداء المحرك الترجمة الآلية

  • البيانات أحادية اللغة الموجودة:

    إذا كانت هناك كميات كافية من المحتوى المرجعي المستهدف، فمن الممكن الاستفادة من جميع الأنماط والمصطلحات بالنصوص بإضافة ذلك إلى ذاكرة الترجمة. ومن المحتمل أن يكون هذا المحتوى قد تم تطوريه من قِبل خبراء محليين في المجال من الصفر، وقيمته لا تضاهى في الجودة. وغني عن القول إن المصطلحات الخاصة بالمجال أو حتى العملاء تُعتبر من الأصول الممتازة عند تخصيص محركات الترجمة الآلية استناداً إلى تقنية NMT، والتي تم تحديد المصطلحات لها باعتبارها نقطة ضعفها الرئيسية.

  • إنشاء مجموعة متخصصة من مصادر أخرى:

    بالإضافة إلى استخدام البيانات أحادية اللغة، سنقوم بالبحث على الويب عن المواد التي تتوافق بشكل وثيق مع المحتوى الذي سيتم ترجمته من خلال محرك الترجمة الآلية. ومرة أخرى، إن استثمار الوقت في البحث عن النصوص المُترجمة بجودة عالية يُعد من الأمور التي تعود عليها دوماً ثمارها. وينطبق الشيء نفسه على البيانات الثنائية اللغة التي يمكن الحصول عليها من أسواق البيانات. يستلزم تنسيق البيانات المتوازية الخارجية (مثل مراجعة التدقيق الإملائي والمحاذاة وحذف التكرارات وما غير ذلك) قبل استخدامها كبيانات تدريب لنظام الترجمة الآلية. يتطلب هذا السيناريو كميات أكبر بكثير من المشاركة اليدوية مقارنة بما إذا كان العميل قادراً على تقديم كميات كافية من بيانات جيدة النوعية متوافقة منذ البداية. سيستغرق بناء المحرك الجديد من 4 إلى 6 أسابيع.

ومع تزايد عدد النصوص المترجمة التي يتم مراجعتها، يمكن تحويلها إلى بيانات تدريب جيدة الجودة لمحرك الترجمة الآلية. سيجعل هذا النموذج التكيفي جودة الترجمة الآلية الناتجة من النظام تتحسن بسرعة كبيرة مع مرور الوقت.

إعادة التدريب: تتحسن عمليات مراجعة الترجمة الآلية CNMTs الجديدة مع المراجعة البشرية للترجمة الآلية الناتجة من النظام

هناك العديد من مهام سير العمل التي تتضمن “محرك الترجمة الآلية العصبية المخصص”. أحد التكوينات الشائعة هو دمج عملية المراجعة البشرية للنصوص المترجمة آليًا. في إطار سير العمل هذا، يتم مراجعة النصوص المترجمة آليًا من قِبل محرك الترجمة الآلية العصبية المخصصة من قبل أحد خبراء المراجعة اللغوية لدينا لتحسين الجودة الشاملة للترجمة وكذلك لإعادة تدريب المحرك للترجمات المستقبلية وإثراءه. بينما يقوم المراجع بتعديل الترجمة الآلية لتحسين جودتها، يصبح المحرك أكثر ذكاءً باستخدام نموذج تكيفي ديناميكي. وبالإضافة إلى ذك، مع تدفق المزيد من الترجمات عبر المحرك، تصبح المحركات أكثر ذكاءً مع مرور الوقت. وبعبارة أخرى، فإن فجوة الجودة بين الترجمة البشرية الكاملة وهذا الحل تتقلص بشكل كبير، في حين يجري خفض زمن تسليم المشاريع والتكاليف بشكل كبير. وفي رأينا أن هذه المحركات ستصبح أصولاً ووسيلة تمييز في السوق لأي عميل لديه مثل هذه الحاجة.