ترجمة آلية. من الحرب الباردة إلى الوقت الحاضر

أصبحت الترجمة الآلية واسعة الانتشار في السنوات الأخيرة. بالتأكيد ، استخدم معظم قرائي خدمات Google.Translate أو Yandex.Translation مرة واحدة على الأقل. من المحتمل أيضًا أن يتذكر العديد من الأشخاص أنه منذ وقت ليس ببعيد ، قبل حوالي 5 سنوات ، كان استخدام المترجمين التلقائيين أمرًا صعبًا للغاية. ليس من السهل فهم أنهم أعطوا ترجمة ذات جودة رديئة للغاية. يوجد تحت القطع تاريخ موجز وغير مكتمل للترجمة الآلية ، والذي سيكون منه مرئيًا في هذه المهمة وبعض أسبابها وعواقبها. أولاً ، صورة توضح مفهومًا هامًا فيما يتعلق بالترجمة الآلية:



يسمى هذا المفهوم مفهوم "قناة صاخبة" وجاء من هندسة الراديو. في إصدارات مختلفة ، يُنسب إلى العديد من العلماء ، Nyquist ، Kupfmüller ، Shannon ، ولكن في هذا النزاع أنا متأصل لمواطننا - فلاديمير ألكسندروفيتش Kotelnikov ، الذي أثبت في عمله عام 1933 نظريته الشهيرة. في حد ذاتها ، هذه النظرية خارج نطاق هذه المقالة ، لذلك أنا أرسل المهتمين في ويكيبيديا .

بالنسبة لنا ، هناك شيء آخر مهم. تم تطبيق مفهوم القناة الصاخبة على اتجاه جديد - الترجمة الآلية التلقائية. بعد نهاية الحرب العالمية الثانية ، قرر شركاؤنا في الخارج أن الاتحاد السوفييتي ، الذي أظهر قوته من خلال هزيمة أفضل جيش في أوروبا والعالم ، يشكل تهديدًا خطيرًا. تم اتخاذ إجراءات مختلفة لوقف هذا التهديد ، بما في ذلك العمل على الترجمة الآلية من الروسية إلى الإنجليزية. كان هذا ضروريًا لأن الاتحاد السوفييتي أنتج الكثير من المعلومات - البرامج التلفزيونية والمحادثات الإذاعية والكتب والمجلات. وإذا أخذنا في الاعتبار مفاوضات حلفائنا حول تنظيم حلف وارسو ، فإن حجم المشكلة كان مخيفًا بالفعل: لم يكن من الممكن تدريبهم ، بل وأكثر من ذلك الحفاظ على جيش من المترجمين المحترفين.وهنا ولدت الفكرة - دعنا نقول أن النص باللغة الروسية هو مجرد نص مشوه باللغة الإنجليزية ، وسنحاول خوارزميًا لاستعادة النص "المصدر". هذا هو بالضبط ما اقترحه وارن ويفر في عام 1949.

من الناحية النظرية ، تبدو جميلة ، ولكن السؤال هو كيفية تنفيذها. بقوة في الوقت المناسب ، تم تحقيق ذلك على أساس ما يسمى ترجمة العبارة.

ولكن دعنا نذهب بالترتيب. ما هي أسهل طريقة للترجمة إلى العقل؟ ترجمة القاموس - أي أخذ قاموس جاهز ، واستبدال جميع الكلمات في الجملة بمكافئتها بلغة أخرى. تم اقتراح هذا النهج من قبل شركة IBM سيئة السمعة في عام 1989.. هذا النهج له عيب واضح: يمكن أن يختلف ترتيب الكلمات بلغات مختلفة ، وأحيانًا إلى حد كبير. الخطوة التالية في هذا النموذج هي السماح بتبديل الكلمات. وكيف يمكن توقع هذه التبديلات؟ في نفس العمل ، تم اقتراح نموذج آخر (إذا كان الأول يسمى النموذج 1 ، ثم يسمى الثاني النموذج المنطقي جدًا 2). في هذا النظام ، بالإضافة إلى القاموس ، هناك ما يسمى بنموذج المحاذاة - ارتباط الكلمات في جملتين مع بعضها البعض. يتم تعلم المحاذاة بناءً على إحصائيات الجسم. العيب الواضح لهذا النموذج هو أنه يتطلب الكثير من الجهد لإعداد الحالة التي تتم فيها المحاذاة ، ويجب على المترجمين المحترفين ليس فقط ترجمة النص ، ولكن يشير أيضًا إلى الكلمة التي هي الترجمة.

تجدر الإشارة إلى أنه بالإضافة إلى ترتيب الكلمات المختلفة ، هناك ، على سبيل المثال ، مشكلة أن بعض الكلمات ستكون بدون ترجمة تمامًا (على سبيل المثال ، المقالات غير موجودة باللغة الروسية) ، وستتطلب بعض الكلمات أكثر من ترجمة واحدة كلمة (مثل حرف الجر + الاسم). وصف زملاؤهم شركة آي بي إم معدل الخصوبة هذا وقاموا ببناء نماذج له بناءً على الإحصائيات أيضًا. هذا هو النموذج 3 (يمكن التنبؤ به إلى حد كبير ، أليس كذلك؟). في نفس العمل ، تم وصف عدة نماذج أخرى ، قاموا بتطوير الأفكار الموصوفة عن طريق إضافة شروط للتنبؤ بترجمة كلمة - على سبيل المثال ، إلى الكلمة السابقة ، حيث يتم دمج بعض الكلمات بشكل أفضل مع بعضها البعض وبالتالي فهي أكثر شيوعًا. أدت هذه المجموعة الكاملة من النماذج إلى ما يسمى الترجمة القائمة على العبارة.

وُجِد هذا الاتجاه وتطور ، على وجه الخصوص ، إطار عمل مفتوح للترجمة الآلية موسى (على الموقع الرسمي يمكنك أن ترى أنه قد سقط إلى حد ما في الاضمحلال). في وقت من الأوقات ، كانت هذه هي الوسيلة الرئيسية للترجمة الآلية ، على الرغم من أن الترجمة الآلية لم تكن شائعة جدًا في ذلك الوقت. ولكن في عام 2014 حدث شيء رهيب - وصل التعلم العميق إلى مجال الترجمة الآلية. إذا كنت تتذكر قبل عام مضى أنها وصلت إلى تمثيلات متجهة للكلمات ، فقد وصفت هذه المقالة حول التضمين . وفي عام 2014 ، تم نشر مقال بواسطة ديمتري بوغدانوف (والمؤلفون المشاركون ، أحدهم كان Yoshua Bengio الشهير) بعنوان Neural Machine Translation by Jointly Learning to Align and Translate(أو - الترجمة الآلية العصبية من خلال التدريب المشترك للمواءمة والترجمة). في هذا العمل ، اقترح دميتري استخدام آلية الانتباه للشبكات العصبية المتكررة وبمساعدة منه تمكن من التغلب على موسى المذكور بكمية كبيرة.

هنا تحتاج إلى البحث والتحدث عن كيفية قياس جودة الترجمة الآلية. في عمل Papineniفي عام 2002 ، تم اقتراح مقياس BLEU (تقييم ثنائي اللغة - دراسة مقارنة ثنائية اللغة). يقارن هذا المقياس بشكل أساسي عدد الكلمات من الترجمة الآلية التي تطابق الكلمات من النسخة البشرية. ثم تتم مقارنة تركيبات الكلمات من كلمتين ، ثلاثة ، أربعة. تم حساب متوسط ​​جميع هذه الأرقام وتم الحصول على رقم واحد بالضبط يصف جودة نظام الترجمة الآلية في هذا المبنى. هذا المقياس له عيوبه ، على سبيل المثال ، قد تكون هناك خيارات بشرية مختلفة لترجمة نص واحد ، ولكن من المدهش أنه لمدة 20 عامًا تقريبًا ، لم يتم اقتراح أي شيء أفضل لتقييم جودة الترجمة.

ولكن نعود إلى آلية الانتباه. يجب أن يقال أن الشبكات المتكررة تم اقتراحها قبل 15 عامًا ، ومن ثم لم تخلق أي ضجة. كانت هناك مشكلة كبيرة في هذه الشبكات أنها سرعان ما نسيت "ما قرأته". جزئيا حل هذه المشكلة للترجمة الآلية وساعدت آلية الانتباه. هنا في الصورة:



ماذا يفعل؟ يزن الكلمات في الإدخال لإعطاء ناقل كلمة واحدة للترجمة. هذا ما جعل من الممكن إنشاء مصفوفات المحاذاة تلقائيًا استنادًا إلى النص الخام بدون ترميز. على سبيل المثال ، مثل:

صورة

بعد أن رأى الجميع أن ذلك ممكن ، تم تكريس جهود كبيرة للترجمة الآلية ، التي أصبحت المجال الأسرع نمواً في معالجة اللغات الطبيعية. تم تحقيق تحسينات كبيرة في الجودة ، بما في ذلك أزواج اللغات البعيدة ، مثل الإنجليزية والصينية أو الإنجليزية والروسية. حكمت الشبكات المتكررة الكرة لبعض الوقت بالمعايير الحديثة - ما يقرب من 4 سنوات. ولكن في نهاية عام 2017 ، بدا البوق يعلن عن اقتراب ملك جديد للجبل. لقد كانت مقالة تسمى الانتباه هو كل ما تحتاجه (الانتباه هو كل ما تحتاجه ؛ إعادة صياغة اسم أغنية البيتلز الشهيرة "كل ما تحتاجه هو الحب"). قدمت هذه المقالة بنية المحول ، والتي كانت أقل بقليل من آليات الانتباه. تحدثت عنها أكثر في مقال حولنتائج عام 2017 ، لذلك لن أكرر نفسي.

منذ ذلك الحين ، تدفق الكثير من الماء ، ولكن مع ذلك ، لا يزال هناك الكثير. على سبيل المثال ، قبل عامين ، في بداية عام 2018 ، أعلن باحثو Microsoft عن تحقيق المساواة في الجودة مع ترجمة بشرية مترجمة من الإنجليزية إلى وثائق إخبارية صينية. تم انتقاد هذه المقالة كثيرًا ، بشكل أساسي من وجهة نظر مفادها أن تحقيق أرقام متساوية بواسطة BLEU هو مؤشر على عدم كفاية مقياس BLEU. ولكن تم إنشاء الضجيج.

هناك اتجاه آخر مثير للاهتمام في تطوير الترجمة الآلية وهو الترجمة الآلية بدون بيانات موازية. كما تتذكر ، سمح لنا استخدام الشبكات العصبية بالتخلي عن ترميز المحاذاة في النصوص المترجمة لتدريس نموذج الترجمة الآلية. قدم مؤلفو الترجمة الآلية غير الخاضعة للرقابة باستخدام لغة أحادية اللغة فقط (ترجمة آلية باستخدام بيانات أحادية اللغة فقط) نظامًا ، مع بعض الجودة ، كان قادرًا على الترجمة من الإنجليزية إلى الفرنسية (كانت الجودة ، بالطبع ، أقل من أفضل الإنجازات في ذلك الوقت ، ولكن بنسبة 10٪ فقط) . ومن المثير للاهتمام أن نفس المؤلفين قاموا بتحسين نهجهم باستخدام أفكار الترجمة الفعلية في وقت لاحق من ذلك العام.

أخيرًا ، آخر شيء أود أن أسلط الضوء عليه هو ما يسمى الترجمة غير التراجعية. ما هذا؟ تعتمد جميع النماذج ، بدءًا من IBM Model 3 ، على الكلمات السابقة التي تمت ترجمتها بالفعل عند الترجمة. وحاول مؤلفو العمل ، الذي يُطلق عليه الترجمة الآلية غير التراجعية ، التخلص من هذا الاعتماد. كما تبين أن الجودة أقل قليلاً ، ولكن سرعة هذه الترجمة يمكن أن تكون أسرع بعشرات المرات من نماذج الانحدار التلقائي. بالنظر إلى أن النماذج الحديثة يمكن أن تكون كبيرة جدًا وبطيئة ، فهذا مكسب كبير ، خاصةً تحت الحمل الثقيل.

وغني عن القول أن المنطقة لا تقف مكتوفة الأيدي ويتم اقتراح أفكار جديدة ، على سبيل المثال ، ما يسمى الترجمة العكسية ، عندما يتم استخدام البيانات أحادية اللغة التي يترجمها النموذج نفسه لمزيد من التدريب ؛ استخدام شبكات الالتفاف ، والتي هي أيضًا أسرع من المحولات القياسية هذه الأيام ؛ استخدام نماذج لغة كبيرة مدربة مسبقًا (لدي مقال منفصل عنها ). الجميع ، للأسف ، لا يمكن إدراجها.

شركتنا لديها أحد العلماء الرائدين في مجال الترجمة الآلية - الأستاذ Qun Liu. ندير أنا والبروفيسور ليو دورة تدريبية في معالجة اللغات الطبيعية ، حيث يتم إيلاء اهتمام كبير بشكل خاص للترجمة الآلية. إذا كنت مهتمًا بهذا المجال ، فلا يزال بإمكانك الانضمام إلى دورتنا ، التي بدأت قبل شهر.

وإذا كنت تشعر بالقوة في نفسك ، فسوف يسعدنا رؤيتك بين المشاركين في منافستنا للترجمة من الصينية إلى الروسية! ستبدأ المسابقة في 14 أبريل وستستمر لمدة شهر بالضبط. نأمل أن يحقق المشاركون لدينا نتائج جديدة في هذه المهمة وأن يكونوا قادرين على تطوير مجال الترجمة الآلية بالكامل. ستقام المسابقة على منصة MLBootCamp ، ونحن ممتنون للغاية لفريق MLBootCamp وشخصيًا ديمتري ساننيكوف لمساعدتهم في التنظيم.

رابط المنافسة

All Articles