معالجة اللغة الطبيعية. نتائج عام 2019 واتجاهات عام 2020

تحية للجميع. مع بعض التأخير ، قررت نشر هذا المقال. أحاول كل عام تلخيص ما حدث في مجال معالجة اللغة الطبيعية. هذا العام لم يكن استثناء.

BERTs ، BERTs في كل مكان


لنبدأ بالترتيب. إذا لم تكن قد غادرت من أجل التايغا السيبيري البعيد أو عطلة في غوا للسنة والنصف الماضية ، فيجب أن تكون قد سمعت كلمة BERT. يظهر هذا النموذج في نهاية عام 2018 ، على مدار الماضي ، وقد اكتسب شعبية كبيرة لدرجة أن مثل هذه الصورة ستكون صحيحة تمامًا:



أسر BERTs حقًا كل شيء يمكن ملؤه في البرمجة اللغوية العصبية. بدأ استخدامها في التصنيف والاعتراف بالكيانات المسماة وحتى للترجمة الآلية. ببساطة ، لا يمكنك تجاوزها ولا يزال عليك معرفة ماهيتها.



تظهر الصورة مقارنة بين بطل المناسبة (يسار) بنموذجين بدآ أيضًا. على اليمين يوجد سلف BERT - نموذج ELMo .

الاستطراد الغنائي.
image
« »: , , Elmo, Bert — ; , , , — . . , , .

نموذج Allen AI ELMo هو نوع من الخلف للتطور الكامل للمنطقة في السنوات السابقة - أي شبكة عصبية متكررة ثنائية الاتجاه ، بالإضافة إلى العديد من الحيل الجديدة للإقلاع. لقد قرر زملاء OpenAI ما يمكن عمله بشكل أفضل. ولهذا تحتاج فقط إلى تطبيق بنية Transformer المقدمة في العام السابق لـ Google على هذه المهمة. أعتقد أنه على مدى 2.5 سنة الماضية ، تمكن الجميع بالفعل من التعرف على هذه الهندسة المعمارية ، لذلك لن أتناولها بالتفصيل. بالنسبة لأولئك الذين يرغبون في الحصول على الشركة ، أشير إلى مراجعتي من عام 2017 .

أطلقوا (موظفو OpenAI) على نموذج GPT-2 . وبعد ذلك ، على هذا النموذج ، قاموا بعمل جيد. ولكن دعنا نتركها في ضميرهم ، ونعود إلى خرافنا ، أي النماذج.

كانت إحدى أهم حيل ELMo هي التدريب المسبق على حالة كبيرة غير مخصصة. لقد اتضح الأمر جيدًا ، وقرر الزملاء من Google أنه يمكننا القيام بعمل أفضل. بالإضافة إلى تطبيق بنية المحولات (التي كانت موجودة بالفعل في GPT-2) ، فإن BERT ، التي تعني تمثيلات التشفير ثنائية الاتجاه من المحولات ، أي تمثيلات المتجهات من مشفر ثنائي الاتجاه بناءً على بنية المحولات ، تحتوي على العديد من الأشياء الأكثر أهمية. على وجه التحديد ، كان الأهم هو طريقة التدريب على قضية كبيرة.



تُظهر الصورة طريقة لترميز البيانات غير المخصصة. يتم عرض طريقتين للتخطيط مرة واحدة على وجه التحديد. أولاً ، يتم أخذ سلسلة من الرموز (الكلمات) ، على سبيل المثال ، جملة ، وفي هذا التسلسل يتم إخفاء رمز تعسفي واحد ([MASK]). ويجب أن يخمن النموذج في عملية التعلم نوع الرمز المميز المقنع. الطريقة الثانية - تؤخذ جملتان بالتتابع أو من أماكن عشوائية في النص. ويجب أن يخمن النموذج ما إذا كانت هذه الجمل متسلسلة ([CLS] و [SEP]).

كانت فكرة هذا التدريب فعالة للغاية. كانت الإجابة من الأصدقاء المحلفين من Facebook هي نموذج RoBERTa ، مقال عن هذا النموذج يسمى "تدريب BERT المحسن بشكل مستدام". علاوة على ذلك.

لن أسرد جميع الطرق لتحسين تدريب نموذج لغوي كبير يعتمد على بنية Transfomer نظرًا لأنه ممل ببساطة. أذكر ، ربما ، فقط عمل زملائي من هونج كونج - ERNIE . في عملهم ، يثري الزملاء التدريب من خلال استخدام الرسوم البيانية المعرفية.

قبل الانتقال ، إليك بعض الروابط المفيدة: مقالة حول BERT . بالإضافة إلى مجموعة من نماذج BERT و ELMo المدربة للغة الروسية.

نماذج صغيرة


ولكن يكفي عن BERTs. هناك عدة اتجاهات أكثر أهمية. بادئ ذي بدء ، هذا اتجاه لتقليل حجم النموذج. يتطلب نفس BERT الكثير من الموارد ، وبدأ الكثيرون يفكرون في كيفية الحفاظ على الجودة (أو عدم فقدانها حقًا) ، وتقليل الموارد المطلوبة لكي تعمل النماذج. جاء زملاء Google بقليل من BERT ، أنا لا أمزح - ALBERT: القليل من BERT . يمكنك أن ترى أن BERT الصغيرة تتجاوز شقيقها الأكبر في معظم المهام ، في حين أن ترتيب المعلمات أقل من حيث الحجم.



نهج آخر لنفس الشريط تم إجراؤه مرة أخرى من قبل زملائي من هونج كونج. لقد توصلوا إلى BERT - TinyBERT صغير . (إذا كنت تعتقد في هذه المرحلة أن الأسماء بدأت تتكرر ، فأنا أميل إلى الاتفاق معك.)



الفرق الأساسي بين النموذجين المذكورين أعلاه هو أنه إذا استخدم ALBERT حيلًا صعبة للحد من نموذج BERT الأصلي ، على سبيل المثال ، مشاركة المعلمات وتقليل أبعاد تمثيلات المتجهات الداخلية من خلال تحلل المصفوفة ، فإن TinyBERT يستخدم نهجًا مختلفًا بشكل أساسي ، أي تقطير المعرفة ، أي أن هناك نموذج صغير يتعلم التكرار بعد شقيقتها الكبرى في عملية التعلم.

حالات صغيرة


في السنوات الأخيرة (منذ حوالي عام 1990 ، عندما ظهرت الإنترنت) ، كانت هناك زيادة في المباني المتاحة. ثم جاءت الخوارزميات التي أصبحت قادرة على معالجة مثل هذه العبوات الكبيرة (وهذا ما نسميه "ثورة التعلم العميق" ، وهذا بالفعل هو العام منذ 2013). ونتيجة لذلك ، بدأ يُفهم بشكل طبيعي أنه من أجل الحصول على جودة جيدة في بعض المهام ، هناك حاجة إلى صفائف ضخمة من البيانات المرمزة - مجموعة من النصوص في حالتنا. على سبيل المثال ، يتم قياس الحالات النموذجية لتعلم مهام الترجمة الآلية اليوم بملايين الأزواج من الجمل. لقد كان من الواضح منذ فترة طويلة أنه بالنسبة للعديد من المهام ، من المستحيل تجميع مثل هذه الحالات في فترة زمنية معقولة وبمقدار معقول من المال. لفترة طويلة ، لم يكن من الواضح تمامًا ما يجب فعله حيال ذلك. ولكن العام الماضي (من تعتقد؟) جاء بيرت إلى المشهد.كان هذا النموذج قادرًا على التدريب المسبق على كميات كبيرة من النصوص غير المخصصة ، وكان النموذج النهائي سهل التكيف مع المهمة بحالة صغيرة.



جميع المهام المدرجة في هذا الجدول لها فيلق تدريب بحجم عدة آلاف وحدة. وهذا يعني ، أقل من مرتين إلى ثلاث مرات. وهذا سبب آخر ليصبح BERT (وأحفاده وأقاربه) شائعين جدًا.

الاتجاهات الجديدة


حسنًا ، في النهاية ، زوجان من الاتجاهات الجديدة ، كما رأيتها. بادئ ذي بدء ، هذا تغيير أساسي في الموقف من النص. إذا كان النص في معظم المهام السابقة في معظم المهام يُنظر إليه على أنه مادة إدخال فقط ، وكان الناتج شيئًا مفيدًا ، على سبيل المثال ، تسمية فئة. الآن لدى المجتمع الفرصة لتذكر أن النص هو في الأساس وسيلة اتصال ، أي يمكنك "التحدث" مع النموذج - طرح الأسئلة وتلقي الإجابات في شكل نص يمكن قراءته بواسطة الإنسان. هذا ما تقوله المقالة الجديدة من Google T5 (يمكن ترجمة الاسم على أنه "محول خمس مرات").



اتجاه آخر مهم هو أن المنطقة تعيد التعلم للعمل مع النصوص الطويلة. منذ السبعينيات ، لدى المجتمع طرق للعمل مع نص بأطوال عشوائية - خذ نفس TF-IDF. لكن هذه النماذج لها حدود الجودة الخاصة بها. لكن نماذج التعلم العميق الجديدة لم تكن قادرة على العمل مع النصوص الطويلة (نفس BERT لديه حد 512 من الرموز المميزة لطول النص المدخل). لكن في الآونة الأخيرة ، ظهر عملان على الأقل من جوانب مختلفة تقترب من مشكلة النص الطويل. أول عمل من مجموعة رسلان سالاخوتدينوف يسمى Transformer-XL.



في هذا العمل ، تم إحياء الفكرة التي جعلت الشبكات العودية شائعة جدًا - يمكنك حفظ الحالة السابقة واستخدامها لبناء الحالة التالية ، حتى إذا لم تقم بتدرج التدرج إلى الوراء في الوقت المناسب (BPTT).

الثانيةيعمل العمل مع كثيرات الحدود Legendre وبمساعدتهم يسمح بمعالجة تسلسل عشرات الآلاف من الرموز مع الشبكات العصبية المتكررة.

وفي هذا الصدد ، أود أن أنهي مراجعة التغييرات التي حدثت والاتجاهات الناشئة. دعونا نرى ما سيحدث هذا العام ، أنا متأكد من أن الكثير من الأشياء المثيرة للاهتمام. فيديو لخطابي حول نفس الموضوع في شجرة البيانات:


سكرتير خاص لدينا قريبا بعض الإعلانات أكثر إثارة للاهتمام ، لا تقم بالتبديل!

Source: https://habr.com/ru/post/undefined/


All Articles