تصنيف متعدد العلامات

صورةمرحبا ، هابروجيتلي! قررنا أن نستشهد بمقتطف من كتاب تأليف أندريه بوركوف ، التعلم الآلي بدون كلمات إضافية ، مخصص للتصنيف.

لوصف الصورة في الشكل ، يمكن استخدام العديد من العلامات في وقت واحد: "غابة صنوبرية" ، "جبال" ، "طريق". إذا كان عدد القيم المحتملة للتسميات كبيرًا ، ولكن جميعها لها نفس طبيعة العلامات ، فيمكن تحويل كل عينة ذات علامات إلى العديد من البيانات المميزة ، واحدة لكل علامة. ستحتوي كل هذه البيانات الجديدة على متجهات الميزات نفسها وتسمية واحدة فقط. ونتيجة لذلك ، تصبح المهمة مشكلة تصنيف متعددة الطبقات. يمكن حلها باستخدام استراتيجية "واحد ضد الجميع". الاختلاف الوحيد عن مشكلة التصنيف متعدد الفئات المعتاد هو ظهور معلمة مفرطة جديدة: العتبة. إذا كانت درجة التشابه للتسمية أعلى من قيمة العتبة ، يتم تعيين هذا التصنيف إلى ناقل ميزة الإدخال. في هذا السيناريو ، يمكن تعيين تسميات متعددة لناقل مميز واحد.يتم تحديد قيمة العتبة باستخدام مجموعة التحكم.

لحل مشكلة التصنيف مع العديد من التسميات ، يمكن للمرء بالمثل تطبيق خوارزميات يتم تحويلها بشكل طبيعي إلى فئات متعددة (أشجار القرار والانحدار اللوجستي والشبكات العصبية ، وما إلى ذلك). يعيدون تقديرًا لكل فصل دراسي ، حتى نتمكن من تحديد العتبة ومن ثم تعيين العديد من التسميات إلى متجه ميزة واحد تتجاوز درجة التقارب هذا الحد.

يمكن بطبيعة الحال تدريب الشبكات العصبية على التصنيفات متعددة التصنيفات باستخدام الثنائي عبر الكون كدالة تكلفة. تحتوي طبقة الإخراج للشبكة العصبية في هذه الحالة على عقدة واحدة لكل تسمية. تحتوي كل عقدة في طبقة الإخراج على وظيفة تنشيط سينية. تبعا لذلك ، كل تسمية l ثنائيصورةحيث l = 1، ...، L and i = 1، ...، N. ثنائي ثنائي الإنتروبيا يحدد احتمال صورةأن العينة xi لها التسمية l ، يتم تعريفه على أنه صورة

معيار التصغير - وهو متوسط ​​بسيط لجميع أعضاء الإنتروبيا الثنائية الثنائية في جميع عينات التدريب وجميع علاماتهم.

في الحالات التي يكون فيها عدد قيم التسمية المحتملة صغيرًا ، يمكنك محاولة تحويل مشكلة التصنيف مع العديد من التصنيفات إلى مشكلة تصنيف متعددة الفئات. تخيل المشكلة التالية. تحتاج إلى تعيين نوعين من التسميات للصور. يمكن أن يكون للتسميات من النوع الأول معنيين محتملين: { photo، paintingيمكن أن يكون لعلامات النوع الثاني ثلاثة معاني محتملة: { صورة ، أفقية ، أخرى}. لكل مجموعة من فئتي المصدر ، يمكنك إنشاء فئة وهمية جديدة ، على سبيل المثال:

صورة

لدينا الآن نفس البيانات التي تم وضع علامة عليها ، ولكننا استبدلنا مجموعة التسميات الحقيقية بعلامة وهمية واحدة بقيم من 1 إلى 6. في الممارسة العملية ، يعطي هذا النهج نتائج جيدة عندما لا يكون هناك الكثير من مجموعات الفئات الممكنة. خلاف ذلك ، يجب استخدام المزيد من بيانات التدريب للتعويض عن الزيادة في مجموعة الفصول.

الميزة الرئيسية لهذا النهج الأخير هي أن التسميات تبقى مترابطة ، على عكس الطرق الموضحة أعلاه ، والتي تتنبأ بكل تسمية بشكل مستقل عن بعضها البعض. في العديد من المهام ، يمكن أن يكون الارتباط بين الملصقات عاملاً مهمًا. على سبيل المثال، تخيل أنك تريد أن يصنف البريد الإلكتروني و البريد المزعج و غير المرغوبة، وفي نفس الوقت عادي ومهم. قد ترغب في استبعاد التوقعات مثل [ البريد العشوائي ، مهم ].

7.5. تدريب الفرقة


الخوارزميات الأساسية التي تناولناها في الفصل 3 لها حدودها. بسبب بساطتها ، في بعض الأحيان لا يمكنهم إنشاء نموذج فعال بما فيه الكفاية لمهمتك. في مثل هذه الحالات ، يمكنك محاولة استخدام الشبكات العصبية العميقة. ومع ذلك ، في الممارسة العملية ، تتطلب الشبكات العصبية العميقة كمية كبيرة من البيانات المصنفة ، والتي قد لا تكون لديك. طريقة أخرى لزيادة فعالية خوارزميات التعلم البسيطة هي استخدام التدريب الجماعي .

تدريب الفرقة هو نموذج التدريب التي تقوم على تدريب يست مجرد نموذج فائقة واحد صحيح، ولكن عددا كبيرا من النماذج مع دقة منخفضة والجمع بين التوقعات التي قدمتها هذه ضعيفة نماذج للحصول على الأصح metamodel .

عادة ما يتم تدريب النماذج ذات الدقة المنخفضة بواسطة خوارزميات تعلم ضعيفة غير قادرة على تدريب النماذج المعقدة وبالتالي تظهر سرعة عالية في مراحل التدريب والتنبؤ. في معظم الأحيان ، يتم استخدام خوارزمية تعلم شجرة القرار كخوارزمية ضعيفة ، والتي عادة ما تتوقف عن كسر مجموعة التدريب بعد عدة تكرارات. والنتيجة هي أشجار صغيرة وليست منتظمة للغاية ، ولكن ، كما تقول فكرة تدريب المجموعة ، إذا كانت الأشجار غير متطابقة وكل شجرة على الأقل أفضل قليلاً من التخمين العشوائي ، فيمكننا الحصول على دقة عالية من خلال الجمع بين عدد كبير من هذه الأشجار.

للحصول على التوقعات النهائية للدخول س، يتم الجمع بين توقعات جميع النماذج الضعيفة باستخدام بعض طرق التصويت المرجح. يعتمد الشكل المحدد لوزن الأصوات على الخوارزمية ، لكن الجوهر لا يعتمد عليها: إذا تنبأت النماذج الضعيفة بشكل جماعي بأن البريد الإلكتروني هو بريد عشوائي ، فإننا نعين تصنيف البريد العشوائي على عينة س . الطرق الرئيسية اثنين لتدريب الفرق و يعزز و التعبئة (التجميع). ترجمات مصطلحات التعزيز والتعبئة غير دقيقة وغير معتادة.



7.5.1. التعزيز والتعبئة


تتمثل طريقة التعزيز في استخدام بيانات التدريب الأولية وإنشاء عدة نماذج بشكل متكرر باستخدام خوارزمية ضعيفة.

يختلف كل نموذج جديد عن النماذج السابقة في ذلك ، وبناءً عليه ، تحاول خوارزمية ضعيفة "إصلاح" الأخطاء التي ارتكبتها النماذج السابقة. نموذج المجموعة النهائي هو مزيج من العديد من النماذج الضعيفة المبنية بشكل متكرر.

جوهر التعبئة هو إنشاء العديد من "نسخ" بيانات التدريب (كل نسخة مختلفة قليلاً عن الأخرى) ثم تطبيق خوارزمية ضعيفة على كل نسخة من أجل الحصول على عدة نماذج ضعيفة ، ثم دمجها. تعد خوارزمية التعلم الآلي المستخدمة على نطاق واسع والفعالة التي تستند إلى فكرة التعبئة هي مجموعة عشوائية .

7.5.2. غابة عشوائية


تعمل خوارزمية التعبئة "الكلاسيكية" على النحو التالي. يتم إنشاء عينات عشوائية ب من مجموعة التدريب الموجودة صورة(لكل ب = 1 ، ... ، ب) صورةويتم بناء نموذج صورةشجرة القرار على أساس كل عينة . للحصول على عينة صورةلبعض b ، يتم إجراء عينة مع الاستبدال . أي أنه يتم إنشاء عينة فارغة أولاً ، ثم يتم اختيار عينة عشوائية من مجموعة التدريب ، ويتم وضع نسختها الدقيقة صورة، بينما تبقى العينة نفسها في مجموعة التدريب الأصلية. يستمر اختيار البيانات حتى يتحقق الشرط ، صورة

ونتيجة للتدريب يتم الحصول على أشجار القرار ب . يتم تحديد توقعات العينة الجديدة x ، في حالة الانحدار ، كمتوسط B التنبؤ

صورة

أو بأغلبية الأصوات في حالة التصنيف.

للغابة العشوائية اختلاف واحد فقط عن التعبئة التقليدية. ويستخدم خوارزمية تعلم شجرة معدلة تقوم ، مع كل تقسيم في عملية التعلم ، بفحص مجموعة فرعية عشوائية من الميزات. يتم ذلك من أجل القضاء على الارتباط بين الأشجار: إذا كانت ميزة واحدة أو أكثر لها قدرة تنبؤية كبيرة ، فستختارها العديد من الأشجار لتقسيم البيانات. سيؤدي ذلك إلى ظهور عدد كبير من الأشجار المترابطة في "الغابة". يمنع ارتباط الارتباط مع القدرة التنبؤية العالية دقة التنبؤ من الزيادة. يتم تفسير الكفاءة العالية لمجموعة النماذج من خلال حقيقة أن النماذج الجيدة من المرجح أن تتوافق مع نفس التوقعات ، ومن غير المرجح أن توافق النماذج السيئة وتعطي توقعات مختلفة. الارتباط سيجعل النماذج الفقيرة أكثر عرضة للاتفاق ،التي ستشوه نمط التصويت أو تؤثر على المتوسط.

أهم المعلمات الفائقة للضبط هي عدد الأشجار B وحجم مجموعة فرعية عشوائية من الميزات التي يجب مراعاتها لكل تقسيم.
تعد الغابة العشوائية واحدة من خوارزميات التعلم الجماعية الأكثر استخدامًا. ما الذي يحدد فعاليته؟ والسبب هو أنه باستخدام عدة عينات من مجموعة البيانات الأصلية ، نقوم بتقليل تباين النموذج النهائي. تذكر أن التباين المنخفض يعني استعدادًا ضعيفًا لإعادة التدريب. يحدث إعادة التدريب عندما يحاول نموذج تفسير الاختلافات الصغيرة في مجموعة بيانات لأن مجموعة البيانات ليست سوى عينة صغيرة من جميع الأمثلة المحتملة للظاهرة التي نحاول محاكاةها. في حالة وجود نهج غير ناجح لتشكيل مجموعة التدريب ، قد تقع بعض القطع الأثرية غير المرغوب فيها (ولكن الحتمية) فيها: الضجيج ، بيانات غير طبيعية ومفرطة أو غير كافية. من خلال إنشاء العديد من العينات العشوائية باستبدال مجموعة التدريب ، نقوم بتقليل تأثير هذه القطع الأثرية.

7.5.3. تعزيز التدرج


خوارزمية تدريب فرقة أخرى فعالة تستند إلى فكرة التعزيز هي تعزيز التدرج. أولاً ، ضع في اعتبارك استخدام زيادة التدرج في الانحدار. سنبدأ في بناء نموذج انحدار فعال بنموذج ثابت صورة(كما فعلنا في ID3):
صورة

ثم قم بتغيير الملصقات في جميع العينات i = 1، ...، N في مجموعة التدريب:

صورة

حيث صورةيُدعى الباقي وهو التسمية الجديدة للعينة صورة

الآن نستخدم مجموعة التدريب المعدلة مع البقايا بدلاً من الملصقات الأصلية لبناء نموذج جديد لشجرة القرار. صورةيتم تعريف نموذج التعزيز الآن على أنه صورةحيث α هي سرعة التعلم (معلمة مفرطة).

ثم نقوم بإعادة حساب المخلفات باستخدام المعادلة 7.2 ، واستبدال التسميات في بيانات التدريب مرة أخرى ، وتعليم نموذج جديد لشجرة القرار ، صورةوإعادة تعريف نموذج التعزيز أثناء صورةتكرار العملية ، حتى نجمع الحد الأقصى المحدد مسبقًا M من الأشجار.

دعونا نفهم بشكل بديهي ما يحدث هنا. من خلال حساب المخلفات ، نحدد مدى توقع (أو ضعف) الهدف من كل عينة تدريبية بواسطة النموذج الحالي f. ثم نقوم بتدريب شجرة أخرى لتصحيح أخطاء النموذج الحالي (ولهذا السبب نستخدم بقايا الطعام بدلاً من الملصقات الفعلية) وإضافة شجرة جديدة إلى النموذج الحالي مع بعض الوزن α. ونتيجة لذلك ، فإن كل شجرة جديدة تضاف إلى النموذج تصحح جزئيا الأخطاء التي ارتكبتها الأشجار السابقة. تستمر العملية حتى يتم دمج الحد الأقصى لعدد M (معلمة مفرطة أخرى) للأشجار.

الآن دعنا نحاول الإجابة على السؤال لماذا تسمى هذه الخوارزمية تعزيز التدرج. في تعزيز التدرج ، لا نحسب التدرج ، على عكس ما فعلناه في الفصل 4 ، حل مشكلة الانحدار الخطي. لمعرفة أوجه التشابه بين تعزيز التدرج ونزول التدرج ، تذكر لماذا قمنا بحساب التدرج في الانحدار الخطي: لمعرفة اتجاه قيم المعلمات لتقليل دالة تكلفة MSE. يظهر التدرج الاتجاه ، لكنه لا يظهر إلى أي مدى نقطعه في هذا الاتجاه ، لذلك اتخذنا خطوة صغيرة في كل تكرار ، ثم حددنا الاتجاه مرة أخرى. يحدث نفس الشيء في تعزيز التدرج ، ولكن بدلاً من حساب التدرج مباشرة ، نستخدم تقديره في شكل بقايا: فهي توضح كيف يجب تعديل النموذج لتقليل الخطأ (المتبقي).

في تعزيز التدرج ، تتوفر ثلاثة معلمات مفرطة رئيسية للضبط: عدد الأشجار وسرعة التعلم وعمق الأشجار. كل ثلاثة يؤثر على دقة النموذج. يؤثر عمق الأشجار أيضًا على سرعة التعلم والتنبؤ: كلما كان العمق أصغر ، كان أسرع.

يمكن أن يثبت أن التعلم من قبل المتبقيين يحسن النموذج العام f لمعيار الخطأ القياسي. هنا يمكنك أن ترى الفرق من التعبئة: التعزيز يقلل التحيز (أو نقص التعليم) بدلاً من التباين. ونتيجة لذلك ، يخضع التعزيز لإعادة التدريب. ومع ذلك ، من خلال تعديل عمق الأشجار وعددها ، يمكن تجنب إعادة التدريب إلى حد كبير.

تعزيز التدرج مشابه لمهام التقدير ، لكن الخطوات مختلفة قليلاً. النظر في حالة التصنيف الثنائي. افترض أن هناك أشجار قرار الانحدار M. قياسا على الانحدار اللوجستي ، تم تصميم نموذج مجموعة أشجار القرار باستخدام الدالة السينية:

صورة

أين صورةشجرة الانحدار.

ومرة أخرى ، كما هو الحال في الانحدار اللوجستي ، عند محاولة العثور على نموذج لزيادة صورة، يتم تطبيق مبدأ الاحتمالية القصوى. وبالمثل ، لتجنب تجاوز السعة العددية ، نقوم بتعظيم مجموع اللوغاريتمات الاحتمالية ، بدلاً من ناتج الاحتمال.

تبدأ الخوارزمية بالنموذج الثابت الأولي صورةحيث صورة(يمكن إظهار أن هذا التهيئة هو الأمثل لوظيفة السيني.) ثم ، في كل تكرار م ، تضاف شجرة جديدة إلى النموذج. لإيجاد أفضل شجرة صورةللعثور على أفضل شجرة صورة، نحسب أولاً المشتق الجزئي صورةللنموذج الحالي لكل i = 1، ...، N:
صورة

حيث f هو نموذج مصنف المجموعة المبني على التكرار السابق m - 1. للحساب صورة، نحتاج إلى إيجاد المشتقات صورةفيما يتعلق f لجميع i. لاحظ أن صورةالمشتق فيما يتعلق f من المصطلح الصحيح في المعادلة السابقة هو
صورة

بعد ذلك ، يتم تحويل مجموعة التدريب عن طريق استبدال الملصق الأصلي للمشتق صورةالجزئي المقابل صورة، ويتم إنشاء شجرة جديدة على أساس مجموعة التدريب المحولة. صورةبعد ذلك ، يتم تحديد خطوة التحديث الأمثل على النحو التالي صورة:
صورة

في نهاية التكرار م ، نقوم بتحديث نموذج المجموعة صورةبإضافة شجرة جديدةصورة
صورة

تستمر التكرارات حتى يتحقق الشرط m = M ، وبعد ذلك يتوقف التدريب ويتم الحصول على نموذج المجموعة f.

تعزيز التدرج هو واحد من أقوى خوارزميات التعلم الآلي. ليس فقط لأنه ينشئ نماذج دقيقة للغاية ، ولكن أيضًا لأنه قادر على معالجة مجموعات بيانات ضخمة بملايين البيانات والميزات. كقاعدة ، فهي متفوقة في الدقة على غابة عشوائية ، ولكن نظرًا للطبيعة المتسقة يمكن أن تتعلم ببطء أكثر.

All Articles