الانتروبيا: كيف تتخذ أشجار القرار القرارات

تم إعداد ترجمة للمقال قبل بدء دورة التعلم الآلي .




أنت متخصص في علوم البيانات وتتبع حاليًا مسار التعلم. لقد قطعت شوطًا طويلًا منذ أن كتبت السطر الأول من التعليمات البرمجية في Python أو R. أنت تعرف Scikit-Learn مثل الجزء الخلفي من يدك. الآن أنت تجلس على Kaggle أكثر من Facebook. أنت لست جديدًا في إنشاء غابات عشوائية مذهلة ونماذج أخرى من أشجار القرار التي تقوم بعمل ممتاز. ومع ذلك ، فأنت تعلم أنك لن تحقق أي شيء إذا لم تتطور بشكل شامل. أنت تريد التعمق أكثر واستيعاب التعقيدات والمفاهيم الكامنة وراء نماذج التعلم الآلي الشائعة. حسنا، وانا ايضا.

اليوم سأتحدث عن مفهوم الإنتروبيا - أحد أهم الموضوعات في الإحصاء ، وبعد ذلك سنتحدث عن مفهوم كسب المعلومات (كسب المعلومات) ونكتشف لماذا تشكل هذه المفاهيم الأساسية أساس كيفية بناء أشجار القرار من البيانات التي تم الحصول عليها.

حسن. الآن دعونا نتجاوز.

ما هو الانتروبيا؟ بعبارات بسيطة ، الإنتروبيا ليست سوى مقياس للفوضى. (يمكن اعتباره أيضًا مقياسًا للنقاء ، وسرعان ما سترى السبب. لكني أحب الفوضى أكثر لأنها تبدو أكثر برودة.)

الصيغة الرياضية للانتروبيا هي كما يلي:


إنتروبي. في بعض الأحيان يتم كتابته كـ H.

هنا p i هو احتمال تكرار عنصر / فئة i من بياناتنا. من أجل البساطة ، لنفترض أن لدينا فئتين فقط: إيجابية وسلبية. ثم سأأخذ قيمة إما "+" أو "-". إذا كان لدينا ما مجموعه 100 نقطة في مجموعة بياناتنا ، 30 منها تنتمي إلى الفئة الإيجابية و 70 تنتمي إلى السلبية ، فإن p + ستكون 3/10 ، و p- سيكون 7/10. كل شيء بسيط هنا.

إذا قمت بحساب إنتروبيا الفئات من هذا المثال ، فهذا ما أحصل عليه باستخدام الصيغة أعلاه:



Entropy حوالي 0.88. تعتبر هذه القيمة عالية جدًا ، أي أن لدينا مستوى عالٍ من الانتروبيا أو الاضطراب (أي قيمة نقاء منخفضة). يتم قياس الانتروبيا في النطاق من 0 إلى 1. اعتمادًا على عدد الفئات في مجموعة البيانات الخاصة بك ، قد تتحول قيمة الإنتروبيا إلى أكثر من 1 ، ولكن هذا يعني أن مستوى الاضطراب مرتفع للغاية. لتبسيط التفسير ، في مقال اليوم سيكون لدينا إنتروبيا تتراوح من 0 إلى 1.

ألق نظرة على الرسم البياني أدناه.



على المحور X ، ينعكس عدد النقاط من الفئة الموجبة في كل دائرة ، وعلى المحور Y ، الانتروبيا المقابلة. يمكنك على الفور ملاحظة شكل حرف U المقلوب للرسم البياني. سيكون الانتروبيا هو الأصغر عند إكسترا عندما لا توجد عناصر إيجابية في الدائرة من حيث المبدأ ، أو عندما تكون هناك عناصر إيجابية فقط فيها. أي عندما تكون نفس العناصر في الدائرة - سيكون الاضطراب 0. سيكون الإنتروبيا أعلى في منتصف الرسم البياني ، حيث سيتم توزيع العناصر الإيجابية والسلبية بالتساوي داخل الدائرة. هنا سيتم تحقيق أكبر انتروبيا أو اضطراب ، حيث لن تكون هناك عناصر سائدة.

هل هناك أي سبب يقاس الإنتروبيا باستخدام لوغاريتم الأساس 2 ، أو لماذا يقاس الإنتروبيا بين 0 و 1 ، وليس في نطاق مختلف؟ لا ، ليس هناك سبب. هذا مجرد مقياس. ليس من المهم أن نفهم سبب حدوث ذلك. من المهم أن تعرف كيف يتم حساب ما حصلنا عليه أعلاه وكيف يعمل. الإنتروبي هو مقياس للارتباك أو عدم اليقين ، والهدف من نماذج التعلم الآلي ومتخصصي علوم البيانات بشكل عام هو تقليل هذا الارتياب.

الآن نعرف كيف يتم قياس الفوضى. بعد ذلك ، نحتاج إلى قيمة لقياس انخفاض هذا الاضطراب في المعلومات الإضافية (السمات / المتغيرات المستقلة) للمتغير / الفئة المستهدفة. هنا يأتي دور كسب المعلومات أو كسب المعلومات. من وجهة نظر الرياضيات ، يمكن كتابتها على النحو التالي:



نحن ببساطة نطرح الإنتروبيا Y من X ، من الإنتروبيا Y ، من أجل حساب انخفاض عدم اليقين بشأن Y ، بشرط أن تكون هناك معلومات حول X عن Y. وكلما قل انخفاض عدم اليقين ، يمكن الحصول على مزيد من المعلومات من Y حول X.

دعونا نلقي نظرة على مثال بسيط لجدول الطوارئ بحيث الاقتراب من السؤال حول كيفية استخدام أشجار القرار للانتروبيا واكتساب المعلومات لاتخاذ قرار على أي أساس لكسر العقد في عملية التعلم على البيانات.

مثال: جدول الإقران



هنا ، سيكون المتغير المستهدف لدينا هو المسؤولية ، والتي يمكن أن تأخذ قيمتين فقط: "عادي" و "عالي". لدينا أيضًا علامة واحدة فقط ، تسمى التصنيف الائتماني ، وهي توزع القيم إلى ثلاث فئات: "ممتاز" و "جيد" و "ضعيف" . تم إجراء ما مجموعه 14 الملاحظات. 7 منهم ينتمون إلى فئة المسؤولية العادية ، و 7 ينتمون إلى فئة المسؤولية العالية . هذا تقسيم في حد ذاته.

إذا نظرنا إلى مجموع القيم في الصف الأول ، فسنرى أن لدينا 4 ملاحظات بقيمة ممتازة بناءً على التصنيف الائتماني . علاوة على ذلك ، يمكنني القول أن المتغير المستهدف الخاص بي مكسور بسبب التصنيف الائتماني "الممتاز" . من بين الملاحظات بقيمة "ممتاز" حسب السمةالتصنيف الائتماني ، هناك 3 تنتمي إلى فئة المسؤولية العادية و 1 تنتمي إلى فئة المسؤولية العالية . وبالمثل ، يمكنني حساب نتائج مماثلة لقيم التصنيف الائتماني الأخرى من جدول الطوارئ.

على سبيل المثال ، أستخدم جدول الطوارئ أعلاه لحساب الإنتروبيا للمتغير المستهدف الخاص بنا بشكل مستقل ، ثم نحسب الإنتروبيا الخاصة به ، مع مراعاة المعلومات الإضافية من سمة التصنيف الائتماني . حتى أتمكن من حساب مقدار المعلومات الإضافية التي سيوفرها التصنيف الائتماني لمتغير هدف المسؤولية .

لذلك دعونا نبدأ.



إنتروبيا المتغير المستهدف هو 1 ، وهو ما يعني الحد الأقصى من الفوضى بسبب التوزيع المتساوي للعناصر بين "عادي" و "عالي" . الخطوة التالية هي حساب إنتروبيا المتغير المستهدف للمسؤولية ، مع مراعاة المعلومات الإضافية من التصنيف الائتماني . للقيام بذلك ، نحسب إنتروبي المسؤولية لكل قيمة تصنيف ائتماني ونضيفها باستخدام متوسط ​​نسبة المراقبة الموزونة لكل قيمة. ستصبح سبب استخدامنا المتوسط ​​المرجح أكثر وضوحًا عندما نتحدث عن أشجار القرار.



لقد حصلنا على إنتروبيا المتغير الهدف الخاص بنا مع سمة التصنيف الائتماني. الآن يمكننا حساب كسب المسؤولية المعلوماتية من التصنيف الائتماني لفهم مدى إفادة هذه الميزة. لقد ساعدتنا



معرفة التصنيف الائتماني في تقليل عدم اليقين لمتغير هدف المسؤولية .. أليست هذه علامة جيدة يجب أن تعمل؟ تعطينا معلومات حول المتغير المستهدف؟ حسنًا ، لهذا السبب بالذات ، تستخدم أشجار القرار الانتروبيا والمكاسب الإعلامية. إنهم يحددون ما هو المعيار لكسر العقد إلى فروع ، من أجل الاقتراب من المتغير الهدف مع كل قسم لاحق ، وكذلك لفهم متى يجب الانتهاء من بناء الشجرة! (بالإضافة إلى المعلمات الفائقة مثل أقصى عمق بالطبع). دعونا نرى كيف يعمل كل هذا في المثال التالي باستخدام أشجار القرار.

مثال: شجرة القرار

دعونا نلقي نظرة على مثال لبناء شجرة قرار ، بهدف التنبؤ بما إذا كان سيتم شطب رصيد الشخص أم لا. سيكون عدد السكان 30 نسخة. ستنتمي 16 إلى فئة الشطب ، بينما ستنضم الـ 14 الأخرى"عدم الشطب" . سيكون لدينا علامتان ، وهما "Balance" ، والتي يمكن أن تأخذ قيمتين: "<50K" أو "> 50K" و "Residence" ، والتي تأخذ ثلاث قيم: "OWN" أو "RENT" أو "OTHER" . سأوضح كيف ستقرر خوارزمية شجرة القرار السمة التي يجب كسرها أولاً والسمة التي ستكون أكثر إفادة ، أي أنها تقضي على عدم اليقين بشأن المتغير الهدف باستخدام مفهوم الإنتروبيا وكسب المعلومات.

العرَض الأول: التوازن



هنا تنتمي الدوائر إلى فئة "الشطب" ، والنجوم تتوافق مع فئة "عدم الشطب" . تقسيم جذر الوالدين حسب السمةسوف يمنحنا الميزان عقدان وريثان. في العقدة اليسرى سيكون هناك 13 ملاحظة ، حيث 12/13 (احتمال 0.92) من ملاحظات من فئة "شطب" ، و 1/13 فقط (احتمال 0.08) من ملاحظات من فئة "عدم شطب" . في العقدة اليمنى سيكون هناك 17 من 30 ملاحظة ، حيث 13/17 (احتمال 0.76) من ملاحظات من فئة الشطب و 4/17 (احتمال 0.24) من ملاحظات من فئة عدم الشطب .

دعونا نحسب إنتروبيا الجذر ونرى إلى أي مدى يمكن للشجرة أن تقلل من عدم اليقين باستخدام قسم يعتمد على التوازن . سيعطي



التجزئة القائم على الرصيد مكاسب إعلامية قدرها 0.37. دعونا نحسب الشيء نفسه لعلامة الإقامةومقارنة النتائج.

العَرَض 2: المسكن إن



تقسيم الشجرة القائمة على المسكن سيعطيك 3 عقد وريث. ستتلقى العقدة الخلف اليسرى 8 ملاحظات ، حيث 7/8 (احتمال 0.88) من الملاحظات من فئة الشطب وفقط 1/8 (احتمال 0.12) من ملاحظات من فئة عدم الشطب . ستتلقى العقدة الخلف المتوسطة 10 ملاحظات ، حيث 4/10 (احتمال 0.4) من الملاحظات من فئة الشطب و 6/10 (احتمال 0.6) من الملاحظات من فئة عدم الشطب . سوف يتلقى الوريث الأيمن 12 ملاحظة ، حيث 5/12 (احتمال 0.42) من ملاحظات من فئة الشطب و 7/12 (احتمال 0.58) من ملاحظات من فئة عدم الشطب. نحن نعرف بالفعل إنتروبيا العقدة الأصلية ، لذلك نحن ببساطة نحسب الإنتروبيا بعد القسم لفهم كسب المعلومات من سمة الإقامة .



إن المكاسب المعلوماتية من سمة Balance تزيد تقريبًا عن 3 أضعاف عن الإقامة ! إذا نظرت إلى الرسوم البيانية مرة أخرى ، سترى أن التقسيم وفقًا لـ Balance سيعطي عُقدًا سليلًا أنظف مما هو عليه وفقًا لـ Residence . ومع ذلك ، فإن العقدة الموجودة في أقصى اليسار في Residence نظيفة تمامًا أيضًا ، ولكن هنا يأتي المتوسط ​​المرجح. على الرغم من حقيقة أن العقدة نظيفة ، إلا أنها تحتوي على أقل عدد من الملاحظات ، ويتم فقدان نتيجتها في إعادة الحساب العام وحساب إجمالي الكون حسب الإقامة. هذا أمر مهم لأننا نبحث عن المحتوى الإعلامي العام للسمة ولا نريد تشويه النتيجة النهائية بسبب القيمة النادرة للسمة.

توفر السمة Balance نفسها المزيد من المعلومات حول المتغير المستهدف من الإقامة . وبالتالي ، يتم تقليل إنتروبيا المتغير الهدف. تستخدم خوارزمية شجرة القرار هذه النتيجة لإجراء التقسيم الأول وفقًا لـ Balanceلتقرر لاحقا على أي أساس لكسر العقد التالية. في العالم الحقيقي ، عندما يكون هناك أكثر من ميزتين ، يحدث الانهيار الأول وفقًا للميزة الأكثر إفادة ، ومن ثم ، مع كل تفكك لاحق ، سيتم إعادة احتساب المعلومات لكل ميزة إضافية ، حيث لن يكون نفس كسب المعلومات من كل ميزة على حدة. يجب احتساب الانتروبيا والمكاسب الإعلامية بعد حدوث قسم أو عدة أقسام ، مما سيؤثر على النتيجة النهائية. ستكرر شجرة القرار هذه العملية لأنها تنمو في العمق ، حتى تصل إلى عمق معين أو نوع من الانقسام يؤدي إلى مكاسب إعلامية أعلى تتجاوز عتبة معينة ، والتي يمكن أيضًا تحديدها كمعلمة مفرطة!

هذا كل شئ! الآن أنت تعرف ما هو الإنتروبيا وكسب المعلومات وكيف يتم حسابها. الآن أنت تفهم كيف تتخذ شجرة القرار ، بمفردها أو كجزء من مجموعة ، قرارات حول أفضل ترتيب للتقسيم حسب السمات وتقرر متى تتوقف عند تعلم البيانات المتاحة. حسنًا ، إذا كان عليك أن تشرح لشخص كيفية عمل أشجار القرار ، آمل أن تتعامل مع هذه المهمة بشكل مناسب.

آمل أن تكون قد تعلمت شيئًا مفيدًا لنفسك من هذه المقالة. إذا فاتني شيء أو عبرت عن نفسي بشكل غير دقيق ، فاكتب إلي عن ذلك. سأكون ممتنا جدا لك! شكرا.



تعلم المزيد عن الدورة.



All Articles