كتاب "التعلم الآلي بدون كلمات"

صورةمرحبا ، هابروجيتلي! يمكن أن يتناسب كل ما تحتاج إلى معرفته حول التعلم الآلي في بضع مئات من الصفحات.

لنبدأ بحقيقة بسيطة: السيارات لا تتعلم. يتضمن التعلم الآلي النموذجي العثور على صيغة رياضية ، عند تطبيقها على مجموعة من بيانات الإدخال (تسمى بيانات التدريب) ، ستنتج النتائج المرجوة.

حاول أندريه بوركوف تقديم كل ما هو ضروري حتى يتمكن الجميع من أن يصبح محللًا حديثًا ممتازًا أو متخصصًا في التعلم الآلي. ما تمكن من احتواء بضع مئات من الصفحات في كتب أخرى امتدت إلى الآلاف. تعتبر الكتب النموذجية في التعلم الآلي متحفظة وأكاديمية ، وهنا ينصب التركيز على الخوارزميات والأساليب المفيدة في العمل اليومي.

مقتطفات 9.2.3. تحديد عدد العناقيد


السؤال الأكثر أهمية هو كم عدد الكتل الموجودة في مجموعة البيانات؟ عندما تكون متجهات المعالم أحادية أو ثنائية الأبعاد أو ثلاثية الأبعاد ، يمكنك رسم توزيع البيانات على الرسم البياني ومشاهدة "غيوم" النقاط في مساحة المعالم. كل سحابة هي كتلة محتملة. ومع ذلك ، بالنسبة للبيانات ثنائية الأبعاد ، مع D> 3 ، فإن رسم مثل هذا الرسم البياني يمثل مشكلة.

تعتمد إحدى طرق تحديد عدد معقول من العناقيد على فكرة القدرة التنبؤية. خلاصة القول هي تقسيم البيانات إلى مجموعات تدريب واختبار ، كما هو الحال في التدريس مع المعلم. بعد تحديد مجموعات التدريب والاختبار ، Str مع حجم Ntr و Ste بالحجم Nte ، على التوالي ، يمكنك إصلاح عدد المجموعات k ، وتشغيل خوارزمية التجميع C على مجموعات Str و Ste والحصول على نتائج المجموعة C (Str ، k) و C (Ste ، k).

فليكن A نتيجة لمجموعة C (Str، k) التي تم الحصول عليها لمجموعة التدريب. يمكن اعتبار المجموعات في A مناطق. إذا وقعت عينة في إحدى هذه المناطق ، فهذا يعني أنها تنتمي إلى مجموعة معينة. على سبيل المثال ، إذا قمنا بتطبيق خوارزمية k تعني مجموعة بيانات معينة ، فإن النتيجة هي تقسيم مساحة الميزة إلى مناطق k متعددة الأضلاع ، كما هو موضح في الشكل. 9.2.

نحدد مصفوفة Nte × Nte للعضوية المشتركة D [A ، Ste] ، التي تكون عناصرها D [A ، Ste] (i ، i`) = 1 إذا وفقط إذا كانت البيانات xi و xi` من مجموعة الاختبار تنتمي إلى نفس المجموعة ، وفقًا لـ إلى القسم A. وإلا ، D [A ، Ste] (i، i`) = 0.

والآن دعونا نتوقف ونرى ما حدث. لقد أنشأنا قسمًا A باستخدام مجموعة بيانات تدريبية في مجموعات k. ثم أنشأنا مصفوفة انتساب مشتركة تشير إلى ما إذا كانت عينتان من مجموعة الاختبار تنتميان إلى مجموعة واحدة في A. من

الواضح ، إذا كان k معقولًا ، فإن عينتين تنتميان إلى نفس المجموعة في الحل C (Ste ، k) على الأرجح تنتمي إلى عنقود واحد في المحلول و C (Str، k). من ناحية أخرى ، إذا كانت قيمة k ليست معقولة (عالية جدًا أو منخفضة جدًا) ، فمن المحتمل أن تكون الأقسام المستندة إلى بيانات التدريب والاختبار أقل تناسقًا.

في التين. 9.3 يعرض البيانات المستخدمة ، والشكل. 9.4 يوضح الفكرة. الرسوم البيانية في الشكل. تُظهر 9.4a و 9.4 b نتائج C (Str ، 4) و C (Ste ، 4) مع المناطق المقابلة من العناقيد. في التين. يوضح 9.4c بيانات الاختبار المرسومة على منطقة التجمعات التي تم الحصول عليها أثناء تجميع بيانات التدريب. في التين. 9.4 ج ، يمكنك أن ترى أن بيانات الاختبار البرتقالي لم تعد تنتمي إلى مجموعة واحدة وفقًا للمناطق التي تم الحصول عليها في بيانات التدريب. ونتيجة لذلك ، تظهر العديد من الأصفار في المصفوفة D [A ، Ste] ، والتي تظهر بدورها أن k = 4 ليس على الأرجح أفضل عدد من العناقيد.

يتم تعريف القوة التنبؤية بشكل أكثر رسمية لعدد العناقيد k على أنها

صورة

مكان صورةالكتلة jth من القسم C (Ste، k) و | Aj | هو عدد البيانات في الكتلة Aj.

صورة

مع الأخذ في الاعتبار القسم C (Str، k) لكل مجموعة اختبار ، يتم حساب جزء من الأزواج الموجودة فيه ، والذي يقع أيضًا في نفس المجموعة ، والذي يحدده centroid لمجموعة التدريب. يتم تحديد القوة التنبؤية من خلال هذه القيمة على الأقل لمجموعات الاختبار k.

كما تظهر التجارب ، فإن عدد معقول من العناقيد هو أكبر k عند ps (k) فوق 0.8. يوضح الشكل 9.5 أمثلة لتحديد القدرة التنبؤية لقيم k المختلفة للبيانات مقسمة إلى مجموعتين وثلاث وأربع مجموعات.

بالنسبة إلى خوارزميات التجميع غير الحتمية ، مثل وسائل k ، والتي يمكن أن تولد خيارات تقسيم مختلفة ، اعتمادًا على المواضع الأولية للنقرات المركزية ، يوصى بإجراء العديد من خوارزميات التجميع لنفس k وحساب متوسط ​​القوة التنبؤيةصورة

صورة

طريقة أخرى فعالة لتقدير عدد المجموعات تسمى إحصاءات الثغرات. تشمل الطرق الأخرى الأقل تلقائية التي لا يزال يستخدمها بعض المحللين طريقة الكوع وطريقة الظلية المتوسطة.

»يمكن العثور على مزيد من المعلومات حول الكتاب على موقع الناشر على الويب
» المحتويات
» مقتطفات

لـ Khabrozhiteley خصم 25 ٪ على القسيمة - التعلم الآلي

عند دفع النسخة الورقية من الكتاب ، يتم إرسال كتاب إلكتروني عبر البريد الإلكتروني.

All Articles