البيانات من جميع البلدان ، لا تتحد

من الجيد أنه ، بالإضافة إلى الأبراج الجديدة ، هناك شيء مشابه للاعتماد على الرسم التخطيطي. في هذه الحالة ، نبني نموذجًا يشرح جيدًا العلاقة بين المتغيرين. لكن يجب على الباحث أن يفهم ليس فقط كيفية التعامل مع البيانات ، ولكن أيضًا أي نوع من التاريخ من العالم الحقيقي يكمن وراءها. خلاف ذلك ، من السهل ارتكاب خطأ. سأخبرك عن مفارقة سيمبسون - واحدة من أخطر الأمثلة على البيانات الخادعة التي يمكن أن تقلب الاتصال رأساً على عقب.

دعونا نلقي نظرة على متغيرين شرطيين X و Y. بعد بناء الرسم البياني ، سنرى سحابة تمتد بوضوح من أسفل اليسار إلى أعلى اليمين ، كما في الشكل أعلاه. يتناسب الانحدار الخطي تمامًا مع مثل هذه الصورة ، والتي ، مع وجود خطأ منخفض نسبيًا ، ستساعدنا في توقع القيم: كلما زادت قيمة X ، كلما زادت Y. اكتملت المهمة. لأول وهلة.

سيوصي زميل أكثر خبرة بأن نضيف إلى الرسم البياني تفصيلًا حسب المجموعات النموذجية: على سبيل المثال ، حسب البلد. بعد نصيحته ، سنرى أن هناك بالفعل علاقة ، لكنها معاكسة تمامًا - داخل بلد واحد ، كلما زادت X ، قل Y.

هذه هي مفارقة Simpson: وهي ظاهرة يؤدي فيها الجمع بين عدة مجموعات بيانات مع نفس الاعتماد الاتجاهي إلى غير إتجاه.

مثال 1: التمييز الجنسي في بيركلي


أشهر مثال على مفارقة سيمبسون في العالم الحقيقي هو الخلط بين التمييز بين الجنسين عند التسجيل في جامعة بيركلي في عام 1973. بين الباحثين ، هناك حكاية مفادها أن الجامعة قد تمت تجربتها ، ولكن لا يوجد دليل مقنع على تجربة على الإنترنت.

هكذا تبدو إحصائيات القبول الجامعي لعام 1973:
أرضيةالتطبيقاتقبلت
رجال84423738 (44٪)
نساء43211494 (35٪)
الفرق كبير. أكبر من أن تكون عشوائية.

ومع ذلك ، إذا قمنا بتفصيل البيانات حسب الكلية ، تتغير الصورة. وجد الباحثون أن سبب الاختلاف هو أن النساء تقدمن للحصول على وجهات ذات منافسة أكثر صرامة. بالإضافة إلى ذلك ، تبين أن 6 من أصل 85 كلية لديها تمييز لصالح المرأة ، و 4 فقط ضدها.

ينشأ الفرق فقط بسبب الاختلاف في أحجام العينات وحجم المنافسة بين الكليات. سأريكم مثال كليتين.
كليةأرضيةالتطبيقاتقبلت
أرجال400200 (50٪)
أنساء200100 (50٪)
برجال15050 (33٪)
بنساء450150 (33٪)
مجموعرجال550250 (45٪)
مجموعنساء650250 (38٪)
تقبل كلتا الكليات نفس حصة النساء والرجال. ومع ذلك ، نظرًا لأن العدد المطلق للرجال كان أكبر في الكلية مع نسبة أعلى من القبول ، إذا جمعنا البيانات ، اتضح أن النسبة المئوية للرجال أعلى بشكل عام.

مثال 2: تجربة أ / ب غير متوازنة


تخيل أنك تجري تجربة A / B لزيادة تحويل صفحتك المقصودة. تم إجراء التجربة لمدة يومين ، ولكن في اليوم الأول انهار موزع الزوار ، واستقبل الخيار B المزيد من الزوار. في اليوم الثاني ، تم إصلاح هذه المشكلة. والنتيجة هي الأرقام التالية:
أب
الزائرينالتحويلاتالزائرينالتحويلات
اليوم 140030 (7.5٪)2000140 (7٪)
اليوم الثاني100060 (6.0٪)100055 (5.5٪)
مجموع140090 (6.4٪)3000195 (6.5٪)
في كل يوم ، كان للخيار "أ" معدل تحويل أعلى ، لكن الخيار "ب" فاز إجمالاً. حدث هذا لأنه في اليوم الذي يكون فيه التحويل أعلى ، حصل الخيار "ب" على عدد زيارات أكبر. في هذا المثال ، سيطرح باحث عديم الخبرة الخيار B لجميع الزيارات ، في حين سيزيد التحويل في الواقع إذا كان يستخدم الخيار A.

مثال 3: تأثير زيارات الصفحة على التحويل


يحتوي كل موقع على صفحة تحفزك على الشراء أكثر من غيرها. لنفترض أننا أنشأنا نظام تسجيل للزائرين وحددنا عوامل لذلك. لدينا صفحة "حول المنتج" ، ونفترض أن زيارتها تزيد من احتمال حدوث تحويل. دعونا نلقي نظرة على البيانات.
الصفحة التي تمت زيارتها
تحويلاتلانعم
لا40004800
نعم400320
معدل التحويل
للوهلة الأولى ، كل شيء واضح - التحويل لأولئك الذين يزورون الصفحة أقل بنسبة تصل إلى 3 صفحات ، مما يعني أن الصفحة تقلل من احتمالية التحويل. ولكن إذا قسمنا البيانات إلى أهم فئتين في التسويق عبر الإنترنت - مستخدمي أجهزة الكمبيوتر المكتبية والمحمولة ، فسوف نرى أنه في كل واحد منهم يزداد احتمال التحويل مع زيارة الصفحة.
التليفون المحمولسطح المكتب
الصفحة التي تمت زيارتهاالصفحة التي تمت زيارتها
تحويلاتلانعملانعم
لا160042002400600
نعم40180360140
معدل التحويلثلاثة عشر٪تسعة عشر٪
افترضنا أن زيارة الصفحة تؤثر على التحويل. من الناحية العملية ، تدخل متغير ثالث - منصة المستخدم. نظرًا لأنه لا يؤثر فقط على التحويل ، ولكن أيضًا على احتمالية زيارة الصفحة ، في الحالة المجمعة ، فقد شوه البيانات بطريقة أدت بنا إلى استنتاجات معاكسة للسلوك الفعلي للمستخدمين.

ماذا أفعل


في تحليل البيانات ، تحتاج إلى فهم نوع التاريخ الذي يكمن وراءهم: ما يحدث في العالم الحقيقي ، وكيف تم قياسه وتحويله إلى نوع بيانات. لذلك ، يحتاج باحث البيانات في قسم التسويق إلى معرفة أساسيات التسويق ، وفي صناعة النفط والغاز - شيء يتعلق بالتعدين. يساعد هذا على تجنب عدد كبير من الأخطاء المحتملة ، وليس أقلها خطأ التجميع الناتج عن مفارقة سيمبسون.

عادةً ما تؤدي خصائص البيانات التالية إلى مفارقة Simpson:

  1. وجود مجموعات نموذجية مهمة يمكن أن تؤثر على قيم المتغيرات التابعة (ص) والمستقلة (س) ؛
  2. الأفواج غير المتوازنة.

في كل حالة ، هناك حاجة إلى نهج فردي. يعتبر أن جميع البيانات يجب أن يتم تقسيمها دائمًا إلى مجموعات نموذجية أيضًا هو النهج الخاطئ ، لأنه غالبًا ما تكون بيانات مجمعة تسمح لك ببناء النموذج الأكثر دقة. بالإضافة إلى ذلك ، يمكن تقسيم أي بيانات للحصول على العلاقة التي نود الحصول عليها. صحيح أن هذا لن يكون له أي تطبيق عملي - يجب تبرير المجموعات النموذجية.

بالنسبة للتسويق عبر الإنترنت ، فإن أحد أهم الاستنتاجات هو الحاجة إلى التحقق من التشغيل الصحيح للمقسم في تجارب A / B. يجب أن تكون مجموعات المستخدمين في كل حالة اختبار هي نفسها تقريبًا. لا يتعلق الأمر فقط بإجمالي عدد المستخدمين ، ولكن أيضًا حول هيكلهم. إذا كنت تشك في وجود مشكلة ، يجب عليك أولاً التحقق من المجموعات النموذجية للخصائص التالية:

  1. الخصائص الديمغرافية ؛
  2. التوزيع الجغرافي؛
  3. مصدر المرور؛
  4. نوع الجهاز
  5. وقت الزيارة.

في المقالة التالية سأخبرك بكيفية اكتشاف ومعالجة مفارقة Simpson عند تحليل البيانات في Python.

مقالة أصلية تصف حالة بيركلي: بي جي بيكل ، إي إيه هامل وجي دبليو أوكونيل (1975) "التحيز الجنسي في القبول في الدراسات العليا: بيانات من بيركلي"

All Articles