التقسيم الطبقي ، أو كيفية تعلم الثقة في البيانات

انظر إلى هاتين المجموعتين من النقاط وفكر: أيهما يبدو أكثر "عشوائية" بالنسبة لك؟ التوزيع في الشكل الأيسر غير متكافئ بشكل واضح. هناك أماكن يتم فيها تكثيف النقاط ، وهناك أيضًا أماكن لا توجد فيها نقاط تقريبًا: وبسبب هذا ، قد يبدو أن المخطط الأيسر أغمق. في الشكل الصحيح ، توجد أيضًا تكثفات محلية ونقص في الآثار ، ولكنها أقل وضوحًا.




وفي الوقت نفسه ، كان الرسم البياني الأيسر الذي تم الحصول عليه باستخدام مولد الأرقام العشوائية "الصادقة". يحتوي الرسم البياني الصحيح أيضًا على نقاط عشوائية تمامًا ؛ ولكن يتم إنشاء هذه النقاط بحيث تحتوي جميع المربعات الصغيرة على عدد متساوٍ من النقاط.


التقسيم الطبقي هو طريقة لاختيار مجموعة فرعية من الأشياء من عامة السكان ، مقسمة إلى مجموعات فرعية (طبقات). أثناء التقسيم الطبقي ، يتم اختيار الكائنات بطريقة تجعل العينة النهائية تحتفظ بنسبة حجم الطبقات (أو بطريقة خاضعة للرقابة تنتهك هذه العلاقات ، انظر البند 3). لنفترض ، في المثال المدروس ، أن عامة السكان عبارة عن نقاط داخل مربع الوحدة ؛ الطبقات عبارة عن مجموعات من النقاط داخل المربعات الصغيرة.


. , . , - .


1. :



, , — , 0.4. . -.



() :


import random

random.seed(100)

for i in range(500):
    x, y = random.random(), random.random()
    print x, y

, : , ; . , , , .


import random

random.seed(100)

cellsCount = 10
cellId = 0

for i in range(500):
    cellVerticalIdx = (cellId / cellsCount) % cellsCount
    cellHorizontalIdx = cellId % cellsCount
    cellId += 1

    left = float(cellVerticalIdx + 0) / cellsCount
    right = float(cellVerticalIdx + 1) / cellsCount

    top = float(cellHorizontalIdx + 1) / cellsCount
    bottom = float(cellHorizontalIdx + 0) / cellsCount

    x, y = random.random(), random.random()
    x = left + x * (right - left)
    y = bottom + y * (top - bottom)

    print x, y

— . , — .



, , , .


, . ! , , , .


2. -


.


: , . , , . , .


: , .. . , , . , . , , — .


. :



. , . , «» , , . , , !


, , -, .. , . ( ), :



, , , . , , , , .


3.


-, -: , , , . A/B- , , , 0.5% , .


( , , ..), , .


Online Stratified Sampling: Evaluating Classifiers at Web-Scale Microsoft Research, .


, N, npC.


K— . k- Nkp^kC.


p^=k=1KNkNp^k


:


var(p^)=k=1K(NkN)2var(p^k)


, !


n, nkk- :


nkNkvar(pk)


, . , .


, : . , - , , .




, , . - SimilarWeb Alexa - , . , . , , .


: ? ? ?


إذا لم تكن هناك إجابات أو كانت غير مرضية ، فقد تكون البيانات خداعك.


All Articles