🐏 🤶🏿 🖖🏻 التقسيم الطبقي ، أو كيفية تعلم الثقة في البيانات 🤭 ↕️ 🌧️

انظر إلى هاتين المجموعتين من النقاط وفكر: أيهما يبدو أكثر "عشوائية" بالنسبة لك؟ التوزيع في الشكل الأيسر غير متكافئ بشكل واضح. هناك أماكن يتم فيها تكثيف النقاط ، وهناك أيضًا أماكن لا توجد فيها نقاط تقريبًا: وبسبب هذا ، قد يبدو أن المخطط الأيسر أغمق. في الشكل الصحيح ، توجد أيضًا تكثفات محلية ونقص في الآثار ، ولكنها أقل وضوحًا.

وفي الوقت نفسه ، كان الرسم البياني الأيسر الذي تم الحصول عليه باستخدام مولد الأرقام العشوائية "الصادقة". يحتوي الرسم البياني الصحيح أيضًا على نقاط عشوائية تمامًا ؛ ولكن يتم إنشاء هذه النقاط بحيث تحتوي جميع المربعات الصغيرة على عدد متساوٍ من النقاط.

التقسيم الطبقي هو طريقة لاختيار مجموعة فرعية من الأشياء من عامة السكان ، مقسمة إلى مجموعات فرعية (طبقات). أثناء التقسيم الطبقي ، يتم اختيار الكائنات بطريقة تجعل العينة النهائية تحتفظ بنسبة حجم الطبقات (أو بطريقة خاضعة للرقابة تنتهك هذه العلاقات ، انظر البند 3). لنفترض ، في المثال المدروس ، أن عامة السكان عبارة عن نقاط داخل مربع الوحدة ؛ الطبقات عبارة عن مجموعات من النقاط داخل المربعات الصغيرة.

. , . , - .

1. :

, , — , 0.4. . -.

() :

import random

random.seed(100)

for i in range(500):
    x, y = random.random(), random.random()
    print x, y

, : , ; . , , , .

import random

random.seed(100)

cellsCount = 10
cellId = 0

for i in range(500):
    cellVerticalIdx = (cellId / cellsCount) % cellsCount
    cellHorizontalIdx = cellId % cellsCount
    cellId += 1

    left = float(cellVerticalIdx + 0) / cellsCount
    right = float(cellVerticalIdx + 1) / cellsCount

    top = float(cellHorizontalIdx + 1) / cellsCount
    bottom = float(cellHorizontalIdx + 0) / cellsCount

    x, y = random.random(), random.random()
    x = left + x * (right - left)
    y = bottom + y * (top - bottom)

    print x, y

— . , — .

, , , .

, . ! , , , .

2. -

: , . , , . , .

: , .. . , , . , . , , — .

. :

. , . , «» , , . , , !

, , -, .. , . ( ), :

, , , . , , , , .

3.

-, -: , , , . A/B- , , , 0.5% , .

( , , ..), , .

Online Stratified Sampling: Evaluating Classifiers at Web-Scale Microsoft Research, .

, $N$ , $n$ $p$ $C$ .

$K$ — . $k$ - $N_k$ $\hat{p}_k$ $C$ .

\hat{p} = \sum_{k = 1}^{K} \frac{N_{k}}{N} {\hat{p}}_{k}

$\hat{p}=\sum_{k=1}^{K}{\frac{N_k}{N}\hat{p}_k}$

v a r (\hat{p}) = \sum_{k = 1}^{K} (\frac{N_{k}}{N})^{2} v a r ({\hat{p}}_{k})

$var(\hat{p})=\sum_{k=1}^{K}{\Big(\frac{N_k}{N}\Big)^2var(\hat{p}_k)}$

, !

$n$ , $n_k$ $k$ - :

n_{k} \propto N_{k} \cdot \sqrt{v a r (p_{k})}

$n_k \propto N_k \cdot \sqrt{var(p_k)}$

, . , .

, : . , - , , .

, , . - SimilarWeb Alexa - , . , . , , .

: ? ? ?

إذا لم تكن هناك إجابات أو كانت غير مرضية ، فقد تكون البيانات خداعك.

التقسيم الطبقي ، أو كيفية تعلم الثقة في البيانات

1. :

2. -

3.

More articles: