انظر إلى هاتين المجموعتين من النقاط وفكر: أيهما يبدو أكثر "عشوائية" بالنسبة لك؟ التوزيع في الشكل الأيسر غير متكافئ بشكل واضح. هناك أماكن يتم فيها تكثيف النقاط ، وهناك أيضًا أماكن لا توجد فيها نقاط تقريبًا: وبسبب هذا ، قد يبدو أن المخطط الأيسر أغمق. في الشكل الصحيح ، توجد أيضًا تكثفات محلية ونقص في الآثار ، ولكنها أقل وضوحًا.
![](https://habrastorage.org/webt/sx/r2/ks/sxr2ks7jjoyc52bev0bh-pbs4ss.png)
وفي الوقت نفسه ، كان الرسم البياني الأيسر الذي تم الحصول عليه باستخدام مولد الأرقام العشوائية "الصادقة". يحتوي الرسم البياني الصحيح أيضًا على نقاط عشوائية تمامًا ؛ ولكن يتم إنشاء هذه النقاط بحيث تحتوي جميع المربعات الصغيرة على عدد متساوٍ من النقاط.
التقسيم الطبقي هو طريقة لاختيار مجموعة فرعية من الأشياء من عامة السكان ، مقسمة إلى مجموعات فرعية (طبقات). أثناء التقسيم الطبقي ، يتم اختيار الكائنات بطريقة تجعل العينة النهائية تحتفظ بنسبة حجم الطبقات (أو بطريقة خاضعة للرقابة تنتهك هذه العلاقات ، انظر البند 3). لنفترض ، في المثال المدروس ، أن عامة السكان عبارة عن نقاط داخل مربع الوحدة ؛ الطبقات عبارة عن مجموعات من النقاط داخل المربعات الصغيرة.
. , . , - .
1. :
![](https://habrastorage.org/webt/im/hc/vi/imhcvikbqqz6pknwuhyhdttdzu4.png)
, , — , 0.4. . -.
![](https://habrastorage.org/webt/fa/gd/2o/fagd2oblunypcy_uglwon59_xsw.png)
() :
import random
random.seed(100)
for i in range(500):
x, y = random.random(), random.random()
print x, y
, : , ; . , , , .
import random
random.seed(100)
cellsCount = 10
cellId = 0
for i in range(500):
cellVerticalIdx = (cellId / cellsCount) % cellsCount
cellHorizontalIdx = cellId % cellsCount
cellId += 1
left = float(cellVerticalIdx + 0) / cellsCount
right = float(cellVerticalIdx + 1) / cellsCount
top = float(cellHorizontalIdx + 1) / cellsCount
bottom = float(cellHorizontalIdx + 0) / cellsCount
x, y = random.random(), random.random()
x = left + x * (right - left)
y = bottom + y * (top - bottom)
print x, y
— . , — .
![](https://habrastorage.org/webt/fa/k2/hi/fak2hiyahreuja-vnxb45igulgg.png)
, , , .
, . ! , , , .
2. -
.
: , . , , . , .
: , .. . , , . , . , , — .
. :
![](https://habrastorage.org/webt/dn/i9/cs/dni9csdsey9dzt8jb7jaij4qnfu.png)
. , . , «» , , . , , !
, , -, .. , . ( ), :
![](https://habrastorage.org/webt/s4/dm/yg/s4dmygmplkmt3x-oxwxlbw0ebsq.png)
, , , . , , , , .
3.
-, -: , , , . A/B- , , , 0.5% , .
( , , ..), , .
Online Stratified Sampling: Evaluating Classifiers at Web-Scale Microsoft Research, .
, , .
— . - .
:
, !
, - :
, . , .
, : . , - , , .
![](https://habrastorage.org/webt/bg/da/tv/bgdatve6qhycl68qpnfwz6st4oq.jpeg)
, , . - SimilarWeb Alexa - , . , . , , .
: ? ? ?
إذا لم تكن هناك إجابات أو كانت غير مرضية ، فقد تكون البيانات خداعك.