Schauen Sie sich diese beiden Punkte an und denken Sie: Welcher scheint Ihnen âzufĂ€lligerâ zu sein? Die Verteilung in der linken Abbildung ist deutlich ungleichmĂ€Ăig. Es gibt Orte, an denen Punkte verdichtet werden, und es gibt auch Orte, an denen es fast keine Punkte gibt. Aus diesem Grund scheint das linke Diagramm sogar dunkler zu sein. In der rechten Abbildung sind auch lokale Kondensationen und VerdĂŒnnungen vorhanden, die jedoch weniger auffĂ€llig sind.

In der Zwischenzeit wurde der linke Graph unter Verwendung eines "ehrlichen" Zufallszahlengenerators erhalten. Das rechte Diagramm enthÀlt auch völlig zufÀllige Punkte. Diese Punkte werden jedoch so generiert, dass alle kleinen Quadrate die gleiche Anzahl von Punkten enthalten.
Die Schichtung ist eine Methode zur Auswahl einer Teilmenge von Objekten aus der allgemeinen Grundgesamtheit, die in Teilmengen (Schichten) unterteilt ist. WĂ€hrend der Schichtung werden Objekte so ausgewĂ€hlt, dass die endgĂŒltige Stichprobe das VerhĂ€ltnis der GröĂe der Schichten beibehĂ€lt (oderdiese VerhĂ€ltnisse kontrolliert verletzt , siehe Absatz 3). Angenommen, im betrachteten Beispiel ist die allgemeine Bevölkerung Punkte innerhalb eines Einheitsquadrats. Schichten sind Punktmengen innerhalb kleinerer Quadrate.
. , . , - .
1. :

, , â , 0.4. . -.

() :
import random
random.seed(100)
for i in range(500):
x, y = random.random(), random.random()
print x, y
, : , ; . , , , .
import random
random.seed(100)
cellsCount = 10
cellId = 0
for i in range(500):
cellVerticalIdx = (cellId / cellsCount) % cellsCount
cellHorizontalIdx = cellId % cellsCount
cellId += 1
left = float(cellVerticalIdx + 0) / cellsCount
right = float(cellVerticalIdx + 1) / cellsCount
top = float(cellHorizontalIdx + 1) / cellsCount
bottom = float(cellHorizontalIdx + 0) / cellsCount
x, y = random.random(), random.random()
x = left + x * (right - left)
y = bottom + y * (top - bottom)
print x, y
â . , â .

, , , .
, . ! , , , .
2. -
.
: , . , , . , .
: , .. . , , . , . , , â .
. :

. , . , «» , , . , , !
, , -, .. , . ( ), :

, , , . , , , , .
3.
-, -: , , , . A/B- , , , 0.5% , .
( , , ..), , .
Online Stratified Sampling: Evaluating Classifiers at Web-Scale Microsoft Research, .
, , .
â . - .
:
, !
, - :
, . , .
, : . , - , , .

, , . - SimilarWeb Alexa - , . , . , , .
: ? ? ?
Wenn es keine Antworten gibt oder diese unbefriedigend sind, kann es durchaus sein, dass die Daten Sie tÀuschen.