Estratificación, o cómo aprender a confiar en los datos

Mire estos dos conjuntos de puntos y piense: ¿cuál le parece más "aleatorio"? La distribución en la figura izquierda es claramente desigual. Hay lugares en los que los puntos se condensan, y también hay lugares en los que casi no hay puntos: debido a esto, incluso puede parecer que el gráfico de la izquierda es más oscuro. En la figura de la derecha, las condensaciones locales y las rarefacciones también están presentes, pero son menos llamativas.




Mientras tanto, se obtuvo el gráfico de la izquierda utilizando el generador de números aleatorios "honesto". El gráfico de la derecha también contiene puntos completamente al azar; pero estos puntos se generan de modo que todos los cuadrados pequeños contengan un número igual de puntos.


La estratificación es un método para seleccionar un subconjunto de objetos de la población general, dividido en subconjuntos (estratos). Durante la estratificación, los objetos se seleccionan de tal manera que la muestra final retiene la proporción del tamaño de los estratos (o de manera controlada viola estas relaciones, véase la cláusula 3). Digamos, en el ejemplo considerado, la población general es puntos dentro de un cuadrado unitario; Los estratos son conjuntos de puntos dentro de cuadrados más pequeños.


. , . , - .


1. :



, , — , 0.4. . -.



() :


import random

random.seed(100)

for i in range(500):
    x, y = random.random(), random.random()
    print x, y

, : , ; . , , , .


import random

random.seed(100)

cellsCount = 10
cellId = 0

for i in range(500):
    cellVerticalIdx = (cellId / cellsCount) % cellsCount
    cellHorizontalIdx = cellId % cellsCount
    cellId += 1

    left = float(cellVerticalIdx + 0) / cellsCount
    right = float(cellVerticalIdx + 1) / cellsCount

    top = float(cellHorizontalIdx + 1) / cellsCount
    bottom = float(cellHorizontalIdx + 0) / cellsCount

    x, y = random.random(), random.random()
    x = left + x * (right - left)
    y = bottom + y * (top - bottom)

    print x, y

— . , — .



, , , .


, . ! , , , .


2. -


.


: , . , , . , .


: , .. . , , . , . , , — .


. :



. , . , «» , , . , , !


, , -, .. , . ( ), :



, , , . , , , , .


3.


-, -: , , , . A/B- , , , 0.5% , .


( , , ..), , .


Online Stratified Sampling: Evaluating Classifiers at Web-Scale Microsoft Research, .


, N, npC.


K— . k- Nkp^kC.


p^=k=1KNkNp^k


:


var(p^)=k=1K(NkN)2var(p^k)


, !


n, nkk- :


nkNkvar(pk)


, . , .


, : . , - , , .




, , . - SimilarWeb Alexa - , . , . , , .


: ? ? ?


Si no hay respuestas o no son satisfactorias, es posible que los datos lo engañen.


All Articles