Estratificação ou como aprender a confiar em dados

Olhe para esses dois conjuntos de pontos e pense: qual deles parece mais "aleatório" para você? A distribuição na figura da esquerda é claramente desigual. Há lugares em que os pontos são condensados ​​e também há lugares em que quase não há pontos: por isso, pode até parecer que o gráfico esquerdo está mais escuro. Na figura à direita, condensações e rarefações locais também estão presentes, mas são menos evidentes.




Enquanto isso, foi o gráfico da esquerda que foi obtido usando o gerador de números aleatórios “honesto”. O gráfico da direita também contém pontos completamente aleatórios; mas esses pontos são gerados para que todos os pequenos quadrados contenham um número igual de pontos.


Estratificação é um método de seleção de um subconjunto de objetos da população em geral, dividido em subconjuntos (estratos). Durante a estratificação, os objetos são selecionados para que a amostra final retenha a proporção do tamanho dos estratos (ou de maneira controlada violou essas proporções, consulte o parágrafo 3). Digamos, no exemplo considerado, a população em geral é pontos dentro de um quadrado de unidade; estratos são conjuntos de pontos dentro de quadrados menores.


. , . , - .


1. :



, , — , 0.4. . -.



() :


import random

random.seed(100)

for i in range(500):
    x, y = random.random(), random.random()
    print x, y

, : , ; . , , , .


import random

random.seed(100)

cellsCount = 10
cellId = 0

for i in range(500):
    cellVerticalIdx = (cellId / cellsCount) % cellsCount
    cellHorizontalIdx = cellId % cellsCount
    cellId += 1

    left = float(cellVerticalIdx + 0) / cellsCount
    right = float(cellVerticalIdx + 1) / cellsCount

    top = float(cellHorizontalIdx + 1) / cellsCount
    bottom = float(cellHorizontalIdx + 0) / cellsCount

    x, y = random.random(), random.random()
    x = left + x * (right - left)
    y = bottom + y * (top - bottom)

    print x, y

— . , — .



, , , .


, . ! , , , .


2. -


.


: , . , , . , .


: , .. . , , . , . , , — .


. :



. , . , «» , , . , , !


, , -, .. , . ( ), :



, , , . , , , , .


3.


-, -: , , , . A/B- , , , 0.5% , .


( , , ..), , .


Online Stratified Sampling: Evaluating Classifiers at Web-Scale Microsoft Research, .


, N, npC.


K— . k- Nkp^kC.


p^=k=1KNkNp^k


:


var(p^)=k=1K(NkN)2var(p^k)


, !


n, nkk- :


nkNkvar(pk)


, . , .


, : . , - , , .




, , . - SimilarWeb Alexa - , . , . , , .


: ? ? ?


Se não houver respostas ou forem insatisfatórias, pode ser que os dados o enganem.


All Articles