Stratifikasi, atau cara belajar mempercayai data

Lihatlah dua set poin ini dan pikirkan: mana yang lebih โ€œacakโ€ bagi Anda? Distribusi pada gambar kiri jelas tidak merata. Ada tempat-tempat di mana titik-titik terkondensasi, dan ada juga tempat-tempat di mana hampir tidak ada titik: karena ini, bahkan tampaknya bagan kiri lebih gelap. Pada gambar yang tepat, kondensasi lokal dan reaksi langka juga ada, tetapi tidak terlalu mencolok.




Sementara itu, itu adalah grafik kiri yang diperoleh menggunakan generator nomor acak "jujur". Grafik yang tepat juga mengandung titik-titik yang sepenuhnya acak; tetapi titik-titik ini dihasilkan sehingga semua kotak kecil berisi jumlah poin yang sama.


Stratifikasi adalah metode pemilihan subset objek dari populasi umum, dibagi menjadi himpunan bagian (strata). Selama stratifikasi, objek dipilih sedemikian rupa sehingga sampel akhir mempertahankan rasio ukuran strata (atau dengan cara yang terkontrol melanggar hubungan ini, lihat klausul 3). Katakanlah, dalam contoh yang dipertimbangkan, populasi umum adalah titik di dalam satuan persegi; strata adalah set poin di dalam kotak yang lebih kecil.


. , . , - .


1. :



, , โ€” , 0.4. . -.



() :


import random

random.seed(100)

for i in range(500):
    x, y = random.random(), random.random()
    print x, y

, : , ; . , , , .


import random

random.seed(100)

cellsCount = 10
cellId = 0

for i in range(500):
    cellVerticalIdx = (cellId / cellsCount) % cellsCount
    cellHorizontalIdx = cellId % cellsCount
    cellId += 1

    left = float(cellVerticalIdx + 0) / cellsCount
    right = float(cellVerticalIdx + 1) / cellsCount

    top = float(cellHorizontalIdx + 1) / cellsCount
    bottom = float(cellHorizontalIdx + 0) / cellsCount

    x, y = random.random(), random.random()
    x = left + x * (right - left)
    y = bottom + y * (top - bottom)

    print x, y

โ€” . , โ€” .



, , , .


, . ! , , , .


2. -


.


: , . , , . , .


: , .. . , , . , . , , โ€” .


. :



. , . , ยซยป , , . , , !


, , -, .. , . ( ), :



, , , . , , , , .


3.


-, -: , , , . A/B- , , , 0.5% , .


( , , ..), , .


Online Stratified Sampling: Evaluating Classifiers at Web-Scale Microsoft Research, .


, N, npC.


Kโ€” . k- Nkp^kC.


p^=โˆ‘k=1KNkNp^k


:


var(p^)=โˆ‘k=1K(NkN)2var(p^k)


, !


n, nkk- :


nkโˆNkโ‹…var(pk)


, . , .


, : . , - , , .




, , . - SimilarWeb Alexa - , . , . , , .


: ? ? ?


Jika tidak ada jawaban atau tidak memuaskan, mungkin data akan menipu Anda.


All Articles