Interval kepercayaan untuk jumlah pasien dengan coronavirus (perhitungan kematian)

Argumen populer untuk publikasi viral tentang coronavirus - bagaimana kita bisa mendapatkan statistik untuk tiga kasus? Anda tidak dapat menarik kesimpulan pada sampel kecil seperti itu! Setiap orang yang mempelajari ilmu sosial menyerap cerita ini tentang ukuran sampel dengan susu alma ibu. Dan ini benar dalam situasi yang biasanya kita hadapi - dengan statistik selektif.

Untuk kasus tiga almarhum, statistik ini sangat tidak langsung terkait. Pada tahun-tahun ketika saya masih mengajar metode matematika untuk psikolog di universitas, saya selalu mencoba untuk berhenti di tempat ini - bahwa, tentang semua kursus ini, tidak ada hubungannya dengan data aktual. Hanya untuk masalah, ketika kita perlu menarik kesimpulan tentang populasi umum dari sampel acak.

Dan di sini kita memiliki angka 3. Tiga mati, bukan semacam vektor, bukan tabel atau sampel. Itu adalah fakta. Tiga almarhum datang kepada kami sepenuhnya secara kebetulan. Mereka mati.

Jadi, kami akan mempertimbangkan salah satu metode paling sederhana untuk menentukan jumlah kasus - dengan tingkat kematian dan jumlah kematian. Misalkan kita tahu kefanaan dan itu adalah 1%. Dalam situasi ini, adalah logis dan benar untuk mempertimbangkan bahwa jumlah orang yang pulih adalah 297. Tetapi apa reliabilitas dari penilaian ini? Bisakah kita mengesampingkan bahwa kita memiliki tiga mati, menyatakan bahwa tiga bukan statistik?

gambar

Pertanyaan ini akan dijawab oleh distribusi binomial negatif dan nabi - Wikipedia. Ada banyak huruf Yunani, jika Anda, seperti saya, takut terhadap mereka, maka saya akan memberi tahu Anda apa yang terjadi. Distribusi ini hanya menjawab pertanyaan berapa kali perlu menggulung dadu sehingga enam jatuh lima kali. Saya menggunakan bahasa pemrograman R untuk perhitungan, di mana ada fungsi siap pakai yang memungkinkan Anda untuk mengevaluasi interval kepercayaan.

qnbinom(p=c(.025,.975),size=3, prob=0.01)

Di sini p adalah 2,5% dari bawah dan 2,5% dari atas, di antaranya rentang yang diinginkan berada.

Hasilnya adalah interval kepercayaan dari 60 hingga 717. Tidak terlalu buruk! Sangat mungkin bahwa ketiga orang mati tidak berarti sama sekali 297 pulih, tetapi hanya enam puluh! Tapi mungkin untuk tujuh ratus. :-(

Untuk yang paling mencurigakan, yang tidak percaya pada distribusi binomial negatif, saya dapat menawarkan pemodelan numerik. Secara umum, jika Anda tidak tahu cara menghitung dengan rumus dan distribusi, model! Dalam situasi yang tidak dapat dipahami, model apa pun, Monte Carlo menunggu Anda.

Kami akan menulis fungsi random_infected, yang mensimulasikan situasi penyakit dan kematian.

random_infected <- function(deaths, fatality_rate)
{
  dead = 0
  all = 1
  while (dead < deaths) {
    if (runif(1) < fatality_rate) {
      all = all + 1
      dead = dead + 1
    } else
      all = all + 1
  }
  return(all)
}

Fungsi ini melakukan hal berikut - menggulung kubus β€œberwajah” (menggunakan distribusi seragam). Jika satu dijatuhkan, maka itu menambah jumlah orang mati dan jumlah semuanya satu per satu. Dan jika tidak, maka hanya nomor semuanya. Setiap gulungan dadu ini adalah orang sakit yang bisa mati atau pulih. Segera setelah kami memiliki jumlah kematian yang ditentukan oleh parameter kematian, kami berhenti dan melaporkan berapa kali kematian itu digulung (jumlahnya semua). Kemungkinan yang jatuh pada kubus imajiner kami adalah kematian, dalam kasus kami parameter fatality_rate.

infected_sizes<-replicate(100000,random_infected(deaths=3,fatality_rate=0.01))

Dan sekarang mari kita hitung angka ini 100 ribu kali. Saya memiliki laptop lama, jadi saya enggan menunggu sampai satu juta dihitung.

Setelah itu, Anda dapat menghitung rata-rata aritmatika dari angka-angka yang diperoleh. Saya mendapat 301.2 - sangat mirip dengan angka yang diharapkan 300. Beginilah distribusi jumlah gulungan kubus kematian kami seperti:

library(ggplot2)
theme_set(theme_classic())

g <- ggplot(data.frame(infected_sizes=infected_sizes), aes(infected_sizes))
g + geom_density(alpha=0.8,fill="plum")

gambar

Ini dia - distribusi binomial negatif, tolong cinta dan nikmatilah. Berdasarkan data tersebut, seseorang dapat memberikan perkiraan jawaban untuk pertanyaan - berapa probabilitas bahwa jumlah total kasus kurang dari lima puluh (1,2%) atau lebih dari 1000 (0,3%).

Tentu saja, ini hanya perkiraan. Mereka didasarkan pada data yang mungkin salah. Kami tidak tahu tentang kematian sebenarnya dari virus corona. Tetapi semakin rendah tingkat kematian, semakin banyak kasus penyakit per orang yang meninggal dan semakin banyak perkiraan besarnya pandemi.

Biarkan saya mengingatkan Anda bahwa kami menggulung mati ini secara instan. Untuk model penghitungan kematian, yang digunakan dalam artikel sensasional oleh Thomas Pueyo, saya punya keluhan kecil. Di sana, kami berasumsi bahwa, berdasarkan 3 kematian pada hari X, tingkat kematian 1% dan pengetahuan bahwa waktu rata-rata antara infeksi dan kematian adalah 17 hari, 300 orang terinfeksi pada hari X-17. Namun, perhitungan seperti itu hanya berlaku jika jumlah orang yang sakit sama setiap hari. Karena 17 hari bukan angka yang ketat, ia juga memiliki interval dan kesalahan kepercayaan. Jika kita memiliki peningkatan pesat dalam jumlah pasien, maka di antara mereka yang meninggal pada hari X, kita memiliki sejumlah orang yang terinfeksi tidak 17 hari yang lalu, tetapi 16 atau 15 hari, dan mungkin 10 hari yang lalu. Mungkin ada lebih banyak dari mereka yang terinfeksi 17 hari yang lalu. Lewat sini,dalam situasi peningkatan jumlah kasus yang cepat, penghitungan seperti itu dapat menyebabkan perkiraan prevalensi penyakit yang terlalu tinggi. Secara umum, semuanya rumit.

PS Terima kasih kepada Gregory Demin untuk petunjuk tentang jenis distribusi.

All Articles