कोरोनवायरस (मृत्यु दर गणना) वाले रोगियों की संख्या के लिए आत्मविश्वास अंतराल

कोरोनवायरस के बारे में वायरल प्रकाशन के लिए एक लोकप्रिय तर्क - तीन मामलों के लिए कोई भी आंकड़े कैसे प्राप्त कर सकता है? आप ऐसे छोटे नमूनों पर निष्कर्ष नहीं निकाल सकते हैं! सामाजिक विज्ञान का अध्ययन करने वाले हर व्यक्ति ने माँ के अल्मा दूध के साथ नमूना आकार के बारे में इस कहानी को अवशोषित किया। और यह उन स्थितियों में सही है जिनके साथ हम आमतौर पर सौदा करते हैं - चयनात्मक आंकड़ों के साथ।

तीनों मृतकों के मामले के लिए, ये आँकड़े बहुत ही अप्रत्यक्ष रूप से संबंधित हैं। उन वर्षों में जब मैं विश्वविद्यालय में मनोवैज्ञानिकों के लिए गणितीय तरीके सिखा रहा था, मैंने हमेशा इस स्थान पर रुकने की कोशिश की - ऐसा कुछ जो इस पूरे पाठ्यक्रम के बारे में है, वास्तविक डेटा से संबंधित नहीं है। केवल समस्या के लिए, जब हमें यादृच्छिक नमूने से सामान्य आबादी के बारे में निष्कर्ष निकालना होगा।

और यहां हमारे पास संख्या 3 है। तीन मृत, किसी तरह के वेक्टर नहीं, न कि मेज या नमूना। यह सच है। मृतकों में से तीन पूरी तरह से संयोग से हमारे पास आए। वे मर गया।

इसलिए, हम मामलों की संख्या - मृत्यु दर और मौतों की संख्या निर्धारित करने के लिए सबसे सरल तरीकों में से एक पर विचार करेंगे। मान लीजिए कि हम मृत्यु दर जानते हैं और यह 1% है। इस स्थिति में, यह विचार करना तर्कसंगत और सही होगा कि बरामद लोगों की संख्या 297 होगी। लेकिन इस निर्णय की विश्वसनीयता क्या है? क्या हम सिर्फ एक तरफ ब्रश कर सकते हैं कि हमारे पास तीन मृत हैं, यह बताते हुए कि तीन आँकड़े नहीं हैं?

छवि

इस प्रश्न का उत्तर एक नकारात्मक द्विपद वितरण और उसके नबी - विकिपीडिया द्वारा दिया जाएगा। कई ग्रीक पत्र हैं, यदि आप, मेरी तरह, उनसे डरते हैं, तो मैं आपको बताता हूं कि क्या होता है। यह वितरण केवल इस सवाल का जवाब देता है कि मरने को रोल करने के लिए कितनी बार आवश्यक है ताकि छह पांच बार गिर जाए। मैं गणना के लिए आर प्रोग्रामिंग भाषा का उपयोग करता हूं, जिसमें एक तैयार फ़ंक्शन है जो आपको आत्मविश्वास अंतराल का मूल्यांकन करने की अनुमति देता है।

qnbinom(p=c(.025,.975),size=3, prob=0.01)

यहां पी नीचे से 2.5% और ऊपर से 2.5% है, जिसके बीच वांछित सीमा स्थित है।

परिणाम 60 से 717 तक एक आत्मविश्वास अंतराल है। इतना बुरा नहीं है! यह संभावना है कि तीनों मृतकों का मतलब सभी 297 बरामद नहीं है, लेकिन केवल साठ! लेकिन शायद सात सौ के लिए। :-(

बहुत नकारात्मक लोगों के लिए जो नकारात्मक द्विपद वितरण में विश्वास नहीं करते हैं, मैं संख्यात्मक मॉडलिंग की पेशकश कर सकता हूं। सामान्य तौर पर, यदि आप यह नहीं जानते हैं कि सूत्र और वितरण की गणना कैसे करें, तो मॉडल! किसी भी असंगत स्थिति में, मॉडल, मोंटे कार्लो आपका इंतजार कर रहा है।

हम random_infected फ़ंक्शन को लिखेंगे जो बीमारी और मृत्यु की स्थिति का अनुकरण करता है।

random_infected <- function(deaths, fatality_rate)
{
  dead = 0
  all = 1
  while (dead < deaths) {
    if (runif(1) < fatality_rate) {
      all = all + 1
      dead = dead + 1
    } else
      all = all + 1
  }
  return(all)
}

यह फ़ंक्शन निम्न करता है - एक "एन-फेस" क्यूब (समान वितरण का उपयोग करके) को रोल करता है। यदि एक को गिरा दिया जाता है, तो यह मृतकों की संख्या और सभी को एक से बढ़ाता है। और अगर यह नहीं हुआ, तो केवल संख्या सभी। इस डाई का प्रत्येक रोल एक बीमार व्यक्ति है जो या तो मर सकता है या ठीक हो सकता है। जैसे ही हमारे पास मौतों के पैरामीटर द्वारा निर्दिष्ट मौतों की संख्या होती है, हम रुक जाते हैं और रिपोर्ट करते हैं कि कितनी बार मर गया था (संख्या सभी है)। हमारे काल्पनिक घन पर किसी एक के गिरने की संभावना मृत्यु दर है, हमारे मामले में fatality_rate पैरामीटर।

infected_sizes<-replicate(100000,random_infected(deaths=3,fatality_rate=0.01))

और अब इस संख्या की गणना 100 हजार बार करते हैं। मेरे पास एक पुराना लैपटॉप है, इसलिए मैं तब तक इंतजार करने के लिए अनिच्छुक हूं जब तक कि एक लाख की गिनती न हो जाए।

उसके बाद, आप प्राप्त संख्याओं के अंकगणितीय माध्य की गणना कर सकते हैं। मुझे 301.2 मिला - यह अपेक्षित संख्या 300 के समान है। इस तरह से हमारी मृत्यु घन के रोल के वितरण का यह तरीका दिखता है:

library(ggplot2)
theme_set(theme_classic())

g <- ggplot(data.frame(infected_sizes=infected_sizes), aes(infected_sizes))
g + geom_density(alpha=0.8,fill="plum")

छवि

यहां यह है - एक नकारात्मक द्विपद वितरण, कृपया प्यार और अनुग्रह करें। इस तरह के डेटा के आधार पर, इस तरह के डेटा के आधार पर प्रश्नों के अनुमानित उत्तर देना संभव है - क्या संभावना है कि मामलों की कुल संख्या पचास (1.2%) से कम या 1000 (0.3%) से अधिक हो।

बेशक, ये सिर्फ अनुमान हैं। वे डेटा पर आधारित हैं जो गलत हो सकते हैं। हम कोरोनोवायरस की सही मृत्यु दर के बारे में नहीं जानते हैं। लेकिन मृत्यु दर कम, प्रति मृतक बीमारी के अधिक मामले और महामारी के परिमाण के अधिक अनुमान।

मैं आपको याद दिला दूं कि हम इस मर को तुरंत रोल करते हैं। मृत्यु दर की गणना के मॉडल के लिए, जिसका उपयोग थॉमस प्यूयो द्वारा सनसनीखेज लेख में किया गया था, मुझे एक छोटी सी शिकायत है। वहां, हम मानते हैं कि, दिन X पर 3 मौतों के आधार पर, 1% की मृत्यु दर और यह ज्ञान कि संक्रमण और मृत्यु के बीच का औसत समय 17 दिन है, दिन X-17 में 300 लोग संक्रमित थे। हालांकि, इस तरह की गणना केवल तभी मान्य है जब बीमार लोगों की संख्या हर दिन एक ही हो। चूंकि 17 दिन एक सख्त संख्या नहीं है, इसलिए इसमें आत्मविश्वास अंतराल और त्रुटियां भी हैं। यदि हमारे पास रोगियों की संख्या में तेजी से वृद्धि होती है, तो जिन लोगों की मृत्यु एक्स एक्स में हुई, उनमें से एक निश्चित संख्या में लोग 17 दिन पहले नहीं, बल्कि 16 या 15 दिन और शायद 10 दिन पहले संक्रमित हुए हैं। शायद उनमें से भी अधिक हैं जो 17 दिन पहले संक्रमित हो गए थे। इस तरह,मामलों की संख्या में तेजी से वृद्धि की स्थिति में, इस तरह की उल्टी गणना रोग की व्यापकता को कम कर सकती है। सामान्य तौर पर, सब कुछ जटिल है।

पुनश्च वितरण के प्रकार के बारे में संकेत के लिए ग्रेगरी डेमिन का धन्यवाद।

All Articles