فاصل الثقة لعدد المرضى الذين يعانون من فيروس التاجي (حساب الوفيات)

حجة شائعة لمنشور فيروسي عن الفيروس التاجي - كيف يمكن للمرء الحصول على أي إحصاءات لثلاث حالات؟ لا يمكنك استخلاص استنتاجات حول هذه العينات الصغيرة! استوعب كل من درس العلوم الاجتماعية هذه القصة عن أحجام العينات مع حليب الأم. وهذا صحيح في تلك المواقف التي نتعامل معها عادة - مع إحصاءات انتقائية.

بالنسبة إلى المتوفين الثلاثة ، فإن هذه الإحصائيات مرتبطة بشكل غير مباشر للغاية. في تلك السنوات عندما كنت لا أزال أدرس الأساليب الرياضية لعلماء النفس في الجامعة ، حاولت دائمًا التوقف في هذا المكان - وهو أمر يتعلق به هذا المقرر بأكمله لا يتعلق بالبيانات الفعلية. فقط للمشكلة ، عندما نحتاج إلى استنتاج حول عامة السكان من عينة عشوائية.

وهنا لدينا الرقم 3. ثلاثة قتلى ، وليس نوع من ناقلات ، وليس جدول أو عينة. إنها حقيقة. جاء إلينا ثلاثة من القتلى بالصدفة. ماتوا.

لذا ، سننظر في واحدة من أبسط الطرق لتحديد عدد الحالات - حسب معدل الوفيات وعدد الوفيات. لنفترض أننا نعرف معدل الوفيات وهو 1٪. في هذه الحالة ، سيكون من المنطقي والصحيح اعتبار أن عدد الأشخاص الذين تم استعادتهم سيكون 297. ولكن ما مدى موثوقية هذا الحكم؟ هل يمكننا فقط أن نتجاهل أن لدينا ثلاثة قتلى ، مشيرين إلى أن ثلاثة ليسوا إحصائيات؟

صورة

سيتم الإجابة على هذا السؤال بتوزيع ذي حدين سلبي ورسوله - ويكيبيديا. هناك العديد من الحروف اليونانية ، إذا كنت مثلي تخاف منها ، فسأخبرك بما يحدث. هذا التوزيع يجيب فقط على السؤال عن عدد المرات التي يكون فيها من الضروري دحرجة النرد بحيث تسقط الستات خمس مرات. أستخدم لغة برمجة R للحسابات ، حيث توجد وظيفة جاهزة تسمح لك بتقييم فاصل الثقة.

qnbinom(p=c(.025,.975),size=3, prob=0.01)

هنا هو 2.5٪ من الأسفل و 2.5٪ من الأعلى ، حيث يقع النطاق المطلوب.

والنتيجة هي فاصل ثقة من 60 إلى 717. ليس سيئًا جدًا! ومن المرجح أن القتلى الثلاثة لا يعني أن 297 تعافوا على الإطلاق ، بل فقط ستون! ولكن ربما لسبعمائة. :-(

بالنسبة إلى الأشخاص المشبوهين جدًا الذين لا يؤمنون بتوزيع ذي حدين سلبي ، يمكنني تقديم النمذجة الرقمية. بشكل عام ، إذا كنت لا تعرف كيف تحسب الصيغ والتوزيعات ، النموذج! في أي موقف غير مفهوم ، النموذج ، مونت كارلو في انتظارك.

سنكتب الوظيفة العشوائية المتأثرة ، الذي يحاكي حالة المرض والموت.

random_infected <- function(deaths, fatality_rate)
{
  dead = 0
  all = 1
  while (dead < deaths) {
    if (runif(1) < fatality_rate) {
      all = all + 1
      dead = dead + 1
    } else
      all = all + 1
  }
  return(all)
}

تقوم هذه الوظيفة بما يلي - تقوم بتدوير مكعب "ذي وجه n" (باستخدام توزيع منتظم). إذا تم إسقاط أحدهم ، فإنه يزيد من عدد القتلى والعدد كل واحد. وإذا لم يكن كذلك ، فالعدد فقط. كل لفة من هذا يموت شخص مريض يمكن أن يموت أو يتعافى. بمجرد أن نحصل على عدد الوفيات المحدد بواسطة معامل الوفيات ، نتوقف ونبلغ عن عدد المرات التي ندير فيها النرد (العدد بالكامل). احتمالية سقوط أحد الأشخاص على المكعب التخيلي هو معدل الوفيات ، في حالتنا هي المعلمة fatality_rate.

infected_sizes<-replicate(100000,random_infected(deaths=3,fatality_rate=0.01))

والآن دعونا نحسب هذا الرقم 100 ألف مرة. لدي جهاز كمبيوتر محمول قديم ، لذا فأنا متردد في الانتظار حتى يتم احتساب مليون.

بعد ذلك ، يمكنك حساب المتوسط ​​الحسابي للأرقام التي تم الحصول عليها. حصلت على 301.2 - مشابه جدًا للرقم المتوقع 300. هذه هي الطريقة التي يبدو بها توزيع عدد لفات مكعب الموت لدينا:

library(ggplot2)
theme_set(theme_classic())

g <- ggplot(data.frame(infected_sizes=infected_sizes), aes(infected_sizes))
g + geom_density(alpha=0.8,fill="plum")

صورة

ها هو - توزيع ذي حدين سلبي ، يرجى المحبة والرضا. بناءً على هذه البيانات ، من الممكن إعطاء إجابات تقريبية على الأسئلة - ما هو احتمال أن يكون العدد الإجمالي للحالات أقل من خمسين (1.2٪) أو أكثر من 1000 (0.3٪).

بالطبع ، هذه مجرد تقديرات. وهي تستند إلى بيانات قد تكون غير صحيحة. لا نعرف عن معدل الوفيات الحقيقي لفيروس التاجي. ولكن كلما انخفض معدل الوفيات ، زاد عدد حالات المرض لكل متوفى والمزيد من التقديرات لحجم الوباء.

دعني أذكرك بأننا ندير هذا الموت على الفور. بالنسبة لنموذج حساب معدل الوفيات ، والذي تم استخدامه في المقالة المثيرة التي كتبها توماس بويو ، لدي شكوى صغيرة. هناك ، نفترض أنه بناءً على 3 حالات وفاة في اليوم العاشر ، ومعدل وفيات 1 ٪ ومعرفة أن متوسط ​​الوقت بين العدوى والموت هو 17 يومًا ، أصيب 300 شخص في اليوم X-17. ومع ذلك ، فإن مثل هذا الحساب صالح فقط إذا كان عدد المرضى هو نفسه كل يوم. نظرًا لأن 17 يومًا ليس رقمًا صارمًا ، فإنه يحتوي أيضًا على فترات ثقة وأخطاء. إذا كان لدينا زيادة سريعة في عدد الحالات ، فمن بين أولئك الذين لقوا حتفهم في اليوم العاشر ، لدينا عدد معين من الأشخاص المصابين قبل 17 يومًا ، ولكن 16 أو 15 يومًا ، وربما قبل 10 أيام. ربما هناك عدد أكبر من هؤلاء الذين أصيبوا بالعدوى قبل 17 يومًا. في هذا الطريق،في حالة الزيادة السريعة في عدد الحالات ، يمكن أن يؤدي حساب العائد هذا إلى تقديرات مبالغ فيها لانتشار المرض. بشكل عام ، كل شيء معقد.

سكرتير خاص بفضل غريغوري ديمين للحصول على تلميح حول نوع التوزيع.

All Articles