Konfidenzintervall für die Anzahl der Patienten mit Coronavirus (Mortalitätsberechnung)

Ein beliebtes Argument für eine virale Veröffentlichung über Coronavirus - wie kann man Statistiken für drei Fälle erhalten? Zu so kleinen Stichproben können Sie keine Schlussfolgerungen ziehen! Jeder, der Sozialwissenschaften studierte, nahm diese Geschichte über Stichprobengrößen mit Alma-Milch der Mutter auf. Und das ist in den Situationen richtig, mit denen wir uns normalerweise befassen - mit selektiven Statistiken.

Für die drei Verstorbenen sind diese Statistiken sehr indirekt miteinander verbunden. In jenen Jahren, als ich noch mathematische Methoden für Psychologen an der Universität unterrichtete, habe ich immer versucht, an dieser Stelle anzuhalten - etwas, worum es in diesem ganzen Kurs geht, hängt nicht mit tatsächlichen Daten zusammen. Nur zum Problem, wenn wir aus einer Zufallsstichprobe eine Schlussfolgerung über die Allgemeinbevölkerung ziehen müssen.

Und hier haben wir die Nummer 3. Drei Tote, keine Art Vektor, keine Tabelle oder Stichprobe. Es ist eine Tatsache. Drei der Toten kamen völlig zufällig zu uns. Sie starben.

Wir werden also eine der einfachsten Methoden zur Bestimmung der Anzahl der Fälle betrachten - anhand der Sterblichkeitsrate und der Anzahl der Todesfälle. Angenommen, wir kennen die Sterblichkeit und sie beträgt 1%. In dieser Situation wäre es logisch und richtig zu bedenken, dass 297 Menschen geborgen werden. Aber wie zuverlässig ist dieses Urteil? Können wir einfach beiseite schieben, dass wir drei Tote haben und sagen, dass drei keine Statistiken sind?

Bild

Diese Frage wird von einer negativen Binomialverteilung und ihrem Propheten - Wikipedia - beantwortet. Es gibt viele griechische Buchstaben. Wenn Sie wie ich Angst vor ihnen haben, werde ich Ihnen sagen, was passiert. Diese Verteilung beantwortet nur die Frage, wie oft der Würfel gewürfelt werden muss, damit die Sechs fünfmal fällt. Ich verwende die Programmiersprache R für Berechnungen, in denen es eine vorgefertigte Funktion gibt, mit der Sie das Konfidenzintervall auswerten können.

qnbinom(p=c(.025,.975),size=3, prob=0.01)

Hier beträgt p 2,5% von unten und 2,5% von oben, zwischen denen sich der gewünschte Bereich befindet.

Das Ergebnis ist ein Konfidenzintervall von 60 bis 717. Nicht so schlecht! Es ist wahrscheinlich, dass die drei Toten nicht bedeuten, dass sie sich erholt haben, sondern nur sechzig! Aber vielleicht für siebenhundert. :-(

Für sehr verdächtige Leute, die nicht an eine negative Binomialverteilung glauben, kann ich numerische Modellierung anbieten. Wenn Sie nicht wissen, wie man nach Formeln und Verteilungen berechnet, modellieren Sie! In jeder unverständlichen Situation, Modell, wartet Monte Carlo auf Sie.

Wir werden die Funktion random_infected schreiben. das simuliert eine Situation von Krankheit und Tod.

random_infected <- function(deaths, fatality_rate)
{
  dead = 0
  all = 1
  while (dead < deaths) {
    if (runif(1) < fatality_rate) {
      all = all + 1
      dead = dead + 1
    } else
      all = all + 1
  }
  return(all)
}

Diese Funktion führt Folgendes aus: Würfelt einen Würfel mit n Gesicht (unter Verwendung einer gleichmäßigen Verteilung). Wenn einer fallen gelassen wird, erhöht sich die Anzahl der Toten und die Anzahl um eins. Und wenn nicht, dann nur die Nummer alle. Jeder Wurf dieses Würfels ist eine kranke Person, die entweder sterben oder sich erholen kann. Sobald wir die durch den Parameter "Todesfälle" angegebene Anzahl von Todesfällen haben, halten wir an und melden, wie oft wir den Würfel werfen (die Anzahl aller). Die Wahrscheinlichkeit, dass eine Person auf unseren imaginären Würfel fällt, ist die Sterblichkeit, in unserem Fall der Parameter fatality_rate.

infected_sizes<-replicate(100000,random_infected(deaths=3,fatality_rate=0.01))

Und jetzt berechnen wir diese Zahl 100.000 Mal. Ich habe einen alten Laptop und zögere daher zu warten, bis eine Million gezählt sind.

Danach können Sie das arithmetische Mittel der erhaltenen Zahlen berechnen. Ich habe 301.2 - sehr ähnlich der erwarteten Zahl 300. So sieht die Verteilung der Anzahl der Rollen unseres Todeswürfels aus:

library(ggplot2)
theme_set(theme_classic())

g <- ggplot(data.frame(infected_sizes=infected_sizes), aes(infected_sizes))
g + geom_density(alpha=0.8,fill="plum")

Bild

Hier ist es - eine negative Binomialverteilung, bitte lieben und bevorzugen. Basierend auf solchen Daten ist es möglich, ungefähre Antworten auf Fragen zu geben - wie hoch ist die Wahrscheinlichkeit, dass die Gesamtzahl der Fälle weniger als fünfzig (1,2%) oder mehr als 1000 (0,3%) beträgt?

Dies sind natürlich nur Schätzungen. Sie basieren auf Daten, die möglicherweise falsch sind. Wir wissen nichts über die wahre Mortalität des Coronavirus. Aber je niedriger diese Sterblichkeitsrate ist, desto mehr Krankheitsfälle treten bei einem Verstorbenen auf und desto größer ist die Schätzung des Ausmaßes der Pandemie.

Ich möchte Sie daran erinnern, dass wir diesen Würfel sofort würfeln. Zum Modell der Sterblichkeitsberechnung, das in dem sensationellen Artikel von Thomas Pueyo verwendet wurde, habe ich eine kleine Beschwerde. Dort gehen wir davon aus, dass basierend auf den 3 Todesfällen am Tag X, einer Sterblichkeitsrate von 1% und dem Wissen, dass die durchschnittliche Zeit zwischen Infektion und Tod 17 Tage beträgt, 300 Menschen am Tag X-17 infiziert wurden. Eine solche Berechnung ist jedoch nur gültig, wenn die Anzahl der Kranken jeden Tag gleich ist. Da 17 Tage keine strenge Zahl sind, gibt es auch Konfidenzintervalle und Fehler. Wenn die Zahl der Patienten rapide zunimmt, haben wir unter den am Tag X Verstorbenen eine bestimmte Anzahl von Menschen, die nicht vor 17 Tagen, sondern vor 16 oder 15 Tagen und vielleicht vor 10 Tagen infiziert wurden. Vielleicht gibt es noch mehr von ihnen als diejenigen, die vor 17 Tagen infiziert wurden. Auf diese Weise,In einer Situation mit einem raschen Anstieg der Fallzahlen kann eine solche umgekehrte Berechnung zu einer Überschätzung der Prävalenz der Krankheit führen. Im Allgemeinen ist alles kompliziert.

PS Vielen Dank an Gregory Demin für einen Hinweis auf die Art der Verteilung.

All Articles