Intervalo de confiança para o número de pacientes com coronavírus (cálculo da mortalidade)

Um argumento popular para uma publicação viral sobre o coronavírus - como obter estatísticas para três casos? Você não pode tirar conclusões sobre amostras tão pequenas! Todo mundo que estudou ciências sociais absorveu essa história sobre o tamanho das amostras com o leite de alma da mãe. E isso é correto naquelas situações com as quais geralmente lidamos - com estatísticas seletivas.

Para o caso dos três falecidos, essas estatísticas são indiretamente relacionadas. Naqueles anos em que eu ainda ensinava métodos matemáticos para psicólogos da universidade, eu sempre tentava parar nesse lugar - algo que todo esse curso trata não está relacionado a dados reais. Apenas para o problema, quando precisamos tirar uma conclusão sobre a população em geral a partir de uma amostra aleatória.

E aqui temos o número 3. Três mortos, não algum tipo de vetor, nem uma tabela ou amostra. É um fato. Três dos mortos vieram até nós completamente por acaso. Eles morreram.

Portanto, consideraremos um dos métodos mais simples para determinar o número de casos - pela taxa de mortalidade e pelo número de mortes. Suponha que conheçamos a mortalidade e é de 1%. Nessa situação, seria lógico e correto considerar que o número de pessoas recuperadas será 297. Mas qual é a confiabilidade desse julgamento? Podemos simplesmente deixar de lado que temos três mortos, afirmando que três não são estatísticas?

imagem

Esta pergunta será respondida por uma distribuição binomial negativa e seu profeta - Wikipedia. Existem muitas letras gregas, se você, como eu, tem medo delas, vou lhe contar o que acontece. Essa distribuição apenas responde à pergunta de quantas vezes é necessário rolar o dado para que o seis caia cinco vezes. Eu uso a linguagem de programação R para cálculos, na qual existe uma função pronta que permite avaliar o intervalo de confiança.

qnbinom(p=c(.025,.975),size=3, prob=0.01)

Aqui p é 2,5% abaixo e 2,5% acima, entre os quais o intervalo desejado está localizado.

O resultado é um intervalo de confiança de 60 a 717. Não é tão ruim! É provável que os três mortos não signifiquem 297 recuperados, mas apenas sessenta! Mas talvez por setecentos. :-(

Para pessoas muito suspeitas que não acreditam em uma distribuição binomial negativa, eu posso oferecer modelagem numérica. Em geral, se você não sabe calcular por fórmulas e distribuições, modelo! Em qualquer situação incompreensível, modelo, Monte Carlo está esperando por você.

Vamos escrever a função random_infected, que simula uma situação de doença e morte.

random_infected <- function(deaths, fatality_rate)
{
  dead = 0
  all = 1
  while (dead < deaths) {
    if (runif(1) < fatality_rate) {
      all = all + 1
      dead = dead + 1
    } else
      all = all + 1
  }
  return(all)
}

Esta função faz o seguinte - rola um cubo "n-face" (usando distribuição uniforme). Se um deles for descartado, aumentará o número de mortos e o número todos em um. E se não, então apenas o número todo. Cada rolo desse dado é uma pessoa doente que pode morrer ou se recuperar. Assim que tivermos o número de mortes especificado pelo parâmetro de mortes, paramos e relatamos quantas vezes lançamos o dado (o número todo). A probabilidade de alguém cair em nosso cubo imaginário é a mortalidade, no nosso caso o parâmetro fatality_rate.

infected_sizes<-replicate(100000,random_infected(deaths=3,fatality_rate=0.01))

E agora vamos calcular esse número 100 mil vezes. Eu tenho um laptop antigo, por isso estou relutante em esperar até que um milhão seja contado.

Depois disso, você pode calcular a média aritmética dos números obtidos. Eu obtive 301.2 - muito semelhante ao número esperado 300. É assim que a distribuição do número de rolos do nosso cubo da morte se parece:

library(ggplot2)
theme_set(theme_classic())

g <- ggplot(data.frame(infected_sizes=infected_sizes), aes(infected_sizes))
g + geom_density(alpha=0.8,fill="plum")

imagem

Aqui está - uma distribuição binomial negativa, por favor, amor e favor. Com base nesses dados, é possível fornecer respostas aproximadas às perguntas - qual a probabilidade de o número total de casos ser menor que cinquenta (1,2%) ou superior a 1000 (0,3%).

Claro, estas são apenas estimativas. Eles são baseados em dados que podem estar incorretos. Não sabemos sobre a verdadeira mortalidade do coronavírus. Porém, quanto menor essa taxa de mortalidade, mais casos de doença ocorrem em um falecido e maior a estimativa da extensão da pandemia.

Deixe-me lembrá-lo de que lançamos este dado instantaneamente. Para o modelo de cálculo da mortalidade, usado no sensacional artigo de Thomas Pueyo, tenho uma pequena queixa. Lá, assumimos que, com base nas três mortes no dia X, uma taxa de mortalidade de 1% e no conhecimento de que o tempo médio entre a infecção e a morte seja de 17 dias, 300 pessoas foram infectadas no dia X-17. No entanto, esse cálculo é válido apenas se o número de pessoas doentes for o mesmo todos os dias. Como 17 dias não é um número estrito, também possui intervalos de confiança e erros. Se temos um rápido aumento no número de pacientes, entre os que morreram no dia X, temos um certo número de pessoas infectadas não há 17 dias, mas 16 ou 15 dias, e talvez 10 dias atrás. Talvez haja ainda mais deles do que aqueles que foram infectados 17 dias atrás. Nesse caminho,em uma situação de rápido aumento do número de casos, esse cálculo reverso pode levar a superestimações da prevalência da doença. Em geral, tudo é complicado.

PS Agradecemos a Gregory Demin por uma dica sobre o tipo de distribuição.

All Articles