Dados de todos os países, não unem

É bom quando, além de novas constelações, há algo semelhante à dependência do diagrama. Nesse caso, construímos um modelo que explica bem o relacionamento entre as duas variáveis. Mas o pesquisador deve entender não apenas como trabalhar com dados, mas também que tipo de história do mundo real está por trás deles. Caso contrário, é fácil cometer um erro. Vou falar sobre o paradoxo de Simpson - um dos exemplos mais perigosos de dados enganosos que podem virar a conexão de cabeça para baixo.

Vejamos duas variáveis ​​condicionais X e Y. Após a construção do diagrama, veremos uma nuvem claramente estendida da parte inferior esquerda para a parte superior direita, como na figura acima. Uma regressão linear se encaixa perfeitamente nessa imagem, que, com um erro relativamente baixo, nos ajudará a prever os valores: quanto maior o X, maior o Y. A tarefa está concluída. À primeira vista.

Um colega mais experiente recomendará que adicionemos ao diagrama uma repartição por coortes: por exemplo, por país. Seguindo seu conselho, veremos que há realmente uma conexão, mas é diametralmente oposta - dentro de um único país, quanto mais X, menos Y.

Esse é o paradoxo de Simpson: um fenômeno no qual a combinação de vários grupos de dados com a mesma dependência direcional leva a direção oposta.

Exemplo 1: Discriminação Sexual em Berkeley


O exemplo mais famoso do paradoxo de Simpson no mundo real é a confusão com a discriminação de gênero ao se matricular na Universidade de Berkeley em 1973. Entre os pesquisadores, há um relato de que a universidade foi julgada, mas não há evidências convincentes de um julgamento na Internet.

É assim que as estatísticas de admissão nas universidades de 1973 se parecem:
ChãoFormuláriosAceitaram
Homens84423738 (44%)
Mulheres43211494 (35%)
A diferença é significativa. Grande demais para ser aleatório.

No entanto, se quebrarmos os dados por faculdade, a imagem muda. Os pesquisadores descobriram que a razão da diferença é que as mulheres se candidataram a destinos com uma competição mais dura. Além disso, verificou-se que 6 das 85 faculdades eram discriminadas a favor das mulheres e apenas 4 eram contra.

A diferença surge unicamente devido à diferença no tamanho da amostra e no tamanho da competição entre as faculdades. Vou mostrar o exemplo de duas faculdades.
FaculdadeChãoFormuláriosAceitaram
UMAHomens400200 (50%)
UMAMulheres200100 (50%)
BHomens15050 (33%)
BMulheres450150 (33%)
TotalHomens550250 (45%)
TotalMulheres650250 (38%)
Ambas as faculdades aceitam as mesmas ações de homens e mulheres. No entanto, como o número absoluto de homens era maior no corpo docente com uma porcentagem maior de admissões, se combinarmos os dados, verifica-se que, em geral, a porcentagem de homens é maior.

Exemplo 2: experimento A / B desequilibrado


Imagine que você está conduzindo um experimento A / B para aumentar a conversão da sua página de destino. O experimento foi realizado por dois dias, mas no primeiro dia o distribuidor de visitantes quebrou e a opção B recebeu mais visitantes. No segundo dia, esse problema foi corrigido. O resultado são os seguintes números:
UMAB
VisitantesConversõesVisitantesConversões
Dia 140030 (7,5%)2000140 (7%)
Dia 2100060 (6,0%)100055 (5,5%)
Total140090 (6,4%)3000195 (6,5%)
Em cada dia, a opção A tinha uma taxa de conversão mais alta, mas a opção B ganhava no total, porque, no dia com uma conversão mais alta, a opção B apresentava mais tráfego. Neste exemplo, um pesquisador inexperiente lançará a opção B para todo o tráfego, enquanto na verdade a conversão aumentará se ele usar a opção A.

Exemplo 3: o impacto das visitas à página na conversão


Cada site tem uma página que o motiva a comprar mais do que outros. Suponha que criamos um sistema de pontuação de visitantes e selecionamos fatores para ele. Temos uma página "Sobre o produto" e assumimos que visitá-la aumenta a probabilidade de uma conversão. Vamos olhar para os dados.
Página visitada
ConversãoNãosim
Não40004800
sim400320
Taxa de conversão9%6%
À primeira vista, tudo é óbvio - a conversão para quem visita a página é menor que 3 pp, o que significa que a página reduz a probabilidade de conversão. Porém, se dividirmos os dados nas duas coortes mais importantes do marketing na Internet - usuários de computadores e dispositivos móveis, veremos que, de fato, em cada um deles a probabilidade de conversão aumenta com uma visita à página.
MóvelÁrea de Trabalho
Página visitadaPágina visitada
ConversãoNãosimNãosim
Não160042002400600
sim40.180360140
Taxa de conversão2%4%treze%dezenove%
Assumimos que a visita a uma página afeta a conversão. Na prática, uma terceira variável interveio - a plataforma do usuário. Devido ao fato de afetar não apenas a conversão, mas também a probabilidade de visitar a página, no estado agregado, distorceu os dados de tal maneira que nos levou a conclusões opostas ao comportamento real dos usuários.

O que fazer


Na análise dos dados, você precisa entender que tipo de história está por trás deles: o que está acontecendo no mundo real, como foi medido e convertido em um tipo de dados. Portanto, um pesquisador de dados no departamento de marketing precisa conhecer os conceitos básicos de marketing e no setor de petróleo e gás - algo sobre mineração. Isso ajudará a evitar um grande número de erros em potencial, entre os quais o erro de agregação causado pelo paradoxo de Simpson.

As seguintes características de dados geralmente resultam no paradoxo de Simpson:

  1. A presença de coortes significativas que podem afetar os valores das variáveis ​​dependentes (Y) e independentes (X);
  2. Coortes desequilibradas.

Em cada caso, é necessária uma abordagem individual. Considerar que todos os dados devem sempre ser divididos em coortes também é a abordagem errada, porque geralmente são dados agregados que permitem criar o modelo mais preciso. Além disso, todos os dados podem ser divididos para obter o relacionamento que gostaríamos de receber. É verdade que isso não terá nenhuma aplicação prática - as coortes devem ser justificadas.

Para o marketing na Internet, uma das conclusões mais importantes é a necessidade de verificar a operação correta do divisor em experimentos A / B. Os grupos de usuários em cada caso de teste devem ser aproximadamente os mesmos. Não se trata apenas do número total de usuários, mas também de sua estrutura. Se você suspeitar de um problema, verifique primeiro as coortes pelas seguintes características:

  1. Características demográficas;
  2. Distribuição geográfica;
  3. Fonte de tráfego;
  4. Tipo de dispositivo;
  5. Hora da visita.

No próximo artigo, mostrarei como detectar e processar o paradoxo de Simpson ao analisar dados em Python.

Artigo original que descreve o caso de Berkeley: PJ Bickel, EA Hammel e JW O'Connell (1975) “Viés de sexo nas admissões de pós-graduação: dados de Berkeley”

All Articles