Nesta análise, analisaremos dados de encontros relâmpago, obtidos através da realização de um experimento na Columbia Business School. Estamos interessados em conhecer o efeito que algumas variáveis exercem sobre a chance do casal ter um match.

Dados

Nos dados, temos informações a respeito dos encontros. Para realizar a análise, selecionamos particularmente quatro:

Nos dados, temos 42.5501771% de matches. Podemos ter uma visão rápida da distribuição das variáveis selecionadas e como elas se relacionam a seguir:

Podemos observar que temos distribuições simétricas e que nenhum par de variáveis possui uma correlação significativa. Desta forma, podemos prosseguir com a análise.

Aqui, faremos uso de regressão logística para entender melhor que variáveis afetam a chance de ocorrêcia de um match, de acordo com a amostra de dados que possuímos.

É importante notar que o modelo de regressão logística produz um valor conhecido como “chance”(do inglês odds), que é diferente de probabilidade. A chance de ocorrência de um evento, pode ser computada como a probabilidade de ocorrência do evento, dividida pela probabilidade de não ocorrência do mesmo. Desta forma, se um evento e tem 80% de probabilidade de ocorrência, dizemos que tem chance de 80%/20%, ou 4/1.

Regressão Logística

## # A tibble: 5 x 5
##   term        estimate statistic conf.low conf.high
##   <chr>          <dbl>     <dbl>    <dbl>     <dbl>
## 1 (Intercept)  0.00426    -22.9   0.00265   0.00675
## 2 fun          1.23         7.06  1.16      1.30   
## 3 hob          1.34        12.6   1.28      1.40   
## 4 attr         1.73        19.7   1.64      1.82   
## 5 intel        0.850       -5.29  0.801     0.903

O modelo nos dá alguns coeficientes que mostram a influência que as variáveis selecionadas tem na chande de um casal ter um match. Como temos apenas uma amostra dos encontros, podemos visualizar estes coeficiêntes através dos intervalos de confiança dos mesmos, computados com 95% de confiança.

É fácil perceber através da visualização, que a variável attr, que representa o quão atraente p1 achou p2, possui o maior efeito na chance do match, com um intervalo de confiança de [1.63; 1..82]. Pelo contrário, intel, que representa o quão inteligente, p1 achou p2, possui o menor efeito [0.8; 0.9].

Todas as variáveis analisadas possuem efeito positivo na chance de ocorrência de um match, como fun (quão divertido p1 achou p2) [1.15; 1.29] e hob (percepção de p1 sobre compartilhamento de hobbies com p2) [1.28; 1.40], como nenhum intervalo cruza o zero, temos evidências para inferir que os efeitos existem e são de fato positivos.