Temos dados descrevendo 5000 encontros relâmpagos de 4 minutos envolvendo 310 jovens americanos. Os dados originais foram coletados por professores da Columbia Business School no experimento realizado. Aqui estamos usando uma versão com menos colunas. Os participantes tinham vários encontros de 4 minutos por noite. Após cada um, preenchiam fichas avaliando aqueles com quem se encontraram. Cada linha nos dados representa um desses encontros. Para esse relatório, vamos usar as variáveis que se relacionam diretamente com a opinião dos participantes, são elas:
e claro a variável decque representa a decisão final (match ou não)
dates = read_csv(("speed-dating/speed-dating2.csv")) %>% mutate(decBoolean = ifelse(dec =="yes" ,1,0)) %>% select(attr, sinc, fun, amb, shar, like, prob, decBoolean) %>% na.omit()
## Parsed with column specification:
## cols(
## .default = col_double(),
## field = col_character(),
## from = col_character(),
## career = col_character(),
## attr3_s = col_logical(),
## sinc3_s = col_logical(),
## intel3_s = col_logical(),
## fun3_s = col_logical(),
## amb3_s = col_logical(),
## dec = col_character()
## )
## See spec(...) for full column specifications.
## Warning: 10220 parsing failures.
## row col expected actual file
## 1847 attr3_s 1/0/T/F/TRUE/FALSE 8.00 'speed-dating/speed-dating2.csv'
## 1847 sinc3_s 1/0/T/F/TRUE/FALSE 10.00 'speed-dating/speed-dating2.csv'
## 1847 intel3_s 1/0/T/F/TRUE/FALSE 9.00 'speed-dating/speed-dating2.csv'
## 1847 fun3_s 1/0/T/F/TRUE/FALSE 10 'speed-dating/speed-dating2.csv'
## 1847 amb3_s 1/0/T/F/TRUE/FALSE 10 'speed-dating/speed-dating2.csv'
## .... ........ .................. ...... ................................
## See problems(...) for more details.
A partir do correlograma, vamos avaliar as vaiáveis que mais se correlacionam com dec, que representa a decisão final.
corr <- round(cor(dates), 1)
head(corr[, 1:8])
## attr sinc fun amb shar like prob decBoolean
## attr 1.0 0.4 0.6 0.3 0.5 0.7 0.3 0.5
## sinc 0.4 1.0 0.5 0.4 0.4 0.5 0.3 0.2
## fun 0.6 0.5 1.0 0.5 0.6 0.7 0.4 0.4
## amb 0.3 0.4 0.5 1.0 0.4 0.4 0.3 0.2
## shar 0.5 0.4 0.6 0.4 1.0 0.7 0.5 0.4
## like 0.7 0.5 0.7 0.4 0.7 1.0 0.5 0.5
ggcorrplot(corr, lab = TRUE)
A variáveis escolhidas para o modelo são attr, shar,fune like( atração de um dos participantes, a opinião dele sobre interesses em comum, o quanto achou o outro divertido e o quanto gosto no geral do outro), pois apresentam os maiores coeficientes em relação a dec, podemos ver a partir do correlograma.
Que fatores nos dados têm efeito relevante na chance do casal ter um match? Descreva se os efeitos são positivos ou negativos e sua magnitude.
set.seed(131)
modelo = glm(formula = decBoolean ~ attr + fun + shar + like,
data = dates,
family = "binomial")
tidy(modelo,
conf.int = TRUE,
exponentiate = TRUE)
## # A tibble: 5 x 7
## term estimate std.error statistic p.value conf.low conf.high
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 (Intercept) 0.000892 0.237 -29.6 2.29e-192 0.000556 0.00141
## 2 attr 1.48 0.0296 13.1 1.72e- 39 1.39 1.56
## 3 fun 1.00 0.0299 0.0624 9.50e- 1 0.945 1.06
## 4 shar 1.17 0.0248 6.38 1.79e- 10 1.12 1.23
## 5 like 1.72 0.0389 14.0 2.66e- 44 1.60 1.86
Com 95% de confiança, temos:
A primeira observação é que todos os coeficientes são positivos, então possuem um efeito positivo na decisão final. A variável fun, possui o 1 dentro do seu intervalo de confiança. As variáveis attr e likesão as mais influentes, o que significa que achar uma pessoa atraente e ter gostado da mesma de um modo geral influencia na decisão final mais do que share fun, que consistem em compartilhamento de gostos e achar a pessoa engraçada (possuem um efeito um pouco menor sobre a decisão final).
pR2(modelo)
## fitting null model for pseudo-r2
## llh llhNull G2 McFadden r2ML
## -1991.6773426 -2796.6067453 1609.8588054 0.2878236 0.3243464
## r2CU
## 0.4360054
O modelo explica 28.78% dos dados observados.