report

Os Dados

Temos dados descrevendo 5000 encontros relâmpagos de 4 minutos envolvendo 310 jovens americanos. Os dados originais foram coletados por professores da Columbia Business School no experimento realizado. Aqui estamos usando uma versão com menos colunas. Os participantes tinham vários encontros de 4 minutos por noite. Após cada um, preenchiam fichas avaliando aqueles com quem se encontraram. Cada linha nos dados representa um desses encontros. Para esse relatório, vamos usar as variáveis que se relacionam diretamente com a opinião dos participantes, são elas:

attr : quão atraente p1 achou p2
sinc : quão sincero p1 achou p2
intel : quão inteligente p1 achou p2
fun : quão divertido p1 achou p2
amb : quão ambicioso p1 achou p2
shar : quanto p1 achou que compartilha interesses e hobbies com p2
like : no geral, quanto p1 gostou de p2?
prob : que probabiliade p1 acha que p2 tem de querer se encontrar novamente com p- (escala 1-10)

e claro a variável decque representa a decisão final (match ou não)

Ajustando os dados

dates = read_csv(("speed-dating/speed-dating2.csv")) %>% mutate(decBoolean = ifelse(dec =="yes" ,1,0)) %>% select(attr, sinc, fun, amb, shar, like, prob, decBoolean) %>% na.omit()

## Parsed with column specification:
## cols(
##   .default = col_double(),
##   field = col_character(),
##   from = col_character(),
##   career = col_character(),
##   attr3_s = col_logical(),
##   sinc3_s = col_logical(),
##   intel3_s = col_logical(),
##   fun3_s = col_logical(),
##   amb3_s = col_logical(),
##   dec = col_character()
## )

## See spec(...) for full column specifications.

## Warning: 10220 parsing failures.
##  row      col           expected actual                             file
## 1847 attr3_s  1/0/T/F/TRUE/FALSE  8.00  'speed-dating/speed-dating2.csv'
## 1847 sinc3_s  1/0/T/F/TRUE/FALSE  10.00 'speed-dating/speed-dating2.csv'
## 1847 intel3_s 1/0/T/F/TRUE/FALSE  9.00  'speed-dating/speed-dating2.csv'
## 1847 fun3_s   1/0/T/F/TRUE/FALSE  10    'speed-dating/speed-dating2.csv'
## 1847 amb3_s   1/0/T/F/TRUE/FALSE  10    'speed-dating/speed-dating2.csv'
## .... ........ .................. ...... ................................
## See problems(...) for more details.

Escolhendo variáveis para o modelo

A partir do correlograma, vamos avaliar as vaiáveis que mais se correlacionam com dec, que representa a decisão final.

corr <- round(cor(dates), 1)
head(corr[, 1:8])

##      attr sinc fun amb shar like prob decBoolean
## attr  1.0  0.4 0.6 0.3  0.5  0.7  0.3        0.5
## sinc  0.4  1.0 0.5 0.4  0.4  0.5  0.3        0.2
## fun   0.6  0.5 1.0 0.5  0.6  0.7  0.4        0.4
## amb   0.3  0.4 0.5 1.0  0.4  0.4  0.3        0.2
## shar  0.5  0.4 0.6 0.4  1.0  0.7  0.5        0.4
## like  0.7  0.5 0.7 0.4  0.7  1.0  0.5        0.5

ggcorrplot(corr, lab = TRUE)

A variáveis escolhidas para o modelo são attr, shar,fune like( atração de um dos participantes, a opinião dele sobre interesses em comum, o quanto achou o outro divertido e o quanto gosto no geral do outro), pois apresentam os maiores coeficientes em relação a dec, podemos ver a partir do correlograma.

Pergunta

Que fatores nos dados têm efeito relevante na chance do casal ter um match? Descreva se os efeitos são positivos ou negativos e sua magnitude.

set.seed(131)
modelo = glm(formula = decBoolean ~ attr + fun + shar + like,
             data = dates,
             family = "binomial")
tidy(modelo,
     conf.int = TRUE,
     exponentiate = TRUE)

## # A tibble: 5 x 7
##   term        estimate std.error statistic   p.value conf.low conf.high
##   <chr>          <dbl>     <dbl>     <dbl>     <dbl>    <dbl>     <dbl>
## 1 (Intercept) 0.000892    0.237   -29.6    2.29e-192 0.000556   0.00141
## 2 attr        1.48        0.0296   13.1    1.72e- 39 1.39       1.56   
## 3 fun         1.00        0.0299    0.0624 9.50e-  1 0.945      1.06   
## 4 shar        1.17        0.0248    6.38   1.79e- 10 1.12       1.23   
## 5 like        1.72        0.0389   14.0    2.66e- 44 1.60       1.86

Com 95% de confiança, temos:

attr: 1.4758443103 e IC: [1.3931820733, 1.564656509]
fun: 1.0018689403 e IC: [0.9446831006, 1.062379183]
shar: 1.1714140019 e IC: [1.1159642097, 1.229955408]
like: 1.7203570122 e IC: [1.595271575, 1.8578304479]

A primeira observação é que todos os coeficientes são positivos, então possuem um efeito positivo na decisão final. A variável fun, possui o 1 dentro do seu intervalo de confiança. As variáveis attr e likesão as mais influentes, o que significa que achar uma pessoa atraente e ter gostado da mesma de um modo geral influencia na decisão final mais do que share fun, que consistem em compartilhamento de gostos e achar a pessoa engraçada (possuem um efeito um pouco menor sobre a decisão final).

pR2(modelo)

## fitting null model for pseudo-r2

##           llh       llhNull            G2      McFadden          r2ML 
## -1991.6773426 -2796.6067453  1609.8588054     0.2878236     0.3243464 
##          r2CU 
##     0.4360054

O modelo explica 28.78% dos dados observados.

report

Mariana Mendes

7/6/2020

Os Dados

Ajustando os dados

Escolhendo variáveis para o modelo

Pergunta