Speed Dating - qual a fórmula do sucesso ?

Speed Dating foi criado para unir pessoas com interesses em comum. A conversa rápida funciona como apresentação e, dependendo da compatibilidade de interesses, pode render novos encontros e até casamento. Para tentar achar a formula do sucesso utilizaremos dados de 5000 encontros relâmpagos (speed dating) de 4 minutos que foram coletados por professores da Columbia Business School. Após cada encontro, as pessoas preenchiam fichas avaliando aqueles com quem se encontraram. cada linha nos dados representa um desses encontros.

Resumo dos dados

dados <- read_csv("data/speed-dating2.csv") %>%
  mutate(dec = as.factor(dec), 
         gender = as.factor(gender),
         field = as.factor(field))

Será que nesses encontros tem mais homens do que mulheres?

dados %>%
  ggplot(aes(gender)) +
  geom_histogram(
      aes(fill=gender), 
      binwidth = .1, 
      col="black",
      stat="count",
      size=.1) +
  labs(x = "Gênero", 
       y = "Número de participantes", 
       fill="Gênero") +  
  scale_x_discrete(labels = c('Feminino', 'Masculino')) + 
  scale_fill_discrete(labels = c('Feminino', 'Masculino'))

E vamos dar uma olhada na idade do pessoal

dados %>%
  ggplot(aes(age)) +
  geom_histogram(aes(fill=gender), 
      binwidth = .1, 
      col="black",
      stat="count",
       position="dodge",
      size=.1) +
  labs(x = "Idade", 
       y = "Número de participantes", 
       fill="Gênero") +
  scale_fill_discrete(labels = c('Feminino', 'Masculino'))

De qual área elas são?

dados.field = dados %>%
  group_by(field) %>% 
    summarise(n = n()) 
dados.orderedField = dados.field[order(-dados.field$n),]
dados.orderedField %>% head(10) %>% 
  ggplot(aes(field, n)) +
  geom_point(size=3) + 
  geom_segment(aes(x=field, xend=field, y=0, yend=n)) +
  labs(x = "Área de estudo", y = "Número de participantes") + 
  theme(axis.text.x = element_text(angle=45, vjust=1, hjust=1.1, size=12))

Há equilibro entre a quantidade de homens e mulheres, é um grupo de pessoas jovens e de diversas áreas de estudo.

A hora da verdade

Nosso objetivo é determinar qual influência alguns fatores exercem sobre o interesse de Match (quando a pessoa gostaria de sair novamente com a outra para se conhecer mais). Observando as variáveis disponíveis foram escolhidas as seguintes:

Utilizando regessão logsitica chegamos no seguinte modelo:

modelo = glm(dec ~ int_corr + gender + attr + fun + intel + like, data = dados, family = "binomial")
tidy(modelo, conf.int = TRUE, conf.level = 0.95, exp = T)
## # A tibble: 7 x 7
##   term        estimate std.error statistic   p.value conf.low conf.high
##   <chr>          <dbl>     <dbl>     <dbl>     <dbl>    <dbl>     <dbl>
## 1 (Intercept)  0.00191    0.253    -24.8   1.48e-135  0.00116   0.00312
## 2 int_corr     1.09       0.120      0.718 4.73e-  1  0.861     1.38   
## 3 gender1      1.26       0.0745     3.15  1.64e-  3  1.09      1.46   
## 4 attr         1.45       0.0281    13.3   2.37e- 40  1.38      1.54   
## 5 fun          1.14       0.0287     4.45  8.51e-  6  1.07      1.20   
## 6 intel        0.799      0.0317    -7.06  1.65e- 12  0.751     0.850  
## 7 like         1.98       0.0374    18.3   1.06e- 74  1.84      2.13

De acordo com os resultados temos que: A correlação de interesses pode ou não ter uma influência sobre o match, com valor estimado de 1.09 e intervalo de confiança de 95% entre [0.86, 1.38] podemos concluir que ele pode ter um efeito negativo pequeno e variar até um efeito positivo pequeno. O gênero teve um IC de 95% de [1.09, 1.46], podendo ter um efeito irrisório ou um efeito médio e positivo sobre o match, ou seja os homens podem tender a ter mais matchs que as mulheres. Como já era esperado ser atraentre tem efeito positivo com intensidade média sobre o match, com IC de [1.37, 1.53]. Ser engraçado pode não ter influência ou ter pouca influência positiva já que o IC é de [1.07, 1.20]. Infelizmente ser considerado inteligente atrapalha um pouco os dates, com IC de [0.75, 0.85] a inteligência tem efeito negativo e de intesidade moderada. Mas o que importa mesmo, independente das caracteristicas individuais é que se no geral a pessoa gostou de você, suas chances praticamente dobram, isso é o que mostra o IC do like que é de [1.84, 2.13], ou seja tem um efeito positivo muito forte.

Mas será que essas informações se aplicam a todos dados?

pR2(modelo)
##           llh       llhNull            G2      McFadden          r2ML 
## -2224.9710749 -3338.8632511  2227.7843524     0.3336142     0.3832893 
##          r2CU 
##     0.5009279

O R2 de McFadden é bastante utilizado para verificar o quão bem meu modelo explica os dados. No nosso caso apenas 33% dos dados podem ser explicados pelo modelo. Ou seja não tem receita de bolo pronta, mas esse modelo pode servir como dica para os dates futuros.