O clima de amor está no ar. Os dados utlizados nessa análise são referentes a várias rodadas de encontros relâmpagos (Speed Dating) entre 310 jovens americanos. A princípio os dados foram reduzidos, retiradas algumas colunas, para agilizar o processamento, os dados foram coletados por professores da Columbiam Business School. Como a coleta dos dados ocorreu? Os participantes dos encontros preencheram fichas referentes a cada um dos encontros que participou durante a noite, cada encontro durava em torno de 4 minutos. Cada linha da tabela representa um encontro. Vamos iniciar nossa análise dando uma olhada nos dados.
# a correlação dos interesses (int_corr) de p1 e p2 influencia a probabilidade (prob) deles terem um novo encontro?
# quais variaveis mais influenciam na probabilidade de p1 achar que p2 toparia outro encontro?
dados <- read.csv("dados/speed-dating.csv")
#summary(dados)
dados = data.frame(dados$iid, dados$gender, dados$int_corr, dados$attr, dados$reading, dados$museums, dados$art, dados$concerts, dados$shar, dados$like, dados$prob, dados$intel3_s)
names(dados) <- c("id", "gender", "corr", "attr", "reading", "museums", "art", "concerts", "shar", "like", "prob", "selfIntel")
No decorrer do encontro, os pretendentes vão preenchendo uma ficha com algumas informações sobre seus interesses e algumas perguntas sobre o outro. Uma dessas informações é a probabilidade que a pessoa 1 acha que a pessoa 2 aceitaria sair novamente. Utilizando a variável, queremos saber se essa probabilidade é influênciada pela correlação entre os interesses de ambos. Vamos dar uma olhada se existe uma relação entre a probabilidade e a correlação dos interesses.
ggplot(dados, aes(y=dados$prob, x=dados$corr)) +
geom_point(alpha = 0.1, position = position_jitter(width = 0.3), color="blue") +
labs(title="C", x= "Correlação", y="Probabilidade")
## Warning: Removed 213 rows containing missing values (geom_point).
Analisando o gráfico, conseguimos ver uma mancha mais escura na região central, o que poderia ser uma correlação relativamente baixa entre os interesses poderia ter uma probabilidade de um encontro futuro em torno de 50% de chances. Definimos agora nosso modelo de regressão linear, onde pretendemos descobrir a significância da relação probabilidade de um novo encontro e correlação de interesses entre os pretendentes realmente existe.
#modelo
probCorrMod = lm(prob ~ corr, data = dados)
summary(probCorrMod)
##
## Call:
## lm(formula = prob ~ corr, data = dados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.1958 -1.1518 -0.0045 1.8482 5.1635
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.96832 0.03712 133.853 <2e-16 ***
## corr 0.25845 0.10208 2.532 0.0114 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.16 on 4703 degrees of freedom
## (213 observations deleted due to missingness)
## Multiple R-squared: 0.001361, Adjusted R-squared: 0.001149
## F-statistic: 6.411 on 1 and 4703 DF, p-value: 0.01138
tidy(probCorrMod, conf.int = TRUE)
## term estimate std.error statistic p.value conf.low
## 1 (Intercept) 4.9683196 0.03711785 133.852566 0.00000000 4.89555125
## 2 corr 0.2584514 0.10207731 2.531918 0.01137633 0.05833203
## conf.high
## 1 5.0410880
## 2 0.4585707
#plot do modelo
ggplot(dados, aes(dados$corr, dados$prob)) + geom_point(alpha = 0.1, position = position_jitter(width = 0.3)) +
labs(title="Previsão do modelo", x= "Correlação", y="Probabilidade") +
geom_line(aes(y = predict(probCorrMod, dados)), colour = "red")
## Warning: Removed 213 rows containing missing values (geom_point).
## Warning: Removed 72 rows containing missing values (geom_path).
Vamos analisar os resíduos agora.
#residuos
ggplot(probCorrMod, aes(corr, .resid)) +
labs(title="Resíduos do modelo", x= "Correlação", y="Resíduos") +
geom_point(alpha = 0.1) +
geom_hline(yintercept = 0, colour = "blue")
ggplot(probCorrMod, aes(.resid)) + labs(title="Frequência de resíduos", x= "Resíduo", y="Frequência") +
geom_freqpoly(binwidth = 0.5)
Analisando os resultados, percebemos que a probabilidade de um possível novo encontro não tem uma relação de significância alta com os interesses em comum. Logo, mesmo que a correlação entre os interesses seja baixa, próxima de zero, a probabilidade de um novo encontro chegar 40% e 50% de chances, ou seja, nada está perdido ainda.