library(rio)
data <- import("datos2016_v3.sav")
VD: Voto a KF en primera vuelta VI: Dummy: departamentos que son de la Costa
mean(data$Voto_KF_2016_1[data$costa==0], na.rm=T)
## [1] 36.39375
mean(data$Voto_KF_2016_1[data$costa==1], na.rm=T)
## [1] 42.8
Resultados No Costa: 36.39 Si Costa: 42.8 A continuación, se analiza si la diferencia entre 36.39 y 42.8 es estadísticamente significativa
library(DescTools)
LeveneTest(data$Voto_KF_2016_1, data$costa)
## Warning in LeveneTest.default(data$Voto_KF_2016_1, data$costa): data$costa
## coerced to factor.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 1.3468 0.2577
## 23
#Por qué aquí no se convierte en factor?
Vemos que el p-value es 0.2577 así que rechazamos la HO y comprobamos la H1 que nos indica que no hay igualdad de varianzas Luego del test de igualdad de varianzas, se puede correr la prueba t.
t.test(Voto_KF_2016_1 ~ costa, data=data, var.equal=F)
##
## Welch Two Sample t-test
##
## data: Voto_KF_2016_1 by costa
## t = -1.215, df = 12.031, p-value = 0.2477
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
## -17.890818 5.078318
## sample estimates:
## mean in group 0 mean in group 1
## 36.39375 42.80000
El P-value es 0.2477. Por lo tanto, compruebo compruebo mi H0 que me indica que no hay diferencias estadísticamente significativa respecto al voto a Keiko Fujimori en primera vuelta en los departamentos de la costa y los que no lo son.
plot(data$costa, data$Voto_KF_2016_1,
xlab="Departamento de la costa",
ylab="Voto a Keiko Fujimori (1era vuelta)")
abline(lm(data$Voto_KF_2016_1 ~ data$costa))
library(gplots)
## Registered S3 method overwritten by 'gplots':
## method from
## reorder.factor DescTools
##
## Attaching package: 'gplots'
## The following object is masked from 'package:DescTools':
##
## reorder.factor
## The following object is masked from 'package:stats':
##
## lowess
plotmeans(data$Voto_KF_2016_1 ~ data$costa,
connect=F, barwidth=3,
xlab="Departamento de la costa",
ylab="Voto a Keiko Fujimori (1era vuelta",
main="No sé qué poner")
modelo1 <- lm(data$Voto_KF_2016_1 ~ data$costa)
summary(modelo1)
##
## Call:
## lm(formula = data$Voto_KF_2016_1 ~ data$costa)
##
## Residuals:
## Min 1Q Median 3Q Max
## -21.760 -7.604 1.940 7.046 21.720
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 36.394 2.819 12.912 5.05e-12 ***
## data$costa 6.406 4.698 1.364 0.186
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11.27 on 23 degrees of freedom
## Multiple R-squared: 0.07481, Adjusted R-squared: 0.03459
## F-statistic: 1.86 on 1 and 23 DF, p-value: 0.1858
Los resultados indican que la recta es \(\hat{Y} = 36.394 + 6.4*X\). Esta recta tiene el valor de 36.39 cuando X=0. Es decir, para los departamentos que no son de la costa, el promedio de voto a KF es 36.39. Cuando X=1, el promedio de voto a KF es 36.39+6.4 = 42.79.
Regresión lineal como ANOVA
Evaluar las diferencias en el voto a PPK en 2016 entre las 3 regiones: costa, sierra y selva
##Primero vemos diferencia de medias
mean(data$Voto_PPK_2016_1[data$region==1], na.rm=T)
## [1] 19.09556
mean(data$Voto_PPK_2016_1[data$region==2], na.rm=T)
## [1] 13.45
mean(data$Voto_PPK_2016_1[data$region==3], na.rm=T)
## [1] 14.52833
costa: 19.09 sierra: 13.45 selva: 14.53
anova <- aov(data$Voto_PPK_2016_1 ~ as.factor(data$region))
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(data$region) 2 162.6 81.29 1.642 0.216
## Residuals 22 1089.0 49.50
TukeyHSD(anova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = data$Voto_PPK_2016_1 ~ as.factor(data$region))
##
## $`as.factor(data$region)`
## diff lwr upr p adj
## 2-1 -5.645556 -13.76633 2.475220 0.2109445
## 3-1 -4.567222 -13.88239 4.747946 0.4477063
## 3-2 1.078333 -8.04863 10.205297 0.9527063
De acuerdo al p-value (0.216) de ANOVA se concluye que no hay diferencia estádisticamente significativa Confirmamos ello en la prueba de Tukey
modelo2 <- lm(data$Voto_PPK_2016_1 ~ data$costa + data$sierra)
summary(modelo2)
##
## Call:
## lm(formula = data$Voto_PPK_2016_1 ~ data$costa + data$sierra)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.830 -4.940 -3.186 7.750 13.880
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 14.528 2.872 5.058 4.58e-05 ***
## data$costa 4.567 3.708 1.232 0.231
## data$sierra -1.078 3.633 -0.297 0.769
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.036 on 22 degrees of freedom
## Multiple R-squared: 0.1299, Adjusted R-squared: 0.0508
## F-statistic: 1.642 on 2 and 22 DF, p-value: 0.2164
Estimate Std. Error t value (Intercept) 14.528 2.872 5.058 data\(costa 4.567 3.708 1.232 data\)sierra -1.078 y= 14.53+ 4.5 x X1 -1.08 x X2 costa: 19.09 sierra: 13.45 selva: 14.53 Cuando x=1 y x2=0 –> Y= 19.01 –> promedio de la costa Cuando x1=0 y x2= 1 –> y= 13.45 –> promedio de la sierra Cuando x1=0 y x2= 0 –> y= 14,53 –> promedio de la selva ##Coeficientes de variables dummy son las diferencias entre los grupos 4.5= costa (19.09) - selva (14.54) -1.08= sierra (13.45) - selva (14.53)
plotmeans(data$Voto_PPK_2016_1 ~ data$region,
connect=F, barwidth=3,
xlab="Región",
ylab="Voto a PPK (1era vuelta",
main="jeje")