library(rio)
data=import("datos2016_v3.sav")
PASO 0: EXPLORO Y LIMPIO MIS VARIABLES
summary(data$Analfabetismo_2014)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 5.00 6.00 7.76 10.00 17.00
class(data$Analfabetismo_2014)
## [1] "numeric"
summary(data$Tasa_Delitos)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.00 56.00 73.00 79.68 116.00 176.00
class(data$Tasa_Delitos)
## [1] "numeric"
summary(data$Voto_KF_2016_1)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 21.04 30.98 40.46 38.70 44.74 64.52
class(data$Voto_KF_2016_1)
## [1] "numeric"
summary(data$Voto_PPK_2016_1)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.62 9.69 13.87 15.74 21.20 29.78
class(data$Voto_PPK_2016_1)
## [1] "numeric"
#Todas son numéricas y no se observan datos perdidos
PASO 1: IDENTIFICAR LA VARIABLES Y SUPUESTO DE NORMALIDAD Hipótesis de la normalidad H0: La variable presenta una distribución normal H1: La variable no presenta una distribución normal
Pruebas de normalidad Se observa que n > 50 así que aplico la prueba de Kolmogorov Smirnov
library(nortest)
lillie.test(data$Voto_PPK_2016_1)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data$Voto_PPK_2016_1
## D = 0.21068, p-value = 0.005629
lillie.test(data$Analfabetismo_2014)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data$Analfabetismo_2014
## D = 0.1777, p-value = 0.04053
Voto a PPK: p-value = 0.005629
Tasa de analfabetismo: p-value = 0.04053
Conclusión: Se observa que ambos p-value son menores a 0.05 por lo que no hay normalidad en ninguna variable. Por lo tanto, usaré el Coeficiente de Spearman para saber si hay correlación entre ambas variables
PASO 2: ESTABLEZCO MIS HIPÓTESIS H0: No existe correlación entre la tasa de analfabetismo por región y el voto a PPK en primera vuelta
H1: Sí existe correlación entre la tasa de analfabetismo por región y el voto a PPK en primera vuelta
PASO 3: APLICO LA PRUEBA ESTADÍSTICA R-SPEARMAN
cor.test(data$Analfabetismo_2014,data$Voto_PPK_2016_1, method = c("spearman"))
## Warning in cor.test.default(data$Analfabetismo_2014, data$Voto_PPK_2016_1, :
## Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: data$Analfabetismo_2014 and data$Voto_PPK_2016_1
## S = 4431.6, p-value = 8.465e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.7044591
Interpretación: Debido a que el P-value es menor a 0.05 (8.465e-05) rechazamos la H0 y, por tanto, aceptamos la H1 de que sí existe correlación entre la variables “Voto a PPK en primera vuelta” y “Tasa de analfabetismo”
Por otro lado, se observa que el rho es -0.7044591. Por lo tanto, de acuerdo al criterio de Cohen, se observa que la correlación entre ambas variables es inversamente proporcional (correlación negativa). Así, a medida que la tasa de analfabetismo aumenta, menor será el voto a PPK. Además, al ubicarse entre -1 y -0.5 la correlación es grande.
PASO 4: Comprobamos gráficamente
plot(data$Analfabetismo_2014,data$Voto_PPK_2016_1, xlab="Tasa de analfabetismo", ylab="Voto a PPK (1era vuelta")
regresion = lm(data$Analfabetismo_2014~data$Voto_PPK_2016_1, data=data)
regresion
##
## Call:
## lm(formula = data$Analfabetismo_2014 ~ data$Voto_PPK_2016_1,
## data = data)
##
## Coefficients:
## (Intercept) data$Voto_PPK_2016_1
## 14.2547 -0.4126
#OTRA FORMA
plot(data$Analfabetismo_2014, data$Voto_PPK_2016_1,
xlab="Tasa de analfabetismo",
ylab="Voto a PPK (1era vuelta)",
pch=15, xlim=c(0,60), ylim=c(0, 30))
abline(regresion)
text(data$Analfabetismo_2014, data$Voto_PPK_2016_1, labels=data$Dpto, cex=0.6, pos=4)
plot(data$Tasa_Delitos,
data$Voto_KF_2016_1,
xlab="Tasa de delitos",
ylab="Voto a Keiko (primera vuelta)",
pch=15, xlim=c(0,60), ylim=c(0, 30))
text(data$Tasa_Delitos, data$Voto_KF_2016_1, labels=data$Dpto, cex=0.6, pos=4)