library(rio)
data=import("datos2016_v3.sav")

PASO 0: EXPLORO Y LIMPIO MIS VARIABLES

summary(data$Analfabetismo_2014)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00    5.00    6.00    7.76   10.00   17.00
class(data$Analfabetismo_2014)
## [1] "numeric"
summary(data$Tasa_Delitos)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.00   56.00   73.00   79.68  116.00  176.00
class(data$Tasa_Delitos)
## [1] "numeric"
summary(data$Voto_KF_2016_1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   21.04   30.98   40.46   38.70   44.74   64.52
class(data$Voto_KF_2016_1)
## [1] "numeric"
summary(data$Voto_PPK_2016_1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.62    9.69   13.87   15.74   21.20   29.78
class(data$Voto_PPK_2016_1)
## [1] "numeric"
#Todas son numéricas y no se observan datos perdidos

PASO 1: IDENTIFICAR LA VARIABLES Y SUPUESTO DE NORMALIDAD Hipótesis de la normalidad H0: La variable presenta una distribución normal H1: La variable no presenta una distribución normal

Pruebas de normalidad Se observa que n > 50 así que aplico la prueba de Kolmogorov Smirnov

library(nortest)
lillie.test(data$Voto_PPK_2016_1)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  data$Voto_PPK_2016_1
## D = 0.21068, p-value = 0.005629
lillie.test(data$Analfabetismo_2014)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  data$Analfabetismo_2014
## D = 0.1777, p-value = 0.04053

Voto a PPK: p-value = 0.005629

Tasa de analfabetismo: p-value = 0.04053

Conclusión: Se observa que ambos p-value son menores a 0.05 por lo que no hay normalidad en ninguna variable. Por lo tanto, usaré el Coeficiente de Spearman para saber si hay correlación entre ambas variables

PASO 2: ESTABLEZCO MIS HIPÓTESIS H0: No existe correlación entre la tasa de analfabetismo por región y el voto a PPK en primera vuelta

H1: Sí existe correlación entre la tasa de analfabetismo por región y el voto a PPK en primera vuelta

PASO 3: APLICO LA PRUEBA ESTADÍSTICA R-SPEARMAN

cor.test(data$Analfabetismo_2014,data$Voto_PPK_2016_1, method = c("spearman"))
## Warning in cor.test.default(data$Analfabetismo_2014, data$Voto_PPK_2016_1, :
## Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  data$Analfabetismo_2014 and data$Voto_PPK_2016_1
## S = 4431.6, p-value = 8.465e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.7044591

Interpretación: Debido a que el P-value es menor a 0.05 (8.465e-05) rechazamos la H0 y, por tanto, aceptamos la H1 de que sí existe correlación entre la variables “Voto a PPK en primera vuelta” y “Tasa de analfabetismo”

Por otro lado, se observa que el rho es -0.7044591. Por lo tanto, de acuerdo al criterio de Cohen, se observa que la correlación entre ambas variables es inversamente proporcional (correlación negativa). Así, a medida que la tasa de analfabetismo aumenta, menor será el voto a PPK. Además, al ubicarse entre -1 y -0.5 la correlación es grande.

PASO 4: Comprobamos gráficamente

plot(data$Analfabetismo_2014,data$Voto_PPK_2016_1, xlab="Tasa de analfabetismo", ylab="Voto a PPK (1era vuelta")

regresion = lm(data$Analfabetismo_2014~data$Voto_PPK_2016_1, data=data)
regresion
## 
## Call:
## lm(formula = data$Analfabetismo_2014 ~ data$Voto_PPK_2016_1, 
##     data = data)
## 
## Coefficients:
##          (Intercept)  data$Voto_PPK_2016_1  
##              14.2547               -0.4126
#OTRA FORMA
plot(data$Analfabetismo_2014, data$Voto_PPK_2016_1,
     xlab="Tasa de analfabetismo",
     ylab="Voto a PPK (1era vuelta)",
     pch=15, xlim=c(0,60), ylim=c(0, 30))
abline(regresion)


text(data$Analfabetismo_2014, data$Voto_PPK_2016_1, labels=data$Dpto, cex=0.6, pos=4)

plot(data$Tasa_Delitos, 
     data$Voto_KF_2016_1,
     xlab="Tasa de delitos",
     ylab="Voto a Keiko (primera vuelta)",
     pch=15, xlim=c(0,60), ylim=c(0, 30))
text(data$Tasa_Delitos, data$Voto_KF_2016_1, labels=data$Dpto, cex=0.6, pos=4)