linkend= read.csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vR4lrRLbvm1cUlvS4VZzrfFStIFGXT-x3IfkWogpON1DNo1nuqoVr7khW21Ij8OAF8T1OAaBF2t_sOX/pub?output=csv", stringsAsFactors = F, na.strings = '')
Comprobando…
str(linkend)
## 'data.frame': 1834 obs. of 12 variables:
## $ ubiReg : int 10000 10000 10000 10000 10000 10000 10000 10000 10000 10000 ...
## $ ubiProv : int 10200 10200 10200 10200 10200 10200 10300 10300 10300 10300 ...
## $ ubiDis : int 10202 10201 10203 10204 10205 10206 10302 10303 10304 10305 ...
## $ depa : chr "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
## $ prov : chr "BAGUA" "BAGUA" "BAGUA" "BAGUA" ...
## $ dist : chr "ARAMANGO" "BAGUA" "COPALLIN" "EL PARCO" ...
## $ pobla : int 11587 26067 6501 1443 23820 8020 349 282 922 883 ...
## $ esperanza : num 76.8 74.7 78 77.4 77.4 ...
## $ accesoedu : num 5.38 8.33 5.77 6.24 5.78 8.33 5.76 6.75 4.83 5.04 ...
## $ percapitaf: num 405 662 452 551 209 ...
## $ PPK : int 1823 4949 1490 604 6282 2342 135 92 234 283 ...
## $ FP : int 3072 5809 1321 400 2059 2765 118 162 189 155 ...
Limpieza de data a. Eliminando lo que no usaré
linkend$ubiReg=NULL
linkend$ubiProv=NULL
linkend$ubiDis=NULL
Compruebo qué tal quedó…
str(linkend)
## 'data.frame': 1834 obs. of 9 variables:
## $ depa : chr "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
## $ prov : chr "BAGUA" "BAGUA" "BAGUA" "BAGUA" ...
## $ dist : chr "ARAMANGO" "BAGUA" "COPALLIN" "EL PARCO" ...
## $ pobla : int 11587 26067 6501 1443 23820 8020 349 282 922 883 ...
## $ esperanza : num 76.8 74.7 78 77.4 77.4 ...
## $ accesoedu : num 5.38 8.33 5.77 6.24 5.78 8.33 5.76 6.75 4.83 5.04 ...
## $ percapitaf: num 405 662 452 551 209 ...
## $ PPK : int 1823 4949 1490 604 6282 2342 135 92 234 283 ...
## $ FP : int 3072 5809 1321 400 2059 2765 118 162 189 155 ...
PREGUNTA 01 PPK ganó le ganó a FP en todos los departamentos? Cómo saber dónde ganó? Debo saber donde PPK sacó más votos que Keiko, eso se cacula así:
linkend$difvotos=linkend$PPK- linkend$FP
head(aggregate(difvotos ~ depa, data = linkend, sum),20)
## depa difvotos
## 1 AMAZONAS -8229
## 2 ANCASH -13433
## 3 APURIMAC 7173
## 4 AREQUIPA 294889
## 5 AYACUCHO -6609
## 6 CAJAMARCA 1026
## 7 CALLAO 3494
## 8 CUSCO 192768
## 9 HUANCAVELICA 23266
## 10 HUANUCO -7211
## 11 ICA -27094
## 12 JUNIN -15287
## 13 LA LIBERTAD -217134
## 14 LAMBAYEQUE -122775
## 15 LIMA 15687
## 16 LORETO 31347
## 17 MADRE DE DIOS -19250
## 18 MOQUEGUA 38707
## 19 PASCO 1749
## 20 PIURA -197642
Entonces, si pido un summary y veo negativos, sabré que no ganó en todos los departamentos:
dataDep=aggregate(difvotos ~ depa, data = linkend, sum)
summary(dataDep$difvotos)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -217134 -27094 -6609 2415 23266 294889
Aquí sé en cuáles:
dataDep[dataDep$difvotos>0,'depa']
## [1] "APURIMAC" "AREQUIPA" "CAJAMARCA" "CALLAO"
## [5] "CUSCO" "HUANCAVELICA" "LIMA" "LORETO"
## [9] "MOQUEGUA" "PASCO" "PUNO" "TACNA"
Aquí sé cuántas:
length(dataDep[dataDep$difvotos>=0,'depa'])
## [1] 12
Respuesta PPK no le ganó a FP en todos los departamentos
PREGUNTA 02 Existe correlación entre la ventaja que le sacó PPK a FP y nivel de ingresos? Qué coeficiente usó?
La correlación puede ser vía técnicas paramétricas o no paramétricas. De ahí que debo decidir según si difvotos es normal o no:
Nota: difvotos= variable dependiente percapitaf= variable independiente
shapiro.test(linkend$difvotos)
##
## Shapiro-Wilk normality test
##
## data: linkend$difvotos
## W = 0.46253, p-value < 2.2e-16
De ahí que voy por Spearman:
cor.test(linkend$difvotos,linkend$percapitaf, method = "spearman")
## Warning in cor.test.default(linkend$difvotos, linkend$percapitaf, method =
## "spearman"): Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: linkend$difvotos and linkend$percapitaf
## S = 1112796710, p-value = 0.0004149
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.08235373
Gráficamente
library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
preg2=ggscatter(linkend,
x = "difvotos", y = "percapitaf",
cor.coef = TRUE,
cor.method = "spearman")
preg2
Para las siguientes preguntas, hacemos una regresión:
todasLasHipo=lm(difvotos~accesoedu+esperanza+percapitaf+pobla, data=linkend)
summary(todasLasHipo)
##
## Call:
## lm(formula = difvotos ~ accesoedu + esperanza + percapitaf +
## pobla, data = linkend)
##
## Residuals:
## Min 1Q Median 3Q Max
## -36426 -1276 75 1143 74927
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.553e+03 1.739e+03 2.044 0.04111 *
## accesoedu 2.640e+02 9.807e+01 2.692 0.00716 **
## esperanza -9.462e+01 2.413e+01 -3.921 9.13e-05 ***
## percapitaf 5.003e+00 7.962e-01 6.283 4.13e-10 ***
## pobla -2.494e-02 2.596e-03 -9.607 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5182 on 1829 degrees of freedom
## Multiple R-squared: 0.09786, Adjusted R-squared: 0.09589
## F-statistic: 49.6 on 4 and 1829 DF, p-value: < 2.2e-16
nota: difvotos= votosPPK - votosFP
Se cumple la hipótesis 1? qué nos puedes informar sobre esa hipótesis? H1:PPK tuvo más apoyo que FP mientras mejor acceso a la educación. Se confirma la H1. La relación es directa y el coeficiente (2.64) es significativo al 0.01.
Se cumple la hipótesis 2? qué nos puedes informar sobre esa hipótesis? H2:PPK tuvo más apoyo que FP mientras mayor era a la esperanza de vida. No se confirma la H2. La relación es inversa y el coeficiente (-9.46) es significativo al 0.001
Se cumple la hipótesis 3? qué nos puedes informar sobre esa hipótesis? H3:PPK tuvo menos apoyo que FP mientras mayores ingresos.
No se confirma la H3. La relación es indirecta y el coeficiente (5.00) es significativo al 0.001.
Nota que: sin control:Adjusted R-squared: 0.05078 con control: Adjusted R-squared: 0.09589 Con control, el Adjusted R-squared se eleva. Ese un mejor modelo de regresión.
NUEVA PREGUNTA Será cierto que el promedio de ingresos es más alto donde ganó PPK y perdió Keiko?
Departamentos en los que ganó PPK
dataDep[dataDep$difvotos>0,'depa']
## [1] "APURIMAC" "AREQUIPA" "CAJAMARCA" "CALLAO"
## [5] "CUSCO" "HUANCAVELICA" "LIMA" "LORETO"
## [9] "MOQUEGUA" "PASCO" "PUNO" "TACNA"