ÚLTIMA PRÁCTICA DIRIGIDA

linkend= read.csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vR4lrRLbvm1cUlvS4VZzrfFStIFGXT-x3IfkWogpON1DNo1nuqoVr7khW21Ij8OAF8T1OAaBF2t_sOX/pub?output=csv", stringsAsFactors = F, na.strings = '')

Comprobando…

str(linkend)
## 'data.frame':    1834 obs. of  12 variables:
##  $ ubiReg    : int  10000 10000 10000 10000 10000 10000 10000 10000 10000 10000 ...
##  $ ubiProv   : int  10200 10200 10200 10200 10200 10200 10300 10300 10300 10300 ...
##  $ ubiDis    : int  10202 10201 10203 10204 10205 10206 10302 10303 10304 10305 ...
##  $ depa      : chr  "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
##  $ prov      : chr  "BAGUA" "BAGUA" "BAGUA" "BAGUA" ...
##  $ dist      : chr  "ARAMANGO" "BAGUA" "COPALLIN" "EL PARCO" ...
##  $ pobla     : int  11587 26067 6501 1443 23820 8020 349 282 922 883 ...
##  $ esperanza : num  76.8 74.7 78 77.4 77.4 ...
##  $ accesoedu : num  5.38 8.33 5.77 6.24 5.78 8.33 5.76 6.75 4.83 5.04 ...
##  $ percapitaf: num  405 662 452 551 209 ...
##  $ PPK       : int  1823 4949 1490 604 6282 2342 135 92 234 283 ...
##  $ FP        : int  3072 5809 1321 400 2059 2765 118 162 189 155 ...

Limpieza de data a. Eliminando lo que no usaré

linkend$ubiReg=NULL
linkend$ubiProv=NULL
linkend$ubiDis=NULL

Compruebo qué tal quedó…

str(linkend)
## 'data.frame':    1834 obs. of  9 variables:
##  $ depa      : chr  "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
##  $ prov      : chr  "BAGUA" "BAGUA" "BAGUA" "BAGUA" ...
##  $ dist      : chr  "ARAMANGO" "BAGUA" "COPALLIN" "EL PARCO" ...
##  $ pobla     : int  11587 26067 6501 1443 23820 8020 349 282 922 883 ...
##  $ esperanza : num  76.8 74.7 78 77.4 77.4 ...
##  $ accesoedu : num  5.38 8.33 5.77 6.24 5.78 8.33 5.76 6.75 4.83 5.04 ...
##  $ percapitaf: num  405 662 452 551 209 ...
##  $ PPK       : int  1823 4949 1490 604 6282 2342 135 92 234 283 ...
##  $ FP        : int  3072 5809 1321 400 2059 2765 118 162 189 155 ...

PREGUNTA 01 PPK ganó le ganó a FP en todos los departamentos? Cómo saber dónde ganó? Debo saber donde PPK sacó más votos que Keiko, eso se cacula así:

linkend$difvotos=linkend$PPK- linkend$FP
head(aggregate(difvotos ~ depa, data = linkend, sum),20)
##             depa difvotos
## 1       AMAZONAS    -8229
## 2         ANCASH   -13433
## 3       APURIMAC     7173
## 4       AREQUIPA   294889
## 5       AYACUCHO    -6609
## 6      CAJAMARCA     1026
## 7         CALLAO     3494
## 8          CUSCO   192768
## 9   HUANCAVELICA    23266
## 10       HUANUCO    -7211
## 11           ICA   -27094
## 12         JUNIN   -15287
## 13   LA LIBERTAD  -217134
## 14    LAMBAYEQUE  -122775
## 15          LIMA    15687
## 16        LORETO    31347
## 17 MADRE DE DIOS   -19250
## 18      MOQUEGUA    38707
## 19         PASCO     1749
## 20         PIURA  -197642

Entonces, si pido un summary y veo negativos, sabré que no ganó en todos los departamentos:

dataDep=aggregate(difvotos ~ depa, data = linkend, sum)
summary(dataDep$difvotos)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -217134  -27094   -6609    2415   23266  294889

Aquí sé en cuáles:

dataDep[dataDep$difvotos>0,'depa']
##  [1] "APURIMAC"     "AREQUIPA"     "CAJAMARCA"    "CALLAO"      
##  [5] "CUSCO"        "HUANCAVELICA" "LIMA"         "LORETO"      
##  [9] "MOQUEGUA"     "PASCO"        "PUNO"         "TACNA"

Aquí sé cuántas:

length(dataDep[dataDep$difvotos>=0,'depa'])
## [1] 12

Respuesta PPK no le ganó a FP en todos los departamentos

PREGUNTA 02 Existe correlación entre la ventaja que le sacó PPK a FP y nivel de ingresos? Qué coeficiente usó?

La correlación puede ser vía técnicas paramétricas o no paramétricas. De ahí que debo decidir según si difvotos es normal o no:

Nota: difvotos= variable dependiente percapitaf= variable independiente

shapiro.test(linkend$difvotos)
## 
##  Shapiro-Wilk normality test
## 
## data:  linkend$difvotos
## W = 0.46253, p-value < 2.2e-16

De ahí que voy por Spearman:

cor.test(linkend$difvotos,linkend$percapitaf, method = "spearman")
## Warning in cor.test.default(linkend$difvotos, linkend$percapitaf, method =
## "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  linkend$difvotos and linkend$percapitaf
## S = 1112796710, p-value = 0.0004149
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##         rho 
## -0.08235373

Gráficamente

library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
preg2=ggscatter(linkend, 
          x = "difvotos", y = "percapitaf",
          cor.coef = TRUE, 
          cor.method = "spearman") 
preg2

Para las siguientes preguntas, hacemos una regresión:

todasLasHipo=lm(difvotos~accesoedu+esperanza+percapitaf+pobla, data=linkend)
summary(todasLasHipo)
## 
## Call:
## lm(formula = difvotos ~ accesoedu + esperanza + percapitaf + 
##     pobla, data = linkend)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -36426  -1276     75   1143  74927 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.553e+03  1.739e+03   2.044  0.04111 *  
## accesoedu    2.640e+02  9.807e+01   2.692  0.00716 ** 
## esperanza   -9.462e+01  2.413e+01  -3.921 9.13e-05 ***
## percapitaf   5.003e+00  7.962e-01   6.283 4.13e-10 ***
## pobla       -2.494e-02  2.596e-03  -9.607  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5182 on 1829 degrees of freedom
## Multiple R-squared:  0.09786,    Adjusted R-squared:  0.09589 
## F-statistic:  49.6 on 4 and 1829 DF,  p-value: < 2.2e-16

nota: difvotos= votosPPK - votosFP

  1. Se cumple la hipótesis 1? qué nos puedes informar sobre esa hipótesis? H1:PPK tuvo más apoyo que FP mientras mejor acceso a la educación. Se confirma la H1. La relación es directa y el coeficiente (2.64) es significativo al 0.01.

  2. Se cumple la hipótesis 2? qué nos puedes informar sobre esa hipótesis? H2:PPK tuvo más apoyo que FP mientras mayor era a la esperanza de vida. No se confirma la H2. La relación es inversa y el coeficiente (-9.46) es significativo al 0.001

  3. Se cumple la hipótesis 3? qué nos puedes informar sobre esa hipótesis? H3:PPK tuvo menos apoyo que FP mientras mayores ingresos.

No se confirma la H3. La relación es indirecta y el coeficiente (5.00) es significativo al 0.001.

Nota que: sin control:Adjusted R-squared: 0.05078 con control: Adjusted R-squared: 0.09589 Con control, el Adjusted R-squared se eleva. Ese un mejor modelo de regresión.

NUEVA PREGUNTA Será cierto que el promedio de ingresos es más alto donde ganó PPK y perdió Keiko?

Departamentos en los que ganó PPK

dataDep[dataDep$difvotos>0,'depa']
##  [1] "APURIMAC"     "AREQUIPA"     "CAJAMARCA"    "CALLAO"      
##  [5] "CUSCO"        "HUANCAVELICA" "LIMA"         "LORETO"      
##  [9] "MOQUEGUA"     "PASCO"        "PUNO"         "TACNA"