Introducción

Las elecciones son un proceso político, social y económico importante en las democracias, debido a que conlleva al cambio de poder en la esfera política. A partir de ello surge la interrogante sobre el comportamiento de los electores y que factores influyen en su voto. Por ello, nuestro trabajo busca entender el comportamiento electoral peruano durante las elecciones de la segunda vuelta entre Pedro Castillo y Keiko Fujimori. Así, el trabajo de investigación presentado analizará los factores que pueden influir en el voto hacia el candidato Castillo durante la segunda vuelta de las elecciones 2021 (información recolectada de la ONPE y el CENSO).

Las variables con las que se trabaja para explicar este fenómeno son: acceso al gas, si tienen seguro de salud, acceso a la educación, poblacion según ciclo de vida, si cuenta con acceso a internet, tipo de religión, etnicidad, acceso al agua y acceso a alumbrado eléctrico. Además, tendremos como unidad de análisis a las provincias del Perú.

Análisis rápido de la data

Modelación

En este caso, se hará una regresión Binomial Negativa

BINOMIAL - variables Angelo

Se trabajará con tres variables explicativas: población según ciclo de vida (“poblacionjoven”), si no tiene religión (“noTieneRel”)y el último nivel de estudios que aprobó (“sabeleer”).

La primerra variable es población joven que la escogimos porque durante los analices de encuestas, se suele diferenciar marcadamente que hay un “voto joven”. Así se le llama comúnmente al voto de los jóvenes de entre 18 a 19 años. Incluso, los candidatos suelen presentar propuestas exclusivamente para este grupo de electores. Por eso mismo, se seleccionó esta variable independiente para poder ver si realmente hay un mayor apoyo a cierto candidato si hay mayor población joven.

La segunda variable si no tiene religión la escogimos porque el Perú es de gran tradición católica; y, en las últimas décadas, surgieron nuevos movimientos religiosas, como el mormon, el israelita o el evangelico. Por ello, no pocos candidatos ,en sus campañas políticas, intentan llamar a la moral y predicar el “mensaje de Dios”. Además, los movimientos religiosos tienen un claro tinte político conservador y, como muchos, anticomunista; por ello, pensamos que pueden tener un peso en el comportamiento electoral.

La tercera variable si sabe o no leer se escogio porque muchas veces se ataca a las personas que votaron distinto a uno diciéndoles que no saber votar o no se informaron. bien. Es esta variable podemos ver cómo votan las personas con más preparación académica, para ver si realmente hay una diferencia o no. En otros estudios de comportamiento electoral se observaba, por ejemplo, que las personas con mayor nivel educativo suelen votar más por candidatos progresistas o de izquierda. Queremos ver si en Perú, a pesar de que ninguno de los dos candidatos es progresista, hay también esa significancia.

## 
## Call:
## MASS::glm.nb(formula = h2off, data = cleandata, init.theta = 10.97425622, 
##     link = log)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -3.7832  -0.6928  -0.0557   0.5636   1.9408  
## 
## Coefficients:
##                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     -0.1988     0.3349  -0.594   0.5527    
## poblacionjoven   1.7740     0.9205   1.927   0.0540 .  
## sabeleer        -1.0161     0.4662  -2.180   0.0293 *  
## noTieneRel      -3.0691     0.6160  -4.982 6.29e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Negative Binomial(10.9743) family taken to be 1)
## 
##     Null deviance: 228.09  on 195  degrees of freedom
## Residual deviance: 199.15  on 192  degrees of freedom
## AIC: 3982.3
## 
## Number of Fisher Scoring iterations: 1
## 
## 
##               Theta:  10.97 
##           Std. Err.:  1.09 
## 
##  2 x log-likelihood:  -3972.315

En esta regresión las variables que aparecen como significativas son “sabe leer” con 0.0293 y no tiene religión con un 6.29e-07, debido a que muestran resultados menores a 0.05.

EXP() de la Binomial Negativa
Binomial Negativa- Angelo)
(Intercept) 0.81968
[0.4183, 1.6124]
poblacionjoven 5.89417+
[1.0088, 34.4181]
sabeleer 0.36202*
[0.1411, 0.9264]
noTieneRel 0.04647***
[0.0145, 0.1546]
Num.Obs. 196
AIC 3982.3
BIC 3998.7
Log.Lik. −1986.158
F 9.750
RMSE 77470.57
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

En el presente modelo se ve que por cada unidad en la que aumente la tasa de las personas que tienen mayor preparación académica , es decir que saben leer, la cantidad esperada de votos hacia castillo se reduce en un 63.7% . De igual manera, por cada unidad de aumento en la tasa de personas que no profesan una religión, la cantidad de votos hacia castillo se reduce en 95%.

BINOMIAL - variables Majo

A partir de la revisión biliográfica se sostiene que existen tres factores principales que podrían influir en el voto, si cuenta con acceso a Gas (balón GLP) – “gas”,Poblacion afiliada al Seguro Integral de Salud – “sis” y si tiene acceso a educación – “acsedu”.

La primera variable es si cuenta con acceso a gas esta variable fue pertinente para la investigación porque en el plan de gobierno presentado en la campaña presidencial se planteo cambios en el sector hidrocarburos, en especial en el tema del precio de los combustibles como lo pudo ser el gas de Camisea, no obstante, a pesar de tener yacimientos , no opera hacia las provincias vecinas ni brinda combustible casero al no haber tuberias. Por esa misma razon, las familias prefieren optar por algo mas accesible como lo es el balon de gas GLP. Si bien el precio de este no era barato (en algunos sectores bordeaba los 60 soles por balon), Pedro Castillo prometio bajar su precio entre 9 a 11 soles menos para asi hacerlo mas comodo al bolsillo de la poblacion tanto urbana como rural.

La segunda variable es si la poblacion esta afiliada al Seguro Integral de Salud esta variable fue pertinente porque fue otra de las propuestas de campaña de Pedro Castillo. Si bien conocemos la precariedad del sector salud peruano, demostrado con creces en el contexto del covid19 (el cual seguia en periodo electoral), este nuevo personaje en la politica se comprometio al mejoramiento del servicio, ya que la salud es un derecho de todos por lo que todos deberiamos acceder a el sin ningun problema. Por ello, seria interesante saber cuantas personas integradas al SIS confiaron en las promesas de Peru Libre y votaron por ese partido en las elecciones presidenciales.

La tercera variable es si tiene acceso a educacion esta fue pertinenete pues se planteó la masificación de los centros educativos a lo largo del país bajo el argumento que la educacion es un derecho al que todos los peruanos debemos acceder, asi se trate de un colegio, instituto o universidad. Esta promesa fue muy controversial puesto que significo el ingreso fijo a universidades nacionales, pero tambien apoyada por un gran sector que consideraba que la educacion no deberia ser un privileguio. Dicho esto, podriamos averiguar si los votos a Pedro Castillo se vieron influencados por votos a favor de la educacion descentralizada y masificada

## 
## Call:
## MASS::glm.nb(formula = h2off, data = cleandata, init.theta = 10.31299125, 
##     link = log)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -3.4140  -0.7667  -0.0868   0.5143   2.2028  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept) -0.19274    0.27357  -0.705  0.48111   
## gas         -0.25865    0.18028  -1.435  0.15136   
## sis          0.04973    0.24621   0.202  0.83993   
## acsedu      -1.60279    0.59666  -2.686  0.00723 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Negative Binomial(10.313) family taken to be 1)
## 
##     Null deviance: 214.37  on 195  degrees of freedom
## Residual deviance: 199.30  on 192  degrees of freedom
## AIC: 3994.8
## 
## Number of Fisher Scoring iterations: 1
## 
## 
##               Theta:  10.31 
##           Std. Err.:  1.03 
## 
##  2 x log-likelihood:  -3984.819

A partir de la regresión podemos ver que la única variable significativa es si la persona tiene acceso a educación (si asiste a algún instituto, colegio o universidad) con 0.00723. Vemos también que contar con gas en casa o estar afiliado a algún seguro no tiene significancia (pues es mayor a 0.05).

EXP() de la Binomial Negativa
Binomial Negativa- Majo)
(Intercept) 0.8247
[0.48899, 1.4015]
gas 0.7721
[0.53068, 1.1224]
sis 1.0510
[0.64216, 1.7152]
acsedu 0.2013**
[0.06184, 0.6552]
Num.Obs. 196
AIC 3994.8
BIC 4011.2
Log.Lik. −1992.410
F 4.789
RMSE 83594.53
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Así, para este modelo se ve que por cada unidad en que aumente la tasa de acceso a educación la cantidad esperada votos hacia Castillo se reduce en un en un 79.8%. Podemos decir entonces que el pertenecer a un instituto o universidad es un factor que influencia posiblemente en el anti-voto hacia el Candidato Castillo.

Se logro observar que los votos hacia Pedro Castillo en la segunda vuelta se ven reducidos en 79% si el votante cuenta con acceso a educacion, es decir, si asiste a un instituto o universidad.

Esto se puede explicar con que la mayor concentracion del rubro educacion se encuentra en las regiones costeras (desde la mayor cantidad de colegios hasta las principales universidades nacionales y privadas), las cuales segun el grafico de calor del inicio, son las que menos votaron por Pedro Castillo. Debemos de tomar en cuenta que en las regiones rurales, las cuales votaron por el partido Peru Libre, son aquellas que no cuentan con acceso a este recurso basico, lo cual habria generado alta insatisfaccion social entre estos sectores, dandole su voto a alguien que prometia aumentar el presupuesto hacia la educacion

Por otro lado, contar con gas GLP en casa o estar afiliado al seguro de salud no presenta significancia al ser mayor a 0.05.

BINOMIAL - variables Maria

A partir de la revisión biliográfica se sostiene que existen tres factores principales que podrían influir en el voto, Etnicidad, acceso al agua y alumbrado eléctrico.

La primera variable es etnicidad , esta es una variable socio-demográfica y medirá el número de personas que tiene lengua materna indígena. Esta ya ha sido considerada en estudios previos sobre elecciones por los autores Sulmont, Ames y Ponce de León. La elección de esta variable responde a que muestra la cantidad de población que tiene tradición indígena, así mismo lo indígena ha estado asociado a carencias sociales y económica, y a discriminación y exclusión social (presentes durante la campaña electoral)

La segunda variable es el acceso al agua (servicio público) el no tener acceso al agua correspondería a una necesidad básica insatisfecha (NBI) lo que también influye en la decisión electoral. Debido a que puede existir un mayor descontento social en los sectores que presentan un NBI. Sin embargo, en este caso queremos demostrar que el voto hacia Castillo no solo se dio por parte de la población insatisfecha sino estuvo más influenciado por un anti-voto hacia la candidata con la que disputaba la presidencia.

La tercera variable es el alumbrado eléctrico, este es un servicio público necesario, que al igual que el anterior ha estado ligado a un abandono por parte del Estado lo que conlleva al descontento de la población . Sin embargo, creemos que no es una variable tan significativa al momento de la segunda vuelta electoral debido a que esta tuvo muy presente las luchas entre la “izquierda” y la “derecha”, por lo que posiblemente la contienda va más allás de las variables sociodemográficas a un tema de representatividad y legitimidad.

## 
## Call:
## MASS::glm.nb(formula = h2off, data = cleandata, init.theta = 18.63758032, 
##     link = log)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -4.7555  -0.6339   0.0288   0.5661   2.3377  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -1.79097    0.15673 -11.427  < 2e-16 ***
## agua         0.41211    0.13848   2.976  0.00292 ** 
## alumbrado    0.39185    0.14634   2.678  0.00741 ** 
## etniticidad  0.69116    0.05916  11.684  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Negative Binomial(18.6376) family taken to be 1)
## 
##     Null deviance: 386.89  on 195  degrees of freedom
## Residual deviance: 198.31  on 192  degrees of freedom
## AIC: 3876.6
## 
## Number of Fisher Scoring iterations: 1
## 
## 
##               Theta:  18.64 
##           Std. Err.:  1.87 
## 
##  2 x log-likelihood:  -3866.589

Como vemos a partir de la regresión las variables significativas son el tener acceso al agua con 0.00292 , el tener alumbrado eléctrico con 0.00741 y si pertenece a algún grupo étnico con 2e-16.

EXP() de la Binomial Negativa
Binomial Negativa- Maria)
(Intercept) 0.1668***
[0.1202, 0.2327]
agua 1.5100**
[1.1309, 2.0010]
alumbrado 1.4797**
[1.0882, 2.0037]
etniticidad 1.9960***
[1.7813, 2.2372]
Num.Obs. 196
AIC 3876.6
BIC 3893.0
Log.Lik. −1933.294
F 61.261
RMSE 83979.75
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Para este modelo se ve que por cada unidad en que aumente la tasa de viviendas con acceso al agua la cantidad esperada de votos hacia Castillo se multiplica por 1.51, es decir aumenta en un 51%. Podemos decir entonces que el tener acceso al agua potable tiene influencia positiva en los votos hacia Castillo. Esto quiere decir que la población con algunos recursos si opto por ser respresentado por un presidente de “izquierda” . Siguiendo esta idea el aumento en la tasa de las viviendad que cuentan con alumbrado eléctrico multiplica en 1.47 los votos hacia castillo, es decir aumenta en un 47%. Por último, el aumento de una unidad en la tasa de etnicidad aumenta el voto hacia Castillo en casi 99%. La variable etnicidad mide el número de personas que tiene lengua materna indígena, el candidato Castillo tuvo una campaña dirigida a grupos etnicos pertenecientes a la selva y sierra del Perú. Además la campaña electoral de la candidata opositora estuvo ligado a discriminación y exclusión social. Por lo que esto podría explicar el gran aumento de votos al utilizar esta variable social.

BINOMIAL - Todas las variables

## 
## Call:
## MASS::glm.nb(formula = h2off, data = cleandata, init.theta = 20.80750278, 
##     link = log)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -4.5947  -0.6527   0.0345   0.6112   2.2073  
## 
## Coefficients:
##                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)    -1.77657    0.69323  -2.563  0.01038 *  
## gas            -0.22673    0.16174  -1.402  0.16098    
## sis             0.18621    0.20574   0.905  0.36542    
## acsedu         -1.81081    0.49008  -3.695  0.00022 ***
## poblacionjoven  2.49767    0.84188   2.967  0.00301 ** 
## sabeleer        0.12611    0.63961   0.197  0.84369    
## noTieneRel     -0.45020    0.52418  -0.859  0.39041    
## agua            0.40741    0.13505   3.017  0.00256 ** 
## alumbrado       0.49227    0.19935   2.469  0.01354 *  
## etniticidad     0.64008    0.06437   9.944  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Negative Binomial(20.8075) family taken to be 1)
## 
##     Null deviance: 431.79  on 195  degrees of freedom
## Residual deviance: 198.19  on 186  degrees of freedom
## AIC: 3866.8
## 
## Number of Fisher Scoring iterations: 1
## 
## 
##               Theta:  20.81 
##           Std. Err.:  2.10 
## 
##  2 x log-likelihood:  -3844.75

Cuando agregamos todas las variables a un solo modelo vemos que hay algunos cambios cambios. Pues saber leer ( 0.84369) y no tener religión (0.39041) ahora no son significativas , mientras que pertenecer a la población joven se volvió significativa con un 0.00301. Por otro, lado las otras variables se mantienen constantes en su significancia.

EXP() de la Binomial Negativa
Binomial Negativa- General)
(Intercept) 0.1692*
[0.04312, 0.6691]
gas 0.7971
[0.57820, 1.0979]
sis 1.2047
[0.80338, 1.8031]
acsedu 0.1635***
[0.06278, 0.4261]
poblacionjoven 12.1541**
[2.27576, 65.4955]
sabeleer 1.1344
[0.31796, 4.0257]
noTieneRel 0.6375
[0.22389, 1.8464]
agua 1.5029**
[1.13780, 1.9732]
alumbrado 1.6360*
[1.09901, 2.4279]
etniticidad 1.8966***
[1.67391, 2.1487]
Num.Obs. 196
AIC 3866.8
BIC 3902.8
Log.Lik. −1922.375
F 25.704
RMSE 83510.59
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Manteniendo como offset al general de electores obtenemos los siguientes resultados de la regresión general de todas las variables presentadas en este trabajo. Vemos que el aumento en una unidad en la tasa de personas con acceso a educación reduce el voto hacia Castillo es un 16% ,por otro lado el aumento de una unidad en la tasa de hogares que tienen acceso al algua potable aumenta en 50% en los votos hacia el candidato Castillo . Por último, el aumento de una unidad en la tasa de personas que hablan lenguas indígenas aumenta el voto hacia castillo es un 89%.

Analisis Factorial Exploratorio (EFA)

El análisis factorial exploratorio (Watkins 2018), como su nombre indica, explora la data y nos entrega posibles factores que resúmen cada uno un conjunto de variables.

Veamos los pasos que el EFA requiere:

  1. Subsetear la data

  2. Calculo de matriz de correlacion

  3. Exploramos la matriz de correlación

Podemos ver niveles de correlación altos por diferentes bloques como el no saber leer con el tener acceso a gas, y con el estar afiliado al seguro integral de salud. Estas variables tienen mayor correlación que con respecto al resto.

  1. Verificar si los datos permiten factorizar:
## Kaiser-Meyer-Olkin factor adequacy
## Call: psych::KMO(r = corMatrix)
## Overall MSA =  0.72
## MSA for each item = 
## poblacionjoven       sabeleer     noTieneRel           agua      alumbrado 
##           0.80           0.80           0.36           0.40           0.69 
##    etniticidad            gas            sis         acsedu 
##           0.55           0.77           0.83           0.51

Al observar el Overall es de 0.72 (debe ser mayor a 0.6 para ser aceptable ) por lo que es un valor adecuado para seguir haciendo un análisis factorial exploratorio. Podemos ver también que las variables que bajan de 0.6 son el acceso a educación, etnicidad, acceso al agua, no tener religión y el acceso a educación.

  1. Verificar si la matriz de correlaciones es adecuada

H0= Matriz identidad H0= Matriz nula

## [1] FALSE
## [1] FALSE

Buscamos no tener una matriz identidad, ni una matriz singular. Como se ha verificado la prueba de la matriz de identidad y singular son falsas por lo que procedemos a seguir con el análisis.

  1. Determinar en cuantos factores o variables latentes podríamos redimensionar la data:
## Parallel analysis suggests that the number of factors =  4  and the number of components =  NA

Nos sugiere redimensionar en 4 números de factores de los 9 que se han presentado. Es decir, Nos dice que el número de nueve dimensiones se puede representar en cuatro.

  1. Redimensionar a número menor de factores
## 
## Loadings:
##                MR1    MR2    MR4    MR3   
## poblacionjoven  0.792 -0.170         0.178
## sabeleer        0.639 -0.179  0.242 -0.632
## noTieneRel      0.187 -0.413 -0.153       
## agua                   0.265              
## alumbrado       0.332         0.920 -0.216
## etniticidad            0.933 -0.340  0.157
## gas             0.807 -0.231  0.360 -0.191
## sis            -0.793  0.173 -0.225  0.382
## acsedu                -0.108         0.624
## 
##                  MR1   MR2   MR4   MR3
## SS loadings    2.471 1.266 1.234 1.080
## Proportion Var 0.275 0.141 0.137 0.120
## Cumulative Var 0.275 0.415 0.552 0.672
## 
## Loadings:
##                MR1    MR2    MR4    MR3   
## poblacionjoven  0.792                     
## sabeleer        0.639               -0.632
## noTieneRel                                
## agua                                      
## alumbrado                     0.920       
## etniticidad            0.933              
## gas             0.807                     
## sis            -0.793                     
## acsedu                               0.624
## 
##                  MR1   MR2   MR4   MR3
## SS loadings    2.471 1.266 1.234 1.080
## Proportion Var 0.275 0.141 0.137 0.120
## Cumulative Var 0.275 0.415 0.552 0.672

La varianza acumulada es de el 0.67 , esto quiere decir que hemos recuperado el 67% de información, en el proceso de pasarlo a cuatro dimensiones perdimos el 33% de información.

Resultado visual del Analisis Factorial

Todas superan el 0.5 excepto no tener religión que solo llega al 0.4

  1. Evaluando Resultado obtenido:
  • Qué variables aportaron mas a los factores?
##           agua     noTieneRel         acsedu poblacionjoven            sis 
##     0.08136331     0.23250555     0.41044967     0.68778081     0.85612906 
##            gas       sabeleer      alumbrado    etniticidad 
##     0.87057864     0.89830832     1.00332094     1.01069480

De las variables que tengo, cuáles de estas han contribuido para formar las cuatro dimensiones.Las que están construyendo de manera fuerte son población joven , tener acceso a gas , estar afiliado a un sistema de seguro, saber leer , contar con alumbrado electrico y etnicidad. Mientas que las que son más débiles son no tener religión (0.23250555) y tener acceso a agua potable (0.08136331).

  • ¿Qué variables contribuyen a más de un factor?
##         acsedu poblacionjoven    etniticidad           agua      alumbrado 
##       1.110101       1.196114       1.325940       1.326541       1.377476 
##            gas            sis     noTieneRel       sabeleer 
##       1.702526       1.741080       1.749783       2.440117

A partir de los resultados nos quedamos con acceso a educación debido a que es el más cercano al uno.

  1. Valores proyectados: Podemos calcular dos indices que resuman los dos factores encontrados.
##          MR1        MR2        MR4        MR3
## 1  1.2993275  1.4020092  0.9427616  1.0260060
## 2 -0.5024802  1.7449236  0.7286895  1.2628052
## 3 -0.4834778  1.6472520  0.3943768  0.7180600
## 4 -1.2128123  0.4006130  0.1910363 -1.8157478
## 5 -0.3356824 -1.1122875 -0.2612197  0.9364629
## 6 -0.1853885 -0.6134811 -0.4021145  0.9218467

Pedimos el score , observamps que hay pocos valores negativos

Se calcula el índice EFA, vemos que los valores están alineados entre el -1.8157478 y el 1.7449236 junto a puntos atípicos. Lo que se está observando es la gráfica de la tabla score presetando arriba.

Correlacion

##                poblacionjoven    sabeleer  noTieneRel         agua    alumbrado
## poblacionjoven      1.0000000  0.43789797  0.24086097 -0.152528029  0.243167255
## sabeleer            0.4378980  1.00000000  0.09187973 -0.071496177  0.565608920
## noTieneRel          0.2408610  0.09187973  1.00000000 -0.052754196 -0.098202254
## agua               -0.1525280 -0.07149618 -0.05275420  1.000000000  0.005462044
## alumbrado           0.2431673  0.56560892 -0.09820225  0.005462044  1.000000000
## etniticidad        -0.1042136 -0.34584034 -0.34088086  0.264621190 -0.368067222
## gas                 0.6260918  0.76472414  0.21238162 -0.133094004  0.654152071
## sis                -0.5907820 -0.83208283 -0.15329236  0.092209363 -0.550307092
## acsedu              0.1185073 -0.41172273  0.07279214 -0.058892015 -0.235050324
##                etniticidad        gas         sis      acsedu
## poblacionjoven -0.10421360  0.6260918 -0.59078198  0.11850733
## sabeleer       -0.34584034  0.7647241 -0.83208283 -0.41172273
## noTieneRel     -0.34088086  0.2123816 -0.15329236  0.07279214
## agua            0.26462119 -0.1330940  0.09220936 -0.05889202
## alumbrado      -0.36806722  0.6541521 -0.55030709 -0.23505032
## etniticidad     1.00000000 -0.3350883  0.28585305  0.02215694
## gas            -0.33508832  1.0000000 -0.84128929 -0.13714767
## sis             0.28585305 -0.8412893  1.00000000  0.25435644
## acsedu          0.02215694 -0.1371477  0.25435644  1.00000000

Preparacion de datos para la clusterizacion

CLUSTERIZACION - PAM

Conocido como Partitioning Around Medoids, usado para agrupar k-medoids. Este metodo de clusterizacion se basa en la busqueda de k medoids representativos entre las observaciones del conjunto de datos, para luego construir grupos asignando cada observacion al medoid mas cercano.

Asi mismo, se requiere que se indique el numero apropiado de clusters que se van a producir, siendo una alternativa solida para dividir las provincias en grupos de observacion

Nos muestra que lo óptimo es aglomerar a partir de tres clusters

poblacionjoven sabeleer noTieneRel agua alumbrado etniticidad gas sis acsedu pam
ABANCAY 0.2213898 0.8176529 0.0320036 0.9155938 0.9065506 0.8017954 0.7046688 0.6317680 0.3816388 1
ACOBAMBA 0.1779209 0.7301089 0.0107734 0.7924528 0.7990021 0.9162107 0.2928021 0.8811767 0.3499641 1
ACOMAYO 0.1473409 0.7495641 0.0088934 0.9221764 0.7768284 0.9075763 0.3853249 0.8310811 0.3812084 1
AIJA 0.1331539 0.8407220 0.0076000 0.9261477 0.7872231 0.4034000 0.2384040 0.7191260 0.3098195 2
ALTO AMAZONAS 0.1767692 0.7646038 0.0623735 0.7680470 0.7158794 0.1996449 0.4695784 0.7691750 0.3841490 2
AMBO 0.1869300 0.7496462 0.0155736 0.7784638 0.7221796 0.4172253 0.4912552 0.7550708 0.3085371 1
ANDAHUAYLAS 0.1889217 0.7514055 0.0142106 0.8831998 0.7909005 0.8935436 0.3840459 0.7677169 0.3645812 1
ANGARAES 0.1763367 0.7307294 0.0147787 0.8606361 0.6819581 0.9037488 0.2854542 0.7541813 0.3929387 1
ANTA 0.1839839 0.7794186 0.0121000 0.8087352 0.8155471 0.8426543 0.4599403 0.7124506 0.3275487 1
ANTABAMBA 0.1347480 0.7771883 0.0093070 0.9346554 0.6889952 0.9091725 0.3642157 0.7931919 0.3095018 1
ANTONIO RAIMONDI 0.1167766 0.7505495 0.0050959 0.8278430 0.8159007 0.6494804 0.1976063 0.8093773 0.3842761 1
AREQUIPA 0.2159804 0.8807683 0.0441723 0.8849189 0.9214882 0.3530542 0.9306200 0.2173463 0.3443295 3
ASCOPE 0.1738725 0.8580744 0.0903051 0.7792781 0.9330889 0.1164561 0.8599130 0.3543606 0.2911449 3
ASUNCION 0.1284901 0.7195717 0.0065642 0.9133971 0.8827107 0.5462083 0.3336159 0.7233668 0.3309679 1
ATALAYA 0.1865623 0.6751480 0.2371500 0.8408836 0.3995383 0.6197417 0.3097288 0.7053767 0.3840302 1

Los casos que superen la barra roja (0.5) son aquellos en donde la pertenencia al cluster es más evidente, mientras más baja la barra (caso) es menos probable que guarde similitudes con el resto de casos del subgrupo, vemos que la barra esta llegando casi a 0.25. Los que están por debajo del 0 son los mal clusterizados. Esto quiere decir que estos casos son aquellos que no pertenecerían a ningun grupo, pero que igualmente son forzados a ser parte de alguno.

##  [1] "ABANCAY"     "AMBO"        "BOLOGNESI"   "DOS DE MAYO" "FERRENAFE"  
##  [6] "HUAMALIES"   "HUAMANGA"    "HUAYTARA"    "JAEN"        "LAURICOCHA" 
## [11] "OXAPAMPA"    "RIOJA"       "TARATA"

Exploremos el promedio de cada cluster:

##   pam poblacionjoven  sabeleer noTieneRel      agua alumbrado etniticidad
## 1   1      0.1684811 0.7658581 0.02659994 0.8660678 0.7226885   0.7929808
## 2   2      0.1606250 0.7726426 0.04770451 0.8004543 0.7296548   0.2063442
## 3   3      0.1939852 0.8465948 0.04838814 0.8003728 0.8695366   0.2722375
##         gas       sis    acsedu
## 1 0.3741509 0.7388739 0.3307162
## 2 0.3272878 0.7694922 0.3391405
## 3 0.7420250 0.4555516 0.3222350

CLUSTERIZACION - AGNES

Tambien llamada Agglomerative Nesting, se usa para agrupar objetos en clusteres en funcion a su similitud, tratando a cada objeto como grupo unico (leaf), combinando los mas similares hasta que todos los puntos son miembros de un solo grupo grande (root).

Para ello, los datos deber ser una matriz numerica con filas que en este caso representan las provincias, y las columnas que representan variables

poblacionjoven sabeleer noTieneRel agua alumbrado etniticidad gas sis acsedu agnes
ABANCAY 0.2213898 0.8176529 0.0320036 0.9155938 0.9065506 0.8017954 0.7046688 0.6317680 0.3816388 1
ACOBAMBA 0.1779209 0.7301089 0.0107734 0.7924528 0.7990021 0.9162107 0.2928021 0.8811767 0.3499641 1
ACOMAYO 0.1473409 0.7495641 0.0088934 0.9221764 0.7768284 0.9075763 0.3853249 0.8310811 0.3812084 1
AIJA 0.1331539 0.8407220 0.0076000 0.9261477 0.7872231 0.4034000 0.2384040 0.7191260 0.3098195 1
ALTO AMAZONAS 0.1767692 0.7646038 0.0623735 0.7680470 0.7158794 0.1996449 0.4695784 0.7691750 0.3841490 2
AMBO 0.1869300 0.7496462 0.0155736 0.7784638 0.7221796 0.4172253 0.4912552 0.7550708 0.3085371 2
ANDAHUAYLAS 0.1889217 0.7514055 0.0142106 0.8831998 0.7909005 0.8935436 0.3840459 0.7677169 0.3645812 1
ANGARAES 0.1763367 0.7307294 0.0147787 0.8606361 0.6819581 0.9037488 0.2854542 0.7541813 0.3929387 1
ANTA 0.1839839 0.7794186 0.0121000 0.8087352 0.8155471 0.8426543 0.4599403 0.7124506 0.3275487 1
ANTABAMBA 0.1347480 0.7771883 0.0093070 0.9346554 0.6889952 0.9091725 0.3642157 0.7931919 0.3095018 1
ANTONIO RAIMONDI 0.1167766 0.7505495 0.0050959 0.8278430 0.8159007 0.6494804 0.1976063 0.8093773 0.3842761 1
AREQUIPA 0.2159804 0.8807683 0.0441723 0.8849189 0.9214882 0.3530542 0.9306200 0.2173463 0.3443295 3
ASCOPE 0.1738725 0.8580744 0.0903051 0.7792781 0.9330889 0.1164561 0.8599130 0.3543606 0.2911449 3
ASUNCION 0.1284901 0.7195717 0.0065642 0.9133971 0.8827107 0.5462083 0.3336159 0.7233668 0.3309679 1
ATALAYA 0.1865623 0.6751480 0.2371500 0.8408836 0.3995383 0.6197417 0.3097288 0.7053767 0.3840302 1

En este dendrograma podemos apreciar que las provincias que son similares se combinan entre si en branches que a su vez se fusionan entre si hasta formar uno solo. Si lo vieramos de forma vertical, la altura de fusion indicaria la distancia entre dos grupos, en donde cuando mayor sea esta, es porque las provincias son menos similares

Podemos ver que de las provincias del grupo de azul Sechura y Yauyos son similares, así como Tocache y Chota, pertenecientes al grupo verde. Por último del grupo rojo Abancay y Cabgallo también tienen similitud.

##  [1] "ABANCAY"       "CAJAMARCA"     "CAJATAMBO"     "CORONGO"      
##  [5] "HUAMANGA"      "HUANUCO"       "HUARAZ"        "JUNIN"        
##  [9] "LAMBAYEQUE"    "LEONCIO PRADO" "LORETO"        "MANU"         
## [13] "OCROS"         "PUNO"          "PUTUMAYO"      "SATIPO"       
## [17] "TAMBOPATA"     "VIRU"
##   agnes poblacionjoven  sabeleer noTieneRel      agua alumbrado etniticidad
## 1     1      0.1676910 0.7714740 0.02568498 0.8607145 0.7193193   0.7409547
## 2     2      0.1713922 0.7775262 0.06227304 0.8003499 0.7625186   0.1549397
## 3     3      0.1919423 0.8549334 0.04259807 0.7901996 0.8834643   0.2512115
##         gas       sis    acsedu
## 1 0.3599898 0.7337535 0.3327892
## 2 0.4237271 0.7254150 0.3352493
## 3 0.7716465 0.4295563 0.3205366

Comparando

##          Aglomeracion
## Particion  1  2  3
##         1 67  4  0
##         2 14 39  0
##         3  6  9 57

Visualizacion comparativa

##                         [,1]          [,2]
## ABANCAY           0.08723642  0.2574892787
## ACOBAMBA         -0.30243421  0.0975382911
## ACOMAYO          -0.32199422  0.1121598075
## AIJA             -0.09624521 -0.0285061608
## ALTO AMAZONAS    -0.07294758 -0.1849184544
## AMBO             -0.09556329 -0.0297917053
## ANDAHUAYLAS      -0.22943261  0.1454950799
## ANGARAES         -0.32640332  0.1150139304
## ANTA             -0.12762738  0.1459558198
## ANTABAMBA        -0.29210840  0.1230294711
## ANTONIO RAIMONDI -0.32248562  0.0001264138
## AREQUIPA          0.39791238  0.1246879869
## ASCOPE            0.39152560 -0.0817514615
## ASUNCION         -0.21173308 -0.0031461420
## ATALAYA          -0.27332025 -0.0142634655
## AYABACA          -0.23116934 -0.2395151649
## AYMARAES         -0.21643976  0.1281993748
## AZANGARO         -0.18224073  0.1655762250
## BAGUA            -0.02828565 -0.1512820424
## BARRANCA          0.34012309  0.0005655971

Grafica de PAM

Grafica de AGNES

Conclusiones

A partir de la regresión binomial negativa vemos que parte de las variables usadas en esta investigación no son significativas para el estudio. Las que tienen relevancia en el voto hacia el candidato son el acceso a educacción, el tener alumbrado electrico, acceso a agua y ser parte de algún grupo étnico. A partir del primero los que tienen acceso a educación tiene una