Exploración de la base

Row {data-height = 500}

ENTREGA 3: Creación del dashboard o tablero de control.

El presente trabajo de análisis estadístico tiene como objetivo investigar una serie de variables que pueden explicar los factores de influencia en relación a la votación por el candidato Pedro Castillo de Perú Libre en la Segunda Vuelta Electoral de las últimas elecciones generales en Perú del 2021.

  • Grafica/tabla que describa la variable central
  • Grafica/tabla que describa la variable central y sus relaciones con las demas variables:
  1. modelos de asociación / correlación
  2. modelos de regresión/factorización
  3. modelos de clusterización

Estructura de la base unificada

'data.frame':   196 obs. of  11 variables:
 $ Ubigeo        : num  10200 10300 10100 10400 10500 10600 10700 60200 60100 60300 ...
 $ 
 Provincia: chr  "BAGUA" "BONGARÁ" "CHACHAPOYAS" "CONDORCANQUI" ...
 $ VOTOS         : num  24971 8374 15561 13060 12528 ...
 $ POBLATOTAL    : num  98110 29335 58773 75888 50827 ...
 $ POBLA_80      : num  1217 655 1362 175 1560 ...
 $ IVIA          : num  52 51 40 69 58 59 53 65 45 71 ...
 $ IDE           : num  64.9 71.6 76.7 40.9 70.5 ...
 $ POBLAPOBRE    : num  34.8 33.2 22 56.8 48.1 ...
 $ POBLAXPOBRE   : num  23.1 10.7 11.7 38.1 25 ...
 $ POBLAOCU      : num  26886 11213 25569 8563 16076 ...
 $ DEVENGADO     : num  5798 2107 19970 2652 3006 ...

Resumen de la base unificada

     Ubigeo        \r\n Provincia        VOTOS           POBLATOTAL      
 Min.   : 10100   Length:196         Min.   :    825   Min.   :    4997  
 1st Qu.: 50775   Class :character   1st Qu.:   8796   1st Qu.:   31953  
 Median :105600   Mode  :character   Median :  19866   Median :   67956  
 Mean   :114595                      Mean   :  44654   Mean   :  175477  
 3rd Qu.:170225                      3rd Qu.:  39756   3rd Qu.:  136629  
 Max.   :250400                      Max.   :1938450   Max.   :10204814  
    POBLA_80           IVIA            IDE          POBLAPOBRE    
 Min.   :    32   Min.   :12.00   Min.   :40.88   Min.   : 3.106  
 1st Qu.:   739   1st Qu.:37.75   1st Qu.:65.75   1st Qu.:21.970  
 Median :  1330   Median :54.00   Median :69.74   Median :33.057  
 Mean   :  3206   Mean   :49.71   Mean   :69.06   Mean   :32.027  
 3rd Qu.:  2366   3rd Qu.:64.00   3rd Qu.:74.61   3rd Qu.:43.805  
 Max.   :194084   Max.   :79.00   Max.   :83.32   Max.   :67.307  
  POBLAXPOBRE          POBLAOCU         DEVENGADO    
 Min.   : 0.00217   Min.   :    867   Min.   : 1519  
 1st Qu.: 3.48562   1st Qu.:   9519   1st Qu.: 2812  
 Median :11.98624   Median :  22456   Median : 3591  
 Mean   :13.39464   Mean   :  67090   Mean   : 4527  
 3rd Qu.:20.55554   3rd Qu.:  43788   3rd Qu.: 5661  
 Max.   :48.66587   Max.   :4444364   Max.   :19970  

Row {data-height = 500}

Presentación de la base unificada

Por un lado, en esta presentación se observa las variables de análisis en donde destaca la variable VOTOS, la cual representa a los votos obtenidos por provincia, del candidato Pedro Castillo. Por otro lado, aparecen las variables independientes: POBLAXPOBRE, la cual hace referencia a la población en condición pobre extremo; POBLAPOBRE, la cual refiere a la población en condición pobre; IVIA, la cual refiere al índice de inseguridad alimentaria; IDE, la cual refiere a la densidad del Estado; POBLAOCU, la cual refiere a la población ocupada; y, finalmente, DEVENGADO, la cual tiene que ver con el presupuesto devengado por provincia. Además, se coloca dos variables potenciales que pueden funcionar como variables de control: POBLATOTAL (población total) y POBLA_80 (población mayor de 80 años).

Exploración univariada y bivariada

Row

Descripción de la variable dependiente

Se observa que la concentración de votos a nivel provincial tiene un promedio bastante bajo. Sin embargo, se observa valores atípicos de mayor recurrencia en las grandes urbes: probablemente el valor atípico que se observa en la gráfica sea Lima por su densidad poblacional.

Gráfico de caja y bigotes para la variable dependiente

Row

Descripción de las correlaciones

Se observa una correlación bastante endeble en relación a algunas variables como POBLAPOBRE o POBLAXPOBRE, por ejemplo. Caso que puede contradecir ha algunas hipótesis que sostienen que las provincias más pobres votaron por el candidato Castillo.

Matriz de correlaciones

Modelos de regresión

Row

Modelo de regresión lineal múltiple (Gauss)

Se opta por este modelo debido a que nuestra variable dependiente (VOTOS) ostenta un carácter numérico continuo. En esa línea, se plantearán tres modelos anidados que posteriormente serán comparados.

Row

MODELO 1

Regresion: modelo 1
 apropiacion (I)
(Intercept) 17927.844***
(4039.183)
POBLAPOBRE −211.157+
(113.252)
POBLATOTAL 0.191***
(0.002)
Num.Obs. 196
R2 0.975
R2 Adj. 0.975
AIC 4496.7
BIC 4509.8
Log.Lik. −2244.355
F 3760.140
RMSE 22739.32
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Interpretación del modelo 1

Hipótesis: El número de votos a Pedro Castillo se encuentra influenciado por la cantidad de población pobre en cada provincia, controlado por la población total

Al probar esta hipótesis vemos…

  1. La variable POBLAPOBRE tiene signo negativo, es decir, tiene una relaciòn inversa con la variable VOTOS.

  2. La magnitud del efecto de la variable POBLAPOBRE es de −211.157+ lo que indica cuànto varìa la variable dependiente cundo aumenta en una unidad controlado por la poblaciòn total.

  3. La variable POBLAPOBRE no es signficativa

Row

MODELO 2

Regresion: modelo 2
 apropiacion (I)
(Intercept) 23774.663***
(5485.861)
POBLAPOBRE 83.914
(219.402)
IVIA −304.856
(194.408)
POBLATOTAL 0.190***
(0.002)
Num.Obs. 196
R2 0.975
R2 Adj. 0.975
AIC 4496.2
BIC 4512.6
Log.Lik. −2243.108
F 2526.530
RMSE 22595.09
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Interpretación del modelo 2

Hipotesis: El número de votos a Pedro Castillo se encuentra influenciado por la cantidad de población pobre y el Índice de Vulnerabilidad a la Inseguridad Alimentaria en cada provincia, controlado por la población total.

Concentràndonos en la variable IVIA al probar esta hipótesis vemos…

  1. La variable IVIA tiene signo negativo, es decir, tiene una relaciòn inversa con la variable VOTOS.

  2. La magnitud del efecto de la variable IVIA es de −304.856 lo que indica cuànto varìa la variable dependiente cundo aumenta en una unidad controlado por la poblaciòn total.

  3. La variable IVIA no es signficativa

Modelos de regresión: Comparación

Row

Resumen de modelos

Resultados de todos los modelos
 apropiacion (I)  apropiacion (II)
(Intercept) 17927.844*** 23774.663***
(4039.183) (5485.861)
POBLAPOBRE −211.157+ 83.914
(113.252) (219.402)
POBLATOTAL 0.191*** 0.190***
(0.002) (0.002)
IVIA −304.856
(194.408)
Num.Obs. 196 196
R2 0.975 0.975
R2 Adj. 0.975 0.975
AIC 4496.7 4496.2
BIC 4509.8 4512.6
Log.Lik. −2244.355 −2243.108
F 3760.140 2526.530
RMSE 22739.32 22595.09
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparación de efectos

Row

Comparación modelos

Tabla ANOVA para comparar modelos
Res.Df RSS Df Sum of Sq F Pr(>F)
193 101347016477 NA NA NA NA
192 100065446812 1 1281569664 2.459004 0.1184994

Anàlisis

Es evidente que el modelo 2 es un mejor modelo que el modelo 1 con valor de AIC de 4496.2, el cual es menor al del otro modelo. Tambièn se constata que ambos modelos tienen un buen rango de explicaciòn mayor al 95%, sin embargo, se observa que tanto la variable POBLAPOBRE como la variable IVIA, pese a ser variables de expliaciòn de ìndices de calidad de vida, no son significativas para los modelos. Esto contradice la hipòtesis general y al entendimiento general de la sociedad sobre la idea de que los votantes de Pedro Castillo pertenecen al grupo de personas con menor calidad de vida,

Conglomerados

Row {data-height= 300}

PAM: Número de clusters

PAM: Clusterizaciòn

Provincias mal clusterizadas

 [1] "118" "126" "140" "160" "164" "184" "44"  "57"  "86"  "89"  "90" 

Row {data-height= 20}

Se observa que el nùmero de clusters sugeridos para el anàlisis PAM son 4. En ese sentido, el algoritmo detecta que puede haber cuatro formas de agrupación porque encuentra mayor similitud o menor distancia entre las variables independientes.

Row {data-height= 300}

AGNES: Número de clusters

AGNES: Dendograma

AGNES: Clusterización

Pronvincias mal clusterizadas

 [1] "12"  "121" "127" "128" "129" "145" "149" "153" "164" "167" "181" "182"
[13] "192" "24"  "28"  "35"  "5"   "61"  "66"  "80" 

Row {data-height= 20}

La estrategia aglomerativa de Agnes sugiere, de nuevo, 4 cluster para el anàlisis. En ese sentido, el algoritmo detecta que puede haber cuatro formas de agrupación porque encuentra mayor similitud o menor distancia entre las variables independientes.

Row {data-height= 300}

DIANA: Número de clusters

DIANA: Dendograma

DIANA: Clusterización

Pronvincias mal clusterizadas

[1] "9"

Row {data-height= 20}

El nùmero de clsuters sugeridos por el algoritmo Diana es 3. En ese sentido, el algoritmo detecta que puede haber tres formas de agrupación porque encuentra mayor similitud o menor distancia entre las variables independientes. Cabe señalar que este modelo vizualmente sugiere una mejor clusterización.

Row {data-height= 300}

Row {data-height= 50}

Análisis: En general nuestras variables independientes son óptimas para realizar un proceso de clauzterización. En esa línea, se constata que el mejor modelo para la agrupación de datos es Diana porque presenta un proceso acotado en 3 clusters y, además, presenta menores valores perdidos. Según nuestro nuestro análisis el único error o provincia mal clausterizada con Diana sería la provincia 9, la cual es Cajamarca.