Análisis Univariado

Column {data-width=300}

Comentarios V.D

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min.: 25.93000
  • 1st Q: 52.4075000
  • Median: 68.11500
  • Mean: 67.04954
  • 3st Q: 83.8175000
  • Max.: 96.46000
  • SD.: 18.45752
  • CV: 0.2752819

La curva roja es una estimación suavizada de la densidad de los datos y resalta una concentración en torno a los rangos de 60%-80%, con una caída a medida que el porcentaje de votos disminuye.

Boxplot: No existen datos atípicos.

Comentarios V.I: %Mujeres

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min.: 42.65533192
  • 1st. Q: 48.07766574
  • Median: 49.81040781
  • Mean: 49.44516344
  • 3st Q: 50.95561054
  • Max: 58.10984109
  • SD: 2.19179787
  • CV: 0.04432785

El apoyo femenino a Pedro Castillo parece ser consistente y homogéneo en la mayoría de las regiones analizadas. La distribución es aproximadamente simétrica lo que indica que el porcentaje de mujeres votantes está equilibrado alrededor de un valor central. La curva de densidad confirma que la mayoría de los datos están concentrados cerca del 50%, con pocas observaciones en los extremos. Además, el valor más frecuente de porcentaje de mujeres votantes está alrededor del 50%.

Boxplot: Existen datos atípicos.

Comentarios V.I: %Jovenes

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min.: 18.4522461
  • 1st Q: 28.6560550
  • Median: 31.3014269
  • Mean: 31.4363948
  • 3st Q: 34.2919768
  • Max: 47.5896846
  • SD: 4.3411377
  • CV: 0.1380927

La gráfica sugiere una distribución aproximadamente normal, ya que el ajuste de densidad (línea negra) sigue una curva simétrica. La mayoría de las observaciones se concentran cerca del 30%, indicando que este es el rango promedio donde la mayoría de los jóvenes votantes se encuentra. Es decir, hay menor frecuencia en los extremos, es decir, porcentajes muy bajos (cercanos al 20%) o altos (cercanos al 50%).

Boxplot: Existen datos atípicos.

Comentarios V.I: %IDH

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min: 21.9552692
  • 1st Q: 35.4167551
  • Median: 42.2697097
  • Mean: 44.4095048
  • 3st Q: 54.3056203
  • Max: 72.5512872
  • SD: 11.5832359
  • CV: 0.2608279

La mayor densidad de valores parece concentrarse entre 40 y 50, lo que sugiere que este es el rango promedio del IDH en las zonas rurales. Hay menos casos con valores extremos, tanto hacia el límite inferior (cercano a 20) como hacia el superior (cercano a 70).

A pesar que, hay una ligera variabilidad en los datos, la curva muestra que los valores del IDH están distribuidos de manera moderadamente homogénea en las comunidades rurales.

Boxplot: No existen datos atípicos.

Column {data-width=600}

Histograma V.D

Boxplot V.D

Histograma %Mujeres

Boxplot %Mujeres

Histograma %Jovenes

Boxplot %Jovenes

Histograma %IDH

Boxplot %IDH


Análisis Bivariado

Column

Comentarios

Después de realizar la correlación Pearson y Spearman, se conluyó que las variables:

  • El “porcentaje_mujeres”, sí tiene correlación con la variable dependiente mientras que,

  • El “porcentaje_jovenes”, tiene una correlación baja e,

  • “IDH”, sí existe correlación.

Column {data-width=600}

Bivariado 1

Pearson
$estimate
      cor 
0.2356164 

$p.value
[1] 0.0008858989
Spearman
$estimate
      rho 
0.2728297 

$p.value
[1] 0.0001093545

Bivariado 2

Pearson
$estimate
      cor 
0.1094057 

$p.value
[1] 0.1268933
Spearman
$estimate
      rho 
0.1441227 

$p.value
[1] 0.04386842

Bivariado 3

Pearson
$estimate
       cor 
-0.4431248 

$p.value
[1] 7.821701e-11
Spearman
$estimate
       rho 
-0.4647144 

$p.value
[1] 6.814326e-12

Regresión Lineal

Column

Comentarios

Interpretación RL1:

El porcentaje de mujeres votantes SÍ tiene efecto y es significativo, por lo que, tiene una relación directa controlado por el porcentaje de pobreza extrema.

Interpretación RL2:

El porcentaje de jovenes no es significativo en los votos por Castillo.

Interpretación RL3:

Añadimos la variable IDH y todas las variables son significativas con el porcentaje de votos por Castillo pero solo el porcentaje de mujeres y el IDH tienen efecto. Para saber cuál regresión es mejor, las compararemos.

Interpretación Anova:

El modelo3 es el mejor.

Linealidad: Línea roja debe tender a horizontal

Homocedasticidad: Línea roja debe tender a horizontal

Normalidad de los residuos: ¿Puntos cerca a la diagonal?

No multicolinealidad: > 5 es problematico

Valores influyentes: Si no aparece ningún número, no afecta

Column {data-width=600}

Regresión 1

Regresion: modelo 1
 VotosCastillo (I)
(Intercept) -15.142
(27.213)
porcentaje_mujeres 1.496**
(0.554)
Porc_PE 0.613***
(0.110)
Num.Obs. 196
R2 0.186
R2 Adj. 0.178
AIC 1665.7
BIC 1678.8
Log.Lik. -828.839
F 22.095
RMSE 16.61
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión 2

Regresion: modelo 2
&nbsp;VotosCastillo (II)
(Intercept) -17.057
(29.924)
porcentaje_mujeres 1.507**
(0.560)
porcentaje_jovenes 0.046
(0.293)
Porc_PE 0.607***
(0.117)
Num.Obs. 196
R2 0.186
R2 Adj. 0.174
AIC 1667.7
BIC 1684.0
Log.Lik. -828.826
F 14.663
RMSE 16.61
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión 3

Regresion: modelo 3
&nbsp;VotosCastillo (III)
(Intercept) 26.881
(30.687)
porcentaje_mujeres 1.632**
(0.539)
porcentaje_jovenes -0.411
(0.303)
IDH -0.663***
(0.162)
Porc_PE 0.139
(0.160)
Num.Obs. 196
R2 0.252
R2 Adj. 0.237
AIC 1653.1
BIC 1672.8
Log.Lik. -820.541
F 16.118
RMSE 15.92
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparando modelos

Tabla ANOVA para comparar modelos
Res.Df RSS Df Sum of Sq F Pr(>F)
193 54055.94 NA NA NA NA
192 54049.10 1 6.83466 0.0262833 0.8713818
191 49667.36 1 4381.74440 16.8503664 0.0000599

Linealidad

Interpretación: La falta de linearidad provocaría que el modelo no sirva para explicar las mismas variables con datos diferentes en otros estudios.

Homocedasticidad

Interpretación: Se rechaza que el modelo muestre homocedasticidad.

Normalidad de los residuos

Interpretación: Se rechaza la normalidad de los residuos. Por lo tanto, porcentaje de votos se distribuye de manera normal y se puede realizar inferencias a partir de lo encontrado como interpretaciones sólidas y confiables en base a resultados.

No multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
VIF
porcentaje_mujeres 1.046401
porcentaje_jovenes 1.298750
IDH 2.627061
Porc_PE 2.330429

Interpretación: no existe multiconealidad alta entre los predictores y permite calcular bien el efecto de cada regresor.

Valores influyentes

Cuadro V.I

Valores Influyentes criticos
cook.d hat
NA NA
:—— :—

Interpretación: Ningún número afecta el cálculo de la regresión.


Clusterización

Column

Comentarios

PAM:

Gráfico C: Nos recomienda dos clusters.

Clusterización: Provincias mal clusterizadas: “BONGARA”, “CAJATAMBO”, “HUAMANGA”, “JAÉN”, “LAMPA”, “SANDIA”, “UTCUBAMBA”.

Agnes:

Gráfico D: Recomienda un cluster.

No se puede continuar con el análisis porque no permite un operador unitario. Por lo tanto, el análisis concluye allí.

Diana:

Gráfico E: Nos recomienda dos clusters.

Clusterización: Sin provincias mal clusterizadas.

Gráfico DIANA - Dos subconjuntos sin provincias mal clusterizadas.

Column {data-width=600}

Grafico A

Datos seleccionados

Grafico B

Las variables están estandarizadas.

Grafico C - PAM

Silhouettes PAM


Grafico D - AGNES

Grafico E - DIANA

Silhouettes Diana

Grafico PAM - Mal clusterizados

Grafico DIANA - Mal clusterizados