Análisis Univariado

Column {data-width=300}

Comentarios V.D

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

Min.: 25.93000
1st Q: 52.4075000
Median: 68.11500
Mean: 67.04954
3st Q: 83.8175000
Max.: 96.46000
SD.: 18.45752
CV: 0.2752819

La curva roja es una estimación suavizada de la densidad de los datos y resalta una concentración en torno a los rangos de 60%-80%, con una caída a medida que el porcentaje de votos disminuye.

Boxplot: No existen datos atípicos.

Comentarios V.I: %Mujeres

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

Min.: 42.65533192
1st. Q: 48.07766574
Median: 49.81040781
Mean: 49.44516344
3st Q: 50.95561054
Max: 58.10984109
SD: 2.19179787
CV: 0.04432785

El apoyo femenino a Pedro Castillo parece ser consistente y homogéneo en la mayoría de las regiones analizadas. La distribución es aproximadamente simétrica lo que indica que el porcentaje de mujeres votantes está equilibrado alrededor de un valor central. La curva de densidad confirma que la mayoría de los datos están concentrados cerca del 50%, con pocas observaciones en los extremos. Además, el valor más frecuente de porcentaje de mujeres votantes está alrededor del 50%.

Boxplot: Existen datos atípicos.

Comentarios V.I: %Jovenes

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

Min.: 18.4522461
1st Q: 28.6560550
Median: 31.3014269
Mean: 31.4363948
3st Q: 34.2919768
Max: 47.5896846
SD: 4.3411377
CV: 0.1380927

La gráfica sugiere una distribución aproximadamente normal, ya que el ajuste de densidad (línea negra) sigue una curva simétrica. La mayoría de las observaciones se concentran cerca del 30%, indicando que este es el rango promedio donde la mayoría de los jóvenes votantes se encuentra. Es decir, hay menor frecuencia en los extremos, es decir, porcentajes muy bajos (cercanos al 20%) o altos (cercanos al 50%).

Boxplot: Existen datos atípicos.

Comentarios V.I: %IDH

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

Min: 21.9552692
1st Q: 35.4167551
Median: 42.2697097
Mean: 44.4095048
3st Q: 54.3056203
Max: 72.5512872
SD: 11.5832359
CV: 0.2608279

La mayor densidad de valores parece concentrarse entre 40 y 50, lo que sugiere que este es el rango promedio del IDH en las zonas rurales. Hay menos casos con valores extremos, tanto hacia el límite inferior (cercano a 20) como hacia el superior (cercano a 70).

A pesar que, hay una ligera variabilidad en los datos, la curva muestra que los valores del IDH están distribuidos de manera moderadamente homogénea en las comunidades rurales.

Boxplot: No existen datos atípicos.

Column {data-width=600}

Histograma V.D

Boxplot V.D

Histograma %Mujeres

Boxplot %Mujeres

Histograma %Jovenes

Boxplot %Jovenes

Histograma %IDH

Boxplot %IDH

Análisis Bivariado

Column

Comentarios

Después de realizar la correlación Pearson y Spearman, se conluyó que las variables:

El “porcentaje_mujeres”, sí tiene correlación con la variable dependiente mientras que,
El “porcentaje_jovenes”, tiene una correlación baja e,
“IDH”, sí existe correlación.

Column {data-width=600}

Bivariado 1

Pearson

$estimate
      cor 
0.2356164 

$p.value
[1] 0.0008858989

Spearman

$estimate
      rho 
0.2728297 

$p.value
[1] 0.0001093545

Bivariado 2

Pearson

$estimate
      cor 
0.1094057 

$p.value
[1] 0.1268933

Spearman

$estimate
      rho 
0.1441227 

$p.value
[1] 0.04386842

Bivariado 3

Pearson

$estimate
       cor 
-0.4431248 

$p.value
[1] 7.821701e-11

Spearman

$estimate
       rho 
-0.4647144 

$p.value
[1] 6.814326e-12

Regresión Lineal

Column

Comentarios

Interpretación RL1:

El porcentaje de mujeres votantes SÍ tiene efecto y es significativo, por lo que, tiene una relación directa controlado por el porcentaje de pobreza extrema.

Interpretación RL2:

El porcentaje de jovenes no es significativo en los votos por Castillo.

Interpretación RL3:

Añadimos la variable IDH y todas las variables son significativas con el porcentaje de votos por Castillo pero solo el porcentaje de mujeres y el IDH tienen efecto. Para saber cuál regresión es mejor, las compararemos.

Interpretación Anova:

El modelo3 es el mejor.

Linealidad: Línea roja debe tender a horizontal

Homocedasticidad: Línea roja debe tender a horizontal

Normalidad de los residuos: ¿Puntos cerca a la diagonal?

No multicolinealidad: > 5 es problematico

Valores influyentes: Si no aparece ningún número, no afecta

Column {data-width=600}

Regresión 1

Regresion: modelo 1
	VotosCastillo (I)
(Intercept)	-15.142
	(27.213)
porcentaje_mujeres	1.496**
	(0.554)
Porc_PE	0.613***
	(0.110)
Num.Obs.	196
R2	0.186
R2 Adj.	0.178
AIC	1665.7
BIC	1678.8
Log.Lik.	-828.839
F	22.095
RMSE	16.61
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001

Regresión 2

Regresion: modelo 2
	VotosCastillo (II)
(Intercept)	-17.057
	(29.924)
porcentaje_mujeres	1.507**
	(0.560)
porcentaje_jovenes	0.046
	(0.293)
Porc_PE	0.607***
	(0.117)
Num.Obs.	196
R2	0.186
R2 Adj.	0.174
AIC	1667.7
BIC	1684.0
Log.Lik.	-828.826
F	14.663
RMSE	16.61
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001

Regresión 3

Regresion: modelo 3
	VotosCastillo (III)
(Intercept)	26.881
	(30.687)
porcentaje_mujeres	1.632**
	(0.539)
porcentaje_jovenes	-0.411
	(0.303)
IDH	-0.663***
	(0.162)
Porc_PE	0.139
	(0.160)
Num.Obs.	196
R2	0.252
R2 Adj.	0.237
AIC	1653.1
BIC	1672.8
Log.Lik.	-820.541
F	16.118
RMSE	15.92
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001

Comparando modelos

Tabla ANOVA para comparar modelos
Res.Df	RSS	Df	Sum of Sq	F	Pr(>F)
193	54055.94	NA	NA	NA	NA
192	54049.10	1	6.83466	0.0262833	0.8713818
191	49667.36	1	4381.74440	16.8503664	0.0000599

Linealidad

Interpretación: La falta de linearidad provocaría que el modelo no sirva para explicar las mismas variables con datos diferentes en otros estudios.

Homocedasticidad

Interpretación: Se rechaza que el modelo muestre homocedasticidad.

Normalidad de los residuos

Interpretación: Se rechaza la normalidad de los residuos. Por lo tanto, porcentaje de votos se distribuye de manera normal y se puede realizar inferencias a partir de lo encontrado como interpretaciones sólidas y confiables en base a resultados.

No multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
	VIF
porcentaje_mujeres	1.046401
porcentaje_jovenes	1.298750
IDH	2.627061
Porc_PE	2.330429

Interpretación: no existe multiconealidad alta entre los predictores y permite calcular bien el efecto de cada regresor.

Valores influyentes

Cuadro V.I

Valores Influyentes criticos
cook.d	hat
NA	NA
:——	:—

Interpretación: Ningún número afecta el cálculo de la regresión.

Clusterización

Column

Comentarios

PAM:

Gráfico C: Nos recomienda dos clusters.

Clusterización: Provincias mal clusterizadas: “BONGARA”, “CAJATAMBO”, “HUAMANGA”, “JAÉN”, “LAMPA”, “SANDIA”, “UTCUBAMBA”.

Agnes:

Gráfico D: Recomienda un cluster.

No se puede continuar con el análisis porque no permite un operador unitario. Por lo tanto, el análisis concluye allí.

Diana:

Gráfico E: Nos recomienda dos clusters.

Clusterización: Sin provincias mal clusterizadas.

Gráfico DIANA - Dos subconjuntos sin provincias mal clusterizadas.

Column {data-width=600}

Grafico A

Datos seleccionados

Grafico B

Las variables están estandarizadas.

Análisis Univariado

Column {data-width=300}

Comentarios V.D

Comentarios V.I: %Mujeres

Comentarios V.I: %Jovenes

Comentarios V.I: %IDH

Column {data-width=600}

Histograma V.D

Boxplot V.D

Histograma %Mujeres

Boxplot %Mujeres

Histograma %Jovenes

Boxplot %Jovenes

Histograma %IDH

Boxplot %IDH

Análisis Bivariado

Column

Comentarios

Column {data-width=600}

Bivariado 1

Bivariado 2

Bivariado 3

Regresión Lineal

Column

Comentarios

Column {data-width=600}

Regresión 1

Regresión 2

Regresión 3

Comparando modelos

Linealidad

Homocedasticidad

Normalidad de los residuos

No multicolinealidad

Valores influyentes

Cuadro V.I

Clusterización

Column

Comentarios

Column {data-width=600}

Grafico A

Grafico B

Grafico C - PAM

Silhouettes PAM

Grafico D - AGNES

Grafico E - DIANA

Silhouettes Diana

Grafico PAM - Mal clusterizados

Grafico DIANA - Mal clusterizados