Análisis Univariado y Bivariado

Column

Comentarios

Univariado

Histograma: Se puede apreciar desde el valor mínimo al máximo, la media y la desviación típica.

  • Min.: 7.7000000
  • Median: 17.3000000
  • Mean: 18.6120000
  • Max.: 40.5000000
  • Sd.: 8.2596065

Boxplot: No existen datos atípicos.

Bivariado:

Después de realizar la correlación Pearson, se conluyó que las variables

  • “porcentaje_mujeres”, sí tiene correlación

  • “porcentaje_jovenes”, no tiene correlación

  • “IDH”, sí existe correlación.

Column {data-width=600}

Histograma

Boxplot

Bivariado 1

$estimate
       cor 
-0.1755666 

$p.value
[1] 0.01384116
$estimate
       rho 
-0.2961951 

$p.value
[1] 2.495754e-05

Bivariado 2

$estimate
      cor 
0.0417881 

$p.value
[1] 0.5608729
$estimate
      rho 
0.1001802 

$p.value
[1] 0.162393

Bivariado 3

$estimate
       cor 
-0.4693367 

$p.value
[1] 3.950833e-12
$estimate
       rho 
-0.4852079 

$p.value
[1] 5.705405e-13

Regresión Lineal

Column

Comentarios

#Interpretación RL1: El porcentaje de mujeres votantes SÍ tiene efecto y es significativo, por lo que, tiene una relación directa siendo controlado por el porcentaje de pobreza extrema.

#Interpretación RL2: El porcentaje de jovenes no tiene significancia en los votos por Castillo.

#Interpretación RL3: Añadimos la variable IDH y todas las variables son significativas con el porcentaje de votos por Castillo. Para saber cuál tiene mayor impacto, estandarizamos los coeficientes.

#Interpretación Anova, el modelo3 es el mejor.

Column {data-width=600}

Regresión 1

Regresion: modelo 1
 VotosCastillo (I)
(Intercept) -0.730**
(0.255)
porcentaje_mujeres 0.020***
(0.005)
Porc_PE 0.007***
(0.001)
Num.Obs. 196
R2 0.285
R2 Adj. 0.278
AIC -164.8
BIC -151.7
Log.Lik. 86.422
F 38.547
RMSE 0.16
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión 2

Regresion: modelo 2
 VotosCastillo (II)
(Intercept) -0.573*
(0.279)
porcentaje_mujeres 0.019***
(0.005)
porcentaje_jovenes -0.004
(0.003)
Porc_PE 0.008***
(0.001)
Num.Obs. 196
R2 0.292
R2 Adj. 0.281
AIC -164.7
BIC -148.3
Log.Lik. 87.369
F 26.434
RMSE 0.15
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión 3

Regresion: modelo 3
 VotosCastillo (III)
(Intercept) -0.169
(0.287)
porcentaje_mujeres 0.020***
(0.005)
porcentaje_jovenes -0.008**
(0.003)
IDH -0.611***
(0.151)
Porc_PE 0.004*
(0.001)
Num.Obs. 196
R2 0.348
R2 Adj. 0.334
AIC -178.8
BIC -159.2
Log.Lik. 95.423
F 25.501
RMSE 0.15
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparando modelos

Tabla ANOVA para comparar modelos
Res.Df RSS Df Sum of Sq F Pr(>F)
193 4.751105 NA NA NA NA
192 4.705411 1 0.0456946 2.013672 0.1575174
191 4.334202 1 0.3712081 16.358432 0.0000760

Linealidad

#Interpretación: La falta de linearidad provocaría que el modelo no sirva para explicar las mismas variables con datos diferentes en otros estudios.

Homocedasticidad

#Interpretación: Se rechaza que el modelo muestre homocedasticidad.

Normalidad de los residuos

#Interpretación: Se rechaza la normalidad de los residuos. Por lo tanto, porcentaje de votos se distribuye de manera normal y se puede realizar inferencias a partir de lo encontrado como interpretaciones sólidas y confiables en base a resultados.

No multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
VIF
porcentaje_mujeres 1.046401
porcentaje_jovenes 1.298750
IDH 2.627061
Porc_PE 2.330429

#Interpretación: no existe multiconealidad alta entre los predictores y permite calcular bien el efecto de cada regresor.

Valores influyentes

#Interpretación: Ningún número afecta el cálculo de la regresión.


Clusterización

Column

Comentarios

PAM: El análisis recomienda dos clusters y se señalan las provincias mal clusterizadas.

Agnes: Al momento de usar la función: #fviz_silhouette(res.agnes,print.summary = F). No permite continuar con el análisis porque no permite un operador unitario. Por lo tanto, queda ahí el análisis.

Diana: Se presenta dos clusters pero no existe alguna provincia mal clusterizada.

Column {data-width=600}

Grafico A

#Datos seleccionados

Grafico B

#Las variables están estandarizadas y las guardamos

Grafico C - PAM

#Nos recomienda dos clusters.

Verificar la clusterización

#Provincias mal clusterizadas: “BONGARA”, “CAJATAMBO”, “HUAMANGA”, “JAEN”, “LAMPA”, “SANDIA”, “UTCUBAMBA”.


Grafico D - AGNES

#Un cluster

Grafico E - DIANA

Dendograma - Diana

Silhouettes Diana

#Sin provincias mal clusterizadas.

Grafico PAM - Mal clusterizados

Grafico DIANA - Mal clusterizados