Introducción

Column

MAPA PERÚ

Column

Introducción

La esperanza de vida en Perú ha experimentado variaciones importantes en los últimos años. Desde un aumento constante entre 2013 y 2019, alcanzando un promedio de 76.16 años, hasta una disminución significativa entre 2020 y 2021, llegando a los 73.67 y 72.38 años, respectivamente. Esta variación se podría atribuir al impacto de la pandemia; sin embargo, en 2022 se evidenció un leve incremento, alcanzando los 73.39 años. Estas variaciones reflejan la influencia de diversos factores en la salud pública y la calidad de vida de la población peruana, lo cual motivó el desarrollo de este análisis con diferentes variables que pueden o no influir en la esperanza de vida al nacer El trabajo busca estudiar “Factores que influyen en la esperanza de vida de la población peruana”. Por ello, se tomaron en cuenta diversas variables como el acceso a servicios básicos (agua y luz), el nivel de pobreza, el analfabetismo, la afiliación a seguros de salud, el ingreso mensual familiar y la ejecución presupuestal, para comprender cómo estos factores socioeconómicos afectan a la esperanza de vida.

Cuadro esperanza de vida anual

Esperanza de Vida por Año y Género
Año EV Mujer EV Hombres EV Total
2022 75.50 71.33 73.39
2021 74.75 70.12 72.38
2020 76.82 70.81 73.67
2019 78.50 73.90 76.16
2018 78.29 73.80 76.01
2017 78.10 73.73 75.88
2016 77.95 73.70 75.79
2015 77.74 73.58 75.62
2014 77.43 73.32 75.33
2013 77.08 72.95 74.97

El cuadro incluye la Esperanza de vida a nivel nacional de los últimos años

Variable Dependiente

Column

Esperanza de vida

La esperanza de vida al nacer es una medida estadística que estima el número promedio de años que viviría una persona si se mantuvieran constantes las tasas de mortalidad por grupo etario observadas en un determinado año. Esta variable se utiliza normalmente para medir el Índice de Desarrollo Humano.

Estadísticos de la VD

Resumen Estadístico de la Esperanza de Vida
Media Mediana Desviación Variación Mínimo Máximo
73.91 74.78 7.63 58.21 46.54 93.11

Column {data-width=500}

Box plot

Histograma

Correlaciones

Column {data-width=500}

VI 1 - Población urbana

Pearson:


    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$Urbano
t = -0.59156, df = 194, p-value = 0.5548
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.18150630  0.09830421
sample estimates:
        cor 
-0.04243308 

cor: -0.04243308, p-value: 0.5548

Estos valores indican que hay una correlación negativa muy débil entre la esperanza de vida y el porcentaje de la población que vive en zonas urbanas. El p-valor, al ser mayor que 0.05, indica que la relación no es estadísticamente significativa, por lo que no hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación. No se puede decir que exista una relación positiva o negativa entre la esperanza de vida y el porcentaje de la población de una provincia que vive en zonas urbanas. Esto hace pensar que existen otros factores que probablemente influyan más en la esperanza de vida.

VI 2 - Servicios básicos (agua y luz)

Pearson


    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$P_agua_luz
t = 3.4838, df = 194, p-value = 0.0006109
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1061056 0.3702123
sample estimates:
      cor 
0.2426498 

cor: 0.2426498, p-value: 0.0006109

Estos valores indican que hay una correlación positiva, pero débil, entre la esperanza de vida y el porcentaje de la población que tiene acceso a los servicios básicos de agua y electricidad. El p-valor, al ser menor que 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación.

Al comprobarse que un mejor acceso a servicios básicos como agua potable y electricidad está asociado positivamente, pero débilmente, con una mayor esperanza de vida, se puede decir que es necesario optimizar el acceso a dichos servicios y ver si existe una mejora en la esperanza de vida de las personas de cada provincia.

VI 3 - Años de estudio

Pearson


    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$Año_estud
t = 4.3662, df = 194, p-value = 2.055e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1659272 0.4216016
sample estimates:
      cor 
0.2991237 

cor: 0.2991237, p-value: 2.055e-05

Estos valores indican que hay una correlación positiva entre la esperanza de vida y los años promedio de estudio de la población. El p-valor, al ser menor que 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación.

Lo mencionado señala que una mayor educación está asociada con una mayor esperanza de vida. Esto se puede asociar a un mayor acceso a información por parte de las personas.

VI 4 - Pob. alfabetizada

Pearson


    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$P_alfabeta
t = 4.6766, df = 194, p-value = 5.455e-06
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1864640 0.4388728
sample estimates:
      cor 
0.3182984 

cor: 0.3182984, p-value: 5.455e-06

Estos valores indican que hay una correlación positiva entre la esperanza de vida y el porcentaje de población alfabetizada. El p-valor, al ser menor que 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación.

Similar a la variable anterior, las personas alfabetizadas tienen más probabilidades de acceder a información sobre salud, mejorar sus condiciones de vida y tomar decisiones que favorezcan una mayor esperanza de vida.

VI 5 - Seguro

Pearson


    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$P_asegurada
t = -3.6392, df = 194, p-value = 0.0003506
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.3794992 -0.1167767
sample estimates:
      cor 
-0.252792 

cor: -0.252792, p-value: 0.0003506

Estos valores indican que hay una correlación negativa entre la esperanza de vida y el porcentaje de población asegurada. El p-valor, al ser menor que 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación. En este caso, es importante dar énfasis al hecho de que la relación es negativa, lo que sugiere que a mayor porcentaje de población asegurada, menor esperanza de vida, o viceversa a nivel provincial. Esto podría indicar que el sistema de salud no está funcionando de manera óptima.

VI 6 - Avance Presupuestal

Pearson


    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$P_presu_usado
t = -2.2926, df = 194, p-value = 0.02295
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.29582945 -0.02277631
sample estimates:
       cor 
-0.1624105 

cor: -0.1624105, p-value: 0.02295

Estos valores indican que hay una correlación negativa débil entre la esperanza de vida y el porcentaje de presupuesto ejecutado. El p-valor, al ser menor que 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación. Es decir, existe una relación significativa entre la esperanza de vida y el avance presupuestal.

Esto indicaría que, a pesar de que la correlación es débil, existe una tendencia a que en las provincias donde se ha ejecutado un mayor porcentaje del presupuesto, la esperanza de vida tiende a ser más baja. Se podría pensar que las inversiones no se están ejecutando de manera efectiva en áreas que realmente mejoren la calidad de vida y la salud de la población.

VI 7 - Ingreso familiar

Pearson


    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$Ing_fam
t = 6.6869, df = 194, p-value = 2.369e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.3115444 0.5401855
sample estimates:
      cor 
0.4327994 

cor: 0.4327994, p-value: 2.369e-10

Estos valores indican que hay una correlación positiva moderada entre la esperanza de vida y el promedio de los ingresos familiares. El p-valor, al ser menor que 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación. Es decir, existe una relación significativa entre la esperanza de vida y el promedio de los ingresos familiares. Las personas con mayores ingresos tienen más acceso a servicios de salud, mejor nutrición y condiciones de vida más saludables, lo que explica la mayor esperanza de vida. Es una indicación de que la desigualdad económica podría afectar negativamente la salud de la población.

VI 8 - Nivel de pobreza monetaria

Spearman


    Spearman's rank correlation rho

data:  data$Esperanza_vida and data$Nivel_pobreza
S = 1713687, p-value = 1.369e-07
alternative hypothesis: true rho is not equal to 0
sample estimates:
       rho 
-0.3656075 

rho: -0.3656075, p-value: 1.369e-07

Con los resultados podemos ver que existe una correlación negativa entre la esperanza de vida y el nivel de pobreza. Esto puede indicar que, a medida que el nivel de pobreza aumenta (es decir, mayor pobreza), la esperanza de vida tiende a disminuir. Esta relación se refuerza debido al p-valor, el cual, al ser menor que 0.05, indica que la relación es estadísticamente significativa. Se puede explicar esta relación, ya que las provincias con un nivel de pobreza mayor tienden a tener menos acceso a servicios de salud, una peor calidad de vida y mayores riesgos de enfermedades, lo que reduce su esperanza de vida.

Conclusión

Aunque las correlaciones observadas son, en su mayoría, débiles o moderadas, se identifica una tendencia que sugiere que las condiciones económicas, así como el acceso a servicios de salud y educación, impactan significativamente en la calidad de vida y la longevidad de la población. A pesar de algunas relaciones inesperadas, como la correlación negativa entre la esperanza de vida y el porcentaje de población asegurada, o entre el porcentaje del presupuesto ejecutado y la esperanza de vida, los resultados indican que mejorar estos factores podría contribuir al aumento de la esperanza de vida. Es importante destacar que, a pesar de que algunas correlaciones son débiles, su significancia estadística sugiere que no se deben descartar como meras casualidades. Por ejemplo, aunque la relación entre el presupuesto ejecutado y la esperanza de vida es débil, podría haber otros factores no medidos que influyen en los resultados. Además, las correlaciones negativas encontradas en algunos casos podrían indicar que hay aspectos del sistema de salud o de la distribución del presupuesto que requieren ser reevaluados, como la eficiencia en la asignación de recursos. Sin embargo, estas correlaciones no implican causalidad. No se puede concluir que una variable cause directamente el cambio en la otra, sino que simplemente están relacionadas de alguna forma.

Column {data-width=500}

Gráfico VI1

Esperanza de vida y Población Urbana

Gráfico VI2

Gráfico VI3

Gráfico VI4

Gráfico VI5

Gráfico VI6

Gráfico VI7

Gráfico VI8

Regresión Gauss

Row

Hipótesis

Hipótesis 1

Esperanza_vida ~ P_agua_luz

Hipótesis 2

Esperanza_vida ~ P_agua_luz + P_alfabeta

Hipótesis 3

Esperanza_vida ~ P_agua_luz + P_alfabeta + P_asegurada

Hipótesis 4

Esperanza_vida ~ P_agua_luz + P_alfabeta + P_asegurada + Nivel_pobreza

Tabla ANNOVA

Comparación de Modelos: ANOVA
Res.Df RSS Df Sum of Sq F Pr(>F)
194 10683.479 NA NA NA NA
193 9943.115 1 740.364 14.568 0.000
192 9861.456 1 81.659 1.607 0.206
191 9707.167 1 154.290 3.036 0.083

La tabla Annova nos demuestra que el mejor modelo es el primero (h2) debido a su significancia estadística más clara y su fuerte mejora con respecto al modelo nulo.

El valor Pr(>F) indica que el modelo significativo solamente es el primero (h2)

Column {data-width=500}

H1


Call:
lm(formula = h1, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-28.014  -4.122   0.418   5.172  18.713 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 65.16029    2.56614  25.392  < 2e-16 ***
P_agua_luz   0.12048    0.03458   3.484 0.000611 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.421 on 194 degrees of freedom
Multiple R-squared:  0.05888,   Adjusted R-squared:  0.05403 
F-statistic: 12.14 on 1 and 194 DF,  p-value: 0.0006109

H2


Call:
lm(formula = h2, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.5975  -3.8621   0.7761   4.6135  21.0752 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 34.69910    8.40999   4.126 5.49e-05 ***
P_agua_luz   0.07888    0.03520   2.241 0.026189 *  
P_alfabeta   0.39818    0.10504   3.791 0.000201 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.178 on 193 degrees of freedom
Multiple R-squared:  0.1241,    Adjusted R-squared:  0.115 
F-statistic: 13.67 on 2 and 193 DF,  p-value: 2.799e-06

H3


Call:
lm(formula = h3, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-25.8778  -3.9774   0.5255   4.6039  20.7880 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 52.64669   16.52625   3.186  0.00169 **
P_agua_luz   0.08880    0.03602   2.465  0.01457 * 
P_alfabeta   0.26973    0.14621   1.845  0.06660 . 
P_asegurada -0.09662    0.07663  -1.261  0.20887   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.167 on 192 degrees of freedom
Multiple R-squared:  0.1313,    Adjusted R-squared:  0.1177 
F-statistic: 9.673 on 3 and 192 DF,  p-value: 5.629e-06

H4


Call:
lm(formula = h4, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.5654  -3.9400   0.6082   4.7612  19.8240 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   69.88946   19.18818   3.642 0.000348 ***
P_agua_luz     0.07675    0.03649   2.103 0.036750 *  
P_alfabeta     0.08748    0.17915   0.488 0.625897    
P_asegurada   -0.06935    0.07781  -0.891 0.373955    
Nivel_pobreza -1.12815    0.64749  -1.742 0.083054 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.129 on 191 degrees of freedom
Multiple R-squared:  0.1449,    Adjusted R-squared:  0.127 
F-statistic:  8.09 on 4 and 191 DF,  p-value: 4.783e-06

Gráfico de intervalo de confianza de los modelos

Modelo sin escalar


Call:
lm(formula = Esperanza_vida ~ Población + Urbano + P_agua_luz + 
    Año_estud + P_alfabeta + P_asegurada + Nivel_pobreza + P_presu_usado + 
    Ing_fam, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-25.0400  -3.7256   0.3843   4.7798  19.6544 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)    7.286e+01  1.901e+01   3.833 0.000173 ***
Población      1.153e-07  8.457e-07   0.136 0.891705    
Urbano        -8.380e-03  2.151e-02  -0.390 0.697312    
P_agua_luz     4.489e-02  3.651e-02   1.230 0.220362    
Año_estud     -1.259e+00  6.710e-01  -1.876 0.062242 .  
P_alfabeta     1.008e-01  2.111e-01   0.478 0.633425    
P_asegurada   -4.317e-02  7.635e-02  -0.565 0.572459    
Nivel_pobreza -4.223e-01  7.363e-01  -0.574 0.566971    
P_presu_usado -8.021e-02  5.335e-02  -1.504 0.134371    
Ing_fam        1.359e-02  3.498e-03   3.886 0.000142 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.879 on 186 degrees of freedom
Multiple R-squared:  0.2245,    Adjusted R-squared:  0.187 
F-statistic: 5.984 on 9 and 186 DF,  p-value: 2.376e-07

Para ver todas las variables y su impacto en la VD

Modelo escalado


Call:
lm(formula = scale(Esperanza_vida) ~ scale(Población) + scale(Urbano) + 
    scale(P_agua_luz) + scale(Año_estud) + scale(P_alfabeta) + 
    scale(P_asegurada) + scale(Nivel_pobreza) + scale(P_presu_usado) + 
    scale(Ing_fam), data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.2818 -0.4883  0.0504  0.6265  2.5760 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           2.442e-16  6.440e-02   0.000 1.000000    
scale(Población)      9.469e-03  6.945e-02   0.136 0.891705    
scale(Urbano)        -2.579e-02  6.620e-02  -0.390 0.697312    
scale(P_agua_luz)     9.041e-02  7.352e-02   1.230 0.220362    
scale(Año_estud)     -2.868e-01  1.529e-01  -1.876 0.062242 .  
scale(P_alfabeta)     6.807e-02  1.425e-01   0.478 0.633425    
scale(P_asegurada)   -5.293e-02  9.361e-02  -0.565 0.572459    
scale(Nivel_pobreza) -7.295e-02  1.272e-01  -0.574 0.566971    
scale(P_presu_usado) -1.020e-01  6.784e-02  -1.504 0.134371    
scale(Ing_fam)        4.839e-01  1.245e-01   3.886 0.000142 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9017 on 186 degrees of freedom
Multiple R-squared:  0.2245,    Adjusted R-squared:  0.187 
F-statistic: 5.984 on 9 and 186 DF,  p-value: 2.376e-07

No hay mucha diferencia, pero es importante para ver el verdadero impacto de cada variable

Conclusión modelo general

Las variables no se consideran significativas para explicar la variable dependiente. En el análisis multivariado se observa que solo dos de las variables tienen significancia, lo que puede indicar que existen otros factores no considerados en este trabajo que tienen mayor importancia.

En el análisis del modelo general presentado, se puede ver que el p-valor global es bajo (2.688e-07), pero indica significancia. Como se mencionó previamente, solo un par de variables son responsables de que el modelo sea significativo. Estas variables son: años de estudio (Año_estud) e ingreso familiar (Ing_fam).

La primera variable muestra una tendencia negativa. Esto es curioso, ya que se esperaría encontrar una relación positiva entre la cantidad de años de estudio y la esperanza de vida de una persona, lo que sugiere que otros factores podrían estar influyendo más en la esperanza de vida que los años de educación.

La segunda variable tiene un coeficiente positivo, lo que confirma la idea de que a mayor ingreso familiar se espera una mayor esperanza de vida. Esto se puede considerar intuitivo, ya que mayores ingresos permiten mejor acceso a servicios de salud, alimentación y condiciones de vida.

Por otro lado, las variables que no resultaron significativas, pero que se esperaba que lo fueran, son las siguientes: población, nivel de pobreza y acceso a agua y luz. Esto podría atribuirse a un mal uso de las variables a una mala estructura dentro de los datos estadísticos. Una variable considerable es la población urbana (Urbano), ya que se esperaría que el hecho de vivir en zonas urbanas tuviera un efecto positivo en lla cantidad de años de esperanza de vida, debido a las ventajas y facilidades que implica vivir en estas áreas. Sin embargo, esta suposición no se refleja en este caso.

Conclusión H2

La tabla ANOVA muestra que la H2 es la mejor, debido a que esta es estadísticamente significativa. Esto significa que el acceso a servicios básicos, como agua y electricidad, reduce las enfermedades y mejora la calidad de vida, lo cual afecta de manera positiva a la VD. Esto se puede ver en el modelo 2, donde se señala que: por cada incremento de 1% en la población con acceso a agua y luz, la esperanza de vida aumenta en 0.078 años, mientras que por cada aumento de 1% en la población alfabetizada, la esperanza de vida aumenta en 0.398 años

Si bien agregar más variables puede ser útil, se ha comprobado que no generan un impacto directo y no tienen significancia estadística suficiente para ser incluidas en el modelo.

Diagnostico de la regresión

Column {data-width=500}

Linealidad

Homocedasticidad

Normalidad

No multicolinealidad

Evaluando Multicolinealidad usando VIF (Variance Inflation Factors)
VIF
P_agua_luz 1.107642
P_alfabeta 1.107642

La prueba va bien, no hay valores mayores a 5

Influyentes

No se muestran valores influyentes

Column {data-width=500}

Linealidad

Ramsey RESET

    RESET test

data:  reg2
RESET = 2.9468, df1 = 2, df2 = 191, p-value = 0.0549

En el gráfico, se debería observar que la línea roja es horizontal, pero realicé una prueba de Ramsey. Esta indica un p-valor mayor a 0.05, por lo que se rechaza la hipótesis de no correlación. Se concluye que el modelo probablemente no necesita términos adicionales y que la linealidad es aceptable, ya que el p-valor es mayor que 0.05.

Homocedasticidad

Breusch-Pagan
studentized Breusch-Pagan test
BP df p.value
BP 8.436708 2 0.0147229

La prueba indica que se rechaza la H0 (no hay heterocedasticidad), lo que implica que se acepta la presencia de heterocedasticidad. Esto puede afectar la precisión de las estimaciones, lo que a su vez puede generar intervalos de confianza inadecuados y valores p incorrectos. Como consecuencia, se pueden obtener conclusiones erróneas sobre la significancia de las variables. Sin embargo, esto no se considera completamente negativo, ya que el modelo aún puede ser útil. No obstante, es un problema que debe ser abordado para asegurar que los resultados sean confiables y válidos.

Normalidad

Shapiro Wilk
Shapiro-Wilk normality test
SW p.value
W 0.9763416 0.0021292

Con un p-valor de 0.0021, se rechaza la hipótesis nula y se concluye que los datos no siguen una distribución normal.

Conclusión

Si bien al principio la hipótesis 2 se mostraba como la mejor, después de aplicar los supuestos, incluyendo normalidad, homocedasticidad, linealidad, influyentes y no multicolinealidad, se observa que en los resultados obtenidos solo se verifican los supuestos de multicolinealidad, linealidad e influyentes. Los supuestos de normalidad y homocedasticidad no se cumplen completamente, lo que podría afectar la validez del modelo.

  • La prueba Shapiro-Wilk sugiere que los residuos no siguen una distribución normal, lo que podría indicar que el modelo no demuestra completamente la relación entre las variables.
  • La prueba Breusch-Pagan muestra indicios de heterocedasticidad, lo que implica que la varianza de los residuos no es constante a lo largo del rango de las variables independientes.

A pesar de que estos supuestos no se cumplen, se pueden explorar nuevas variables o modelos que se adapten mejor al tipo de variables presentes en el análisis.

Análisis Factorial

Column {data-width=500}

Cuadro de correlaciones

Matriz de Correlaciones
Año_estud P_alfabeta P_asegurada Nivel_pobreza Ing_fam
Año_estud 1.00 0.85 -0.62 -0.82 0.82
P_alfabeta 0.85 1.00 -0.68 -0.79 0.76
P_asegurada -0.62 -0.68 1.00 0.61 -0.55
Nivel_pobreza -0.82 -0.79 0.61 1.00 -0.78
Ing_fam 0.82 0.76 -0.55 -0.78 1.00

KMO test

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data_filtrada)
Overall MSA =  0.89
MSA for each item = 
    Año_estud    P_alfabeta   P_asegurada Nivel_pobreza       Ing_fam 
         0.85          0.87          0.92          0.91          0.90 

Mayor a 0.6 es adecuado para trabajar

Matriz adecuada

Identidad

[1] FALSE

No hay redundancia

Singular

[1] FALSE

Están correlacionadas entre sí

Redimensionar

Parallel analysis suggests that the number of factors =  1  and the number of components =  NA 

Sugiere 1 división, las variables se agrupan en un único factor latente, se puede reducir todo a un solo indicador.

Redimensión

Cargas Factoriales del Análisis Factorial
x
Año_estud 0.934
P_alfabeta 0.912
P_asegurada -0.686
Nivel_pobreza -0.932
Ing_fam 0.857

Resultados EFA

Se puede ver una fuerte asociación con el factor.

Row

Figura Corplot

Análisis Clúster

Column {data-width=500}

Pam

Gráfico - número de clústers

Agnes

Gráfico - número de clústers

Diana

Gráfico - número de clústers

Column {data-width=500}

Gráfico Pam

Gráfico Agnes

Gráfico Diana

Column {data-width=500}

Comparando los modelos

DIANA:

[1] 0.3082116

AGNES:

[1] 0.2896788

PAM

[1] 0.2928418

Conclusión: El mejor modelo para clusterizar es el DIANA. Esto indica que es mejorr partir desde un grupo grande hacia divisiones más específicas

Gráfico

Column

Gráfico

Conclusiones

Column

Conclusión

Mediante este trabajo se busco explicar la variación de la esperanza de vida a nivel provincial en Perú. A través de un enfoque estadístico integral que incluyó análisis de correlaciones, análisis factorial, clúster y pruebas de supuestos, se identificaron ciertos patrones y relaciones significativas entre factores como el nivel educativo, el acceso a servicios de salud, el ingreso familiar, la pobreza y la alfabetización.

Los resultados obtenidos, aunque en su mayoría muestran correlaciones débiles o moderadas, sugieren que estos factores pueden de una u otra manera afectar a la esperanza de vida de la población.

El análisis factorial reveló que las variables estudiadas están relacionadas de manera compleja, con una tendencia clara hacia la formación de un solo factor que agrupa estos elementos. A pesar de algunas correlaciones inesperadas y la presencia de relaciones inversas, como las encontradas entre esperanza de vida y el porcentaje de población asegurada, los resultados destacan la importancia de optimizar las políticas públicas en áreas clave como la educación, la salud y la distribución del ingreso. Para ver si en un futuro existe alguna mejora en la esperanza de vida.