Introducción

Column

MAPA PERÚ

Necesita revisión, hay un par de provincias con NA, pero si existe su valor (seguro están mal escritas)

Column

Introducción

La esperanza de vida es una variable que se construye a partir de y se resumen en que es la cantidad de años que puede llegar a vivir un recién nacido si las condiciones en las que nace siguen siendo las mismas durante todo su periodo de vida.

Descripción del tema

Factores socioeconómicos que pueden afectar la esperanza de vida de los pobladores de las 196 provincias de Perú. En este análisis se usan variables como acceso a servicios básicos (agua y luz), nivel de pobreza, analfabetismo, afiliación a seguros de salud, corrupción, ingreso mensual familiar y ejecución presupuestal para entender cómo influyen en la esperanza de vida al nacer.

Observaciones: Falta mejorar (No es mucho texto?)

Variable Dependiente

Column

Esperanza de vida

La esperanza de vida al nacer es una medida estadística que estima el número promedio de años que viviría una persona si se mantuvieran constantes las tasas de mortalidad por edad observadas en un determinado año. Es un indicador fundamental de salud pública y calidad de vida, utilizado para evaluar el desarrollo social y económico de un país o región

Estadísticos de la VD

Resumen Estadístico de la Esperanza de Vida
Media Mediana Desviación Variación Mínimo Máximo
73.91 74.78 7.63 58.21 46.54 93.11

Column {data-width=500}

Box plot

Histograma

Correlaciones

Column {data-width=500}

VI 1 - Población urbana

Pearson:

    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$Urbano
t = -0.59156, df = 194, p-value = 0.5548
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.18150630  0.09830421
sample estimates:
        cor 
-0.04243308 

cor: -0.04243308, p-value: 0.5548

Estos valores inican que hay una correlación negativa muy débil entre la Esperanza de vida y el porcentaje de la población que vive en zonas urbanas. El p-valor, al ser mayor a 0.05, indica que la relación no es estadísticamente significativa, por lo que no hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación. No se puede decir que existe una relación positiva o negativa entre la esperanza de vida y el porcentaje de la población de una provincia que vive en zonas urbanas. Esto sa pase a pensar en que existen otros factores que probablemente influyan más en la esperanza de vida.

VI 2 - Servicios básicos (agua y luz)

Pearson

    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$P_agua_luz
t = 3.4838, df = 194, p-value = 0.0006109
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1061056 0.3702123
sample estimates:
      cor 
0.2426498 

cor: 0.2426498, p-value: 0.0006109 Estos valores inican que hay una correlación positiva, pero débil entre la Esperanza de vida y el porcentaje de la población que tiene acceso a los servicios básicos de agua y electricidad. El p-valor, al ser menor a 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación.

Al comprobarse que un mejor acceso a servicios básicos como agua potable y electricidad está asociado positivamente, pero débil, con una mayor esperanza de vida, se puede decir que es necesario óptimizar dichos servicios y ver si existe una mejora en la esperanza de vida de las personas de cada provincia.

VI3 - Años de estudio

Pearson

    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$Año_estud
t = 4.3662, df = 194, p-value = 2.055e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1659272 0.4216016
sample estimates:
      cor 
0.2991237 

cor: 0.2991237, p-value: 2.055e-05 Estos valores inican que hay una correlación positiva entre la Esperanza de vida y los años promedio de estudio de la población. El p-valor, al ser menor a 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación.

Lo mencionado señala que una mayor educación está asociada con una mayor esperanza de vida, esto se puede asociar a un mayor acceso a información por parte de las personas.

VI4 - Pob. alfabetizada

Pearson

    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$P_alfabeta
t = 4.6766, df = 194, p-value = 5.455e-06
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1864640 0.4388728
sample estimates:
      cor 
0.3182984 

cor: 0.3182984, p-value: 5.455e-06 Estos valores inican que hay una correlación positiva entre la Esperanza de vida y el porcentaje de población alfabetizada. El p-valor, al ser menor a 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación.

Similar a la variable anterior, las personas alfabetizadas tienen más probabilidades de acceder a información sobre salud, mejorar sus condiciones de vida y tomar decisiones que favorezcan una mayor esperanza de vida.

VI5 - Seguro

Pearson

    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$P_asegurada
t = -3.6392, df = 194, p-value = 0.0003506
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.3794992 -0.1167767
sample estimates:
      cor 
-0.252792 

cor: -0.252792, p-value: 0.0003506 Estos valores inican que hay una correlación negativa entre la Esperanza de vida y el porcentaje de población asegurada. El p-valor, al ser menor a 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación. En este caso es importante dar enfasis al hecho de que la relación es negativa, lo que sugiere que a mayor porcentaje de población asegurada, menor esperanza de vida, o viceversa. Esto podría indicar que el sistema de salud no está funcionando de manera óptima.

VI6 - Avance Presupuestal

Pearson

    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$P_presu_usado
t = -2.2926, df = 194, p-value = 0.02295
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.29582945 -0.02277631
sample estimates:
       cor 
-0.1624105 

cor: -0.1624105, p-value: 0.02295 Estos valores inican que hay una correlación negativa débil entre la Esperanza de vida y el porcentaje de presupuesto ejecutado. El p-valor, al ser menor a 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación. Es decir, existe una relación significativa entre la Esperanza de Vida y el avance presupuestal.

Esto indicaría que a pesar de que la correlación es débil, existe una tendencia a que en las provincias donde se ha ejecutado un mayor porcentaje del presupuesto, la esperanza de vida tiende a ser más baja. Se podría pensar en que las inversiones no se están ejecutando de manera efectiva en áreas que realmente mejoren la calidad de vida y la salud de la población.

VI7 - Ingreso familiar

Pearson

    Pearson's product-moment correlation

data:  data$Esperanza_vida and data$Ing_fam
t = 6.6869, df = 194, p-value = 2.369e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.3115444 0.5401855
sample estimates:
      cor 
0.4327994 

cor: 0.4327994, p-value: 2.369e-10 Estos valores inican que hay una correlación positiva regular entre la Esperanza de vida y el promedio de los ingresos familiares. El p-valor, al ser menor a 0.05, indica que la relación es estadísticamente significativa, por lo que se puede señalar que hay evidencia suficiente para rechazar la hipótesis nula de que no existe correlación. Es decir, existe una relación significativa entre la Esperanza de Vida y el promedio de los ingresos familiares.Las personas con mayores ingresos tienen más acceso a servicios de salud, mejor nutrición, y condiciones de vida más saludables, lo que explica la mayor esperanza de vida. Es una indicación de que la desigualdad económica podría afectar negativamente la salud de la población.

VI8 - Nivel de pobreza monetaria

Spearman

    Spearman's rank correlation rho

data:  data$Esperanza_vida and data$Nivel_pobreza
S = 1713687, p-value = 1.369e-07
alternative hypothesis: true rho is not equal to 0
sample estimates:
       rho 
-0.3656075 

rho: -0.3656075, p-value: 1.369e-07 Con los resultados podemos ver que existe una correlación negativa entre la Esperanza de Vida y el nivel de pobreza. Esto puede indicar que a medida que el nivel de pobreza aumenta (es decir, mayor pobreza), la esperanza de vida tiende a disminuir. Esta relación se refuerza debido al p-valor, el cual a ser menor a 0.05, indica que la relación es estadísticamente significativa. Se puede explicar esta relación ya que las provincias con un nivel de pobreza mayor tienden a tener menos acceso a servicios de salud, una peor calidad de vida y mayores riesgos de enfermedades, lo que reduce su esperanza de vida.

Column {data-width=500}

Gráfico VI1

Esperanza de vida y Población Urbana

Gráfico VI2

Esperanza de vida y Acceso a Agua y Luz

Gráfico VI3

Esperanza de vida y Años de Estudio

Gráfico VI4

Esperanza de vida y Porcentaje de Alfabetización

Gráfico VI5

Esperanza de vida y Población Asegurada

Gráfico VI6

Esperanza de vida y Avance Presupuestal

Gráfico VI7

Esperanza de vida y Ingreso Familiar

Gráfico VI8

Nivel de Pobreza y Esperanza de Vida

Regresión Gauss

Column {data-width=500}

Hipótesis

Hipótesis 1
Esperanza_vida ~ P_agua_luz
Hipótesis 2
Esperanza_vida ~ P_agua_luz + P_alfabeta
Hipótesis 3
Esperanza_vida ~ P_agua_luz + P_alfabeta + P_asegurada
Hipótesis 4
Esperanza_vida ~ P_agua_luz + P_alfabeta + P_asegurada + Nivel_pobreza

Column {data-width=500}

Modelo sin escalar


Call:
lm(formula = Esperanza_vida ~ Población + Urbano + P_agua_luz + 
    Año_estud + P_alfabeta + P_asegurada + Nivel_pobreza + P_presu_usado + 
    Ing_fam + Indice_corr, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-23.4738  -3.8893   0.7445   5.0143  20.1750 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)    6.940e+01  1.913e+01   3.628 0.000369 ***
Población     -9.401e-09  8.484e-07  -0.011 0.991171    
Urbano        -1.281e-02  2.170e-02  -0.591 0.555561    
P_agua_luz     4.536e-02  3.642e-02   1.246 0.214486    
Año_estud     -1.513e+00  6.941e-01  -2.180 0.030530 *  
P_alfabeta     1.312e-01  2.117e-01   0.620 0.536342    
P_asegurada   -4.003e-02  7.620e-02  -0.525 0.600000    
Nivel_pobreza -4.175e-01  7.345e-01  -0.568 0.570457    
P_presu_usado -8.708e-02  5.345e-02  -1.629 0.104944    
Ing_fam        1.341e-02  3.492e-03   3.841 0.000168 ***
Indice_corr    7.581e-02  5.475e-02   1.385 0.167816    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.863 on 185 degrees of freedom
Multiple R-squared:  0.2325,    Adjusted R-squared:  0.191 
F-statistic: 5.604 on 10 and 185 DF,  p-value: 2.688e-07

Modelo escalado


Call:
lm(formula = scale(Esperanza_vida) ~ scale(Población) + scale(Urbano) + 
    scale(P_agua_luz) + scale(Año_estud) + scale(P_alfabeta) + 
    scale(P_asegurada) + scale(Nivel_pobreza) + scale(P_presu_usado) + 
    scale(Ing_fam) + scale(Indice_corr), data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-3.07658 -0.50975  0.09758  0.65719  2.64422 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           2.292e-16  6.425e-02   0.000 1.000000    
scale(Población)     -7.721e-04  6.968e-02  -0.011 0.991171    
scale(Urbano)        -3.943e-02  6.677e-02  -0.591 0.555561    
scale(P_agua_luz)     9.136e-02  7.335e-02   1.246 0.214486    
scale(Año_estud)     -3.448e-01  1.582e-01  -2.180 0.030530 *  
scale(P_alfabeta)     8.854e-02  1.429e-01   0.620 0.536342    
scale(P_asegurada)   -4.907e-02  9.342e-02  -0.525 0.600000    
scale(Nivel_pobreza) -7.212e-02  1.269e-01  -0.568 0.570457    
scale(P_presu_usado) -1.107e-01  6.797e-02  -1.629 0.104944    
scale(Ing_fam)        4.774e-01  1.243e-01   3.841 0.000168 ***
scale(Indice_corr)    1.042e-01  7.522e-02   1.385 0.167816    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.8994 on 185 degrees of freedom
Multiple R-squared:  0.2325,    Adjusted R-squared:  0.191 
F-statistic: 5.604 on 10 and 185 DF,  p-value: 2.688e-07

No hay mucha diferencia, pero es importante para ver el verdadero impacto de cada variable

H1


Call:
lm(formula = h1, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-28.014  -4.122   0.418   5.172  18.713 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 65.16029    2.56614  25.392  < 2e-16 ***
P_agua_luz   0.12048    0.03458   3.484 0.000611 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.421 on 194 degrees of freedom
Multiple R-squared:  0.05888,   Adjusted R-squared:  0.05403 
F-statistic: 12.14 on 1 and 194 DF,  p-value: 0.0006109

H2


Call:
lm(formula = h2, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.5975  -3.8621   0.7761   4.6135  21.0752 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 34.69910    8.40999   4.126 5.49e-05 ***
P_agua_luz   0.07888    0.03520   2.241 0.026189 *  
P_alfabeta   0.39818    0.10504   3.791 0.000201 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.178 on 193 degrees of freedom
Multiple R-squared:  0.1241,    Adjusted R-squared:  0.115 
F-statistic: 13.67 on 2 and 193 DF,  p-value: 2.799e-06

H3


Call:
lm(formula = h3, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-25.8778  -3.9774   0.5255   4.6039  20.7880 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 52.64669   16.52625   3.186  0.00169 **
P_agua_luz   0.08880    0.03602   2.465  0.01457 * 
P_alfabeta   0.26973    0.14621   1.845  0.06660 . 
P_asegurada -0.09662    0.07663  -1.261  0.20887   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.167 on 192 degrees of freedom
Multiple R-squared:  0.1313,    Adjusted R-squared:  0.1177 
F-statistic: 9.673 on 3 and 192 DF,  p-value: 5.629e-06

H4


Call:
lm(formula = h4, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.5654  -3.9400   0.6082   4.7612  19.8240 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   69.88946   19.18818   3.642 0.000348 ***
P_agua_luz     0.07675    0.03649   2.103 0.036750 *  
P_alfabeta     0.08748    0.17915   0.488 0.625897    
P_asegurada   -0.06935    0.07781  -0.891 0.373955    
Nivel_pobreza -1.12815    0.64749  -1.742 0.083054 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.129 on 191 degrees of freedom
Multiple R-squared:  0.1449,    Adjusted R-squared:  0.127 
F-statistic:  8.09 on 4 and 191 DF,  p-value: 4.783e-06

Análisis Factorial

Column {data-width=500}

Cuadro de correlaciones

Matriz de Correlaciones
P_agua_luz Año_estud P_alfabeta P_asegurada Nivel_pobreza Ing_fam
P_agua_luz 1.00 0.28 0.31 -0.06 -0.33 0.34
Año_estud 0.28 1.00 0.85 -0.62 -0.82 0.82
P_alfabeta 0.31 0.85 1.00 -0.68 -0.79 0.76
P_asegurada -0.06 -0.62 -0.68 1.00 0.61 -0.55
Nivel_pobreza -0.33 -0.82 -0.79 0.61 1.00 -0.78
Ing_fam 0.34 0.82 0.76 -0.55 -0.78 1.00

KMO test

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data_filtrada)
Overall MSA =  0.87
MSA for each item = 
   P_agua_luz     Año_estud    P_alfabeta   P_asegurada Nivel_pobreza 
         0.76          0.85          0.86          0.88          0.91 
      Ing_fam 
         0.90 
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = dataKMO)
Overall MSA =  0.89
MSA for each item = 
    Año_estud    P_alfabeta   P_asegurada Nivel_pobreza       Ing_fam 
         0.85          0.87          0.92          0.91          0.90 

Para que tenga significacia en el segundo cuadro solo están las variables que obtuvieron un valor mayor a 0.8

Matriz adecuada

Identidad
[1] FALSE
Singular
[1] FALSE

Redimensionar

Parallel analysis suggests that the number of factors =  1  and the number of components =  NA 

Sugiere 1 división

Redimensión

Cargas Factoriales del Análisis Factorial
x
P_agua_luz 0.321
Año_estud 0.931
P_alfabeta 0.914
P_asegurada -0.668
Nivel_pobreza -0.939
Ing_fam 0.866

Resultados EFA

Row

Figura Corplot

Solo se trabaja con las variables que tengan un mayor impacto

Análisis Clúster

Column {data-width=500}

Pam

Gráfico - número de clústers

Agnes

Gráfico - número de clústers

Diana

Gráfico - número de clústers

Column {data-width=500}

Gráfico Pam

Gráfico Agnes

Gráfico Diana

Column {data-width=500}

Comparando los modelos

DIANA:
[1] NA
AGNES:
[1] NA
PAM
[1] NA

Conclusión: El mejor modelo para clusterizar es el DIANA. Esto indica que es mejorr partir desde un grupo grande hacia divisiones más específicas

Conclusiones

Column

Conclusión

Las variables no se consideran significativas para explicar la variable dependiente. En el análisis múltivariado se ve como solo dos del total de variables tienen significancia, esto puede indicar que existen otros factores que no han sido considerados en este trabajo que tienen mayor inportancia.

En la parte de ánalisis del modelo presentado se puede ver que el p-valor global es bajo (2.688e-07), pero indica significancia. Como bien se ha mencionado, solo un par de variables son las responsables de que el modelo tenga significancia, estas variables son: Años de estudio (Año_estud) e Ingreso familiar (Ing_fam).

La primera variable muestra una tendencia negativa. Esto es algo curioso debido a que se esperaría encontrar una relación positiva entre la cantidad de años de estudio y la esperanza de vida de una persona, y ayuda a pensar en otros factores que podrían estar afectando más la esperanza de vida que los años de educación.

La segunda variable tiene un coeficiente positivo. Esto confirma la idea de que a mayor ingreso familiar se espera una mayor esperanza de vida, lo cual es intuitivo, ya que mayores ingresos permiten mejor acceso a servicios de salud, alimentación y condiciones de vida.

Por parte de las variables no significativas que se esperaba cuenten con significancia están las siguientes: población, nivel de pobreza, corrupción, y acceso a agua y luz. Esto se puede atribuir a un mal uso de las variables o a una mala estructura dentro de los datos estadísticos. Una variable considerbale es la Población urbana (Urbano) ya que se esperaría que el hecho de vivir en zonas urbanas tendría un efecto positivo en la cantidad de años de esperanza de vida debido al alcance y facilidaddes que ello implica en la población, pero esta suposición no es perceptible en este caso.

Column

Chart A

'data.frame':   196 obs. of  14 variables:
 $ DEPARTAMENTO  : chr  " APURÍMAC" " HUANCAVELICA" " CUSCO" " ÁNCASH" ...
 $ PROVINCIA     : chr  "ABANCAY" "ACOBAMBA" "ACOMAYO" "AIJA" ...
 $ UBIGEO        : int  301 902 802 202 1602 1002 302 903 803 303 ...
 $ Esperanza_vida: num  73.3 74.9 53.6 58.1 75.8 ...
 $ Población     : int  110520 38208 22940 6316 122725 50880 142477 49207 56206 11310 ...
 $ Urbano        : num  80.7 91 78.7 50.5 33.8 ...
 $ P_agua_luz    : num  81.5 78.8 80.4 80 31.5 ...
 $ Año_estud     : num  8.64 4.63 4.63 6.78 6.2 4.91 5.98 5.03 6.17 6.29 ...
 $ P_alfabeta    : num  86.2 77 78.3 87.9 82.5 ...
 $ P_asegurada   : num  87 94.4 89.5 91.7 89.7 ...
 $ P_presu_usado : num  79.1 75.1 77.9 66.6 85.2 63.6 80.6 64.4 79.2 74.3 ...
 $ Nivel_pobreza : int  2 4 4 3 3 3 3 4 3 3 ...
 $ Indice_corr   : num  52.9 44.9 25.6 33.5 48.2 42.5 49.2 27.7 27.6 21 ...
 $ Ing_fam       : num  681 276 352 580 716 ...

Column

Chart B

 [1] "DEPARTAMENTO"   "PROVINCIA"      "UBIGEO"         "Esperanza_vida"
 [5] "Población"      "Urbano"         "P_agua_luz"     "Año_estud"     
 [9] "P_alfabeta"     "P_asegurada"    "P_presu_usado"  "Nivel_pobreza" 
[13] "Indice_corr"    "Ing_fam"       

Chart C

 [1] "DEPARTAMENTO"   "PROVINCIA"      "UBIGEO"         "Esperanza_vida"
 [5] "Población"      "Urbano"         "P_agua_luz"     "Año_estud"     
 [9] "P_alfabeta"     "P_asegurada"    "P_presu_usado"  "Nivel_pobreza" 
[13] "Indice_corr"    "Ing_fam"