Parcial Práctico I - Aprendizaje Estadístico - MINE VIII
Introducción
El análisis y modelado de datos representan herramientas fundamentales para la toma de decisiones informadas en una amplia variedad de disciplinas, desde la economía y la estadística hasta las ciencias de la salud y las políticas públicas. En particular, la regresión lineal es una técnica ampliamente utilizada para identificar y cuantificar la relación entre una variable dependiente y un conjunto de variables explicativas, permitiendo así comprender patrones, realizar inferencias y generar predicciones a partir de datos cuantitativos.
En este contexto, el presente trabajo tiene como objetivo desarrollar un modelo de regresión lineal que permita explicar el comportamiento de la esperanza de vida (Life.expectancy) en función de diversas covariables que abarcan aspectos económicos, sociales y de salud. La esperanza de vida es un indicador clave del bienestar de una población y está influenciada por múltiples factores interrelacionados, por lo que su modelado requiere un enfoque integral que contemple no solo variables individuales, sino también posibles interacciones entre ellas.
Dentro de las variables consideradas, se incluyen indicadores como el acceso a la educación (Schooling) y la composición del ingreso por recursos (Income.composition.of.resources), dos factores que han demostrado tener una influencia significativa en la longevidad de las poblaciones. En particular, se ha incorporado en el análisis la posible interacción entre estas dos variables, ya que se plantea la hipótesis de que un mayor nivel educativo puede potenciar los efectos positivos de una mejor distribución de los recursos económicos en la salud y el bienestar de las personas.
A través de este modelo, se espera no solo identificar las variables con mayor impacto en la esperanza de vida, sino también proporcionar una herramienta analítica que contribuya a la formulación de políticas públicas orientadas a mejorar la calidad y la expectativa de vida en diferentes contextos socioeconómicos.
Análisis Exploratorio
Descripción de la Base de Datos de Esperanza de Vida
La base de datos utilizada en este análisis se titula “Life Expectancy Data” y contiene información sobre la esperanza de vida en distintos países del mundo. Su propósito es analizar factores que pueden influir en la longevidad de la población, tales como indicadores de salud, nivel de desarrollo económico y acceso a servicios básicos.
Origen y Recolección de los Datos
Fuente: La base de datos proviene de la Organización Mundial de la Salud (OMS) y otras fuentes gubernamentales.
Año de Recolección: Contiene datos desde el año 2000 hasta 2015.
Método de Recolección: La información fue recolectada a través de reportes de salud oficiales, censos, encuestas epidemiológicas y otros registros administrativos.
Cobertura Geográfica
Los datos comprenden información de múltiples países, abarcando tanto naciones desarrolladas como en desarrollo.
Cada observación representa la información de un país en un año determinado.
Tamaño de la Base de Datos
- Número de observaciones: 2,938
- Número de variables: 22
Descripción de las Variables
- Country: Nombre del país.
- Year: Año del registro.
- Status: Clasificación del país como desarrollado o
en desarrollo.
- Life expectancy: Esperanza de vida en años.
- Adult Mortality: Tasa de mortalidad adulta de ambos
sexos (probabilidad de morir entre los 15 y 60 años por cada 1,000
habitantes).
- Infant deaths: Número de muertes de bebés por cada
1,000 nacidos vivos.
- Alcohol: Consumo registrado de alcohol per cápita
(mayores de 15 años) en litros de alcohol puro.
- Percentage expenditure: Gasto en salud como
porcentaje del Producto Interno Bruto per cápita (%).
- Hepatitis B: Cobertura de inmunización contra la
hepatitis B (HepB) en niños de 1 año (%).
- Measles: Número de casos reportados de sarampión
por cada 1,000 habitantes.
- BMI: Índice de Masa Corporal (IMC) promedio de la
población del país.
- Under-five deaths: Número de muertes de niños
menores de cinco años por cada 1,000 nacidos vivos.
- Polio: Cobertura de inmunización contra la
poliomielitis en niños de 1 año (%).
- Total expenditure: Gasto total en salud como
porcentaje del Producto Interno Bruto (PIB).
- Diphtheria: Cobertura de inmunización contra la
difteria en niños de 1 año (%).
- HIV/AIDS: Tasa de mortalidad debido al VIH/SIDA por
cada 1,000 habitantes.
- GDP: Producto Interno Bruto per cápita en dólares
estadounidenses (USD).
- Population: Población total del país en el año
correspondiente.
- Thinness 1-19 years: Porcentaje de niños y
adolescentes (1-19 años) con bajo peso.
- Thinness 5-9 years: Porcentaje de niños (5-9 años)
con bajo peso.
- Income composition of resources: Índice de
desarrollo humano (IDH) relacionado con los ingresos, en un rango de 0 a
1.
- Schooling: Promedio de años de educación en la población del país.
## ------------------------------------------------------------------------------
## Describe data (data.frame):
##
## data frame: 2938 obs. of 22 variables
## 1649 complete cases (56.1%)
##
## Nr ColName Class NAs Levels
## 1 Country character .
## 2 Year integer .
## 3 Status character .
## 4 Life.expectancy numeric 10 (0.3%)
## 5 Adult.Mortality integer 10 (0.3%)
## 6 infant.deaths integer .
## 7 Alcohol numeric 194 (6.6%)
## 8 percentage.expenditure numeric .
## 9 Hepatitis.B integer 553 (18.8%)
## 10 Measles integer .
## 11 BMI numeric 34 (1.2%)
## 12 under.five.deaths integer .
## 13 Polio integer 19 (0.6%)
## 14 Total.expenditure numeric 226 (7.7%)
## 15 Diphtheria integer 19 (0.6%)
## 16 HIV.AIDS numeric .
## 17 GDP numeric 448 (15.2%)
## 18 Population numeric 652 (22.2%)
## 19 thinness..1.19.years numeric 34 (1.2%)
## 20 thinness.5.9.years numeric 34 (1.2%)
## 21 Income.composition.of.resources numeric 167 (5.7%)
## 22 Schooling numeric 163 (5.5%)
##
##
## ------------------------------------------------------------------------------
## 1 - Country (character)
##
## length n NAs unique levels dupes
## 2'938 2'938 0 193 193 y
## 100.0% 0.0%
##
## level freq perc cumfreq cumperc
## 1 Afghanistan 16 0.5% 16 0.5%
## 2 Albania 16 0.5% 32 1.1%
## 3 Algeria 16 0.5% 48 1.6%
## 4 Angola 16 0.5% 64 2.2%
## 5 Antigua and Barbuda 16 0.5% 80 2.7%
## 6 Argentina 16 0.5% 96 3.3%
## 7 Armenia 16 0.5% 112 3.8%
## 8 Australia 16 0.5% 128 4.4%
## 9 Austria 16 0.5% 144 4.9%
## 10 Azerbaijan 16 0.5% 160 5.4%
## 11 Bahamas 16 0.5% 176 6.0%
## 12 Bahrain 16 0.5% 192 6.5%
## ... etc.
## [list output truncated]
## ------------------------------------------------------------------------------
## 2 - Year (integer)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'938 0 16 0 2'007.52 2'007.35
## 100.0% 0.0% 0.0% 2'007.69
##
## .05 .10 .25 median .75 .90 .95
## 2'000.00 2'001.00 2'004.00 2'008.00 2'012.00 2'014.00 2'015.00
##
## range sd vcoef mad IQR skew kurt
## 15.00 4.61 0.00 5.93 8.00 -0.01 -1.21
##
## lowest : 2'000 (183), 2'001 (183), 2'002 (183), 2'003 (183), 2'004 (183)
## highest: 2'011 (183), 2'012 (183), 2'013 (193), 2'014 (183), 2'015 (183)
##
## heap(?): remarkable frequency (6.6%) for the mode(s) (= 2013)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 3 - Status (character - dichotomous)
##
## length n NAs unique
## 2'938 2'938 0 2
## 100.0% 0.0%
##
## freq perc lci.95 uci.95'
## Developing 2'426 82.6% 81.2% 83.9%
## Developed 512 17.4% 16.1% 18.8%
##
## ' 95%-CI (Wilson)
## ------------------------------------------------------------------------------
## 4 - Life.expectancy (numeric)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'928 10 362 0 69.22 68.88
## 99.7% 0.3% 0.0% 69.57
##
## .05 .10 .25 median .75 .90 .95
## 51.40 54.80 63.10 72.10 75.70 79.70 82.00
##
## range sd vcoef mad IQR skew kurt
## 52.70 9.52 0.14 8.60 12.60 -0.64 -0.24
##
## lowest : 36.3, 39.0, 41.0, 41.5, 42.3
## highest: 85.0 (12), 86.0 (15), 87.0 (9), 88.0 (10), 89.0 (11)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 5 - Adult.Mortality (integer)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'928 10 425 0 164.80 160.29
## 99.7% 0.3% 0.0% 169.30
##
## .05 .10 .25 median .75 .90 .95
## 13.00 19.00 74.00 144.00 228.00 336.00 398.30
##
## range sd vcoef mad IQR skew kurt
## 722.00 124.29 0.75 112.68 154.00 1.17 1.74
##
## lowest : 1 (12), 2 (8), 3 (6), 4 (4), 5 (2)
## highest: 693, 699, 715, 717, 723
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 6 - infant.deaths (integer)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'938 0 209 848 30.30 26.04
## 100.0% 0.0% 28.9% 34.57
##
## .05 .10 .25 median .75 .90 .95
## 0.00 0.00 0.00 3.00 22.00 58.00 94.15
##
## range sd vcoef mad IQR skew kurt
## 1'800.00 117.93 3.89 4.45 22.00 9.78 115.76
##
## lowest : 0 (848), 1 (342), 2 (203), 3 (175), 4 (96)
## highest: 1'400, 1'500 (2), 1'600, 1'700 (2), 1'800 (2)
##
## heap(?): remarkable frequency (28.9%) for the mode(s) (= 0)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 7 - Alcohol (numeric)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'744 194 1'076 0 4.6029 4.4512
## 93.4% 6.6% 0.0% 4.7546
##
## .05 .10 .25 median .75 .90 .95
## 0.0100 0.0100 0.8775 3.7550 7.7025 10.7570 11.9600
##
## range sd vcoef mad IQR skew kurt
## 17.8600 4.0524 0.8804 4.8110 6.8250 0.5889 -0.8052
##
## lowest : 0.01 (288), 0.02 (12), 0.03 (15), 0.04 (13), 0.05 (9)
## highest: 16.35, 16.58, 16.99, 17.31, 17.87
##
## heap(?): remarkable frequency (10.5%) for the mode(s) (= 0.01)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 8 - percentage.expenditure (numeric)
##
## length n NAs unique 0s mean'
## 2'938 2'938 0 2'328 611 738.251295
## 100.0% 0.0% 20.8%
##
## .05 .10 .25 median .75 .90
## 0.000000 0.000000 4.685343 64.912906 441.534144 1'852.947925
##
## range sd vcoef mad IQR skew
## 19'479.911610 1'987.914858 2.692735 96.239875 436.848802 4.647302
##
## meanCI
## 666.339690
## 810.162901
##
## .95
## 4'506.638496
##
## kurt
## 26.506048
##
## lowest : 0.0 (611), 0.099872, 0.108056, 0.275648, 0.328418
## highest: 18'379.329740, 18'822.867320, 18'961.348600, 19'099.045060, 19'479.911610
##
## heap(?): remarkable frequency (20.8%) for the mode(s) (= 0)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 9 - Hepatitis.B (integer)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'385 553 87 0 80.94 79.93
## 81.2% 18.8% 0.0% 81.95
##
## .05 .10 .25 median .75 .90 .95
## 9.00 44.00 77.00 92.00 97.00 99.00 99.00
##
## range sd vcoef mad IQR skew kurt
## 98.00 25.07 0.31 8.90 20.00 -1.93 2.76
##
## lowest : 1, 2 (4), 4 (4), 5 (9), 6 (17)
## highest: 95 (149), 96 (167), 97 (155), 98 (210), 99 (240)
##
## heap(?): remarkable frequency (10.1%) for the mode(s) (= 99)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 10 - Measles (integer)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'938 0 958 983 2'419.59 2'004.77
## 100.0% 0.0% 33.5% 2'834.41
##
## .05 .10 .25 median .75 .90 .95
## 0.00 0.00 0.00 17.00 360.25 3'580.10 9'985.55
##
## range sd vcoef mad IQR skew kurt
## 212'183.00 11'467.27 4.74 25.20 360.25 9.43 114.58
##
## lowest : 0 (983), 1 (104), 2 (68), 3 (44), 4 (33)
## highest: 133'802, 141'258, 168'107, 182'485, 212'183
##
## heap(?): remarkable frequency (33.5%) for the mode(s) (= 0)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 11 - BMI (numeric)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'904 34 608 0 38.321 37.592
## 98.8% 1.2% 0.0% 39.051
##
## .05 .10 .25 median .75 .90 .95
## 5.200 11.900 19.300 43.500 56.200 61.800 64.785
##
## range sd vcoef mad IQR skew kurt
## 86.300 20.044 0.523 24.166 36.900 -0.219 -1.292
##
## lowest : 1.0, 1.4 (2), 1.8, 1.9, 2.0
## highest: 79.3, 81.6, 82.8, 83.3, 87.3
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 12 - under.five.deaths (integer)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'938 0 252 785 42.04 36.23
## 100.0% 0.0% 26.7% 47.84
##
## .05 .10 .25 median .75 .90 .95
## 0.00 0.00 0.00 4.00 28.00 87.00 138.00
##
## range sd vcoef mad IQR skew kurt
## 2'500.00 160.45 3.82 5.93 28.00 9.49 109.49
##
## lowest : 0 (785), 1 (361), 2 (163), 3 (129), 4 (161)
## highest: 2'100, 2'200, 2'300, 2'400, 2'500
##
## heap(?): remarkable frequency (26.7%) for the mode(s) (= 0)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 13 - Polio (integer)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'919 19 73 0 82.55 81.70
## 99.4% 0.6% 0.0% 83.40
##
## .05 .10 .25 median .75 .90 .95
## 9.00 52.00 78.00 93.00 97.00 99.00 99.00
##
## range sd vcoef mad IQR skew kurt
## 96.00 23.43 0.28 8.90 19.00 -2.10 3.76
##
## lowest : 3 (7), 4 (11), 5 (8), 6 (11), 7 (24)
## highest: 95 (180), 96 (207), 97 (205), 98 (255), 99 (376)
##
## heap(?): remarkable frequency (12.9%) for the mode(s) (= 99)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 14 - Total.expenditure (numeric)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'712 226 818 0 5.9382 5.8441
## 92.3% 7.7% 0.0% 6.0323
##
## .05 .10 .25 median .75 .90 .95
## 1.9300 2.8400 4.2600 5.7550 7.4925 9.1200 9.7600
##
## range sd vcoef mad IQR skew kurt
## 17.2300 2.4983 0.4207 2.3573 3.2325 0.6180 1.1489
##
## lowest : 0.37, 0.65, 0.74, 0.76, 0.92
## highest: 17.0, 17.14, 17.2 (2), 17.24, 17.6
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 15 - Diphtheria (integer)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'919 19 81 0 82.32 81.46
## 99.4% 0.6% 0.0% 83.18
##
## .05 .10 .25 median .75 .90 .95
## 9.00 49.00 78.00 93.00 97.00 99.00 99.00
##
## range sd vcoef mad IQR skew kurt
## 97.00 23.72 0.29 8.90 19.00 -2.07 3.55
##
## lowest : 2, 3 (4), 4 (12), 5 (10), 6 (16)
## highest: 95 (200), 96 (201), 97 (205), 98 (254), 99 (350)
##
## heap(?): remarkable frequency (12.0%) for the mode(s) (= 99)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 16 - HIV.AIDS (numeric)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'938 0 200 0 1.742 1.558
## 100.0% 0.0% 0.0% 1.926
##
## .05 .10 .25 median .75 .90 .95
## 0.100 0.100 0.100 0.100 0.800 4.400 8.515
##
## range sd vcoef mad IQR skew kurt
## 50.500 5.078 2.915 0.000 0.700 5.391 34.805
##
## lowest : 0.1 (1'781), 0.2 (124), 0.3 (115), 0.4 (69), 0.5 (42)
## highest: 48.8, 49.1, 49.9, 50.3, 50.6
##
## heap(?): remarkable frequency (60.6%) for the mode(s) (= 0.1)
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 17 - GDP (numeric)
##
## length n NAs unique 0s'
## 2'938 2'490 448 = n 0
## 84.8% 15.2% 0.0%
##
## .05 .10 .25 median .75
## 68.05002 161.46213 463.93563 1'766.94760 5'910.80633
##
## range sd vcoef mad IQR
## 119'171.06045 14'270.16934 1.90697 2'360.97537 5'446.87071
##
## mean meanCI
## 7'483.15847 6'922.38329
## 8'043.93365
##
## .90 .95
## 23'726.13973 41'606.84833
##
## skew kurt
## 3.20279 12.29362
##
## lowest : 1.68135, 3.68595, 4.61357, 5.66873, 8.37643
## highest: 89'739.71170, 113'751.85000, 114'293.84330, 115'761.57700, 119'172.74180
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 18 - Population (numeric)
##
## length n NAs unique 0s mean'
## 2'938 2'286 652 2'278 0 1.28e+07
## 77.8% 22.2% 0.0%
##
## .05 .10 .25 median .75 .90
## 9'617.50 29'382.50 195'793.25 1'386'542.00 7'420'359.00 2.58e+07
##
## range sd vcoef mad IQR skew
## 1.29e+09 6.10e+07 4.78 2'012'347.06 7'224'565.75 15.90
##
## meanCI
## 1.03e+07
## 1.53e+07
##
## .95
## 4.76e+07
##
## kurt
## 297.09
##
## lowest : 34.0, 36.0, 41.0, 43.0, 123.0
## highest: 1.13e+09, 1.14e+09, 1.16e+09, 1.18e+09, 1.29e+09
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 19 - thinness..1.19.years (numeric)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'904 34 200 0 4.84 4.68
## 98.8% 1.2% 0.0% 5.00
##
## .05 .10 .25 median .75 .90 .95
## 0.60 0.80 1.60 3.30 7.20 9.80 13.80
##
## range sd vcoef mad IQR skew kurt
## 27.60 4.42 0.91 3.41 5.60 1.71 3.96
##
## lowest : 0.1 (28), 0.2 (40), 0.3 (32), 0.4 (5), 0.5 (35)
## highest: 27.2 (2), 27.3, 27.4, 27.5, 27.7
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 20 - thinness.5.9.years (numeric)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'904 34 207 0 4.87 4.71
## 98.8% 1.2% 0.0% 5.03
##
## .05 .10 .25 median .75 .90 .95
## 0.50 0.80 1.50 3.30 7.20 9.70 13.80
##
## range sd vcoef mad IQR skew kurt
## 28.50 4.51 0.93 3.41 5.70 1.78 4.34
##
## lowest : 0.1 (37), 0.2 (45), 0.3 (25), 0.4 (17), 0.5 (63)
## highest: 28.2, 28.3, 28.4, 28.5, 28.6
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 21 - Income.composition.of.resources (numeric)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'771 167 625 130 0.628 0.620
## 94.3% 5.7% 4.4% 0.635
##
## .05 .10 .25 median .75 .90 .95
## 0.277 0.387 0.493 0.677 0.779 0.864 0.892
##
## range sd vcoef mad IQR skew kurt
## 0.948 0.211 0.336 0.188 0.286 -1.143 1.385
##
## lowest : 0.0 (130), 0.253, 0.255, 0.261, 0.266
## highest: 0.939, 0.941, 0.942, 0.945, 0.948
##
## ' 95%-CI (classic)
## ------------------------------------------------------------------------------
## 22 - Schooling (numeric)
##
## length n NAs unique 0s mean meanCI'
## 2'938 2'775 163 173 28 11.99 11.87
## 94.5% 5.5% 1.0% 12.12
##
## .05 .10 .25 median .75 .90 .95
## 5.80 7.70 10.10 12.30 14.30 15.90 16.80
##
## range sd vcoef mad IQR skew kurt
## 20.70 3.36 0.28 3.11 4.20 -0.60 0.88
##
## lowest : 0.0 (28), 2.8, 2.9 (4), 3.0, 3.1
## highest: 20.3 (4), 20.4 (3), 20.5, 20.6, 20.7
##
## ' 95%-CI (classic)
Análisis de Estadísticos
1 . País En primer lugar, respecto al país, hay 193 países únicos en el conjunto de datos, y se incluyen duplicados, lo que podría representar múltiples entradas para un país en diferentes años. Esto permite un análisis longitudinal que es crucial para observar tendencias a lo largo del tiempo.
2 . Año Para la variable año, los datos van del 2000 al 2015. La media del año es aproximadamente 2007, con una mediana en el año 2008, lo que indica una distribución uniforme de datos a lo largo del período de estudio. La desviación estándar de 4.61 sugiere que los años están distribuidos de manera relativamente consistente.
3 . Estado de Desarrollo El estado de desarrollo de los países se clasifica en “Developing” y “Developed”, donde el 82.6% de las observaciones son de países en desarrollo y el 17.4% de países desarrollados. Esta gran cantidad de datos de países en desarrollo puede dar una visión más detallada sobre cómo estos países están mejorando en términos de esperanza de vida.
4 . Esperanza de Vida En cuanto a la esperanza de vida, la media es de 69.22 años, con valores que varían entre 36.3 y 89.0 años. Esto sugiere una amplia disparidad en la esperanza de vida entre los diferentes países. La mediana de 72.10 años indica que la mitad de los países tienen una esperanza de vida por debajo de este valor, lo cual es un buen punto de referencia para identificar áreas que necesiten intervención.
5 . Mortalidad Adulta La mortalidad adulta presenta una media de 164.80 por cada 1,000 habitantes, con valores que oscilan entre 1 y 723. Esto muestra una gran variabilidad en las tasas de mortalidad entre los diferentes países, lo que puede estar influenciado por varios factores, incluyendo el acceso a atención médica y las condiciones económicas.
6 . Muertes Infantiles En lo referente a muertes infantiles, hay una alta frecuencia de 0 muertes (28.9%), lo que podría indicar buenos controles de salud infantil en varios países. Sin embargo, la media es de 30.30 muertes, lo que refleja que en algunos países todavía hay un número significativo de muertes infantiles.
7 . Consumo de Alcohol El consumo de alcohol varía de 0.01 a 17.87 litros per cápita, con una media de 4.60 litros. Esto indica que hay una gran variabilidad en el consumo de alcohol entre los diferentes países, lo cual puede estar influenciado por factores culturales y económicos.
8 . Gasto en Salud como % del PIB El gasto en salud como porcentaje del PIB tiene una media de 738.25, lo que refleja una gran inversión en salud en algunos países, mientras que otros pueden tener un gasto mínimo. La alta desviación estándar de 1,987.91 indica una gran disparidad en el gasto en salud entre los países.
9 . Cobertura de Vacunación contra Hepatitis B La cobertura de vacunación contra Hepatitis B tiene una media de 80.94%, lo que sugiere que la mayoría de los países tienen buenos programas de inmunización, aunque hay datos faltantes significativos que podrían afectar el análisis.
10 . Casos de Sarampión Por último, los casos de sarampión muestran una gran variabilidad, con una media de 2,419.59 casos. Algunos países no tienen casos reportados, mientras que otros tienen cifras extremadamente altas, lo que podría indicar diferencias en las tasas de vacunación y control de la enfermedad.
11 . Índice de Masa Corporal (BMI) El índice de masa corporal (BMI) tiene una longitud de 2,938 con 34 valores nulos, representando el 1.2% de los datos. Hay 608 valores únicos con un promedio de 38.32 y una mediana de 43.50, lo que indica que los valores están bastante dispersos. El rango de valores va de 1.0 a 87.3, con una desviación estándar de 20.04.
12 . Muertes de Menores de Cinco Años Las muertes de menores de cinco años tienen una media de 42.04 y una mediana de 4.00. Hay 252 valores únicos y la mayor frecuencia es de 0 muertes, representando el 26.7% de los datos. La variabilidad es alta, con un rango de 0 a 2,500 y una desviación estándar de 160.45.
13 . Cobertura de Vacunación contra la Polio La longitud de los datos es de 2,938 con 19 valores nulos. La media es de 82.55 y la mediana es de 93.00. La cobertura varía de 3 a 99 con una desviación estándar de 23.43. La frecuencia más notable es del 12.9% para una cobertura del 99%.
14 . Gasto Total en Salud El gasto total en salud, medido en porcentaje del PIB, tiene una longitud de 2,938 con 226 valores nulos. La media es de 5.94 y la mediana es de 5.76. Los valores varían de 0.37 a 17.6 con una desviación estándar de 2.50.
15 . Cobertura de Vacunación contra la Difteria Hay 2,938 registros con 19 valores nulos. La media es de 82.32 y la mediana es de 93.00. La cobertura varía de 2 a 99 con una desviación estándar de 23.72. La frecuencia notable es del 12.0% para una cobertura del 99%.
16 . Prevalencia del VIH/SIDA La prevalencia del VIH/SIDA muestra una longitud de 2,938 sin valores nulos. La media es de 1.74 y la mediana es de 0.10. Los valores varían de 0.1 a 50.6 con una desviación estándar de 5.08. La frecuencia más notable es del 60.6% para un valor de 0.1.
17 . Producto Interno Bruto (PIB) El PIB tiene una longitud de 2,938 con 448 valores nulos. La media es de 7,483.16 y la mediana es de 1,766.95. Los valores varían ampliamente de 1.68 a 119,172.74 con una desviación estándar de 14,270.17.
18 . Población La población tiene una longitud de 2,938 con 652 valores nulos. La media es de 12.8 millones y la mediana es de 1.39 millones. Los valores varían de 34 a 1.29 mil millones con una desviación estándar de 61 millones.
19 . Delgadez entre Niños de 1 a 19 Años La delgadez entre niños de 1 a 19 años tiene una longitud de 2,938 con 34 valores nulos. La media es de 4.84 y la mediana es de 3.30. Los valores varían de 0.1 a 27.7 con una desviación estándar de 4.42.
20 . Delgadez entre Niños de 5 a 9 Años La delgadez entre niños de 5 a 9 años también tiene una longitud de 2,938 con 34 valores nulos. La media es de 4.87 y la mediana es de 3.30. Los valores varían de 0.1 a 28.6 con una desviación estándar de 4.51.
21 . Composición de Ingresos de los Recursos La composición de los ingresos de los recursos muestra una longitud de 2,938 con 167 valores nulos. La media es de 0.628 y la mediana es de 0.677. Los valores varían de 0 a 0.948 con una desviación estándar de 0.211.
22 . Escolarización La escolarización tiene una longitud de 2,938 con 163 valores nulos. La media es de 11.99 años y la mediana es de 12.30 años. Los valores varían de 0 a 20.7 años con una desviación estándar de 3.36.
Modelamiento
El modelo que se va a abordar en el siguiente trabajo es el siguiente:
\[ \begin{aligned} \text{Life.expectancy} &= \beta_0 + \beta_1 \cdot \text{Adult.Mortality} + \beta_2 \cdot \text{infant.deaths} + \beta_3 \cdot \text{BMI} + \beta_4 \cdot \text{Alcohol} \\ &\quad + \beta_5 \cdot \text{GDP} + \beta_6 \cdot \text{Income.composition.of.resources} + \beta_7 \cdot \text{Schooling} \\ &\quad + \beta_8 \cdot \text{HIV.AIDS} + \beta_9 \cdot \text{Total.expenditure} \\ &\quad + \beta_{10} \cdot (\text{Schooling} \times \text{Income.composition.of.resources}) + \epsilon \end{aligned} \]
Coeficiente de correlación lineal de Pearson
library(GGally)
library(ggplot2)
variables <- c("Life.expectancy", "Adult.Mortality", "infant.deaths", "BMI", "Alcohol",
"GDP", "Income.composition.of.resources", "Schooling", "HIV.AIDS",
"Total.expenditure")
data_selected <- data[variables]
colnames(data_selected) <- c("Esperanza de vida", "Tasa de mortalidad\nadulta", "Muertes\ninfantiles",
"IMC\npromedio", "Consumo de\nalcohol", "PIB per cápita\n(USD)",
"IDH relacionado\ncon ingresos", "Años promedio\nde educación",
"Tasa de mortalidad\nVIH/SIDA", "Gasto total\nen salud")
ggpairs(
data_selected,
title = "Matriz de Dispersión: Esperanza de Vida vs Variables Independientes",
upper = list(continuous = wrap("cor", size = 3)),
lower = list(continuous = wrap("points", color = "#2E86C1", alpha = 0.5, size = 0.8)),
diag = list(continuous = wrap("barDiag", fill = "#85C1E9", color = "white", alpha = 0.8)),
switch = "both"
) +
theme_minimal() +
theme(
panel.spacing = unit(0.3, "lines"),
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
axis.text.x = element_text(angle = 45, hjust = 1, size = 8),
axis.text.y = element_text(size = 8),
strip.text = element_text(size = 5.5, face = "bold")
)data_clean <- na.omit(data[variables])
colnames(data_clean) <- c("Esperanza de vida", "Tasa de mortalidad adulta", "Muertes infantiles",
"IMC promedio", "Consumo de alcohol", "PIB per cápita (USD)",
"IDH relacionado con ingresos", "Promedio de años de educación",
"Tasa de mortalidad VIH/SIDA", "Gasto total en salud")
cor_matrix <- cor(data_clean, method = "pearson")
cor_df <- as.data.frame(cor_matrix)
knitr::kable(cor_df, format = "markdown", digits = 2, caption = "Matriz de Correlación")| Esperanza de vida | Tasa de mortalidad adulta | Muertes infantiles | IMC promedio | Consumo de alcohol | PIB per cápita (USD) | IDH relacionado con ingresos | Promedio de años de educación | Tasa de mortalidad VIH/SIDA | Gasto total en salud | |
|---|---|---|---|---|---|---|---|---|---|---|
| Esperanza de vida | 1.00 | -0.68 | -0.18 | 0.58 | 0.38 | 0.46 | 0.72 | 0.75 | -0.58 | 0.18 |
| Tasa de mortalidad adulta | -0.68 | 1.00 | 0.06 | -0.38 | -0.17 | -0.29 | -0.45 | -0.44 | 0.54 | -0.08 |
| Muertes infantiles | -0.18 | 0.06 | 1.00 | -0.23 | -0.10 | -0.11 | -0.15 | -0.21 | 0.01 | -0.13 |
| IMC promedio | 0.58 | -0.38 | -0.23 | 1.00 | 0.34 | 0.30 | 0.52 | 0.57 | -0.25 | 0.19 |
| Consumo de alcohol | 0.38 | -0.17 | -0.10 | 0.34 | 1.00 | 0.35 | 0.46 | 0.56 | -0.04 | 0.30 |
| PIB per cápita (USD) | 0.46 | -0.29 | -0.11 | 0.30 | 0.35 | 1.00 | 0.46 | 0.45 | -0.14 | 0.14 |
| IDH relacionado con ingresos | 0.72 | -0.45 | -0.15 | 0.52 | 0.46 | 0.46 | 1.00 | 0.80 | -0.25 | 0.17 |
| Promedio de años de educación | 0.75 | -0.44 | -0.21 | 0.57 | 0.56 | 0.45 | 0.80 | 1.00 | -0.23 | 0.26 |
| Tasa de mortalidad VIH/SIDA | -0.58 | 0.54 | 0.01 | -0.25 | -0.04 | -0.14 | -0.25 | -0.23 | 1.00 | 0.03 |
| Gasto total en salud | 0.18 | -0.08 | -0.13 | 0.19 | 0.30 | 0.14 | 0.17 | 0.26 | 0.03 | 1.00 |
Ya que nuestra variable dependiente es la esperanza de vida se comentaran con respecto a esta, por lo que descubrimos que :
La esperanza de vida está fuertemente influenciada por varios factores clave:
Tasa de Mortalidad Adulta: Existe una fuerte correlación negativa (-0.68) con la esperanza de vida, lo que significa que a medida que aumenta la tasa de mortalidad adulta, la esperanza de vida disminuye. Esto es esperado, ya que una mayor mortalidad en adultos reduce la esperanza de vida promedio.
IMC Promedio: La correlación positiva (0.58) indica que un IMC promedio más alto, dentro de un rango saludable, está asociado con una mayor esperanza de vida.
Consumo de Alcohol: La correlación positiva (0.38) sugiere que un mayor consumo de alcohol per cápita está asociado con una mayor esperanza de vida. Esto puede reflejar hábitos culturales en países con alto consumo de alcohol y buenos sistemas de salud.
PIB per Cápita (USD): La correlación positiva (0.46) muestra que un mayor PIB per cápita está asociado con una mayor esperanza de vida. Esto indica que una mejor economía puede proporcionar mejores servicios de salud y calidad de vida.
IDH Relacionado con Ingresos: Una fuerte correlación positiva (0.72) sugiere que un mejor índice de desarrollo humano está fuertemente relacionado con una mayor esperanza de vida.
Promedio de Años de Educación: La fuerte correlación positiva (0.75) indica que más años de educación están asociados con una mayor esperanza de vida.
Tasa de Mortalidad VIH/SIDA: La correlación negativa moderada (-0.58) muestra que una mayor tasa de mortalidad debido al VIH/SIDA reduce la esperanza de vida.
Estimación
modelo <- lm(Life.expectancy ~ Adult.Mortality + infant.deaths + BMI + Alcohol +
GDP + Income.composition.of.resources * Schooling + HIV.AIDS +
Total.expenditure, data = data)
summary(modelo)##
## Call:
## lm(formula = Life.expectancy ~ Adult.Mortality + infant.deaths +
## BMI + Alcohol + GDP + Income.composition.of.resources * Schooling +
## HIV.AIDS + Total.expenditure, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -21.4814 -2.3760 -0.0051 2.4497 19.9216
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 5.710e+01 7.763e-01 73.550
## Adult.Mortality -1.690e-02 9.032e-04 -18.707
## infant.deaths -2.285e-03 6.995e-04 -3.267
## BMI 4.766e-02 5.570e-03 8.556
## Alcohol -7.870e-02 2.796e-02 -2.815
## GDP 4.364e-05 7.295e-06 5.982
## Income.composition.of.resources 1.082e+00 1.450e+00 0.746
## Schooling 6.301e-01 7.339e-02 8.585
## HIV.AIDS -4.948e-01 1.865e-02 -26.535
## Total.expenditure 5.529e-02 3.915e-02 1.412
## Income.composition.of.resources:Schooling 6.841e-01 1.146e-01 5.969
## Pr(>|t|)
## (Intercept) < 2e-16 ***
## Adult.Mortality < 2e-16 ***
## infant.deaths 0.00110 **
## BMI < 2e-16 ***
## Alcohol 0.00491 **
## GDP 2.55e-09 ***
## Income.composition.of.resources 0.45572
## Schooling < 2e-16 ***
## HIV.AIDS < 2e-16 ***
## Total.expenditure 0.15806
## Income.composition.of.resources:Schooling 2.75e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.181 on 2297 degrees of freedom
## (630 observations deleted due to missingness)
## Multiple R-squared: 0.815, Adjusted R-squared: 0.8142
## F-statistic: 1012 on 10 and 2297 DF, p-value: < 2.2e-16
Evaluación global del modelo
- \(R^2 = 0.8152\) y
\(R^2\) ajustado =
0.8145
- Esto significa que el modelo explica alrededor del 81.5% de
la variabilidad en la esperanza de vida, lo cual indica un
ajuste muy bueno.
- Esto significa que el modelo explica alrededor del 81.5% de
la variabilidad en la esperanza de vida, lo cual indica un
ajuste muy bueno.
- \(F\)-statistic = 1128,
p-value < 2.2e-16
- Como el p-valor es extremadamente bajo, se rechaza la hipótesis nula de que todos los coeficientes son cero. El modelo en su conjunto es significativo.
Interpretación de los coeficientes
Variables con efectos negativos en la esperanza de vida:
| Variable | Estimación | Interpretación |
|---|---|---|
| Adult.Mortality | (-0.0169) | Por cada unidad adicional de mortalidad adulta, la esperanza de vida disminuye en 0.0169 años. (Muy significativo: p < 2e-16) |
| infant.deaths | (-0.00235) | Cada muerte infantil adicional por cada 1000 nacimientos reduce la esperanza de vida en 0.00235 años. (p = 0.0008) |
| Alcohol | (-0.0732) | Un aumento en el consumo de alcohol se asocia con una reducción de 0.073 años en la esperanza de vida. (p = 0.008) |
| HIV.AIDS | (-0.4928) | Un incremento en la tasa de mortalidad por VIH/SIDA se asocia con una caída de 0.49 años en la esperanza de vida. (Extremadamente significativo: p < 2e-16) |
Variables con efectos positivos en la esperanza de vida:
| Variable | Estimación | Interpretación |
|---|---|---|
| BMI | (0.04795) | Un aumento de 1 unidad en el índice de masa corporal (IMC) está asociado con un incremento de 0.0479 años en la esperanza de vida. (p < 2e-16) |
| GDP | (0.0000438) | Un aumento de 1 dólar en el PIB per cápita aumenta la esperanza de vida en 0.0000438 años (o 1 año por cada 22,831 dólares adicionales). (p = 1.87e-09) |
| Schooling | (0.6285) | Cada año adicional de educación aumenta la esperanza de vida en 0.628 años. (p < 2e-16) |
Interacción entre
Income.composition.of.resources y
Schooling
- Coeficiente de interacción: 0.7009 (p =
6.67e-10)
- Este resultado indica que el impacto de la escolaridad en la
esperanza de vida depende del nivel de ingresos.
- A medida que
Income.composition.of.resourcesaumenta, el efecto positivo de la educación en la esperanza de vida también se incrementa.
- En otras palabras, la educación tiene un mayor impacto en mejorar la esperanza de vida en países con mejor acceso a recursos económicos.
- Este resultado indica que el impacto de la escolaridad en la
esperanza de vida depende del nivel de ingresos.
📌 Importante:
El coeficiente de Income.composition.of.resources por sí
solo no es significativo (p = 0.56), lo que sugiere que
su efecto en la esperanza de vida depende de la
escolaridad y no es fuerte cuando se analiza de forma
aislada.
La interacción entre Income.composition.of.resources y Schooling es importante porque el impacto de la educación en la esperanza de vida varía según el nivel de desarrollo económico. En países con mayores recursos, una mejor educación suele traducirse en mejores condiciones de salud y acceso a servicios médicos, lo que aumenta la esperanza de vida. Sin embargo, en países con menos recursos, la educación por sí sola puede no ser suficiente para mejorar significativamente la salud si no está acompañada de inversiones en infraestructura y bienestar social.
Verificación de supuestos (esto es un test nada mas, sin embargo, preocupa que no cumpla ningun supuesto)
##
## Durbin-Watson test
##
## data: modelo
## DW = 0.57902, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
# Supuesto de Homocedasticidad
plot(modelo,1:1, main="Si existe homocedasticidad.
El error se mantiene constante",col.main="blue",cex.main=.9)## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 273.5342, Df = 1, p = < 2.22e-16
# Supuesto de Normalidad de los Residuos
par(mfrow = c(1,2))
hist(modelo$residuals,
main="Residuos con distribucion normal",
cex.main=.9,col.main="blue")
boxplot(modelo$residuals)##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.97599, p-value < 2.2e-16