Parcial Práctico I - Aprendizaje Estadístico - MINE VIII

Introducción

El análisis y modelado de datos representan herramientas fundamentales para la toma de decisiones informadas en una amplia variedad de disciplinas, desde la economía y la estadística hasta las ciencias de la salud y las políticas públicas. En particular, la regresión lineal es una técnica ampliamente utilizada para identificar y cuantificar la relación entre una variable dependiente y un conjunto de variables explicativas, permitiendo así comprender patrones, realizar inferencias y generar predicciones a partir de datos cuantitativos.

En este contexto, el presente trabajo tiene como objetivo desarrollar un modelo de regresión lineal que permita explicar el comportamiento de la esperanza de vida (Life.expectancy) en función de diversas covariables que abarcan aspectos económicos, sociales y de salud. La esperanza de vida es un indicador clave del bienestar de una población y está influenciada por múltiples factores interrelacionados, por lo que su modelado requiere un enfoque integral que contemple no solo variables individuales, sino también posibles interacciones entre ellas.

Dentro de las variables consideradas, se incluyen indicadores como el acceso a la educación (Schooling) y la composición del ingreso por recursos (Income.composition.of.resources), dos factores que han demostrado tener una influencia significativa en la longevidad de las poblaciones. En particular, se ha incorporado en el análisis la posible interacción entre estas dos variables, ya que se plantea la hipótesis de que un mayor nivel educativo puede potenciar los efectos positivos de una mejor distribución de los recursos económicos en la salud y el bienestar de las personas.

A través de este modelo, se espera no solo identificar las variables con mayor impacto en la esperanza de vida, sino también proporcionar una herramienta analítica que contribuya a la formulación de políticas públicas orientadas a mejorar la calidad y la expectativa de vida en diferentes contextos socioeconómicos.

path <- "C:/Users/nicor/OneDrive/Escritorio/Aprendizaje Estadistico/Parcial 1"
setwd(path)
library(tidyverse)
library(knitr)
library(kableExtra)
library(skimr)

Análisis Exploratorio

Descripción de la Base de Datos de Esperanza de Vida

La base de datos utilizada en este análisis se titula “Life Expectancy Data” y contiene información sobre la esperanza de vida en distintos países del mundo. Su propósito es analizar factores que pueden influir en la longevidad de la población, tales como indicadores de salud, nivel de desarrollo económico y acceso a servicios básicos.

Origen y Recolección de los Datos

  • Fuente: La base de datos proviene de la Organización Mundial de la Salud (OMS) y otras fuentes gubernamentales.

  • Año de Recolección: Contiene datos desde el año 2000 hasta 2015.

  • Método de Recolección: La información fue recolectada a través de reportes de salud oficiales, censos, encuestas epidemiológicas y otros registros administrativos.

Cobertura Geográfica

Los datos comprenden información de múltiples países, abarcando tanto naciones desarrolladas como en desarrollo.

Cada observación representa la información de un país en un año determinado.

Tamaño de la Base de Datos

  • Número de observaciones: 2,938
  • Número de variables: 22

Descripción de las Variables

  • Country: Nombre del país.
  • Year: Año del registro.
  • Status: Clasificación del país como desarrollado o en desarrollo.
  • Life expectancy: Esperanza de vida en años.
  • Adult Mortality: Tasa de mortalidad adulta de ambos sexos (probabilidad de morir entre los 15 y 60 años por cada 1,000 habitantes).
  • Infant deaths: Número de muertes de bebés por cada 1,000 nacidos vivos.
  • Alcohol: Consumo registrado de alcohol per cápita (mayores de 15 años) en litros de alcohol puro.
  • Percentage expenditure: Gasto en salud como porcentaje del Producto Interno Bruto per cápita (%).
  • Hepatitis B: Cobertura de inmunización contra la hepatitis B (HepB) en niños de 1 año (%).
  • Measles: Número de casos reportados de sarampión por cada 1,000 habitantes.
  • BMI: Índice de Masa Corporal (IMC) promedio de la población del país.
  • Under-five deaths: Número de muertes de niños menores de cinco años por cada 1,000 nacidos vivos.
  • Polio: Cobertura de inmunización contra la poliomielitis en niños de 1 año (%).
  • Total expenditure: Gasto total en salud como porcentaje del Producto Interno Bruto (PIB).
  • Diphtheria: Cobertura de inmunización contra la difteria en niños de 1 año (%).
  • HIV/AIDS: Tasa de mortalidad debido al VIH/SIDA por cada 1,000 habitantes.
  • GDP: Producto Interno Bruto per cápita en dólares estadounidenses (USD).
  • Population: Población total del país en el año correspondiente.
  • Thinness 1-19 years: Porcentaje de niños y adolescentes (1-19 años) con bajo peso.
  • Thinness 5-9 years: Porcentaje de niños (5-9 años) con bajo peso.
  • Income composition of resources: Índice de desarrollo humano (IDH) relacionado con los ingresos, en un rango de 0 a 1.
  • Schooling: Promedio de años de educación en la población del país.
data <- read.csv("Life Expectancy Data.csv")
data
DescTools::Desc(data)
## ------------------------------------------------------------------------------ 
## Describe data (data.frame):
## 
## data frame:  2938 obs. of  22 variables
##      1649 complete cases (56.1%)
## 
##   Nr  ColName                          Class      NAs          Levels
##   1   Country                          character    .                
##   2   Year                             integer      .                
##   3   Status                           character    .                
##   4   Life.expectancy                  numeric     10 (0.3%)         
##   5   Adult.Mortality                  integer     10 (0.3%)         
##   6   infant.deaths                    integer      .                
##   7   Alcohol                          numeric    194 (6.6%)         
##   8   percentage.expenditure           numeric      .                
##   9   Hepatitis.B                      integer    553 (18.8%)        
##   10  Measles                          integer      .                
##   11  BMI                              numeric     34 (1.2%)         
##   12  under.five.deaths                integer      .                
##   13  Polio                            integer     19 (0.6%)         
##   14  Total.expenditure                numeric    226 (7.7%)         
##   15  Diphtheria                       integer     19 (0.6%)         
##   16  HIV.AIDS                         numeric      .                
##   17  GDP                              numeric    448 (15.2%)        
##   18  Population                       numeric    652 (22.2%)        
##   19  thinness..1.19.years             numeric     34 (1.2%)         
##   20  thinness.5.9.years               numeric     34 (1.2%)         
##   21  Income.composition.of.resources  numeric    167 (5.7%)         
##   22  Schooling                        numeric    163 (5.5%)         
## 
## 
## ------------------------------------------------------------------------------ 
## 1 - Country (character)
## 
##   length      n    NAs unique levels  dupes
##    2'938  2'938      0    193    193      y
##          100.0%   0.0%                     
## 
##                   level  freq  perc  cumfreq  cumperc
## 1           Afghanistan    16  0.5%       16     0.5%
## 2               Albania    16  0.5%       32     1.1%
## 3               Algeria    16  0.5%       48     1.6%
## 4                Angola    16  0.5%       64     2.2%
## 5   Antigua and Barbuda    16  0.5%       80     2.7%
## 6             Argentina    16  0.5%       96     3.3%
## 7               Armenia    16  0.5%      112     3.8%
## 8             Australia    16  0.5%      128     4.4%
## 9               Austria    16  0.5%      144     4.9%
## 10           Azerbaijan    16  0.5%      160     5.4%
## 11              Bahamas    16  0.5%      176     6.0%
## 12              Bahrain    16  0.5%      192     6.5%
## ... etc.
##  [list output truncated]

## ------------------------------------------------------------------------------ 
## 2 - Year (integer)
## 
##     length         n       NAs    unique        0s      mean    meanCI'
##      2'938     2'938         0        16         0  2'007.52  2'007.35
##               100.0%      0.0%                0.0%            2'007.69
##                                                                       
##        .05       .10       .25    median       .75       .90       .95
##   2'000.00  2'001.00  2'004.00  2'008.00  2'012.00  2'014.00  2'015.00
##                                                                       
##      range        sd     vcoef       mad       IQR      skew      kurt
##      15.00      4.61      0.00      5.93      8.00     -0.01     -1.21
##                                                                       
## lowest : 2'000 (183), 2'001 (183), 2'002 (183), 2'003 (183), 2'004 (183)
## highest: 2'011 (183), 2'012 (183), 2'013 (193), 2'014 (183), 2'015 (183)
## 
## heap(?): remarkable frequency (6.6%) for the mode(s) (= 2013)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 3 - Status (character - dichotomous)
## 
##   length      n    NAs unique
##    2'938  2'938      0      2
##          100.0%   0.0%       
## 
##              freq   perc  lci.95  uci.95'
## Developing  2'426  82.6%   81.2%   83.9%
## Developed     512  17.4%   16.1%   18.8%
## 
## ' 95%-CI (Wilson)

## ------------------------------------------------------------------------------ 
## 4 - Life.expectancy (numeric)
## 
##   length      n    NAs  unique     0s   mean  meanCI'
##    2'938  2'928     10     362      0  69.22   68.88
##           99.7%   0.3%           0.0%          69.57
##                                                     
##      .05    .10    .25  median    .75    .90     .95
##    51.40  54.80  63.10   72.10  75.70  79.70   82.00
##                                                     
##    range     sd  vcoef     mad    IQR   skew    kurt
##    52.70   9.52   0.14    8.60  12.60  -0.64   -0.24
##                                                     
## lowest : 36.3, 39.0, 41.0, 41.5, 42.3
## highest: 85.0 (12), 86.0 (15), 87.0 (9), 88.0 (10), 89.0 (11)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 5 - Adult.Mortality (integer)
## 
##   length       n    NAs  unique      0s    mean  meanCI'
##    2'938   2'928     10     425       0  164.80  160.29
##            99.7%   0.3%            0.0%          169.30
##                                                        
##      .05     .10    .25  median     .75     .90     .95
##    13.00   19.00  74.00  144.00  228.00  336.00  398.30
##                                                        
##    range      sd  vcoef     mad     IQR    skew    kurt
##   722.00  124.29   0.75  112.68  154.00    1.17    1.74
##                                                        
## lowest : 1 (12), 2 (8), 3 (6), 4 (4), 5 (2)
## highest: 693, 699, 715, 717, 723
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 6 - infant.deaths (integer)
## 
##     length       n    NAs  unique     0s   mean  meanCI'
##      2'938   2'938      0     209    848  30.30   26.04
##             100.0%   0.0%          28.9%          34.57
##                                                        
##        .05     .10    .25  median    .75    .90     .95
##       0.00    0.00   0.00    3.00  22.00  58.00   94.15
##                                                        
##      range      sd  vcoef     mad    IQR   skew    kurt
##   1'800.00  117.93   3.89    4.45  22.00   9.78  115.76
##                                                        
## lowest : 0 (848), 1 (342), 2 (203), 3 (175), 4 (96)
## highest: 1'400, 1'500 (2), 1'600, 1'700 (2), 1'800 (2)
## 
## heap(?): remarkable frequency (28.9%) for the mode(s) (= 0)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 7 - Alcohol (numeric)
## 
##    length       n     NAs  unique      0s     mean   meanCI'
##     2'938   2'744     194   1'076       0   4.6029   4.4512
##             93.4%    6.6%            0.0%            4.7546
##                                                            
##       .05     .10     .25  median     .75      .90      .95
##    0.0100  0.0100  0.8775  3.7550  7.7025  10.7570  11.9600
##                                                            
##     range      sd   vcoef     mad     IQR     skew     kurt
##   17.8600  4.0524  0.8804  4.8110  6.8250   0.5889  -0.8052
##                                                            
## lowest : 0.01 (288), 0.02 (12), 0.03 (15), 0.04 (13), 0.05 (9)
## highest: 16.35, 16.58, 16.99, 17.31, 17.87
## 
## heap(?): remarkable frequency (10.5%) for the mode(s) (= 0.01)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 8 - percentage.expenditure (numeric)
## 
##          length             n       NAs     unique          0s          mean'
##           2'938         2'938         0      2'328         611    738.251295
##                        100.0%      0.0%                  20.8%              
##                                                                             
##             .05           .10       .25     median         .75           .90
##        0.000000      0.000000  4.685343  64.912906  441.534144  1'852.947925
##                                                                             
##           range            sd     vcoef        mad         IQR          skew
##   19'479.911610  1'987.914858  2.692735  96.239875  436.848802      4.647302
##                                                                             
##         meanCI
##     666.339690
##     810.162901
##               
##            .95
##   4'506.638496
##               
##           kurt
##      26.506048
##               
## lowest : 0.0 (611), 0.099872, 0.108056, 0.275648, 0.328418
## highest: 18'379.329740, 18'822.867320, 18'961.348600, 19'099.045060, 19'479.911610
## 
## heap(?): remarkable frequency (20.8%) for the mode(s) (= 0)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 9 - Hepatitis.B (integer)
## 
##   length      n    NAs  unique     0s   mean  meanCI'
##    2'938  2'385    553      87      0  80.94   79.93
##           81.2%  18.8%           0.0%          81.95
##                                                     
##      .05    .10    .25  median    .75    .90     .95
##     9.00  44.00  77.00   92.00  97.00  99.00   99.00
##                                                     
##    range     sd  vcoef     mad    IQR   skew    kurt
##    98.00  25.07   0.31    8.90  20.00  -1.93    2.76
##                                                     
## lowest : 1, 2 (4), 4 (4), 5 (9), 6 (17)
## highest: 95 (149), 96 (167), 97 (155), 98 (210), 99 (240)
## 
## heap(?): remarkable frequency (10.1%) for the mode(s) (= 99)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 10 - Measles (integer)
## 
##       length          n    NAs  unique      0s      mean    meanCI'
##        2'938      2'938      0     958     983  2'419.59  2'004.77
##                  100.0%   0.0%           33.5%            2'834.41
##                                                                   
##          .05        .10    .25  median     .75       .90       .95
##         0.00       0.00   0.00   17.00  360.25  3'580.10  9'985.55
##                                                                   
##        range         sd  vcoef     mad     IQR      skew      kurt
##   212'183.00  11'467.27   4.74   25.20  360.25      9.43    114.58
##                                                                   
## lowest : 0 (983), 1 (104), 2 (68), 3 (44), 4 (33)
## highest: 133'802, 141'258, 168'107, 182'485, 212'183
## 
## heap(?): remarkable frequency (33.5%) for the mode(s) (= 0)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 11 - BMI (numeric)
## 
##   length       n     NAs  unique      0s    mean  meanCI'
##    2'938   2'904      34     608       0  38.321  37.592
##            98.8%    1.2%            0.0%          39.051
##                                                         
##      .05     .10     .25  median     .75     .90     .95
##    5.200  11.900  19.300  43.500  56.200  61.800  64.785
##                                                         
##    range      sd   vcoef     mad     IQR    skew    kurt
##   86.300  20.044   0.523  24.166  36.900  -0.219  -1.292
##                                                         
## lowest : 1.0, 1.4 (2), 1.8, 1.9, 2.0
## highest: 79.3, 81.6, 82.8, 83.3, 87.3
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 12 - under.five.deaths (integer)
## 
##     length       n    NAs  unique     0s   mean  meanCI'
##      2'938   2'938      0     252    785  42.04   36.23
##             100.0%   0.0%          26.7%          47.84
##                                                        
##        .05     .10    .25  median    .75    .90     .95
##       0.00    0.00   0.00    4.00  28.00  87.00  138.00
##                                                        
##      range      sd  vcoef     mad    IQR   skew    kurt
##   2'500.00  160.45   3.82    5.93  28.00   9.49  109.49
##                                                        
## lowest : 0 (785), 1 (361), 2 (163), 3 (129), 4 (161)
## highest: 2'100, 2'200, 2'300, 2'400, 2'500
## 
## heap(?): remarkable frequency (26.7%) for the mode(s) (= 0)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 13 - Polio (integer)
## 
##   length      n    NAs  unique     0s   mean  meanCI'
##    2'938  2'919     19      73      0  82.55   81.70
##           99.4%   0.6%           0.0%          83.40
##                                                     
##      .05    .10    .25  median    .75    .90     .95
##     9.00  52.00  78.00   93.00  97.00  99.00   99.00
##                                                     
##    range     sd  vcoef     mad    IQR   skew    kurt
##    96.00  23.43   0.28    8.90  19.00  -2.10    3.76
##                                                     
## lowest : 3 (7), 4 (11), 5 (8), 6 (11), 7 (24)
## highest: 95 (180), 96 (207), 97 (205), 98 (255), 99 (376)
## 
## heap(?): remarkable frequency (12.9%) for the mode(s) (= 99)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 14 - Total.expenditure (numeric)
## 
##    length       n     NAs  unique      0s    mean  meanCI'
##     2'938   2'712     226     818       0  5.9382  5.8441
##             92.3%    7.7%            0.0%          6.0323
##                                                          
##       .05     .10     .25  median     .75     .90     .95
##    1.9300  2.8400  4.2600  5.7550  7.4925  9.1200  9.7600
##                                                          
##     range      sd   vcoef     mad     IQR    skew    kurt
##   17.2300  2.4983  0.4207  2.3573  3.2325  0.6180  1.1489
##                                                          
## lowest : 0.37, 0.65, 0.74, 0.76, 0.92
## highest: 17.0, 17.14, 17.2 (2), 17.24, 17.6
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 15 - Diphtheria (integer)
## 
##   length      n    NAs  unique     0s   mean  meanCI'
##    2'938  2'919     19      81      0  82.32   81.46
##           99.4%   0.6%           0.0%          83.18
##                                                     
##      .05    .10    .25  median    .75    .90     .95
##     9.00  49.00  78.00   93.00  97.00  99.00   99.00
##                                                     
##    range     sd  vcoef     mad    IQR   skew    kurt
##    97.00  23.72   0.29    8.90  19.00  -2.07    3.55
##                                                     
## lowest : 2, 3 (4), 4 (12), 5 (10), 6 (16)
## highest: 95 (200), 96 (201), 97 (205), 98 (254), 99 (350)
## 
## heap(?): remarkable frequency (12.0%) for the mode(s) (= 99)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 16 - HIV.AIDS (numeric)
## 
##   length       n    NAs  unique     0s   mean  meanCI'
##    2'938   2'938      0     200      0  1.742   1.558
##           100.0%   0.0%           0.0%          1.926
##                                                      
##      .05     .10    .25  median    .75    .90     .95
##    0.100   0.100  0.100   0.100  0.800  4.400   8.515
##                                                      
##    range      sd  vcoef     mad    IQR   skew    kurt
##   50.500   5.078  2.915   0.000  0.700  5.391  34.805
##                                                      
## lowest : 0.1 (1'781), 0.2 (124), 0.3 (115), 0.4 (69), 0.5 (42)
## highest: 48.8, 49.1, 49.9, 50.3, 50.6
## 
## heap(?): remarkable frequency (60.6%) for the mode(s) (= 0.1)
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 17 - GDP (numeric)
## 
##          length             n        NAs       unique           0s'
##           2'938         2'490        448          = n            0
##                         84.8%      15.2%                      0.0%
##                                                                   
##             .05           .10        .25       median          .75
##        68.05002     161.46213  463.93563  1'766.94760  5'910.80633
##                                                                   
##           range            sd      vcoef          mad          IQR
##   119'171.06045  14'270.16934    1.90697  2'360.97537  5'446.87071
##                                                                   
##           mean        meanCI
##    7'483.15847   6'922.38329
##                  8'043.93365
##                             
##            .90           .95
##   23'726.13973  41'606.84833
##                             
##           skew          kurt
##        3.20279      12.29362
##                             
## lowest : 1.68135, 3.68595, 4.61357, 5.66873, 8.37643
## highest: 89'739.71170, 113'751.85000, 114'293.84330, 115'761.57700, 119'172.74180
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 18 - Population (numeric)
## 
##     length          n         NAs        unique            0s      mean'
##      2'938      2'286         652         2'278             0  1.28e+07
##                 77.8%       22.2%                        0.0%          
##                                                                        
##        .05        .10         .25        median           .75       .90
##   9'617.50  29'382.50  195'793.25  1'386'542.00  7'420'359.00  2.58e+07
##                                                                        
##      range         sd       vcoef           mad           IQR      skew
##   1.29e+09   6.10e+07        4.78  2'012'347.06  7'224'565.75     15.90
##                                                                        
##     meanCI
##   1.03e+07
##   1.53e+07
##           
##        .95
##   4.76e+07
##           
##       kurt
##     297.09
##           
## lowest : 34.0, 36.0, 41.0, 43.0, 123.0
## highest: 1.13e+09, 1.14e+09, 1.16e+09, 1.18e+09, 1.29e+09
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 19 - thinness..1.19.years (numeric)
## 
##   length      n    NAs  unique    0s  mean  meanCI'
##    2'938  2'904     34     200     0  4.84    4.68
##           98.8%   1.2%          0.0%          5.00
##                                                   
##      .05    .10    .25  median   .75   .90     .95
##     0.60   0.80   1.60    3.30  7.20  9.80   13.80
##                                                   
##    range     sd  vcoef     mad   IQR  skew    kurt
##    27.60   4.42   0.91    3.41  5.60  1.71    3.96
##                                                   
## lowest : 0.1 (28), 0.2 (40), 0.3 (32), 0.4 (5), 0.5 (35)
## highest: 27.2 (2), 27.3, 27.4, 27.5, 27.7
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 20 - thinness.5.9.years (numeric)
## 
##   length      n    NAs  unique    0s  mean  meanCI'
##    2'938  2'904     34     207     0  4.87    4.71
##           98.8%   1.2%          0.0%          5.03
##                                                   
##      .05    .10    .25  median   .75   .90     .95
##     0.50   0.80   1.50    3.30  7.20  9.70   13.80
##                                                   
##    range     sd  vcoef     mad   IQR  skew    kurt
##    28.50   4.51   0.93    3.41  5.70  1.78    4.34
##                                                   
## lowest : 0.1 (37), 0.2 (45), 0.3 (25), 0.4 (17), 0.5 (63)
## highest: 28.2, 28.3, 28.4, 28.5, 28.6
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 21 - Income.composition.of.resources (numeric)
## 
##   length      n    NAs  unique     0s    mean  meanCI'
##    2'938  2'771    167     625    130   0.628   0.620
##           94.3%   5.7%           4.4%           0.635
##                                                      
##      .05    .10    .25  median    .75     .90     .95
##    0.277  0.387  0.493   0.677  0.779   0.864   0.892
##                                                      
##    range     sd  vcoef     mad    IQR    skew    kurt
##    0.948  0.211  0.336   0.188  0.286  -1.143   1.385
##                                                      
## lowest : 0.0 (130), 0.253, 0.255, 0.261, 0.266
## highest: 0.939, 0.941, 0.942, 0.945, 0.948
## 
## ' 95%-CI (classic)

## ------------------------------------------------------------------------------ 
## 22 - Schooling (numeric)
## 
##   length      n    NAs  unique     0s   mean  meanCI'
##    2'938  2'775    163     173     28  11.99   11.87
##           94.5%   5.5%           1.0%          12.12
##                                                     
##      .05    .10    .25  median    .75    .90     .95
##     5.80   7.70  10.10   12.30  14.30  15.90   16.80
##                                                     
##    range     sd  vcoef     mad    IQR   skew    kurt
##    20.70   3.36   0.28    3.11   4.20  -0.60    0.88
##                                                     
## lowest : 0.0 (28), 2.8, 2.9 (4), 3.0, 3.1
## highest: 20.3 (4), 20.4 (3), 20.5, 20.6, 20.7
## 
## ' 95%-CI (classic)

Análisis de Estadísticos

1 . País En primer lugar, respecto al país, hay 193 países únicos en el conjunto de datos, y se incluyen duplicados, lo que podría representar múltiples entradas para un país en diferentes años. Esto permite un análisis longitudinal que es crucial para observar tendencias a lo largo del tiempo.

2 . Año Para la variable año, los datos van del 2000 al 2015. La media del año es aproximadamente 2007, con una mediana en el año 2008, lo que indica una distribución uniforme de datos a lo largo del período de estudio. La desviación estándar de 4.61 sugiere que los años están distribuidos de manera relativamente consistente.

3 . Estado de Desarrollo El estado de desarrollo de los países se clasifica en “Developing” y “Developed”, donde el 82.6% de las observaciones son de países en desarrollo y el 17.4% de países desarrollados. Esta gran cantidad de datos de países en desarrollo puede dar una visión más detallada sobre cómo estos países están mejorando en términos de esperanza de vida.

4 . Esperanza de Vida En cuanto a la esperanza de vida, la media es de 69.22 años, con valores que varían entre 36.3 y 89.0 años. Esto sugiere una amplia disparidad en la esperanza de vida entre los diferentes países. La mediana de 72.10 años indica que la mitad de los países tienen una esperanza de vida por debajo de este valor, lo cual es un buen punto de referencia para identificar áreas que necesiten intervención.

5 . Mortalidad Adulta La mortalidad adulta presenta una media de 164.80 por cada 1,000 habitantes, con valores que oscilan entre 1 y 723. Esto muestra una gran variabilidad en las tasas de mortalidad entre los diferentes países, lo que puede estar influenciado por varios factores, incluyendo el acceso a atención médica y las condiciones económicas.

6 . Muertes Infantiles En lo referente a muertes infantiles, hay una alta frecuencia de 0 muertes (28.9%), lo que podría indicar buenos controles de salud infantil en varios países. Sin embargo, la media es de 30.30 muertes, lo que refleja que en algunos países todavía hay un número significativo de muertes infantiles.

7 . Consumo de Alcohol El consumo de alcohol varía de 0.01 a 17.87 litros per cápita, con una media de 4.60 litros. Esto indica que hay una gran variabilidad en el consumo de alcohol entre los diferentes países, lo cual puede estar influenciado por factores culturales y económicos.

8 . Gasto en Salud como % del PIB El gasto en salud como porcentaje del PIB tiene una media de 738.25, lo que refleja una gran inversión en salud en algunos países, mientras que otros pueden tener un gasto mínimo. La alta desviación estándar de 1,987.91 indica una gran disparidad en el gasto en salud entre los países.

9 . Cobertura de Vacunación contra Hepatitis B La cobertura de vacunación contra Hepatitis B tiene una media de 80.94%, lo que sugiere que la mayoría de los países tienen buenos programas de inmunización, aunque hay datos faltantes significativos que podrían afectar el análisis.

10 . Casos de Sarampión Por último, los casos de sarampión muestran una gran variabilidad, con una media de 2,419.59 casos. Algunos países no tienen casos reportados, mientras que otros tienen cifras extremadamente altas, lo que podría indicar diferencias en las tasas de vacunación y control de la enfermedad.

11 . Índice de Masa Corporal (BMI) El índice de masa corporal (BMI) tiene una longitud de 2,938 con 34 valores nulos, representando el 1.2% de los datos. Hay 608 valores únicos con un promedio de 38.32 y una mediana de 43.50, lo que indica que los valores están bastante dispersos. El rango de valores va de 1.0 a 87.3, con una desviación estándar de 20.04.

12 . Muertes de Menores de Cinco Años Las muertes de menores de cinco años tienen una media de 42.04 y una mediana de 4.00. Hay 252 valores únicos y la mayor frecuencia es de 0 muertes, representando el 26.7% de los datos. La variabilidad es alta, con un rango de 0 a 2,500 y una desviación estándar de 160.45.

13 . Cobertura de Vacunación contra la Polio La longitud de los datos es de 2,938 con 19 valores nulos. La media es de 82.55 y la mediana es de 93.00. La cobertura varía de 3 a 99 con una desviación estándar de 23.43. La frecuencia más notable es del 12.9% para una cobertura del 99%.

14 . Gasto Total en Salud El gasto total en salud, medido en porcentaje del PIB, tiene una longitud de 2,938 con 226 valores nulos. La media es de 5.94 y la mediana es de 5.76. Los valores varían de 0.37 a 17.6 con una desviación estándar de 2.50.

15 . Cobertura de Vacunación contra la Difteria Hay 2,938 registros con 19 valores nulos. La media es de 82.32 y la mediana es de 93.00. La cobertura varía de 2 a 99 con una desviación estándar de 23.72. La frecuencia notable es del 12.0% para una cobertura del 99%.

16 . Prevalencia del VIH/SIDA La prevalencia del VIH/SIDA muestra una longitud de 2,938 sin valores nulos. La media es de 1.74 y la mediana es de 0.10. Los valores varían de 0.1 a 50.6 con una desviación estándar de 5.08. La frecuencia más notable es del 60.6% para un valor de 0.1.

17 . Producto Interno Bruto (PIB) El PIB tiene una longitud de 2,938 con 448 valores nulos. La media es de 7,483.16 y la mediana es de 1,766.95. Los valores varían ampliamente de 1.68 a 119,172.74 con una desviación estándar de 14,270.17.

18 . Población La población tiene una longitud de 2,938 con 652 valores nulos. La media es de 12.8 millones y la mediana es de 1.39 millones. Los valores varían de 34 a 1.29 mil millones con una desviación estándar de 61 millones.

19 . Delgadez entre Niños de 1 a 19 Años La delgadez entre niños de 1 a 19 años tiene una longitud de 2,938 con 34 valores nulos. La media es de 4.84 y la mediana es de 3.30. Los valores varían de 0.1 a 27.7 con una desviación estándar de 4.42.

20 . Delgadez entre Niños de 5 a 9 Años La delgadez entre niños de 5 a 9 años también tiene una longitud de 2,938 con 34 valores nulos. La media es de 4.87 y la mediana es de 3.30. Los valores varían de 0.1 a 28.6 con una desviación estándar de 4.51.

21 . Composición de Ingresos de los Recursos La composición de los ingresos de los recursos muestra una longitud de 2,938 con 167 valores nulos. La media es de 0.628 y la mediana es de 0.677. Los valores varían de 0 a 0.948 con una desviación estándar de 0.211.

22 . Escolarización La escolarización tiene una longitud de 2,938 con 163 valores nulos. La media es de 11.99 años y la mediana es de 12.30 años. Los valores varían de 0 a 20.7 años con una desviación estándar de 3.36.

Modelamiento

El modelo que se va a abordar en el siguiente trabajo es el siguiente:

\[ \begin{aligned} \text{Life.expectancy} &= \beta_0 + \beta_1 \cdot \text{Adult.Mortality} + \beta_2 \cdot \text{infant.deaths} + \beta_3 \cdot \text{BMI} + \beta_4 \cdot \text{Alcohol} \\ &\quad + \beta_5 \cdot \text{GDP} + \beta_6 \cdot \text{Income.composition.of.resources} + \beta_7 \cdot \text{Schooling} \\ &\quad + \beta_8 \cdot \text{HIV.AIDS} + \beta_9 \cdot \text{Total.expenditure} \\ &\quad + \beta_{10} \cdot (\text{Schooling} \times \text{Income.composition.of.resources}) + \epsilon \end{aligned} \]

Coeficiente de correlación lineal de Pearson

library(GGally)
library(ggplot2)
variables <- c("Life.expectancy", "Adult.Mortality", "infant.deaths", "BMI", "Alcohol", 
               "GDP", "Income.composition.of.resources", "Schooling", "HIV.AIDS", 
               "Total.expenditure")

data_selected <- data[variables]

colnames(data_selected) <- c("Esperanza de vida", "Tasa de mortalidad\nadulta", "Muertes\ninfantiles", 
                             "IMC\npromedio", "Consumo de\nalcohol", "PIB per cápita\n(USD)", 
                             "IDH relacionado\ncon ingresos", "Años promedio\nde educación", 
                             "Tasa de mortalidad\nVIH/SIDA", "Gasto total\nen salud")

ggpairs(
  data_selected,
  title = "Matriz de Dispersión: Esperanza de Vida vs Variables Independientes",
  upper = list(continuous = wrap("cor", size = 3)),
  lower = list(continuous = wrap("points", color = "#2E86C1", alpha = 0.5, size = 0.8)), 
  diag = list(continuous = wrap("barDiag", fill = "#85C1E9", color = "white", alpha = 0.8)), 
  switch = "both"
) + 
  theme_minimal() + 
  theme(
    panel.spacing = unit(0.3, "lines"), 
    plot.title = element_text(hjust = 0.5, face = "bold", size = 14), 
    axis.text.x = element_text(angle = 45, hjust = 1, size = 8), 
    axis.text.y = element_text(size = 8),
    strip.text = element_text(size = 5.5, face = "bold") 
  )

data_clean <- na.omit(data[variables])

colnames(data_clean) <- c("Esperanza de vida", "Tasa de mortalidad adulta", "Muertes infantiles", 
                          "IMC promedio", "Consumo de alcohol", "PIB per cápita (USD)", 
                          "IDH relacionado con ingresos", "Promedio de años de educación", 
                          "Tasa de mortalidad VIH/SIDA", "Gasto total en salud")


cor_matrix <- cor(data_clean, method = "pearson")


cor_df <- as.data.frame(cor_matrix)


knitr::kable(cor_df, format = "markdown", digits = 2, caption = "Matriz de Correlación")
Matriz de Correlación
Esperanza de vida Tasa de mortalidad adulta Muertes infantiles IMC promedio Consumo de alcohol PIB per cápita (USD) IDH relacionado con ingresos Promedio de años de educación Tasa de mortalidad VIH/SIDA Gasto total en salud
Esperanza de vida 1.00 -0.68 -0.18 0.58 0.38 0.46 0.72 0.75 -0.58 0.18
Tasa de mortalidad adulta -0.68 1.00 0.06 -0.38 -0.17 -0.29 -0.45 -0.44 0.54 -0.08
Muertes infantiles -0.18 0.06 1.00 -0.23 -0.10 -0.11 -0.15 -0.21 0.01 -0.13
IMC promedio 0.58 -0.38 -0.23 1.00 0.34 0.30 0.52 0.57 -0.25 0.19
Consumo de alcohol 0.38 -0.17 -0.10 0.34 1.00 0.35 0.46 0.56 -0.04 0.30
PIB per cápita (USD) 0.46 -0.29 -0.11 0.30 0.35 1.00 0.46 0.45 -0.14 0.14
IDH relacionado con ingresos 0.72 -0.45 -0.15 0.52 0.46 0.46 1.00 0.80 -0.25 0.17
Promedio de años de educación 0.75 -0.44 -0.21 0.57 0.56 0.45 0.80 1.00 -0.23 0.26
Tasa de mortalidad VIH/SIDA -0.58 0.54 0.01 -0.25 -0.04 -0.14 -0.25 -0.23 1.00 0.03
Gasto total en salud 0.18 -0.08 -0.13 0.19 0.30 0.14 0.17 0.26 0.03 1.00

Ya que nuestra variable dependiente es la esperanza de vida se comentaran con respecto a esta, por lo que descubrimos que :

La esperanza de vida está fuertemente influenciada por varios factores clave:

  • Tasa de Mortalidad Adulta: Existe una fuerte correlación negativa (-0.68) con la esperanza de vida, lo que significa que a medida que aumenta la tasa de mortalidad adulta, la esperanza de vida disminuye. Esto es esperado, ya que una mayor mortalidad en adultos reduce la esperanza de vida promedio.

  • IMC Promedio: La correlación positiva (0.58) indica que un IMC promedio más alto, dentro de un rango saludable, está asociado con una mayor esperanza de vida.

  • Consumo de Alcohol: La correlación positiva (0.38) sugiere que un mayor consumo de alcohol per cápita está asociado con una mayor esperanza de vida. Esto puede reflejar hábitos culturales en países con alto consumo de alcohol y buenos sistemas de salud.

  • PIB per Cápita (USD): La correlación positiva (0.46) muestra que un mayor PIB per cápita está asociado con una mayor esperanza de vida. Esto indica que una mejor economía puede proporcionar mejores servicios de salud y calidad de vida.

  • IDH Relacionado con Ingresos: Una fuerte correlación positiva (0.72) sugiere que un mejor índice de desarrollo humano está fuertemente relacionado con una mayor esperanza de vida.

  • Promedio de Años de Educación: La fuerte correlación positiva (0.75) indica que más años de educación están asociados con una mayor esperanza de vida.

  • Tasa de Mortalidad VIH/SIDA: La correlación negativa moderada (-0.58) muestra que una mayor tasa de mortalidad debido al VIH/SIDA reduce la esperanza de vida.

Estimación

modelo <- lm(Life.expectancy ~ Adult.Mortality + infant.deaths + BMI + Alcohol + 
             GDP + Income.composition.of.resources * Schooling + HIV.AIDS + 
             Total.expenditure, data = data)
summary(modelo)
## 
## Call:
## lm(formula = Life.expectancy ~ Adult.Mortality + infant.deaths + 
##     BMI + Alcohol + GDP + Income.composition.of.resources * Schooling + 
##     HIV.AIDS + Total.expenditure, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -21.4814  -2.3760  -0.0051   2.4497  19.9216 
## 
## Coefficients:
##                                             Estimate Std. Error t value
## (Intercept)                                5.710e+01  7.763e-01  73.550
## Adult.Mortality                           -1.690e-02  9.032e-04 -18.707
## infant.deaths                             -2.285e-03  6.995e-04  -3.267
## BMI                                        4.766e-02  5.570e-03   8.556
## Alcohol                                   -7.870e-02  2.796e-02  -2.815
## GDP                                        4.364e-05  7.295e-06   5.982
## Income.composition.of.resources            1.082e+00  1.450e+00   0.746
## Schooling                                  6.301e-01  7.339e-02   8.585
## HIV.AIDS                                  -4.948e-01  1.865e-02 -26.535
## Total.expenditure                          5.529e-02  3.915e-02   1.412
## Income.composition.of.resources:Schooling  6.841e-01  1.146e-01   5.969
##                                           Pr(>|t|)    
## (Intercept)                                < 2e-16 ***
## Adult.Mortality                            < 2e-16 ***
## infant.deaths                              0.00110 ** 
## BMI                                        < 2e-16 ***
## Alcohol                                    0.00491 ** 
## GDP                                       2.55e-09 ***
## Income.composition.of.resources            0.45572    
## Schooling                                  < 2e-16 ***
## HIV.AIDS                                   < 2e-16 ***
## Total.expenditure                          0.15806    
## Income.composition.of.resources:Schooling 2.75e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.181 on 2297 degrees of freedom
##   (630 observations deleted due to missingness)
## Multiple R-squared:  0.815,  Adjusted R-squared:  0.8142 
## F-statistic:  1012 on 10 and 2297 DF,  p-value: < 2.2e-16

Evaluación global del modelo

  • \(R^2 = 0.8152\) y \(R^2\) ajustado = 0.8145
    • Esto significa que el modelo explica alrededor del 81.5% de la variabilidad en la esperanza de vida, lo cual indica un ajuste muy bueno.
  • \(F\)-statistic = 1128, p-value < 2.2e-16
    • Como el p-valor es extremadamente bajo, se rechaza la hipótesis nula de que todos los coeficientes son cero. El modelo en su conjunto es significativo.

Interpretación de los coeficientes

Variables con efectos negativos en la esperanza de vida:

Variable Estimación Interpretación
Adult.Mortality (-0.0169) Por cada unidad adicional de mortalidad adulta, la esperanza de vida disminuye en 0.0169 años. (Muy significativo: p < 2e-16)
infant.deaths (-0.00235) Cada muerte infantil adicional por cada 1000 nacimientos reduce la esperanza de vida en 0.00235 años. (p = 0.0008)
Alcohol (-0.0732) Un aumento en el consumo de alcohol se asocia con una reducción de 0.073 años en la esperanza de vida. (p = 0.008)
HIV.AIDS (-0.4928) Un incremento en la tasa de mortalidad por VIH/SIDA se asocia con una caída de 0.49 años en la esperanza de vida. (Extremadamente significativo: p < 2e-16)

Variables con efectos positivos en la esperanza de vida:

Variable Estimación Interpretación
BMI (0.04795) Un aumento de 1 unidad en el índice de masa corporal (IMC) está asociado con un incremento de 0.0479 años en la esperanza de vida. (p < 2e-16)
GDP (0.0000438) Un aumento de 1 dólar en el PIB per cápita aumenta la esperanza de vida en 0.0000438 años (o 1 año por cada 22,831 dólares adicionales). (p = 1.87e-09)
Schooling (0.6285) Cada año adicional de educación aumenta la esperanza de vida en 0.628 años. (p < 2e-16)

Interacción entre Income.composition.of.resources y Schooling

  • Coeficiente de interacción: 0.7009 (p = 6.67e-10)
    • Este resultado indica que el impacto de la escolaridad en la esperanza de vida depende del nivel de ingresos.
    • A medida que Income.composition.of.resources aumenta, el efecto positivo de la educación en la esperanza de vida también se incrementa.
    • En otras palabras, la educación tiene un mayor impacto en mejorar la esperanza de vida en países con mejor acceso a recursos económicos.

📌 Importante:
El coeficiente de Income.composition.of.resources por sí solo no es significativo (p = 0.56), lo que sugiere que su efecto en la esperanza de vida depende de la escolaridad y no es fuerte cuando se analiza de forma aislada.

La interacción entre Income.composition.of.resources y Schooling es importante porque el impacto de la educación en la esperanza de vida varía según el nivel de desarrollo económico. En países con mayores recursos, una mejor educación suele traducirse en mejores condiciones de salud y acceso a servicios médicos, lo que aumenta la esperanza de vida. Sin embargo, en países con menos recursos, la educación por sí sola puede no ser suficiente para mejorar significativamente la salud si no está acompañada de inversiones en infraestructura y bienestar social.

Verificación de supuestos (esto es un test nada mas, sin embargo, preocupa que no cumpla ningun supuesto)

# Supuesto de Independencia de Errores
library(lmtest)
dwtest(modelo)
## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 0.57902, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
# Supuesto de Homocedasticidad
plot(modelo,1:1, main="Si existe homocedasticidad.
     El error se mantiene constante",col.main="blue",cex.main=.9)

library(car)
ncvTest(modelo)
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 273.5342, Df = 1, p = < 2.22e-16
# Supuesto de Normalidad de los Residuos

par(mfrow = c(1,2))
hist(modelo$residuals, 
     main="Residuos con distribucion normal",
     cex.main=.9,col.main="blue")
boxplot(modelo$residuals)

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.97599, p-value < 2.2e-16