PARTE 2

Para esta evaluación, vamos a trabajar con la base de datos de Esperanza de Vida, a cargo del Observatorio Global para la Salud de la OMS. Esta herramienta sirve como instrumento de monitoreo de la salud y elementos asociados en 193 países. Para consultar todos los detalles de la base de datos, ver: https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who?resource=download

En esta oportunidad, vamos a trabajar con los datos del año 2014:

library(rio)
data = import("data_pc4.csv")

Tenemos interés en explicar la esperanza de vida en años para los 183 países del año 2015 en esta base de datos. En ese sentido, se le pide responder a las siguientes preguntas:

Pregunta 1 (3 puntos):

Explore las correlaciones entre las variables “Life expectancy” (4), “Adult Mortality” (5), “percentage of expenditure” (8), “Schooling (22)” y “Alcohol (7)”, y responda a las siguientes variables:

  • ¿Qué par de variables presentan la menor fuerza de correlación? Interprete la relación entre ambas en función a la fuerza y el sentido de la asociación y declare el coeficiente de correlación

  • ¿Qué par de variables presentan la asociación más fuerte? Interprete la relación entre ambas en función a la fuerza y el sentido de la asociación y declare el coeficiente de correlación

names(data)
##  [1] "Country"               "Year"                  "Status"               
##  [4] "LifeExpectancy"        "AdultMortality"        "infantDeaths"         
##  [7] "Alcohol"               "percentageExpenditure" "HepatitisB"           
## [10] "Measles"               "BMI"                   "under-five deaths"    
## [13] "Polio"                 "TotalExpenditure"      "Diphtheria"           
## [16] "HIV/AIDS"              "GDP"                   "Population"           
## [19] "thinness  1-19 years"  "thinness 5-9 years"    "Income"               
## [22] "Schooling"
class(data$Alcohol)
## [1] "numeric"
class(data$AdultMortality)
## [1] "integer"
class(data$percentageExpenditure)
## [1] "numeric"
class(data$LifeExpectancy)
## [1] "numeric"
class(data$Schooling)
## [1] "numeric"
#Debo convertir Adult Morality a numérica porque está en "integer"
data$AdultMortality=as.numeric(data$AdultMortality)
class(data$AdultMortality)
## [1] "numeric"
str(data)
## 'data.frame':    153 obs. of  22 variables:
##  $ Country              : chr  "Afghanistan" "Albania" "Algeria" "Angola" ...
##  $ Year                 : int  2014 2014 2014 2014 2014 2014 2014 2014 2014 2014 ...
##  $ Status               : chr  "Developing" "Developing" "Developing" "Developing" ...
##  $ LifeExpectancy       : num  59.9 77.5 75.4 51.7 76.2 76.2 74.6 82.7 81.4 72.5 ...
##  $ AdultMortality       : num  271 8 11 348 131 118 12 6 66 119 ...
##  $ infantDeaths         : int  64 0 21 67 0 8 1 1 0 5 ...
##  $ Alcohol              : num  0.01 4.51 0.01 8.33 8.56 ...
##  $ percentageExpenditure: num  73.5 428.7 54.2 24 2423 ...
##  $ HepatitisB           : int  62 98 95 64 99 94 93 91 98 94 ...
##  $ Measles              : int  492 0 0 11699 0 1 13 340 117 0 ...
##  $ BMI                  : num  18.6 57.2 58.4 22.7 47 62.2 54.1 66.1 57.1 51.5 ...
##  $ under-five deaths    : int  86 1 24 101 0 9 1 1 0 6 ...
##  $ Polio                : int  58 98 95 68 96 92 95 92 98 97 ...
##  $ TotalExpenditure     : num  8.18 5.88 7.21 3.31 5.54 ...
##  $ Diphtheria           : int  62 98 95 64 99 94 93 92 98 94 ...
##  $ HIV/AIDS             : num  0.1 0.1 0.1 2 0.2 0.1 0.1 0.1 0.1 0.1 ...
##  $ GDP                  : num  613 4576 548 479 12888 ...
##  $ Population           : num  327582 288914 39113313 2692466 NA ...
##  $ thinness  1-19 years : num  17.5 1.2 6 8.5 3.3 1 2.1 0.6 1.8 2.8 ...
##  $ thinness 5-9 years   : num  17.5 1.3 5.8 8.3 3.3 0.9 2.1 0.6 2 2.9 ...
##  $ Income               : num  0.476 0.761 0.741 0.527 0.782 0.825 0.739 0.936 0.892 0.752 ...
##  $ Schooling            : num  10 14.2 14.4 11.4 13.9 17.3 12.7 20.4 15.9 12.2 ...
datos.cuanti <- data[, c(4,5,8,7,22)]
str(datos.cuanti)
## 'data.frame':    153 obs. of  5 variables:
##  $ LifeExpectancy       : num  59.9 77.5 75.4 51.7 76.2 76.2 74.6 82.7 81.4 72.5 ...
##  $ AdultMortality       : num  271 8 11 348 131 118 12 6 66 119 ...
##  $ percentageExpenditure: num  73.5 428.7 54.2 24 2423 ...
##  $ Alcohol              : num  0.01 4.51 0.01 8.33 8.56 ...
##  $ Schooling            : num  10 14.2 14.4 11.4 13.9 17.3 12.7 20.4 15.9 12.2 ...
sum(is.na(datos.cuanti))
## [1] 0
#No tengo datos perdidos
M <- round(cor(datos.cuanti), digits=2)
M 
##                       LifeExpectancy AdultMortality percentageExpenditure
## LifeExpectancy                  1.00          -0.78                  0.43
## AdultMortality                 -0.78           1.00                 -0.27
## percentageExpenditure           0.43          -0.27                  1.00
## Alcohol                         0.53          -0.27                  0.42
## Schooling                       0.82          -0.59                  0.40
##                       Alcohol Schooling
## LifeExpectancy           0.53      0.82
## AdultMortality          -0.27     -0.59
## percentageExpenditure    0.42      0.40
## Alcohol                  1.00      0.59
## Schooling                0.59      1.00

Como se observa en la matriz de correlaciones, los pares de variables que presentan la menor fuerza de relación son: -Adult Morality con percentage of expenditure: -0-27 -Adult morality con alcohol: -0.27 Respecto a la primera, se concluye que la mortalidad adulta presenta una relación negativa/inversa con el porcentaje del presupuesto nacional dirigido al sector salud. Según el criterio de Cohen, esta relación sería pequeña. Así, conforme el porcentaje del presupuesto dirigido a la salud aumenta, la mortalidad adulta disminuirá y viceversa. Ello nos indica la importancia de invertir en el sistema de salud pública. Por otro lado, la relación entre la mortalidad adulta y el consumo per capita del alcohol presenta el mismo coeficiente: -0.27. Lo que nos indica que es inversa y pequeña. En ese sentido, se afirma que conforme el consumo per capita del alcohol aumenta, la mortalidad adulta disminuye en promedio.

El par de variables que presentan la asociación más fuerte es: Schooling y life expectancy: 0.82 Esta relación es positiva y grande. Así, se afirma que conforme los años de escolaridad aumentan, la esperanza de vida aumenta en promedio

  • ¿Cuál es la variable que MENOS se encuentra correlacionada con la cantidad de consumo per capita de alcohol?

La variables que se encuentra menos relacionada con el consumo per cápita de alcohol es AdultMorality con un coeficiente de -0.27. En ese sentido, se afirma que conforme el consumo per capita del alcohol aumenta, la mortalidad adulta disminuye en promedio. Ello nos indica la necesidad de políticas públicas que alerten a la población sobre la peligrosidad del consumo de alcohol para su salud. Asimismo, identificar y mitigar aquellos factores que se relacionan a un consumo desmedido de alcohol.

Pregunta 2:

Queremos encontrar las variables que tendrían la capacidad de explicar el nivel de esperanza de vida (Life Expectancy) de los países. Por ello, se le solicita lo siguiente (4 puntos):

  • Construya un modelo de regresión lineal simple, cuya variable independiente es el consumo per capita de alcohol del país (Alcohol). Interprete sus resultados (la validez del modelo, la interpretación del coeficiente, el nivel de explicación del modelo y brinde dos ejemplos de posibles valores esperados de Y)

Variables x (independiente): consumo per cápita del alcohol del país (Alcohol)

y (dependiente): Life expentancy

library(ggplot2) #para hacer gráficos
library(Hmisc)   #para correlación
## Loading required package: lattice
## Loading required package: survival
## Loading required package: Formula
## 
## Attaching package: 'Hmisc'
## The following objects are masked from 'package:base':
## 
##     format.pval, units
library(ggplot2)
ggplot(data, aes(x=Alcohol, y=LifeExpectancy)) +
  geom_point(colour="red") +  xlab("Consumo per cápita del acohol del país") +  ylab("Espeanza de vida") +
  theme_light()+
  geom_smooth(method="lm", se = F) 
## `geom_smooth()` using formula 'y ~ x'

Se observa una relación positiva y mediana en el gráfico. En la siguiente sección buscaremos confirmar lo observdo en este gráfico. #Analizamos la correlación H0= No existe correlación entre el Consumo per cápita del alcohol del país y la esperanza de vida H1: Sí existe correlación entre el Consumo per cápita del alcohol del país y la esperanza de vida

cor.test(data$LifeExpectancy, data$Alcohol)
## 
##  Pearson's product-moment correlation
## 
## data:  data$LifeExpectancy and data$Alcohol
## t = 7.6612, df = 151, p-value = 2.062e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4043240 0.6344731
## sample estimates:
##       cor 
## 0.5290591

p-value = 2.062e-12 cor= 0.5290591

Tabla Anova para ver validez del modelo y COEFICIENTE DE DETERMINACIÓN-R2

Hipótesis para la prueba F:

H0: El modelo de regresión no es válido

H1: El modelo de regresión es válido (variable X aporta al modelo)

modelo1<-lm(LifeExpectancy~Alcohol, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo1)
## 
## Call:
## lm(formula = LifeExpectancy ~ Alcohol, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -25.687  -4.965   1.135   5.735  15.435 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  68.0537     0.7664  88.802  < 2e-16 ***
## Alcohol       1.1205     0.1463   7.661 2.06e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.417 on 151 degrees of freedom
## Multiple R-squared:  0.2799, Adjusted R-squared:  0.2751 
## F-statistic: 58.69 on 1 and 151 DF,  p-value: 2.062e-12

Multiple R-squared: 0.2799 p-value: 2.062e-12 Mi p-value es menor a 0.05 por lo que rechazo mi hipótesis nula y compruebo mi H1 que indica Sí existe correlación entre el Consumo per cápita del alcohol del país y la esperanza de vida. Mi coeficiente de correlación es positivo así que afirmo que la relación es positiva. Según los criterios de COhen, se trata de una correlación grande. Así, ambas variables están fuertemente asociadas por lo que conforme la variable alcohol aumenta la variable esperanza de vida va a aumentar. Respecto a la prueba F: Mi p-value es menor a 0.05 por lo que compruebo mi hipótesis alternativa que me indica que el modelo de regresión es válido (variable X aporta al modelo). Existe una relación lineal entre ambas variables estudiadas

De acuerdo a los resultados,se presenta un R multiple de 0.2799 | (27.9%). Esto sugiere que el 27,9% de la variabilidad de la esperanza de vida se explica por la variación en el nivel de consumo per cápita del alcohol.

Las hipótesis para la prueba T

H0: La variable X1 no aporta al modelo propuesto (b igual a 0)

H1: La variable X1 aporta al modelo propuesto (b diferente de 0)

Como el p-value de alcohol (2e-16) es menor a 0.05 compruebo mi H1 y concluyo que la pendiente de mi variable explicativa es distinto a 0 por lo que sí aporta a mi modelo.

Construir ecuación y predecir

modelo1$coefficients
## (Intercept)     Alcohol 
##   68.053714    1.120467

Mi ecuación será: y= 68.05 +1.12*X Esta ecuación nos indica que la intercepción con el eje y será 68.05. Así, cuando “alcohol” sea 0, “life expectancy” será 68.05. Es decir, el nivel de esperanza de vida será 68.05 Conformo “alcohol” aumenta 1, la variable “life expectancy” aumentará en un 1.12

summary(data$Alcohol)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.010   0.010   0.400   3.263   6.580  15.190

y= 68.05 +1.1210 y=79,26 Cuando el consumo per cápita del alcohol sea 10, el nivel de esperanza de vida será 79,6 en promedio. Esto último es importante mencionarlo puesto que el modelo de regresión lineal me predice los valores de mi variable y a través de mi recta de predictora. Esta recta es la que mejor va a predecir los valores, es decir, la que menos errores presenta. Sin embargo, su predicción nunca será exacta. y= 68.05 +1.1215.190 y=85 Cuando el consumo per cápita del alcohol sea 15.19, el nivel de esperanza de vida será 79,6 en promedio.

  • Construya un modelo de regresión lineal simple, cuya variable independiente es el número de años de escolaridad en el país (Schooling). Interprete sus resultados (la validez del modelo, la interpretación del coeficiente, el nivel de explicación del modelo y brinde dos ejemplos de posibles valores esperados de Y)

Variables x (independiente): número de años de escolaridad en el país (Schooling)

y (dependiente): Life expectancy

library(ggplot2) #para hacer gráficos
library(Hmisc)   #para correlación
library(ggplot2)
ggplot(data, aes(x=Schooling, y=LifeExpectancy)) +
  geom_point(colour="green") +  xlab("Número de años de escolaridad en el país") +  ylab("Esperanza de vida") +
  theme_light() +
  geom_smooth(method="lm", se = F)
## `geom_smooth()` using formula 'y ~ x'

Gráficamente se observa una asociación fuerte y positiva.
#Analizamos la correlación H0= No existe correlación entre el número de años de escolaridad en el país del país y la esperanza de vida H1: Sí existe correlación entre el número de años de escolaridad en el país y la esperanza de vida

cor.test(data$LifeExpectancy, data$Schooling)
## 
##  Pearson's product-moment correlation
## 
## data:  data$LifeExpectancy and data$Schooling
## t = 17.312, df = 151, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7543875 0.8625244
## sample estimates:
##       cor 
## 0.8154521

p-value = 2.2e-16 cor= 0.8154521 Mi p-value es menor a 0.05 por lo que rechazo mi hipótesis nula y compruebo mi H1 que indica sí existe correlación entre mis variables estudiadas. Mi coeficiente de correlación es positivo así que afirmo que la relación es positiva. Según los criterios de COhen, se trata de una correlación grande. Así, ambas variables están fuertemente asociadas y conforme aumenta una la otra también aumentará.

Tabla Anova para ver validez del modelo y COEFICIENTE DE DETERMINACIÓN-R2

Hipótesis para la prueba F:

H0: El modelo de regresión no es válido

H1: El modelo de regresión es válido (variable X aporta al modelo)

modelo2<-lm(LifeExpectancy~Schooling, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo2)
## 
## Call:
## lm(formula = LifeExpectancy ~ Schooling, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -15.9224  -2.9088   0.5693   3.5316   9.2848 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  39.4882     1.9057   20.72   <2e-16 ***
## Schooling     2.4679     0.1426   17.31   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.059 on 151 degrees of freedom
## Multiple R-squared:  0.665,  Adjusted R-squared:  0.6627 
## F-statistic: 299.7 on 1 and 151 DF,  p-value: < 2.2e-16

Multiple R-squared: 0.665 p-value: < 2.2e-16 Mi p-value es menor a 0.05 por lo que compruebo mi hipótesis alternativa que me indica que el modelo de regresión es válido (variable X aporta al modelo). Existe una relación lineal entre ambas variables estudiadas

De acuerdo a los resultados,se presenta un R multiple de 0.665 | (66.5%). Esto sugiere que el 66.5% de la variabilidad de la esperanza de vida se explica por la variación del nivel de años de escolaridad en el país. Este porcentaje es alto así que es un buen modelo.

Las hipótesis para la prueba T

H0: La variable X1 no aporta al modelo propuesto (b igual a 0)

H1: La variable X1 aporta al modelo propuesto (b diferente de 0)

Como el p-value de alcohol (<2e-16) es menor a 0.05 compruebo mi H1 y concluyo que la pendiente de mi variable explicativa es distinto a 0 por lo que sí aporta a mi modelo

Construir ecuación y predecir

modelo2$coefficients
## (Intercept)   Schooling 
##   39.488247    2.467911

Mi ecuación será: y= 39.49 + 2.47*X Esta ecuación nos indica que la intercepción con el eje y será 39.49. Así, cuando “schooling” sea 0, “life expectancy” será 39.49. Es decir, el nivel de esperanza de vida será 39.49 Conformo “schooling” aumenta 1, la variable “life expectancy” aumentará en un 2.47.

summary(data$Schooling)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.30   10.90   13.10   13.06   15.10   20.40

y= 39.49 + 2.4710 y=64,2 Cuando nivel de escolaridad sea 10, la esperanza de vida será 64.2 y= 39.49 + 2.4720 y=88.9 Cuando nivel de escolaridad sea 20, la esperanza de vida será 88.9

  • Construya un modelo de regresión lineal simple, cuya variable independiente es % del presupuesto destinado al gasto en salud. Interprete sus resultados (la validez del modelo, la interpretación del coeficiente, el nivel de explicación del modelo y brinde dos ejemplos de posibles valores esperados de Y) percentageExpenditure

Variables x (independiente): porcentaje del presupuesto destinado al gasto en salud

y (dependiente): Life expentancy

library(ggplot2) #para hacer gráficos
library(Hmisc)   #para correlación
library(ggplot2)
ggplot(data, aes(x=percentageExpenditure, y=LifeExpectancy)) +
  geom_point(colour="black") +  xlab("porcentaje del presupuesto destinado al gasto en salud") +  ylab("Espeanza de vida") +
  theme_light() +
  geom_smooth(method="lm", se = F)
## `geom_smooth()` using formula 'y ~ x'

En el gráfico se obseva una relación no tan clara aunque positiva #Analizamos la correlación H0= No existe correlación entre el porcentaje del presupuesto destinado al gasto en salud y la esperanza de vida H1: Sí existe correlación entre el porcentaje del presupuesto destinado al gasto en salud y la esperanza de vida

cor.test(data$LifeExpectancy, data$percentageExpenditure)
## 
##  Pearson's product-moment correlation
## 
## data:  data$LifeExpectancy and data$percentageExpenditure
## t = 5.8024, df = 151, p-value = 3.712e-08
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2878062 0.5485001
## sample estimates:
##       cor 
## 0.4269845

p-value = 3.712e-08 cor= 0.4269845 Mi p-value es menor a 0.05 por lo que rechazo mi hipótesis nula y compruebo mi H1 que indica sí existe correlación entre mis variables estudiadas. Mi coeficiente de correlación es positivo así que afirmo que la relación es positiva. Según los criterios de COhen, se trata de una correlación mediana. Así, el grado de asociación en ambas variables es mediano. Conforme aumenta el gasto en salud se espera que el nivel de esperanza de vida aumente.

Tabla Anova para ver validez del modelo y COEFICIENTE DE DETERMINACIÓN-R2

Hipótesis para la prueba F:

H0: El modelo de regresión no es válido

H1: El modelo de regresión es válido (variable X aporta al modelo)

modelo3<-lm(LifeExpectancy~percentageExpenditure, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo3)
## 
## Call:
## lm(formula = LifeExpectancy ~ percentageExpenditure, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.992  -5.206   1.296   5.132  18.543 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           70.090022   0.697294 100.517  < 2e-16 ***
## percentageExpenditure  0.001352   0.000233   5.802 3.71e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.904 on 151 degrees of freedom
## Multiple R-squared:  0.1823, Adjusted R-squared:  0.1769 
## F-statistic: 33.67 on 1 and 151 DF,  p-value: 3.712e-08

Multiple R-squared: 0.1823 p-value: 3.712e-08 Mi p-value es menor a 0.05 por lo que compruebo mi hipótesis alternativa que me indica que el modelo de regresión es válido (variable X aporta al modelo). Existe una relación lineal entre ambas variables estudiadas

De acuerdo a los resultados,se presenta un R multiple de 0.18 | (18.2%). Esto sugiere que el 18.2% de la variabilidad de la esperanza de vida se explica por la variación en el gasto destinado al sector de salud.

Las hipótesis para la prueba T

H0: La variable X1 no aporta al modelo propuesto (b igual a 0)

H1: La variable X1 aporta al modelo propuesto (b diferente de 0)

Como el p-value de alcohol (3.71e-08) es menor a 0.05 compruebo mi H1 y concluyo que la pendiente de mi variable explicativa es distinto a 0 por lo que sí aporta a mi modelo

Construir ecuación y predecir

modelo3$coefficients
##           (Intercept) percentageExpenditure 
##          70.090022440           0.001351998

Mi ecuación será: y= 70.1 + 0.001X Esta ecuación nos indica que la intercepción con el eje y será 70.01. Así, cuando “percentageExpenditure” sea 0, “life expectancy” será 70.01. Es decir, el nivel de esperanza de vida será 70.01 ConformE “percentageExpenditure” aumenta 1, la variable “life expectancy” aumentará en un 0.001

summary(data$percentageExpenditure)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     0.443    53.440   221.483  1198.065   789.276 19479.912

y= 70.1 + 0.00110 000 y=80.1 y= 70.1 + 0.0011 000 y=71.1

  • ¿Qué modelo es el mejor? Compare en una table y justifique:
library(stargazer)
## 
## Please cite as:
##  Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
stargazer(modelo1,modelo2,modelo3, type ="text")
## 
## =============================================================
##                                     Dependent variable:      
##                                ------------------------------
##                                        LifeExpectancy        
##                                   (1)       (2)        (3)   
## -------------------------------------------------------------
## Alcohol                        1.120***                      
##                                 (0.146)                      
##                                                              
## Schooling                                 2.468***           
##                                           (0.143)            
##                                                              
## percentageExpenditure                               0.001*** 
##                                                     (0.0002) 
##                                                              
## Constant                       68.054*** 39.488***  70.090***
##                                 (0.766)   (1.906)    (0.697) 
##                                                              
## -------------------------------------------------------------
## Observations                      153       153        153   
## R2                               0.280     0.665      0.182  
## Adjusted R2                      0.275     0.663      0.177  
## Residual Std. Error (df = 151)   7.417     5.059      7.904  
## F Statistic (df = 1; 151)      58.694*** 299.695*** 33.668***
## =============================================================
## Note:                             *p<0.1; **p<0.05; ***p<0.01

Como se observa en la tabla, el modelo que mejor explica la variabilidad de la esperanza de vida o que podría predecir mejor los valores de esta sería el modelo 2. Este modelo tiene como variable independiente el número de años de escolaridad del país. En la tabla también comprobamos la validez de todos los modelos por el F-statistic ya que todos tienen entre dos astericos o tres. Así que mi p-value me permite comprobar la H1, es decir, la validez del modelo

Pregunta 3

Con el objetivo de aproximarse más a la causalidad y acercarse a los determinantes de la esperanza de vida en los países, se le solicita lo siguiente (3 puntos):

  • Construya un modelo de regresión lineal múltiple que evalúe los impactos del consumo per capita de alcohol (Alcohol), los años de escolaridad (Schooling), el porcentaje del presupuesto nacional dirigido al sector salud (percentageExpenditure) y el producto bruto interno de los países (GDP). Todas las variables aquí mencionadas (Schooling, Alcohol, GDP y percentageExpenditure) deben ser incluidas en el modelo como variables independientes a la vez. Discuta los resultados y compárelos con los hallazgos identificados en los modelos lineales simples.

Variables x (independiente): producto bruto interno de los países (GPD)

y (dependiente): Life expectancy

Tabla Anova para ver validez del modelo y COEFICIENTE DE DETERMINACIÓN-R2

Hipótesis para la prueba F:

H0: El modelo de regresión no es válido

H1: El modelo de regresión es válido (variable X aporta al modelo)

modelo4<-lm(LifeExpectancy~GDP, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo4)
## 
## Call:
## lm(formula = LifeExpectancy ~ GDP, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.422  -5.237   1.138   4.624  19.000 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.950e+01  7.137e-01  97.389  < 2e-16 ***
## GDP         2.176e-04  3.381e-05   6.435 1.55e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.743 on 151 degrees of freedom
## Multiple R-squared:  0.2152, Adjusted R-squared:   0.21 
## F-statistic: 41.41 on 1 and 151 DF,  p-value: 1.548e-09

Este modelo es valido porque el p-value es menor a 0.05. La varriabilidad de la esperanza de vida se explica en 21,5% por la variación del producto bruto interno del país

modelo5<-lm(LifeExpectancy~GDP+Schooling+Alcohol+percentageExpenditure, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo5)
## 
## Call:
## lm(formula = LifeExpectancy ~ GDP + Schooling + Alcohol + percentageExpenditure, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -16.3797  -3.3354   0.4538   3.4461  10.0172 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            4.194e+01  2.167e+00  19.352   <2e-16 ***
## GDP                    6.383e-05  5.372e-05   1.188    0.237    
## Schooling              2.206e+00  1.834e-01  12.029   <2e-16 ***
## Alcohol                1.163e-01  1.274e-01   0.913    0.363    
## percentageExpenditure -4.256e-05  3.635e-04  -0.117    0.907    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.988 on 148 degrees of freedom
## Multiple R-squared:  0.6808, Adjusted R-squared:  0.6721 
## F-statistic:  78.9 on 4 and 148 DF,  p-value: < 2.2e-16

p-value: < 2.2e-16 Adjusted R-squared: 0.6721

Coefficients Estimate Std. Error t value Pr(>|t|) (Intercept) 4.194e+01 2.167e+00 19.352 <2e-16 GDP 6.383e-05 5.372e-05 1.188 0.237 Schooling 2.206e+00 1.834e-01 12.029 <2e-16 Alcohol 1.163e-01 1.274e-01 0.913 0.363 percentageExpenditure -4.256e-05 3.635e-04 -0.117 0.907

Como se observa, el p-value (2.2e-16) es menor a 0.05, por lo que rechazo mi hipóteis nula y compruebo mi hipótesis alternativa la cual me indica que mi modelo 5 es válido.

Sin embargo, notamos cambios relevantes en el p-value de cada variable. Solo presenta un p-value significativo la variable Schooling porque su p-value es menor a 0.05. Ello no implica que no cuente a mis otras variables en mi modelo ya que el R cuadrado ajustado se explica con todas estas variables

Por lo tanto, la variabilidad de la esperanza de vida se explicará en un 67,2% por la variación de las 4 variables presentes en el modelo.

Esta relación se explicará de acuerdo a la siguiente ecuación y= 4.19 + 6.38 x X1 + 2.21 x X2 + 1.1 x X3 -4.26 x X4 Donde: X1= GPD X2= Schooling X3= Alcohol X4= percentageExpenditure

Este modelo explica mejor la variabilidad de la esperanza de vida en un país por dos motivos. En primer lugar, se toman en cuenta 4 variables de control que me ayudan a construir un mejor modelo de predicción. En segundo lugar, incluso con estas variables de control, su R2 es el mayor: 67.2%.

Cabe resaltar que la variable que más explica el modelo 5 es GPD puesto que presenta la mayor pendiente. El hecho que esta aumente en un punto tendrá un mayor impacto en la variabilidad de y que las otras variables