Para esta evaluación, vamos a trabajar con la base de datos de Esperanza de Vida, a cargo del Observatorio Global para la Salud de la OMS. Esta herramienta sirve como instrumento de monitoreo de la salud y elementos asociados en 193 países. Para consultar todos los detalles de la base de datos, ver: https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who?resource=download
En esta oportunidad, vamos a trabajar con los datos del año 2014:
library(rio)
data = import("data_pc4.csv")
Tenemos interés en explicar la esperanza de vida en años para los 183 países del año 2015 en esta base de datos. En ese sentido, se le pide responder a las siguientes preguntas:
Explore las correlaciones entre las variables “Life expectancy” (4), “Adult Mortality” (5), “percentage of expenditure” (8), “Schooling (22)” y “Alcohol (7)”, y responda a las siguientes variables:
¿Qué par de variables presentan la menor fuerza de correlación? Interprete la relación entre ambas en función a la fuerza y el sentido de la asociación y declare el coeficiente de correlación
¿Qué par de variables presentan la asociación más fuerte? Interprete la relación entre ambas en función a la fuerza y el sentido de la asociación y declare el coeficiente de correlación
names(data)
## [1] "Country" "Year" "Status"
## [4] "LifeExpectancy" "AdultMortality" "infantDeaths"
## [7] "Alcohol" "percentageExpenditure" "HepatitisB"
## [10] "Measles" "BMI" "under-five deaths"
## [13] "Polio" "TotalExpenditure" "Diphtheria"
## [16] "HIV/AIDS" "GDP" "Population"
## [19] "thinness 1-19 years" "thinness 5-9 years" "Income"
## [22] "Schooling"
class(data$Alcohol)
## [1] "numeric"
class(data$AdultMortality)
## [1] "integer"
class(data$percentageExpenditure)
## [1] "numeric"
class(data$LifeExpectancy)
## [1] "numeric"
class(data$Schooling)
## [1] "numeric"
#Debo convertir Adult Morality a numérica porque está en "integer"
data$AdultMortality=as.numeric(data$AdultMortality)
class(data$AdultMortality)
## [1] "numeric"
str(data)
## 'data.frame': 153 obs. of 22 variables:
## $ Country : chr "Afghanistan" "Albania" "Algeria" "Angola" ...
## $ Year : int 2014 2014 2014 2014 2014 2014 2014 2014 2014 2014 ...
## $ Status : chr "Developing" "Developing" "Developing" "Developing" ...
## $ LifeExpectancy : num 59.9 77.5 75.4 51.7 76.2 76.2 74.6 82.7 81.4 72.5 ...
## $ AdultMortality : num 271 8 11 348 131 118 12 6 66 119 ...
## $ infantDeaths : int 64 0 21 67 0 8 1 1 0 5 ...
## $ Alcohol : num 0.01 4.51 0.01 8.33 8.56 ...
## $ percentageExpenditure: num 73.5 428.7 54.2 24 2423 ...
## $ HepatitisB : int 62 98 95 64 99 94 93 91 98 94 ...
## $ Measles : int 492 0 0 11699 0 1 13 340 117 0 ...
## $ BMI : num 18.6 57.2 58.4 22.7 47 62.2 54.1 66.1 57.1 51.5 ...
## $ under-five deaths : int 86 1 24 101 0 9 1 1 0 6 ...
## $ Polio : int 58 98 95 68 96 92 95 92 98 97 ...
## $ TotalExpenditure : num 8.18 5.88 7.21 3.31 5.54 ...
## $ Diphtheria : int 62 98 95 64 99 94 93 92 98 94 ...
## $ HIV/AIDS : num 0.1 0.1 0.1 2 0.2 0.1 0.1 0.1 0.1 0.1 ...
## $ GDP : num 613 4576 548 479 12888 ...
## $ Population : num 327582 288914 39113313 2692466 NA ...
## $ thinness 1-19 years : num 17.5 1.2 6 8.5 3.3 1 2.1 0.6 1.8 2.8 ...
## $ thinness 5-9 years : num 17.5 1.3 5.8 8.3 3.3 0.9 2.1 0.6 2 2.9 ...
## $ Income : num 0.476 0.761 0.741 0.527 0.782 0.825 0.739 0.936 0.892 0.752 ...
## $ Schooling : num 10 14.2 14.4 11.4 13.9 17.3 12.7 20.4 15.9 12.2 ...
datos.cuanti <- data[, c(4,5,8,7,22)]
str(datos.cuanti)
## 'data.frame': 153 obs. of 5 variables:
## $ LifeExpectancy : num 59.9 77.5 75.4 51.7 76.2 76.2 74.6 82.7 81.4 72.5 ...
## $ AdultMortality : num 271 8 11 348 131 118 12 6 66 119 ...
## $ percentageExpenditure: num 73.5 428.7 54.2 24 2423 ...
## $ Alcohol : num 0.01 4.51 0.01 8.33 8.56 ...
## $ Schooling : num 10 14.2 14.4 11.4 13.9 17.3 12.7 20.4 15.9 12.2 ...
sum(is.na(datos.cuanti))
## [1] 0
#No tengo datos perdidos
M <- round(cor(datos.cuanti), digits=2)
M
## LifeExpectancy AdultMortality percentageExpenditure
## LifeExpectancy 1.00 -0.78 0.43
## AdultMortality -0.78 1.00 -0.27
## percentageExpenditure 0.43 -0.27 1.00
## Alcohol 0.53 -0.27 0.42
## Schooling 0.82 -0.59 0.40
## Alcohol Schooling
## LifeExpectancy 0.53 0.82
## AdultMortality -0.27 -0.59
## percentageExpenditure 0.42 0.40
## Alcohol 1.00 0.59
## Schooling 0.59 1.00
Como se observa en la matriz de correlaciones, los pares de variables que presentan la menor fuerza de relación son: -Adult Morality con percentage of expenditure: -0-27 -Adult morality con alcohol: -0.27 Respecto a la primera, se concluye que la mortalidad adulta presenta una relación negativa/inversa con el porcentaje del presupuesto nacional dirigido al sector salud. Según el criterio de Cohen, esta relación sería pequeña. Así, conforme el porcentaje del presupuesto dirigido a la salud aumenta, la mortalidad adulta disminuirá y viceversa. Ello nos indica la importancia de invertir en el sistema de salud pública. Por otro lado, la relación entre la mortalidad adulta y el consumo per capita del alcohol presenta el mismo coeficiente: -0.27. Lo que nos indica que es inversa y pequeña. En ese sentido, se afirma que conforme el consumo per capita del alcohol aumenta, la mortalidad adulta disminuye en promedio.
El par de variables que presentan la asociación más fuerte es: Schooling y life expectancy: 0.82 Esta relación es positiva y grande. Así, se afirma que conforme los años de escolaridad aumentan, la esperanza de vida aumenta en promedio
La variables que se encuentra menos relacionada con el consumo per cápita de alcohol es AdultMorality con un coeficiente de -0.27. En ese sentido, se afirma que conforme el consumo per capita del alcohol aumenta, la mortalidad adulta disminuye en promedio. Ello nos indica la necesidad de políticas públicas que alerten a la población sobre la peligrosidad del consumo de alcohol para su salud. Asimismo, identificar y mitigar aquellos factores que se relacionan a un consumo desmedido de alcohol.
Queremos encontrar las variables que tendrían la capacidad de explicar el nivel de esperanza de vida (Life Expectancy) de los países. Por ello, se le solicita lo siguiente (4 puntos):
Variables x (independiente): consumo per cápita del alcohol del país (Alcohol)
y (dependiente): Life expentancy
library(ggplot2) #para hacer gráficos
library(Hmisc) #para correlación
## Loading required package: lattice
## Loading required package: survival
## Loading required package: Formula
##
## Attaching package: 'Hmisc'
## The following objects are masked from 'package:base':
##
## format.pval, units
library(ggplot2)
ggplot(data, aes(x=Alcohol, y=LifeExpectancy)) +
geom_point(colour="red") + xlab("Consumo per cápita del acohol del país") + ylab("Espeanza de vida") +
theme_light()+
geom_smooth(method="lm", se = F)
## `geom_smooth()` using formula 'y ~ x'
Se observa una relación positiva y mediana en el gráfico. En la
siguiente sección buscaremos confirmar lo observdo en este gráfico.
#Analizamos la correlación H0= No existe correlación entre el Consumo
per cápita del alcohol del país y la esperanza de vida H1: Sí existe
correlación entre el Consumo per cápita del alcohol del país y la
esperanza de vida
cor.test(data$LifeExpectancy, data$Alcohol)
##
## Pearson's product-moment correlation
##
## data: data$LifeExpectancy and data$Alcohol
## t = 7.6612, df = 151, p-value = 2.062e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4043240 0.6344731
## sample estimates:
## cor
## 0.5290591
p-value = 2.062e-12 cor= 0.5290591
Tabla Anova para ver validez del modelo y COEFICIENTE DE DETERMINACIÓN-R2
Hipótesis para la prueba F:
H0: El modelo de regresión no es válido
H1: El modelo de regresión es válido (variable X aporta al modelo)
modelo1<-lm(LifeExpectancy~Alcohol, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo1)
##
## Call:
## lm(formula = LifeExpectancy ~ Alcohol, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.687 -4.965 1.135 5.735 15.435
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 68.0537 0.7664 88.802 < 2e-16 ***
## Alcohol 1.1205 0.1463 7.661 2.06e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.417 on 151 degrees of freedom
## Multiple R-squared: 0.2799, Adjusted R-squared: 0.2751
## F-statistic: 58.69 on 1 and 151 DF, p-value: 2.062e-12
Multiple R-squared: 0.2799 p-value: 2.062e-12 Mi p-value es menor a 0.05 por lo que rechazo mi hipótesis nula y compruebo mi H1 que indica Sí existe correlación entre el Consumo per cápita del alcohol del país y la esperanza de vida. Mi coeficiente de correlación es positivo así que afirmo que la relación es positiva. Según los criterios de COhen, se trata de una correlación grande. Así, ambas variables están fuertemente asociadas por lo que conforme la variable alcohol aumenta la variable esperanza de vida va a aumentar. Respecto a la prueba F: Mi p-value es menor a 0.05 por lo que compruebo mi hipótesis alternativa que me indica que el modelo de regresión es válido (variable X aporta al modelo). Existe una relación lineal entre ambas variables estudiadas
De acuerdo a los resultados,se presenta un R multiple de 0.2799 | (27.9%). Esto sugiere que el 27,9% de la variabilidad de la esperanza de vida se explica por la variación en el nivel de consumo per cápita del alcohol.
Las hipótesis para la prueba T
H0: La variable X1 no aporta al modelo propuesto (b igual a 0)
H1: La variable X1 aporta al modelo propuesto (b diferente de 0)
Como el p-value de alcohol (2e-16) es menor a 0.05 compruebo mi H1 y concluyo que la pendiente de mi variable explicativa es distinto a 0 por lo que sí aporta a mi modelo.
Construir ecuación y predecir
modelo1$coefficients
## (Intercept) Alcohol
## 68.053714 1.120467
Mi ecuación será: y= 68.05 +1.12*X Esta ecuación nos indica que la intercepción con el eje y será 68.05. Así, cuando “alcohol” sea 0, “life expectancy” será 68.05. Es decir, el nivel de esperanza de vida será 68.05 Conformo “alcohol” aumenta 1, la variable “life expectancy” aumentará en un 1.12
summary(data$Alcohol)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.010 0.010 0.400 3.263 6.580 15.190
y= 68.05 +1.1210 y=79,26 Cuando el consumo per cápita del alcohol sea 10, el nivel de esperanza de vida será 79,6 en promedio. Esto último es importante mencionarlo puesto que el modelo de regresión lineal me predice los valores de mi variable y a través de mi recta de predictora. Esta recta es la que mejor va a predecir los valores, es decir, la que menos errores presenta. Sin embargo, su predicción nunca será exacta. y= 68.05 +1.1215.190 y=85 Cuando el consumo per cápita del alcohol sea 15.19, el nivel de esperanza de vida será 79,6 en promedio.
Variables x (independiente): número de años de escolaridad en el país (Schooling)
y (dependiente): Life expectancy
library(ggplot2) #para hacer gráficos
library(Hmisc) #para correlación
library(ggplot2)
ggplot(data, aes(x=Schooling, y=LifeExpectancy)) +
geom_point(colour="green") + xlab("Número de años de escolaridad en el país") + ylab("Esperanza de vida") +
theme_light() +
geom_smooth(method="lm", se = F)
## `geom_smooth()` using formula 'y ~ x'
Gráficamente se observa una asociación fuerte y positiva.
#Analizamos la correlación H0= No existe correlación entre el número de
años de escolaridad en el país del país y la esperanza de vida H1: Sí
existe correlación entre el número de años de escolaridad en el país y
la esperanza de vida
cor.test(data$LifeExpectancy, data$Schooling)
##
## Pearson's product-moment correlation
##
## data: data$LifeExpectancy and data$Schooling
## t = 17.312, df = 151, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7543875 0.8625244
## sample estimates:
## cor
## 0.8154521
p-value = 2.2e-16 cor= 0.8154521 Mi p-value es menor a 0.05 por lo que rechazo mi hipótesis nula y compruebo mi H1 que indica sí existe correlación entre mis variables estudiadas. Mi coeficiente de correlación es positivo así que afirmo que la relación es positiva. Según los criterios de COhen, se trata de una correlación grande. Así, ambas variables están fuertemente asociadas y conforme aumenta una la otra también aumentará.
Tabla Anova para ver validez del modelo y COEFICIENTE DE DETERMINACIÓN-R2
Hipótesis para la prueba F:
H0: El modelo de regresión no es válido
H1: El modelo de regresión es válido (variable X aporta al modelo)
modelo2<-lm(LifeExpectancy~Schooling, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo2)
##
## Call:
## lm(formula = LifeExpectancy ~ Schooling, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.9224 -2.9088 0.5693 3.5316 9.2848
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 39.4882 1.9057 20.72 <2e-16 ***
## Schooling 2.4679 0.1426 17.31 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.059 on 151 degrees of freedom
## Multiple R-squared: 0.665, Adjusted R-squared: 0.6627
## F-statistic: 299.7 on 1 and 151 DF, p-value: < 2.2e-16
Multiple R-squared: 0.665 p-value: < 2.2e-16 Mi p-value es menor a 0.05 por lo que compruebo mi hipótesis alternativa que me indica que el modelo de regresión es válido (variable X aporta al modelo). Existe una relación lineal entre ambas variables estudiadas
De acuerdo a los resultados,se presenta un R multiple de 0.665 | (66.5%). Esto sugiere que el 66.5% de la variabilidad de la esperanza de vida se explica por la variación del nivel de años de escolaridad en el país. Este porcentaje es alto así que es un buen modelo.
Las hipótesis para la prueba T
H0: La variable X1 no aporta al modelo propuesto (b igual a 0)
H1: La variable X1 aporta al modelo propuesto (b diferente de 0)
Como el p-value de alcohol (<2e-16) es menor a 0.05 compruebo mi H1 y concluyo que la pendiente de mi variable explicativa es distinto a 0 por lo que sí aporta a mi modelo
Construir ecuación y predecir
modelo2$coefficients
## (Intercept) Schooling
## 39.488247 2.467911
Mi ecuación será: y= 39.49 + 2.47*X Esta ecuación nos indica que la intercepción con el eje y será 39.49. Así, cuando “schooling” sea 0, “life expectancy” será 39.49. Es decir, el nivel de esperanza de vida será 39.49 Conformo “schooling” aumenta 1, la variable “life expectancy” aumentará en un 2.47.
summary(data$Schooling)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.30 10.90 13.10 13.06 15.10 20.40
y= 39.49 + 2.4710 y=64,2 Cuando nivel de escolaridad sea 10, la esperanza de vida será 64.2 y= 39.49 + 2.4720 y=88.9 Cuando nivel de escolaridad sea 20, la esperanza de vida será 88.9
Variables x (independiente): porcentaje del presupuesto destinado al gasto en salud
y (dependiente): Life expentancy
library(ggplot2) #para hacer gráficos
library(Hmisc) #para correlación
library(ggplot2)
ggplot(data, aes(x=percentageExpenditure, y=LifeExpectancy)) +
geom_point(colour="black") + xlab("porcentaje del presupuesto destinado al gasto en salud") + ylab("Espeanza de vida") +
theme_light() +
geom_smooth(method="lm", se = F)
## `geom_smooth()` using formula 'y ~ x'
En el gráfico se obseva una relación no tan clara aunque positiva
#Analizamos la correlación H0= No existe correlación entre el porcentaje
del presupuesto destinado al gasto en salud y la esperanza de vida H1:
Sí existe correlación entre el porcentaje del presupuesto destinado al
gasto en salud y la esperanza de vida
cor.test(data$LifeExpectancy, data$percentageExpenditure)
##
## Pearson's product-moment correlation
##
## data: data$LifeExpectancy and data$percentageExpenditure
## t = 5.8024, df = 151, p-value = 3.712e-08
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.2878062 0.5485001
## sample estimates:
## cor
## 0.4269845
p-value = 3.712e-08 cor= 0.4269845 Mi p-value es menor a 0.05 por lo que rechazo mi hipótesis nula y compruebo mi H1 que indica sí existe correlación entre mis variables estudiadas. Mi coeficiente de correlación es positivo así que afirmo que la relación es positiva. Según los criterios de COhen, se trata de una correlación mediana. Así, el grado de asociación en ambas variables es mediano. Conforme aumenta el gasto en salud se espera que el nivel de esperanza de vida aumente.
Tabla Anova para ver validez del modelo y COEFICIENTE DE DETERMINACIÓN-R2
Hipótesis para la prueba F:
H0: El modelo de regresión no es válido
H1: El modelo de regresión es válido (variable X aporta al modelo)
modelo3<-lm(LifeExpectancy~percentageExpenditure, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo3)
##
## Call:
## lm(formula = LifeExpectancy ~ percentageExpenditure, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -21.992 -5.206 1.296 5.132 18.543
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 70.090022 0.697294 100.517 < 2e-16 ***
## percentageExpenditure 0.001352 0.000233 5.802 3.71e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.904 on 151 degrees of freedom
## Multiple R-squared: 0.1823, Adjusted R-squared: 0.1769
## F-statistic: 33.67 on 1 and 151 DF, p-value: 3.712e-08
Multiple R-squared: 0.1823 p-value: 3.712e-08 Mi p-value es menor a 0.05 por lo que compruebo mi hipótesis alternativa que me indica que el modelo de regresión es válido (variable X aporta al modelo). Existe una relación lineal entre ambas variables estudiadas
De acuerdo a los resultados,se presenta un R multiple de 0.18 | (18.2%). Esto sugiere que el 18.2% de la variabilidad de la esperanza de vida se explica por la variación en el gasto destinado al sector de salud.
Las hipótesis para la prueba T
H0: La variable X1 no aporta al modelo propuesto (b igual a 0)
H1: La variable X1 aporta al modelo propuesto (b diferente de 0)
Como el p-value de alcohol (3.71e-08) es menor a 0.05 compruebo mi H1 y concluyo que la pendiente de mi variable explicativa es distinto a 0 por lo que sí aporta a mi modelo
Construir ecuación y predecir
modelo3$coefficients
## (Intercept) percentageExpenditure
## 70.090022440 0.001351998
Mi ecuación será: y= 70.1 + 0.001X Esta ecuación nos indica que la intercepción con el eje y será 70.01. Así, cuando “percentageExpenditure” sea 0, “life expectancy” será 70.01. Es decir, el nivel de esperanza de vida será 70.01 ConformE “percentageExpenditure” aumenta 1, la variable “life expectancy” aumentará en un 0.001
summary(data$percentageExpenditure)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.443 53.440 221.483 1198.065 789.276 19479.912
y= 70.1 + 0.00110 000 y=80.1 y= 70.1 + 0.0011 000 y=71.1
library(stargazer)
##
## Please cite as:
## Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.3. https://CRAN.R-project.org/package=stargazer
stargazer(modelo1,modelo2,modelo3, type ="text")
##
## =============================================================
## Dependent variable:
## ------------------------------
## LifeExpectancy
## (1) (2) (3)
## -------------------------------------------------------------
## Alcohol 1.120***
## (0.146)
##
## Schooling 2.468***
## (0.143)
##
## percentageExpenditure 0.001***
## (0.0002)
##
## Constant 68.054*** 39.488*** 70.090***
## (0.766) (1.906) (0.697)
##
## -------------------------------------------------------------
## Observations 153 153 153
## R2 0.280 0.665 0.182
## Adjusted R2 0.275 0.663 0.177
## Residual Std. Error (df = 151) 7.417 5.059 7.904
## F Statistic (df = 1; 151) 58.694*** 299.695*** 33.668***
## =============================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Como se observa en la tabla, el modelo que mejor explica la variabilidad de la esperanza de vida o que podría predecir mejor los valores de esta sería el modelo 2. Este modelo tiene como variable independiente el número de años de escolaridad del país. En la tabla también comprobamos la validez de todos los modelos por el F-statistic ya que todos tienen entre dos astericos o tres. Así que mi p-value me permite comprobar la H1, es decir, la validez del modelo
Con el objetivo de aproximarse más a la causalidad y acercarse a los determinantes de la esperanza de vida en los países, se le solicita lo siguiente (3 puntos):
Variables x (independiente): producto bruto interno de los países (GPD)
y (dependiente): Life expectancy
Tabla Anova para ver validez del modelo y COEFICIENTE DE DETERMINACIÓN-R2
Hipótesis para la prueba F:
H0: El modelo de regresión no es válido
H1: El modelo de regresión es válido (variable X aporta al modelo)
modelo4<-lm(LifeExpectancy~GDP, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo4)
##
## Call:
## lm(formula = LifeExpectancy ~ GDP, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -21.422 -5.237 1.138 4.624 19.000
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.950e+01 7.137e-01 97.389 < 2e-16 ***
## GDP 2.176e-04 3.381e-05 6.435 1.55e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.743 on 151 degrees of freedom
## Multiple R-squared: 0.2152, Adjusted R-squared: 0.21
## F-statistic: 41.41 on 1 and 151 DF, p-value: 1.548e-09
Este modelo es valido porque el p-value es menor a 0.05. La varriabilidad de la esperanza de vida se explica en 21,5% por la variación del producto bruto interno del país
modelo5<-lm(LifeExpectancy~GDP+Schooling+Alcohol+percentageExpenditure, data) #tabla anova que incluye coeficientes de la ecuación de la recta
summary(modelo5)
##
## Call:
## lm(formula = LifeExpectancy ~ GDP + Schooling + Alcohol + percentageExpenditure,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.3797 -3.3354 0.4538 3.4461 10.0172
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.194e+01 2.167e+00 19.352 <2e-16 ***
## GDP 6.383e-05 5.372e-05 1.188 0.237
## Schooling 2.206e+00 1.834e-01 12.029 <2e-16 ***
## Alcohol 1.163e-01 1.274e-01 0.913 0.363
## percentageExpenditure -4.256e-05 3.635e-04 -0.117 0.907
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.988 on 148 degrees of freedom
## Multiple R-squared: 0.6808, Adjusted R-squared: 0.6721
## F-statistic: 78.9 on 4 and 148 DF, p-value: < 2.2e-16
p-value: < 2.2e-16 Adjusted R-squared: 0.6721
Coefficients Estimate Std. Error t value Pr(>|t|) (Intercept) 4.194e+01 2.167e+00 19.352 <2e-16 GDP 6.383e-05 5.372e-05 1.188 0.237 Schooling 2.206e+00 1.834e-01 12.029 <2e-16 Alcohol 1.163e-01 1.274e-01 0.913 0.363 percentageExpenditure -4.256e-05 3.635e-04 -0.117 0.907
Como se observa, el p-value (2.2e-16) es menor a 0.05, por lo que rechazo mi hipóteis nula y compruebo mi hipótesis alternativa la cual me indica que mi modelo 5 es válido.
Sin embargo, notamos cambios relevantes en el p-value de cada variable. Solo presenta un p-value significativo la variable Schooling porque su p-value es menor a 0.05. Ello no implica que no cuente a mis otras variables en mi modelo ya que el R cuadrado ajustado se explica con todas estas variables
Por lo tanto, la variabilidad de la esperanza de vida se explicará en un 67,2% por la variación de las 4 variables presentes en el modelo.
Esta relación se explicará de acuerdo a la siguiente ecuación y= 4.19 + 6.38 x X1 + 2.21 x X2 + 1.1 x X3 -4.26 x X4 Donde: X1= GPD X2= Schooling X3= Alcohol X4= percentageExpenditure
Este modelo explica mejor la variabilidad de la esperanza de vida en un país por dos motivos. En primer lugar, se toman en cuenta 4 variables de control que me ayudan a construir un mejor modelo de predicción. En segundo lugar, incluso con estas variables de control, su R2 es el mayor: 67.2%.
Cabe resaltar que la variable que más explica el modelo 5 es GPD puesto que presenta la mayor pendiente. El hecho que esta aumente en un punto tendrá un mayor impacto en la variabilidad de y que las otras variables