Instrucciones: Prepare un reporte breve que contenga:
I. y II. Las posible técnicas estadísticas de clase que aplicará en
su proyecto + Resultados preliminares y sus interpretaciones: Regresión
Lineal Simple, Regresión Lineal Múltiple y Supuestos de Regresión
a. Regresión Lineal Simple
mod_DeathRate <- lm(val_Rate ~ Gini_Coefficient, data = final_data)
summary(mod_DeathRate)
##
## Call:
## lm(formula = val_Rate ~ Gini_Coefficient, data = final_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2016.7 -723.5 -420.4 323.7 4109.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8110.32 3847.64 2.108 0.0535 .
## Gini_Coefficient -98.69 84.56 -1.167 0.2627
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1422 on 14 degrees of freedom
## Multiple R-squared: 0.08867, Adjusted R-squared: 0.02358
## F-statistic: 1.362 on 1 and 14 DF, p-value: 0.2627
Interpretación: El modelo de regresión lineal simple muestra que no
hay una relación estadísticamente significativa entre el Índice de Gini
y la tasa de enfermedades cardíacas en los países analizados. Aunque el
coeficiente del Gini es negativo, indicando que la tasa podría bajar
mientras la desigualdad sube, este resultado no es confiable porque su
p-value es alto (0.2627). Además, el modelo tiene un Multiple R-squared
de 0.0887, lo que significa que el Gini solo explica alrededor del 8.8%
de las diferencias en las tasas de enfermedades cardíacas entre países.
En resumen, con los datos del 2023 no se puede concluir que exista una
relación lineal clara entre desigualdad económica y enfermedades
cardíacas en Latinoamérica.
b. Regresión Lineal Múltiple
final_data <- final_data %>%
mutate(
val_Number = as.numeric(val_Number),
val_Percent = as.numeric(val_Percent),
val_Rate = as.numeric(val_Rate)
)
colnames(final_data)
## [1] "country" "Gini_Coefficient" "measure_name" "sex_name"
## [5] "age_name" "cause_name" "year" "val_Number"
## [9] "val_Percent" "val_Rate" "upper_Number" "upper_Percent"
## [13] "upper_Rate" "lower_Number" "lower_Percent" "lower_Rate"
colMeans(final_data[c("val_Number", "val_Percent", "val_Rate")], na.rm = TRUE)
## val_Number val_Percent val_Rate
## 1.386675e+06 1.162535e-01 3.638831e+03
mod_mult = lm(val_Rate ~ Gini_Coefficient + val_Number + val_Percent , data = final_data)
summary (mod_mult)
##
## Call:
## lm(formula = val_Rate ~ Gini_Coefficient + val_Number + val_Percent,
## data = final_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1224.21 -353.73 -144.46 62.06 2754.52
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.482e+03 3.187e+03 0.779 0.4513
## Gini_Coefficient -9.234e+01 6.129e+01 -1.507 0.1578
## val_Number 6.805e-05 1.161e-04 0.586 0.5686
## val_Percent 4.513e+04 1.123e+04 4.020 0.0017 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 963.8 on 12 degrees of freedom
## Multiple R-squared: 0.6409, Adjusted R-squared: 0.5511
## F-statistic: 7.139 on 3 and 12 DF, p-value: 0.005231
Intercepto : Es imposible que un país tenga estos valores por lo
que, no tiene una interpletacion práctica (Gini=0, 0 muertes, 0% de
muertes cardiovasculares),
B1 : Por cada punto adicional en el coeficiente de Gini, la tasa de
mortalidad cardiovascular disminuiría en 92.34 muertes por 100,000
habitantes. Sin embargo, el p value > 0.05 sugiere que la desigualdad
no predice significativamente la tasa de mortalidad cardiovascular
dentro de los países latinoamericanos
B2 :Por cada muerte adicional (en números absolutos) por
enfermedades cardiovasculares en los países, la tasa por 100,000
habitantes aumentaría levemente a 00006805 muertes.
B3: Por cada porcentaje adicional de muertes totales que son
atribuibles a enfermedades cardiovasculares, la tasa de mortalidad
cardiovascular aumenta en 45,130 muertes por 100,000 habitantes.
El modelo explica el 55.11% de la variabilidad en las tasas de
mortalidad cardiovascular entre países latinoamericanos. Por lo que los
resultados sugieren que el porcentaje total de muertes y el Gini index
son mejores predictores para la tasa de mortalidad por cada 100,000
habitantes en los países latinoamericanos
**Exploración de correlaciones
cor(final_data[, c("Gini_Coefficient", "val_Number", "val_Rate", "val_Percent")],
use = "complete.obs")
## Gini_Coefficient val_Number val_Rate val_Percent
## Gini_Coefficient 1.00000000 0.3247938 -0.2977774 -0.07674326
## val_Number 0.32479383 1.0000000 0.1509954 0.18390065
## val_Rate -0.29777735 0.1509954 1.0000000 0.75684112
## val_Percent -0.07674326 0.1839007 0.7568411 1.00000000
library(ggcorrplot)
corr <- cor(final_data[, c("Gini_Coefficient", "val_Number", "val_Rate", "val_Percent")])
ggcorrplot(corr, lab = TRUE)

Interpretación: En la matriz se observa que no hay una correlación
alta entre el Gini y las medidas de DALYs. Esto ocurre porque todos los
países del análisis son de América Latina, una región con valores
relativamente similares tanto en desigualdad como en salud. Al haber
poca variación, las relaciones estadísticas se vuelven débiles aunque
conceptualmente puedan existir si se comparan con países de otras
regiones con niveles de desigualdad.
c. Supuestos de Regresión
**Normalidad
library(ggplot2)
library(broom)
df <- data.frame(
yhat = fitted.values(mod_mult),
res = rstandard(mod_mult))
ggplot(df, aes(sample = res)) +
stat_qq(color = "blue") +
stat_qq_line(linewidth = 1) +
labs(x = "Cuantiles teóricos", y = "Cuantiles muestrales") +
theme_minimal(base_size = 14)

shapiro.test(df$res)
##
## Shapiro-Wilk normality test
##
## data: df$res
## W = 0.76594, p-value = 0.0009952
Interpretación : La prueba de Shapiro-Wilk y el análisis de los
resiudales revelan que los residuos presentan colas pesadas, como se
puede ver en la gráfica, indicando valores extremos más frecuentes de lo
esperado bajo normalidad. Para nuestro modelo mejorado, se simplificará
el modelo eliminando las metricas de valores absolutos.
**Varianza Constante
ggplot(df, aes(x = yhat, y = res)) +
geom_point(alpha = 0.6, color = "blue") +
geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
labs(x = "Valores ajustados", y = "Residuales estandarizados") +
theme_minimal(base_size = 14)

library(lmtest)
bptest(mod_mult)
##
## studentized Breusch-Pagan test
##
## data: mod_mult
## BP = 3.7136, df = 3, p-value = 0.2941
Interpretación: Los resultados de la prueba revelan que existe
homocestacidad entre las variables con p-value de 0.2941 (p_value
>0.005) . Los puntos dispersos en la gráfica comprueban que no existe
una dependencia en los errores del modelo .
**Independencia
library(ggplot2)
df1 <- data.frame(
res = rstandard(mod_mult)) %>%
mutate(orden = 1:length(res))
ggplot(df1, aes(x = orden, y = res)) +
geom_point(alpha = 0.6, color = "blue") +
geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
labs(x = "Orden/tiempo", y = "Residuales estandarizados") +
theme_minimal(base_size = 14)

library(lmtest)
dwtest(mod_mult)
##
## Durbin-Watson test
##
## data: mod_mult
## DW = 2.2936, p-value = 0.6554
## alternative hypothesis: true autocorrelation is greater than 0
Interpretación: El análisis del supuesto de independencia muestra
que los residuos están dispersos de forma aleatoria alrededor de cero y
no presentan patrones visibles a lo largo del orden de las
observaciones, lo que sugiere que no hay dependencia entre ellos. Esto
se confirma con el test Durbin-Watson, cuyo valor de 2.2936 está cerca
del ideal de 2 y cuyo p-value de 0.6554 indica que no existe evidencia
estadística de autocorrelación. En conjunto, ambos resultados muestran
que el supuesto de independencia de los errores se cumple adecuadamente
en este modelo.