Tema: Aplicación de modelos preliminares.

Este reporte presenta la aplicación preliminar de técnicas estadísticas para analizar la relación entre el índice de Gini y la prevalencia de enfermedades cardíacas en países de Latinoamérica. Incluye las técnicas que se utilizarán en el proyecto, los primeros resultados obtenidos con R y una breve reflexión sobre las limitaciones del análisis.

Instrucciones: Prepare un reporte breve que contenga:

I. y II. Las posible técnicas estadísticas de clase que aplicará en su proyecto + Resultados preliminares y sus interpretaciones: Regresión Lineal Simple, Regresión Lineal Múltiple y Supuestos de Regresión

a. Regresión Lineal Simple

mod_DeathRate <- lm(val_Rate ~ Gini_Coefficient, data = final_data)
summary(mod_DeathRate)
## 
## Call:
## lm(formula = val_Rate ~ Gini_Coefficient, data = final_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2016.7  -723.5  -420.4   323.7  4109.5 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)  
## (Intercept)       8110.32    3847.64   2.108   0.0535 .
## Gini_Coefficient   -98.69      84.56  -1.167   0.2627  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1422 on 14 degrees of freedom
## Multiple R-squared:  0.08867,    Adjusted R-squared:  0.02358 
## F-statistic: 1.362 on 1 and 14 DF,  p-value: 0.2627

Interpretación: El modelo de regresión lineal simple muestra que no hay una relación estadísticamente significativa entre el Índice de Gini y la tasa de enfermedades cardíacas en los países analizados. Aunque el coeficiente del Gini es negativo, indicando que la tasa podría bajar mientras la desigualdad sube, este resultado no es confiable porque su p-value es alto (0.2627). Además, el modelo tiene un Multiple R-squared de 0.0887, lo que significa que el Gini solo explica alrededor del 8.8% de las diferencias en las tasas de enfermedades cardíacas entre países. En resumen, con los datos del 2023 no se puede concluir que exista una relación lineal clara entre desigualdad económica y enfermedades cardíacas en Latinoamérica.

b. Regresión Lineal Múltiple

final_data <- final_data %>%
  mutate(
    val_Number  = as.numeric(val_Number),
    val_Percent = as.numeric(val_Percent),
    val_Rate    = as.numeric(val_Rate)
  )

colnames(final_data)
##  [1] "country"          "Gini_Coefficient" "measure_name"     "sex_name"        
##  [5] "age_name"         "cause_name"       "year"             "val_Number"      
##  [9] "val_Percent"      "val_Rate"         "upper_Number"     "upper_Percent"   
## [13] "upper_Rate"       "lower_Number"     "lower_Percent"    "lower_Rate"
colMeans(final_data[c("val_Number", "val_Percent", "val_Rate")], na.rm = TRUE)
##   val_Number  val_Percent     val_Rate 
## 1.386675e+06 1.162535e-01 3.638831e+03
mod_mult = lm(val_Rate ~ Gini_Coefficient + val_Number + val_Percent , data = final_data)
summary (mod_mult)
## 
## Call:
## lm(formula = val_Rate ~ Gini_Coefficient + val_Number + val_Percent, 
##     data = final_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1224.21  -353.73  -144.46    62.06  2754.52 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)   
## (Intercept)       2.482e+03  3.187e+03   0.779   0.4513   
## Gini_Coefficient -9.234e+01  6.129e+01  -1.507   0.1578   
## val_Number        6.805e-05  1.161e-04   0.586   0.5686   
## val_Percent       4.513e+04  1.123e+04   4.020   0.0017 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 963.8 on 12 degrees of freedom
## Multiple R-squared:  0.6409, Adjusted R-squared:  0.5511 
## F-statistic: 7.139 on 3 and 12 DF,  p-value: 0.005231

Intercepto : Es imposible que un país tenga estos valores por lo que, no tiene una interpletacion práctica (Gini=0, 0 muertes, 0% de muertes cardiovasculares),

B1 : Por cada punto adicional en el coeficiente de Gini, la tasa de mortalidad cardiovascular disminuiría en 92.34 muertes por 100,000 habitantes. Sin embargo, el p value > 0.05 sugiere que la desigualdad no predice significativamente la tasa de mortalidad cardiovascular dentro de los países latinoamericanos

B2 :Por cada muerte adicional (en números absolutos) por enfermedades cardiovasculares en los países, la tasa por 100,000 habitantes aumentaría levemente a 00006805 muertes.

B3: Por cada porcentaje adicional de muertes totales que son atribuibles a enfermedades cardiovasculares, la tasa de mortalidad cardiovascular aumenta en 45,130 muertes por 100,000 habitantes.

El modelo explica el 55.11% de la variabilidad en las tasas de mortalidad cardiovascular entre países latinoamericanos. Por lo que los resultados sugieren que el porcentaje total de muertes y el Gini index son mejores predictores para la tasa de mortalidad por cada 100,000 habitantes en los países latinoamericanos

**Exploración de correlaciones

cor(final_data[, c("Gini_Coefficient", "val_Number", "val_Rate", "val_Percent")], 
    use = "complete.obs")
##                  Gini_Coefficient val_Number   val_Rate val_Percent
## Gini_Coefficient       1.00000000  0.3247938 -0.2977774 -0.07674326
## val_Number             0.32479383  1.0000000  0.1509954  0.18390065
## val_Rate              -0.29777735  0.1509954  1.0000000  0.75684112
## val_Percent           -0.07674326  0.1839007  0.7568411  1.00000000
library(ggcorrplot)

corr <- cor(final_data[, c("Gini_Coefficient", "val_Number", "val_Rate", "val_Percent")])
ggcorrplot(corr, lab = TRUE)

Interpretación: En la matriz se observa que no hay una correlación alta entre el Gini y las medidas de DALYs. Esto ocurre porque todos los países del análisis son de América Latina, una región con valores relativamente similares tanto en desigualdad como en salud. Al haber poca variación, las relaciones estadísticas se vuelven débiles aunque conceptualmente puedan existir si se comparan con países de otras regiones con niveles de desigualdad.

c. Supuestos de Regresión

**Normalidad

    library(ggplot2)
    library(broom)
    
    
    df  <- data.frame(
      yhat = fitted.values(mod_mult),
      res  = rstandard(mod_mult))
    
      ggplot(df, aes(sample = res)) +
      stat_qq(color = "blue") +
      stat_qq_line(linewidth = 1) +  
      labs(x = "Cuantiles teóricos", y = "Cuantiles muestrales") +
      theme_minimal(base_size = 14)

      shapiro.test(df$res)
## 
##  Shapiro-Wilk normality test
## 
## data:  df$res
## W = 0.76594, p-value = 0.0009952

Interpretación : La prueba de Shapiro-Wilk y el análisis de los resiudales revelan que los residuos presentan colas pesadas, como se puede ver en la gráfica, indicando valores extremos más frecuentes de lo esperado bajo normalidad. Para nuestro modelo mejorado, se simplificará el modelo eliminando las metricas de valores absolutos.

**Varianza Constante

      ggplot(df, aes(x = yhat, y = res)) +
      geom_point(alpha = 0.6, color = "blue") +
      geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
      labs(x = "Valores ajustados", y = "Residuales estandarizados") +
      theme_minimal(base_size = 14)

      library(lmtest)
      bptest(mod_mult)
## 
##  studentized Breusch-Pagan test
## 
## data:  mod_mult
## BP = 3.7136, df = 3, p-value = 0.2941

Interpretación: Los resultados de la prueba revelan que existe homocestacidad entre las variables con p-value de 0.2941 (p_value >0.005) . Los puntos dispersos en la gráfica comprueban que no existe una dependencia en los errores del modelo .

**Independencia

library(ggplot2)
        
        df1 <- data.frame(
          res   =  rstandard(mod_mult)) %>%
          mutate(orden = 1:length(res))   
        
        
        ggplot(df1, aes(x = orden, y = res)) +
          geom_point(alpha = 0.6, color = "blue") +
          geom_hline(yintercept = 0, linetype = "dashed", color = "grey40") +
          labs(x = "Orden/tiempo", y = "Residuales estandarizados") +
          theme_minimal(base_size = 14)

library(lmtest)

dwtest(mod_mult)
## 
##  Durbin-Watson test
## 
## data:  mod_mult
## DW = 2.2936, p-value = 0.6554
## alternative hypothesis: true autocorrelation is greater than 0

Interpretación: El análisis del supuesto de independencia muestra que los residuos están dispersos de forma aleatoria alrededor de cero y no presentan patrones visibles a lo largo del orden de las observaciones, lo que sugiere que no hay dependencia entre ellos. Esto se confirma con el test Durbin-Watson, cuyo valor de 2.2936 está cerca del ideal de 2 y cuyo p-value de 0.6554 indica que no existe evidencia estadística de autocorrelación. En conjunto, ambos resultados muestran que el supuesto de independencia de los errores se cumple adecuadamente en este modelo.

III. Reflexión sobre posibles limitaciones:

La primera limitación de este estudio es que los datos disponibles corresponden únicamente al año 2023. Esto impide analizar cómo la relación entre el Índice de Gini y la prevalencia de enfermedades cardíacas cambia con el tiempo y no permite saber si algún factor externo particular de ese año pudo influir en los resultados. Esto pudo haber sido información valiosa para nuestro estudio, pero no establecimos desde el comienzo que estudiaríamos diferencias a través del tiempo.

Otra limitación es que tanto el Índice de Gini como los indicadores de salud utilizados (DALYs, tasas y porcentajes) son medidas generales que no capturan todos los factores que afectan la desigualdad económica o las enfermedades cardíacas. Esto hace que la relación entre ambas variables se analice de manera más simple de lo que realmente es.

Finalmente, aunque el enfoque en Latinoamérica es intencional, el número de países disponibles es reducido, lo que limita la fuerza estadística del análisis y hace que los resultados sean más sensibles a valores extremos.