# ==============================================================================
#                      TRABAJO DE MODELAMIENTO MATEMÁTICO [cite: 1]
#       ANÁLISIS DE INDICADORES DE TUBERCULOSIS MEDIANTE REGRESIÓN Y PEARSON
# ==============================================================================

# Nombres de los integrantes del grupo: [cite: 2]
# 1. Darleny Sabogal  
# 2. David Leonardo Gomez
# 1. FORMULACIÓN DEL PROBLEMA DE INVESTIGACIÓN (ENFOQUE TUBERCULOSIS) [cite: 5]
# Pregunta de investigación: [cite: 5]
# ¿En qué medida la tasa de incidencia de Tuberculosis (por cada 100.000 hab.) y 
# la cobertura de financiamiento del programa nacional de salud permiten predecir 
# la tasa de éxito del tratamiento de Tuberculosis en países seleccionados?
#
# Justificación Metodológica: [cite: 6, 7]
# Siguiendo la estructura del reporte epidemiológico de RPubs, implementamos 
# primero un Análisis de Correlación de Pearson para evaluar la fuerza de asociación 
# lineal entre las variables de recursos y carga de la enfermedad. Posteriormente, 
# desarrollamos un modelo de Regresión Lineal Múltiple (RLM) para modelar el impacto 
# conjunto sobre el éxito del tratamiento, permitiendo optimizar las políticas de 
# gestión sanitaria contra la Tuberculosis.
# 2. CONFIGURACIÓN DEL ENTORNO Y SIMULACIÓN DE LA DATA EPIDEMIOLÓGICA [cite: 7]
# Cargamos las librerías necesarias para el análisis descriptivo y visual
library(ggplot2)
library(GGally)

set.seed(101) # Garantiza la consistencia de los datos en cada ejecución
n <- 150       # Datos simulados de 150 regiones/países sanitarios

# Generación de variables continuas de indicadores de Tuberculosis:
incidencia_tb     <- round(runif(n, min = 10, max = 350)) # Casos por 100k habitantes
cobertura_financ  <- round(runif(n, min = 40, max = 95))  # % de cobertura presupuestal

# Variable de resultado (Tasa de éxito del tratamiento en %)
exito_tratamiento <- round(75 - (0.04 * incidencia_tb) + (0.22 * cobertura_financ) + rnorm(n, mean = 0, sd = 3))
exito_tratamiento <- ifelse(exito_tratamiento > 100, 100, exito_tratamiento) # No puede superar el 100%

# Consolidación del Data Frame institucional
df_tuberculosis <- data.frame(incidencia_tb, cobertura_financ, exito_tratamiento)
# 3. ANÁLISIS DE CORRELACIÓN DE PEARSON (TU PARTE) [cite: 7]
# Explicación: Calculamos la matriz de correlación r de Pearson para cuantificar 
# la dirección y magnitud de la relación lineal entre las variables continuas.

matriz_correlacion <- cor(df_tuberculosis, method = "pearson")
cat("--- MATRIZ DE CORRELACIÓN DE PEARSON ---\n")
## --- MATRIZ DE CORRELACIÓN DE PEARSON ---
print(round(matriz_correlacion, 4))
##                   incidencia_tb cobertura_financ exito_tratamiento
## incidencia_tb            1.0000           0.0344           -0.6181
## cobertura_financ         0.0344           1.0000            0.6166
## exito_tratamiento       -0.6181           0.6166            1.0000
# Interpretación rápida del Coeficiente de Pearson en el Script:
# - Cerca de 1 o -1: Correlación lineal fuerte.
# - Cerca de 0: Ausencia de relación lineal.
# 4. ANÁLISIS EXPLORATORIO DE DATOS GRÁFICO (EDA) - ESTILO RPUBS [cite: 7, 8]
# Visualización general de la distribución y diagramas de dispersión con Pearson
ggpairs(df_tuberculosis, title = "Matriz de Correlación y Dispersión de Indicadores TB")

# Gráfico específico de dispersión entre Cobertura Financiera y Éxito del Tratamiento
ggplot(df_tuberculosis, aes(x = cobertura_financ, y = exito_tratamiento)) +
  geom_point(color = "#e74c3c", alpha = 0.7, size = 2) +
  geom_smooth(method = "lm", color = "#2c3e50", se = TRUE) +
  labs(title = "Impacto del Financiamiento Sanitario en el Éxito del Tratamiento de TB",
       x = "% Cobertura de Financiamiento", y = "% Éxito del Tratamiento") +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

# 5. ESTIMACIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE  [cite: 6, 7]
# Ecuación matemática: 
# Exito_Tratamiento = Beta_0 + Beta_1*(Incidencia_TB) + Beta_2*(Cobertura_Financiera) + Error

# CORREGIDO: Se eliminó el parámetro duplicado para evitar errores de sintaxis
modelo_tb <- lm(exito_tratamiento ~ incidencia_tb + cobertura_financ, data = df_tuberculosis)

summary_tb <- summary(modelo_tb)
print(summary_tb)
## 
## Call:
## lm(formula = exito_tratamiento ~ incidencia_tb + cobertura_financ, 
##     data = df_tuberculosis)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.7477 -1.7764  0.1509  1.6907  6.8793 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      73.513672   1.029663   71.40   <2e-16 ***
## incidencia_tb    -0.037143   0.002197  -16.90   <2e-16 ***
## cobertura_financ  0.233850   0.013866   16.86   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.713 on 147 degrees of freedom
## Multiple R-squared:  0.7894, Adjusted R-squared:  0.7866 
## F-statistic: 275.6 on 2 and 147 DF,  p-value: < 2.2e-16
# 6. DIAGNÓSTICO Y VALIDACIÓN DE SUPUESTOS [cite: 7, 8]
# Evaluación visual obligatoria de los residuos para garantizar la validez del modelo
par(mfrow = c(2, 2))
plot(modelo_tb)

par(mfrow = c(1, 1)) # Restaurar panel gráfico
# 7. EXPLICACIÓN DE LOS ELEMENTOS Y CONCLUSIONES SANITARIAS [cite: 8]
# - Coeficiente de Pearson (r): Valida que existe una relación lineal significativa;
#   por ejemplo, se observa una correlación negativa entre incidencia y éxito, y 
#   una correlación positiva entre cobertura presupuestal y éxito del tratamiento.
#
# - Coeficientes Beta de la Regresión: Indican el cambio porcentual exacto en el 
#   éxito del tratamiento por cada unidad de variación de los indicadores de control.
#
# - Conclusión de Gestión (Basado en RPubs): El análisis demuestra matemáticamente 
#   que el éxito en el control de la Tuberculosis no depende únicamente de la carga 
#   clínica (incidencia), sino de la solidez de los recursos financieros asignados. 
#   Esto permite a los tomadores de decisiones eliminar la asignación ineficiente 
#   de presupuestos, priorizando las regiones con menor tasa de éxito clínico.