# ==============================================================================
# TRABAJO DE MODELAMIENTO MATEMÁTICO [cite: 1]
# ANÁLISIS DE INDICADORES DE TUBERCULOSIS MEDIANTE REGRESIÓN Y PEARSON
# ==============================================================================
# Nombres de los integrantes del grupo: [cite: 2]
# 1. Darleny Sabogal
# 2. David Leonardo Gomez
# 1. FORMULACIÓN DEL PROBLEMA DE INVESTIGACIÓN (ENFOQUE TUBERCULOSIS) [cite: 5]
# Pregunta de investigación: [cite: 5]
# ¿En qué medida la tasa de incidencia de Tuberculosis (por cada 100.000 hab.) y
# la cobertura de financiamiento del programa nacional de salud permiten predecir
# la tasa de éxito del tratamiento de Tuberculosis en países seleccionados?
#
# Justificación Metodológica: [cite: 6, 7]
# Siguiendo la estructura del reporte epidemiológico de RPubs, implementamos
# primero un Análisis de Correlación de Pearson para evaluar la fuerza de asociación
# lineal entre las variables de recursos y carga de la enfermedad. Posteriormente,
# desarrollamos un modelo de Regresión Lineal Múltiple (RLM) para modelar el impacto
# conjunto sobre el éxito del tratamiento, permitiendo optimizar las políticas de
# gestión sanitaria contra la Tuberculosis.
# 2. CONFIGURACIÓN DEL ENTORNO Y SIMULACIÓN DE LA DATA EPIDEMIOLÓGICA [cite: 7]
# Cargamos las librerías necesarias para el análisis descriptivo y visual
library(ggplot2)
library(GGally)
set.seed(101) # Garantiza la consistencia de los datos en cada ejecución
n <- 150 # Datos simulados de 150 regiones/países sanitarios
# Generación de variables continuas de indicadores de Tuberculosis:
incidencia_tb <- round(runif(n, min = 10, max = 350)) # Casos por 100k habitantes
cobertura_financ <- round(runif(n, min = 40, max = 95)) # % de cobertura presupuestal
# Variable de resultado (Tasa de éxito del tratamiento en %)
exito_tratamiento <- round(75 - (0.04 * incidencia_tb) + (0.22 * cobertura_financ) + rnorm(n, mean = 0, sd = 3))
exito_tratamiento <- ifelse(exito_tratamiento > 100, 100, exito_tratamiento) # No puede superar el 100%
# Consolidación del Data Frame institucional
df_tuberculosis <- data.frame(incidencia_tb, cobertura_financ, exito_tratamiento)
# 3. ANÁLISIS DE CORRELACIÓN DE PEARSON (TU PARTE) [cite: 7]
# Explicación: Calculamos la matriz de correlación r de Pearson para cuantificar
# la dirección y magnitud de la relación lineal entre las variables continuas.
matriz_correlacion <- cor(df_tuberculosis, method = "pearson")
cat("--- MATRIZ DE CORRELACIÓN DE PEARSON ---\n")
## --- MATRIZ DE CORRELACIÓN DE PEARSON ---
print(round(matriz_correlacion, 4))
## incidencia_tb cobertura_financ exito_tratamiento
## incidencia_tb 1.0000 0.0344 -0.6181
## cobertura_financ 0.0344 1.0000 0.6166
## exito_tratamiento -0.6181 0.6166 1.0000
# Interpretación rápida del Coeficiente de Pearson en el Script:
# - Cerca de 1 o -1: Correlación lineal fuerte.
# - Cerca de 0: Ausencia de relación lineal.
# 4. ANÁLISIS EXPLORATORIO DE DATOS GRÁFICO (EDA) - ESTILO RPUBS [cite: 7, 8]
# Visualización general de la distribución y diagramas de dispersión con Pearson
ggpairs(df_tuberculosis, title = "Matriz de Correlación y Dispersión de Indicadores TB")

# Gráfico específico de dispersión entre Cobertura Financiera y Éxito del Tratamiento
ggplot(df_tuberculosis, aes(x = cobertura_financ, y = exito_tratamiento)) +
geom_point(color = "#e74c3c", alpha = 0.7, size = 2) +
geom_smooth(method = "lm", color = "#2c3e50", se = TRUE) +
labs(title = "Impacto del Financiamiento Sanitario en el Éxito del Tratamiento de TB",
x = "% Cobertura de Financiamiento", y = "% Éxito del Tratamiento") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

# 5. ESTIMACIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE [cite: 6, 7]
# Ecuación matemática:
# Exito_Tratamiento = Beta_0 + Beta_1*(Incidencia_TB) + Beta_2*(Cobertura_Financiera) + Error
# CORREGIDO: Se eliminó el parámetro duplicado para evitar errores de sintaxis
modelo_tb <- lm(exito_tratamiento ~ incidencia_tb + cobertura_financ, data = df_tuberculosis)
summary_tb <- summary(modelo_tb)
print(summary_tb)
##
## Call:
## lm(formula = exito_tratamiento ~ incidencia_tb + cobertura_financ,
## data = df_tuberculosis)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.7477 -1.7764 0.1509 1.6907 6.8793
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 73.513672 1.029663 71.40 <2e-16 ***
## incidencia_tb -0.037143 0.002197 -16.90 <2e-16 ***
## cobertura_financ 0.233850 0.013866 16.86 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.713 on 147 degrees of freedom
## Multiple R-squared: 0.7894, Adjusted R-squared: 0.7866
## F-statistic: 275.6 on 2 and 147 DF, p-value: < 2.2e-16
# 6. DIAGNÓSTICO Y VALIDACIÓN DE SUPUESTOS [cite: 7, 8]
# Evaluación visual obligatoria de los residuos para garantizar la validez del modelo
par(mfrow = c(2, 2))
plot(modelo_tb)

par(mfrow = c(1, 1)) # Restaurar panel gráfico
# 7. EXPLICACIÓN DE LOS ELEMENTOS Y CONCLUSIONES SANITARIAS [cite: 8]
# - Coeficiente de Pearson (r): Valida que existe una relación lineal significativa;
# por ejemplo, se observa una correlación negativa entre incidencia y éxito, y
# una correlación positiva entre cobertura presupuestal y éxito del tratamiento.
#
# - Coeficientes Beta de la Regresión: Indican el cambio porcentual exacto en el
# éxito del tratamiento por cada unidad de variación de los indicadores de control.
#
# - Conclusión de Gestión (Basado en RPubs): El análisis demuestra matemáticamente
# que el éxito en el control de la Tuberculosis no depende únicamente de la carga
# clínica (incidencia), sino de la solidez de los recursos financieros asignados.
# Esto permite a los tomadores de decisiones eliminar la asignación ineficiente
# de presupuestos, priorizando las regiones con menor tasa de éxito clínico.