Este estudio tiene como propósito establecer la relación entre dos o más variables mediante la obtención de información sobre una de ellas, basada en el conocimiento de los valores de las otras. Las relaciones establecidas son de carácter no determinístico, es decir, se plantearán relaciones probabilísticas y se implementarán procedimientos para realizar inferencias sobre los modelos utilizados. Además, se obtendrán medidas cuantitativas que indiquen el grado de relación entre las variables. Los modelos considerados en este trabajo corresponden a casos específicos del modelo lineal generalizado: Regresión Lineal Simple, Regresión Lineal Múltiple y Regresión Logística. Cada modelo será descrito teóricamente en su respectiva sección, y se aplicará a un conjunto de datos específico descrito en la sección 2.
La estructura y referencias principales se basan en el Estudio de Análisis Multivariado del profesor (Libreros, 2023). Además, se utilizaron libros como Probabilidad y estadística para ingeniería industrial de (Devore, Jay L., 2008), Análisis estadístico de datos multivariados de (Díaz Morales & Morales Rivera, 2012), y Análisis multivariante aplicado con R de (Aldás & Uriel, 2017), que proporcionaron fundamentos clave para este análisis.
El conjunto de datos se obtuvo de Kaggle (https://www.kaggle.com/jocelyndumlao), una plataforma de ciencia de datos y aprendizaje automático propiedad de Google LLC. Kaggle permite participar en competencias, acceder a conjuntos de datos públicos, colaborar en proyectos con Python y R, y aprender mediante su sección educativa Kaggle Learn, que ofrece cursos interactivos en temas como Python, SQL, visualización de datos y aprendizaje automático.
El conjunto de datos sobre cardiopatías proviene de un hospital multispecializado en India y es uno de los más completos para investigación. Contiene 14 variables y 1000 registros que describen características comunes en la búsqueda de cardiopatías. Incluye un identificador numérico, cuatro variables politómicas, cuatro dicotómicas y el resto con valores estrictamente positivos. Cada campo se detalla con su tipo de variable y escala de medición, siguiendo un orden específico.
Para fines de visualización, se creó un apartado específico para el diccionario de variables. Asimismo, se aclara que en el trabajo disponible en este enlace, se puede consultar el diccionario de variables extendido en la sección 1.2:
| Variable | Tipo | Descripción |
|---|---|---|
| Patient Identification Number | Cuantitativa::Nominal | Código único numérico asignado a cada paciente para identificarlo en el sistema. |
| Age | Cuantitativa::Razón | Edad del paciente en años. |
| Gender | Cualitativa::Nominal | Género del paciente, codificado como 0 para femenino y 1 para masculino. |
| Chest pain type | Cualitativa::Nominal | Tipo de dolor en el pecho (angina): 0 - angina típica, 1 - angina atípica, 2 - dolor no anginoso, 3 - asintomático. |
| Resting blood pressure | Cuantitativa::Razón | Presión arterial en reposo, medida en mm Hg (rango: 94-200 mm Hg). |
| Serum cholesterol | Cuantitativa::Razón | Colesterol en el suero del paciente, expresado en mg/dl (rango: 126-564 mg/dl). |
| Fasting blood sugar | Cualitativa::Nominal | Nivel de azúcar en sangre en ayunas: 0 (≤120 mg/dl) o 1 (>120 mg/dl). |
| Resting electrocardiogram results | Cualitativa::Nominal | Resultados del ECG en reposo: 0 - normal, 1 - anomalías ST-T, 2 - hipertrofia ventricular izquierda. |
| Maximum heart rate achieved | Cuantitativa::Razón | Máximo número de latidos por minuto alcanzado durante ejercicio (rango: 71-202 bpm). |
| Exercise induced angina | Cualitativa::Nominal | Indica si el paciente presenta angina inducida por ejercicio: 0 (no), 1 (sí). |
| Oldpeak = ST | Cuantitativa::Razón | Descenso del segmento ST en mm durante la prueba de esfuerzo (rango: 0-6.2 mm). |
| Slope of the peak exercise ST segment | Cualitativa::Nominal | Pendiente del segmento ST durante la prueba de esfuerzo: 1 (ascendente), 2 (plano), 3 (descendente). |
| Number of major vessels | Cuantitativa::Razón | Cantidad de vasos principales (0-3) con obstrucción en el sistema cardiovascular. |
| Classification | Cualitativa::Nominal | Presencia de enfermedad cardíaca: 0 (ausencia), 1 (presencia). |
El análisis de regresión es una herramienta estadística empleada para identificar y evaluar las relaciones entre distintas variables. Este método permite explorar cómo una variable dependiente o de respuesta se ve afectada por los cambios en una o más variables independientes o predictoras, utilizando diversas técnicas de modelado y análisis. En este documento se abordarán los modelos de regresión lineal (en sus versiones simple y múltiple) y el modelo logístico, ambos considerados como casos específicos del modelo de regresión lineal generalizado.
Este modelo, que en el presente estudio será referido como RLS, consta de dos variables estadísticas, \(x\) e \(Y\), donde se considera que \(Y\) está determinada por la influencia de \(x\). La relación entre estas variables se expresa mediante la siguiente fórmula matemática: \[Y = \beta_0 + \beta_1 x + \varepsilon \hspace{10mm} \hspace{10mm}(1)\] + \(Y\): es una variable de respuesta de naturaleza aleatoria. + \(x\): es una variable predictora de naturaleza no aleatoria. + \(\varepsilon\): es una variable aleatoria no observable. + \(\beta_0\) y \(\beta_1\): son parámetros reales desconocidos del modelo.
A diferencia del modelo lineal simple determinístico, representado por \(y = \beta_0 + \beta_1 x\), el modelo probabilístico considera que el valor esperado de \(Y\) es una función lineal de \(x\)., pero reconoce que, para un valor fijo de \(x\), la variable \(Y\) puede diferir de su valor esperado debido a una cantidad aleatoria \(E(\varepsilon)=0\). En este caso, se asume que \(\(\varepsilon\)\) sigue una distribución normal con \(\(E(\varepsilon) = 0\)\) y \(\(V(\varepsilon) = \sigma^2\)\). Este término aleatorio \(\(\varepsilon\)\) es conocido como el término de \(error\) aleatorio o desviación aleatoria dentro del modelo.
De manera complementaria, los valores de \(\(\beta_0\)\), \(\(\beta_1\)\) y \(\(\sigma^2\)\) generalmente no son conocidos. En su lugar, se dispone de una muestra de datos formada por pares ordenados \(\((x_1, y_1)\), \((x_2, y_2)\), \(\dots\), \((x_n, y_n)\)\), con los cuales se pueden estimar los parámetros del modelo y la línea de regresión verdadera, bajo el supuesto de que las observaciones son independientes. En este contexto, \(\(y_i\)\) representa el valor observado de una variable aleatoria \(\(Y_i\)\), donde \(\(Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\)\). Además, las \(\(n\) desviaciones \(\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n\)\) se consideran variables independientes.
En el modelo, los puntos observados se distribuyen aleatoriamente alrededor de la línea de regresión verdadera. Para ajustarse a estos puntos, la estimación \(\(y = \beta_0 + \beta_1 x\)\) debe ser una línea que minimice las distancias verticales (desviaciones) entre los puntos observados y la línea. La calidad del ajuste se evalúa mediante la suma de los cuadrados de estas desviaciones, siendo la mejor línea aquella que minimice esta suma. Este enfoque, conocido como el principio de los mínimos cuadrados, fue desarrollado por Carl Friedrich Gauss y Adrien-Marie Legendre.
El principio de los mínimos cuadrados establece que la desviación vertical del punto \((x_i,y_i)\) con respecto a la línea \(y=b_0+b_1x\) es \(y_i-(b_0+b_1x)\) y la suma de las desviaciones verticales al cuadrado de los puntos \((x_i,y_i)\) a la línea es \(f(b_0,b_1)=\sum_{i=1}^n (y_i-(b_0+b_1x_i))^2\). Así, las estimaciones puntuales de \(\beta_0\) y \(\beta_1\), representadas como \(\hat{\beta}_0\) y \(\hat{\beta}_1\) y llamadas estimaciones de mínimos cuadrados, son los valores que minimizan a \(f(b_0,b_1)\); es decir, \(f(\hat{\beta}_0,\hat{\beta}_1)\leq f(b_0,b_1)\) para cualesquiera \(\beta_0\) y \(\beta_1\). Por lo tanto, la línea de regresión estimada o línea de mínimos cuadrados es \(y=\hat{\beta}_0+\hat{\beta}_1x\).
Al resolver las ecuaciones en derivadas parciales de \(\(f(b_0, b_1)\)\) respecto a \(\(b_0\)\) y \(\(b_1\)\), igualándolas a cero, se obtiene un sistema de ecuaciones normales lineales en \(\(b_0\)\) y \(\(b_1\)\). Estas ecuaciones tienen una única solución, siempre que al menos dos valores de \(\(x_i\)\) sean distintos. Así, las estimaciones por mínimos cuadrados para los parámetros de la línea de regresión verdadera son:
Para \(\(\beta_1\):\[\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}} \tag{2}\]\)
Para \(\(\beta_0\): \[\hat{\beta}_0 = \frac{\sum_{i=1}^n y_i -\hat{\beta}_1 \sum_{i=1}^n x_i}{n} = \bar{y} - \hat{\beta}_1 \bar{x} \tag{3}\]\)
Es importante minimizar los errores por redondeo al realizar estos cálculos. Además, antes de estimar \(\(\hat{\beta}_1\)\) y \(\(\hat{\beta}_0\)\), es fundamental examinar gráficamente los datos. Si los puntos no muestran una tendencia a agruparse en torno a una línea recta con una dispersión uniforme a lo largo de \(\(x_i\)\), se debe considerar la posibilidad de utilizar un modelo distinto.
Es importante destacar que la línea de mínimos cuadrados debe emplearse con precaución para predecir valores de \(x\) que estén lejos del rango de los datos utilizados en el ajuste.
El parámetro $\(\sigma^2\) $ refleja la variabilidad inherente en el modelo de regresión y determina cuán dispersos están los valores observados alrededor de la línea de regresión verdadera. Los residuos $\((y_i - \hat{y}_i)\) $ representan las desviaciones verticales respecto a la línea estimada. Si los residuos son pequeños, gran parte de la variabilidad en $\(y\) $ puede atribuirse a su relación lineal con $\(x\) $. En cambio, residuos grandes sugieren una variabilidad inherente en $\(y\) $ que no está explicada por la relación lineal.
La variabilidad no explicada por el modelo se mide mediante la suma
de cuadrados residuales (SCE):
$\[SCE = \sum_{i=1}^n y_i^2 - \hat{\beta}_0
\sum_{i=1}^n y_i - \hat{\beta}_1 \sum_{i=1}^n x_i y_i \tag{4}\]
$
La estimación de $\(\sigma^2\) $ se
calcula como:
$\[\hat{\sigma}^2 = s^2 = \frac{SCE}{n-2}
\tag{5}\] $
Además, la SCE mide la variabilidad de $\(y\) $ no explicada por el modelo, mientras
que la suma total de cuadrados (STC) cuantifica la
variación total en los valores observados de \(\(y\)\). \[STC=\sum_{i=1}^ny_i^2-\frac{(\sum_{i=1}^ny_i)^2}{n}\hspace{10mm}(6)\].
La razón \(\( \frac{SCE}{STC} \)\)
representa la proporción de la variación total de \(\(y\)\) que no es
explicada por el modelo de regresión lineal simple. A partir de
esta relación, se define el coeficiente de determinación \(\(r^2\)\):
\[r^2 = 1 - \frac{SCE}{STC}
\tag{7}\]
Este coeficiente mide la proporción de la variación observada en \(\(y\)\) que puede ser explicada por la
relación lineal con \(\(x\)\). Un \(\(r^2\)\) cercano a 1
indica un modelo más efectivo para explicar la variabilidad en \(\(y\)\).
Otra forma de expresar \(\(r^2\)\)
se basa en la suma de cuadrados debida a la regresión \((\(SCR\))\), que cuantifica la variación
total explicada por el modelo:
\[r^2 = 1 - \frac{SCE}{STC} = \frac{STC -
SCE}{STC} = \frac{SCR}{STC} \tag{8}\]
Dado que los valores calculados a partir de datos muestrales varían, los procedimientos inferenciales estandarizan los estimadores, restándoles su valor medio y dividiéndolos por su desviación estándar estimada. Esto permite evaluar las variables estandarizadas dentro del modelo de regresión lineal simple:
\(t_{(n-2)}=\dfrac{\hat{\beta}_0-\beta_0}{\hat{\sigma} \sqrt{1/n+\bar{x}^2/S_{xx}}}\) y \(t_{(n-2)}=\dfrac{\hat{\beta}_1-\beta_1}{ \hat{\sigma} \sqrt{1/S_{xx}}}\) tienen distribuciones \(t\) con \(n-2\) grados de libertad. De esto se deduce que los intervalos de confianza de \(100*(1-\alpha)\%\) para la pendiente \(\beta_1\) y el intercepto \(\beta_0\) de la línea de regresión verdadera son: \[\hat{\beta}_0 \pm t_{\alpha/2, n-2} \cdot \hat{\sigma} \sqrt{1/n+\bar{x}^2/S_{xx}}\hspace{10mm}(9)\] \[\hat{\beta}_1 \pm t_{\alpha/2, n-2} \cdot \hat{\sigma} \sqrt{1/S_{xx}} \hspace{10mm} (10)\]Estos intervalos se centran en la estimación puntual de cada parámetro, y su amplitud hacia ambos lados depende del nivel de confianza elegido y de la variabilidad asociada al estimador.
En los procedimientos de prueba de hipótesis para el modelo de regresión lineal simple, las hipótesis nulas respecto a los parámetros \(\(\beta_0\)\) y \(\(\beta_1\)\) se formulan como enunciados de igualdad. Los valores hipotéticos para \(\(\beta_0\)\) y \(\(\beta_1\)\) se denotan como \(\(\beta_{00}\)\) (para \(\(\beta_0\))\) y \(\(\beta_{10}\)\) (para \(\(\beta_1\))\).
Los estadísticos de prueba siguen una distribución \(\(t\)\) con \(\(n-2\)\) grados de libertad bajo la hipótesis nula \((\(H_0\))\), garantizando que la probabilidad de error Tipo I se mantenga en el nivel deseado \(\(\alpha\)\) al emplear un valor crítico \(\(t\)\) adecuado.
Para \(\(\beta_0\)\), las hipótesis
más comunes son:
\[
H_0: \beta_0 = \beta_{00} \tag{11}
\]
\[
H_1: \beta_0 \neq \beta_{00} \tag{12}
\]
El estadístico de prueba correspondiente es:
\[
t_{(n-2)} = \frac{\hat{\beta}_0 - \beta_{00}}{\hat{\sigma}
\sqrt{\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}}} \tag{13}
\]
Para \(\(\beta_1\)\), las hipótesis se formulan de manera análoga y su análisis sigue un procedimiento similar: \[H_0: \beta_1 = \beta_{10}\hspace{10mm}(14)\] \[H_1: \beta_1 \neq \beta_{10}\hspace{10mm}(15)\]cuyo estadístico de prueba es:\[t_{(n-2)}=\dfrac{\hat{\beta}_1-\beta_{10}}{\hat{\sigma}\sqrt{1/S_{xx}}}\hspace{10mm}(16)\] el par de hipótesis definidas por \(14\), \(15\) y \(16\) se conoce como la prueba de utilidad del modelo de regresión lineal simple, donde: la región de rechazo de \(H_0\) para una prueba a nivel \(\alpha\) a favor de \(H_1: \beta_1>\beta_{10}\) es \(t\geq t_{\alpha,n-2}\); la región de rechazo de \(H_0\) para una prueba a nivel \(\alpha\) a favor de \(H_1: \beta_1<\beta_{10}\) es \(t\leq -t_{\alpha,n-2}\); y la región de rechazo de \(H_0\) para una prueba a nivel \(\alpha\) a favor de \(H_1: \beta_1\neq\beta_{10}\) es \(t\leq -t_{\alpha/2,n-2}\) o \(t\geq t_{\alpha/2,n-2}\). Además, se sabe que la prueba de utilidad del modelo de regresión simple puede ser probada con una tabla ANOVA: rechazando \(H_0\) si \(f\geq F_{\alpha,1,n-2}\). La prueba \(F\) da exactamente el mismo resultado que la prueba \(t\) de utilidad del modelo de regresión lineal simple.
Por último, se entiende que en un modelo de regresión lineal simple un valor futuro de \(Y\) no es parámetro sino una variable aleatoria, por lo que se debe hacer referencia a un intervalo de valores factibles para un valor futuro de \(Y\), al cual se le llama intervalo de predicción. Cuando se predice con base en el modelo de regresión lineal simple, el error de predicción es \(Y-( \hat{\beta}_0+ \hat{\beta}_1 x^*)\) que corresponde con una diferencia entre dos variables aleatorias, por lo que, en comparación con una estimación, habrá más incertidumbre en ese; por lo tanto, un intervalo de predicción será más ancho que un intervalo de confianza. Además, a partir de la varianza del error dde predicción se puede establecer que la variable estandarizada:\[T=\dfrac{Y-(\hat{\beta}_0+ \hat{\beta}_1 x^*)}{S \displaystyle\sqrt{1+\dfrac{1}{n} + \dfrac{(x^*-\bar{x})^2}{S_{xx}}}}\hspace{10mm}(17)\]tiene una distribución \(t\) con \(n-2\) grados de libertad, a partir de la cual se obtine un intervalo de predicción de \(100*(1-\alpha)\%\) para una observación \(Y\) futura que se hará cuando \(x=x^*\) igual a:\[\hat{\beta}_0+\hat{\beta}_1 x^*\pm t_{n-2,\alpha/2}\cdot s \displaystyle\sqrt{1+\dfrac{1}{n}+\dfrac{(x^*-\bar{x})^2}{S_{xx}}}\hspace{10mm}(18)\] la interpretación del nivel de predicción de \(100*(1-\alpha)\%\) establece que al usar \((18)\) repetidamente, los intervalos resultantes contendrán los valores \(y\) observados el \(100*(1-\alpha)\%\) del tiempo. Además, el número \(1\) en la raíz cuadrada hace que el intervalo de predicción sea más ancho que intervalos de confianza como \((9)\) y \((10)\). Asimismo, a medida que \(n\to\infty\) el ancho del intervalo no-tiende a cero, porque la incertidumbre en la predicción será permanente, incluso al tener conocimiento perfecto sobre \(\beta_0\) y \(\beta_1\). Según,(Libreros, 2023).
Con base en el conjunto de datos descrito en la sección 2, se formulará un modelo de regresión lineal simple para estudiar la relación lineal supuesta entre las variables definidas por los campos: target (indicador de afección cardiovascular, como variable dependiente) y chestpain (tipo de dolor en el pecho, como variable independiente).
Este análisis permitirá evaluar si existe una relación significativa entre los tipos de dolor en el pecho y la probabilidad de presentar una afección cardiovascular.
summary(Cardiovascular_Disease_Dataset_Depurado$target)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 1.0000 0.5565 1.0000 1.0000
boxplot(Cardiovascular_Disease_Dataset_Depurado$target, main = "Diagrama de Caja de Target", col = c("orange"))