1 INTRODUCCIÓN

En este módulo se estudian herramientas fundamentales de la estadística aplicada al análisis de datos:

  • Correlación: Para medir la asociación y relación entre variables.
  • Regresión Lineal: Para modelar relaciones continuas y predecir valores.
  • Regresión Logística: Para modelar clasificaciones (se abordará en unidades posteriores).

Lo anterior permite analizar relaciones matemáticas entre variables, explicar fenómenos del mundo real y construir modelos predictivos robustos.


2 Unidad 1-2: Correlación y Regresión Lineal Simple

2.1 Objetivo

Comprender formalmente y aplicar:

  1. Las diferencias entre correlación de Pearson, Spearman y Kendall.
  2. El modelo de regresión lineal simple.
  3. El cálculo manual de los parámetros de regresión (\(\beta_0\) y \(\beta_1\)).
  4. El significado de los supuestos clásicos del modelo.
  5. La inferencia estadística en modelos predictivos.

3 CORRELACIÓN

En términos estadísticos, la correlación es una medida que evalúa la relación cuantitativa, la fuerza y la dirección de la asociación lineal entre dos variables cuantitativas. Se representa habitualmente mediante el coeficiente de correlación de Pearson (\(r\)), que toma valores estrictamente entre \(-1\) y \(1\).

El comportamiento del coeficiente de correlación (\(r\)) nos indica:

  • \(r > 0\) (Relación positiva o directa): Cuando el aumento de una de las variables viene acompañado del aumento de la otra. Ejemplo: La superficie de un bosque y el número de nidos en él.
  • \(r < 0\) (Relación negativa o inversa): Si el aumento de una variable viene acompañado de una disminución en la otra.
  • \(r = 0\) (No hay relación lineal): Sin embargo, que ocurra \(r = 0\) solo nos dice que no hay correlación lineal, pero puede que exista una relación de otro tipo (por ejemplo, cuadrática o parabólica).

Una correlación perfecta se puede visualizar cuando todos los puntos de un diagrama de dispersión forman una línea recta inquebrantable (+1 o -1). Estas correlaciones perfectas prácticamente no existen en la biología o ciencias sociales; suelen ser privilegio exclusivo de las ciencias físicas exactas.

3.0.1 Tabla de Interpretación de \(r\)

Valor del coeficiente (\(r\)) Interpretación Estadística
\(r > 0.7\) Correlación fuerte positiva
\(0.4 < r \le 0.7\) Correlación moderada positiva
\(0 < r \le 0.4\) Correlación débil positiva
\(r \approx 0\) Correlación nula
\(-0.4 \le r < 0\) Correlación débil negativa
\(-0.7 \le r < -0.4\) Correlación moderada negativa
\(r < -0.7\) Correlación fuerte negativa

3.0.2 Regla de Oro: Correlación NO implica causalidad

El hecho de que dos variables estén correlacionadas matemáticamente no quiere decir, bajo ninguna circunstancia, que una sea la causante de la otra. Existen diversas situaciones que pueden explicar esta relación:

  1. Causalidad real: La variable \(X\) causa directamente el comportamiento de \(Y\).
  2. Causalidad inversa: La variable \(Y\) causa el comportamiento de \(X\).
  3. Variable oculta: Dos variables pueden estar independientemente relacionadas con una tercera (quizás no identificada) que afecta a \(X\) e \(Y\) de forma simultánea.
  4. Correlación espuria: Relación por mera coincidencia sin ningún sentido causal lógico. (Ejemplo: Las ventas de helados aumentan y, al mismo tiempo, los accidentes en piscina aumentan. No se causan entre sí; la causa real y oculta es la alta temperatura del verano).

3.1 MÉTODOS DE CORRELACIÓN

¿Solo se aplica la correlación de Pearson? No. Existen tres coeficientes principales según la naturaleza de nuestros datos:

Método Estadístico Tipo de relación evaluada ¿Requiere normalidad? Sensibilidad a valores atípicos
Pearson Lineal Sí (para pruebas de inferencia) Sí, es altamente sensible
Spearman Monótona (Rangos) No Menos sensible
Kendall Monótona (Ordinal) No Más robusto (Ideal para muestras pequeñas)

3.1.1 A. Coeficiente de Correlación de Pearson (\(r\))

Es adecuado cuando las observaciones están medidas en escalas de intervalos y se asume una distribución aproximadamente normal bivariante.

Fórmula matemática: \[r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}\]

¿Qué significa cada variable en la fórmula? * \(n\): Número total de observaciones o registros (tamaño de la muestra).

  • \(x_i, y_i\): Valores individuales y puntuales de las variables \(X\) e \(Y\) para la observación \(i\).

  • \(\bar{x}, \bar{y}\): Medias aritméticas (promedios) de todos los valores de las variables.

  • Numerador: Representa la covarianza (cómo varían de forma conjunta \(X\) e \(Y\)).

  • Denominador: Es el producto de las desviaciones estándar (este factor normaliza el valor para que el resultado final quede estrictamente delimitado entre -1 y 1).

3.1.2 B. Coeficiente de Determinación (\(R^2\))

Es el cuadrado del coeficiente de Pearson. Representa la proporción de la variabilidad en una variable que es explicada o atribuible a la variabilidad de la otra. \[R^2 = 1 - \frac{SSE}{SST}\] Nota: ¿Ese porcentaje es alto? Sí. Entonces ahora sí vale la pena armar un modelo de Regresión.

NOTA CLAVE: ¿Por qué hablamos de \(R^2\) en el tema de Correlación?

El coeficiente de Pearson (\(r\)) es engañoso porque no es un porcentaje. Un \(r = 0.70\) no significa que las variables estén relacionadas en un 70%.

Para saber qué significa realmente, se eleva al cuadrado: \((0.70)^2 = 0.49\). Al convertirlo a \(R^2\), descubrimos que esas variables solo comparten el 49% de la información.

El \(R^2\) es la “calificación” de un modelo predictivo. Se enseña junto con la correlación para no dejarse engañar por valores altos de \(r\) y entender qué porcentaje de la realidad lograremos explicar antes de intentar construir un modelo de regresión complejo.

3.1.3 C. Coeficiente por Rangos de Spearman (\(\rho_s\))

Es una alternativa no paramétrica que se basa en los rangos (posiciones u orden) de los datos, y no en sus valores exactos. Es el método ideal si existen valores atípicos severos o los datos no son normales. \[\rho_s = 1 - \frac{6\sum d_i^2}{n(n^2 - 1)}\] Donde \(d_i\) es la diferencia entre los rangos de las observaciones.

3.1.4 D. Coeficiente de Kendall (\(\tau\))

Se fundamenta en la contabilidad de pares concordantes y discordantes. Es un método sumamente robusto para muestras pequeñas o cuando existen muchos datos con el mismo valor (empates). \[\tau = \frac{C - D}{\frac{n(n-1)}{2}}\]


Nota: Pearson asume que cuando X aumenta en 1 unidad, Y aumenta a un ritmo constante (formando una línea recta perfecta).

Spearman y Kendall miden una relación monótona. ¿Qué significa esto? Significa que cuando X aumenta, Y también aumenta (o disminuye), pero no importa a qué ritmo lo haga. Puede subir rápido, luego lento, luego rápido otra vez, formando una curva.

Si tus datos forman una curva perfecta (ej. crecimiento exponencial del COVID-19), Pearson te dirá que la correlación no es perfecta (porque no es una línea recta).

Spearman y Kendall te dirán que la correlación es del 100% (1.0), porque reconocen que, aunque sea una curva, siempre que X avanza, Y también avanza sin dar pasos hacia atrás.

NOTA CLAVE: ¿Para qué sirven Spearman y Kendall si no miden relaciones lineales?

Pearson es el rey de la “línea recta perfecta”. Sin embargo, Spearman y Kendall miden relaciones monótonas. Esto significa que cuando \(X\) aumenta, \(Y\) también aumenta (o disminuye), pero no importa a qué ritmo lo haga (puede formar una curva).

Se utilizan como el “Plan B” definitivo cuando Pearson fracasa por tres motivos: 1. Datos asimétricos: No pasan la prueba de normalidad de Shapiro-Wilk. 2. Presencia de valores atípicos (Outliers): Como usan el orden de los datos y no sus valores reales, un dato extremadamente atípico no destruye el cálculo. 3. Variables ordinales: Cuando se analizan categorías ordenadas (ej. “Malo”, “Regular”, “Bueno”).

Usa Kendall específicamente cuando tengas muestras muy pequeñas (< 15 datos) o cuando existan muchos “empates” (valores repetidos) en tu base de datos.

4 APLICACIÓN PRÁCTICA DE CORRELACIÓN CON DATOS

4.0.1 Entendiendo la Base de Datos y las Variables

Antes de ejecutar cualquier bloque de código, es indispensable definir lógicamente los roles de nuestras variables:

  1. Variable Dependiente (\(Y\)): También llamada variable respuesta. Es la variable que queremos predecir o explicar. Asumimos matemáticamente que su comportamiento depende de la otra variable. También conocida como variable respuesta o endógena. Es el “efecto”. La llamamos dependiente porque asumimos matemáticamente que su comportamiento o valor final depende de lo que ocurra en \(X\). Es el objetivo principal de nuestro estudio: lo que el modelo intentará predecir.

  2. Variable Independiente (\(X\)): También conocida como variable predictora o explicativa. Es la variable que utilizamos como insumo para explicar los cambios en \(Y\). También conocida como variable predictora, explicativa o exógena. Es la variable que asumimos como la “causa”. La elegimos como \(X\) porque creemos que sus cambios y variaciones tienen la capacidad de influir o explicar el comportamiento de otras variables.

Ejemplo de contexto: Si nuestra base de datos recolectara métricas corporales, definiríamos como Variable Independiente (\(X\)) a la “Altura” de la persona, ya que usaremos ese dato como insumo para predecir nuestra Variable Dependiente (\(Y\)), que sería el “Peso”. No lo haríamos al revés, ya que la altura de una persona no se ve modificada por engordar o adelgazar, pero su peso sí suele tener una relación directa con su estructura ósea (altura).

5 Analisis de estudio

El Problema: El objetivo de este análisis es cuantificar y modelar la relación biológica entre la duración del embarazo y el peso del bebé al nacer. Comprender cómo cada día adicional de gestación influye en el peso final es crucial en la salud perinatal para identificar y predecir posibles desviaciones del desarrollo normal.

Los Datos: Se utiliza el conjunto de datos de registros perinatales (babies) cargado desde la URL proporcionada

# Cargar la base de datos 
url <- 'https://tinyurl.com/ya9fvteb'
dt <- read.table(url, header=TRUE, sep='\t')


# Observar los primeros 6 registros para confirmar la lectura correcta
head(dt)
##   bwt gestation     parity age height weight smoke
## 1 120       284 First born  27     62    100   Not
## 2 113       282 First born  33     64    135   Not
## 3 128       279 First born  28     64    115   Yes
## 4 123        NA First born  36     69    190   Not
## 5 108       282 First born  23     67    125   Yes
## 6 136       286 First born  25     62     93   Not
# Definición de variables para el análisis
x <- dt$gestation
y <- dt$bwt

head(dt)
##   bwt gestation     parity age height weight smoke
## 1 120       284 First born  27     62    100   Not
## 2 113       282 First born  33     64    135   Not
## 3 128       279 First born  28     64    115   Yes
## 4 123        NA First born  36     69    190   Not
## 5 108       282 First born  23     67    125   Yes
## 6 136       286 First born  25     62     93   Not

Para facilitar la lectura en el código, definimos las variables directamente de ‘dt’

5.0.1 Planteamiento del Problema y Variables

Variable Independiente (Eje X): gestation

x = gestation (Días de embarazo)

Duración total del embarazo medida en días.

¿Por qué se elige como X? En una relación causa-efecto, el tiempo que el bebé pasa desarrollándose en el útero es el predictor biológico o la “causa” que influye directamente en su crecimiento físico final. Variable Independiente o Predictora (Eje X): Es el factor que asumimos como la “causa”. En este contexto perinatal, esta variable es gestation (la duración del embarazo en días). La elegimos como \(X\) porque el tiempo que el bebé pasa en el útero influye directamente en su desarrollo físico.

Variable Dependiente (Eje Y): bwt

y = bwt (Peso al nacer en onzas)

Descripción: Peso del bebé al nacer medido en onzas.

¿Por qué se elige como Y? El peso al nacer es el resultado final o el “efecto” que queremos predecir y explicar en función del tiempo de gestación transcurrido.

Variable Dependiente o Respuesta (Eje Y): Es el “efecto” que el modelo intentará predecir. En este caso, es bwt (el peso del bebé al nacer, en onzas).Hipótesis a correlacionar: Asumimos teóricamente que el peso al nacer (\(Y\)) depende directamente de los días de gestación (\(X\)). Buscaremos comprobar estadísticamente esta relación y predecir cuántas onzas de peso se ganan por cada día adicional de embarazo.


5.1 Análisis Exploratorio Visual (Gráficos)

En estadística, antes de calcular números, es una regla inquebrantable observar la forma de los datos. Utilizaremos el diagrama de cajas y bigotes y el diagrama de dispersión.

Este gráfico es vital para entender la distribución individual y visualizar la presencia de valores atípicos (que en este caso, por instrucción tuya, conservaremos para reflejar la realidad biológica total, como los partos prematuros extremos).

5.1.1 Diagrama de Cajas y Bigotes (Boxplot)

Este gráfico es vital para entender la distribución individual de cada variable y detectar la presencia de valores atípicos (outliers).

# Configurar la ventana gráfica para mostrar dos gráficos lado a lado
par(mfrow=c(1,2))
boxplot(x, main="Distribución: Gestación (X)", col="#85C1E9", ylab="Días")
boxplot(y, main="Distribución: Peso (Y)", col="#82E0AA", ylab="Onzas")

par(mfrow=c(1,1))

Análisis del diagrama de bigotes: * La línea horizontal gruesa que divide la caja representa la mediana (el valor exactamente central de los datos). * La caja coloreada abarca el rango intercuartílico (contiene el 50% central y más denso de los datos). * Los “bigotes” (las líneas que se extienden) muestran el rango esperado y normal de los datos. * Si se observan puntos individuales flotando por fuera de los límites de los bigotes, significa que existen valores atípicos (outliers). Si estos valores son extremos o abundantes, la estadística sugiere utilizar la correlación de Spearman en lugar de la de Pearson.

Verás puntos fuera de los bigotes en ambas variables. Al no eliminarlos, reconocemos que existen embarazos inusualmente cortos o largos y pesos extremos que influirán en el comportamiento de nuestro modelo de mínimos cuadrados.

5.1.2 Diagrama de Dispersión (Prueba Gráfica de Correlación)

Este gráfico evalúa conjuntamente la relación entre \(X\) e \(Y\) en un plano cartesiano, permitiéndonos visualizar intuitivamente si existe una tendencia lineal.

# Cargar librería para gráficos elegantes
library(ggplot2)

ggplot(dt, aes(x = gestation, y = bwt)) +
  geom_point(color = "#2C3E50", size = 2, alpha = 0.5) +
  geom_smooth(method = "lm", color = "red", se = TRUE) +
  labs(title = "Relación entre Gestation y bwt",
       x = "Días de Gestación (X)",
       y = "Peso al Nacer (Y)") +
  theme_minimal()

Análisis del diagrama de dispersión: * Si la nube de puntos tiende a ascender de izquierda a derecha, nos encontramos frente a una correlación positiva. * Si la tendencia desciende de izquierda a derecha, la correlación es negativa. * Si los puntos se dispersan formando una nube sin ningún patrón o dirección clara, la correlación es cercana a nula. * Si el patrón dibuja una curva (como una forma de “U”), la relación existe pero no es lineal, lo que invalidaría el uso del método de Pearson.

Se observa una nube de puntos con tendencia ascendente, lo que indicaría una correlación positiva


5.2 Pruebas de Normalidad (Shapiro-Wilk)

Para tener certeza matemática de si es correcto utilizar el coeficiente paramétrico de Pearson, debemos comprobar si las variables \(X\) e \(Y\) provienen de una distribución normal.

# Ejecutar prueba de normalidad para ambas variables
shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.9311, p-value < 2.2e-16
shapiro.test(y)
## 
##  Shapiro-Wilk normality test
## 
## data:  y
## W = 0.99559, p-value = 0.001192

Análisis e interpretación del test de Shapiro-Wilk: * Hipótesis Nula (\(H_0\)): Los datos provienen de una distribución normal.

  • Si el p-value arrojado es mayor a 0.05 en ambas variables, carecemos de evidencia para rechazar \(H_0\). Por lo tanto, asumimos que los datos son normales y procedemos lícitamente a usar Pearson.

  • Si alguna de las dos variables presenta un p-value menor a 0.05, los datos no siguen una campana de Gauss normal. En este escenario, la teoría indica que debemos utilizar Spearman o Kendall.


5.3 Cálculo de la Correlación

Con base en la normalidad de nuestros datos, procedemos a calcular los coeficientes de correlación y sus respectivas pruebas de significancia estadística.

# 1. Pearson (Asume normalidad y relación estrictamente lineal)
# Pearson (Lineal)
cor.test(x, y, method = "pearson", use = "complete.obs")
## 
##  Pearson's product-moment correlation
## 
## data:  x and y
## t = 15.609, df = 1221, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3600303 0.4535398
## sample estimates:
##      cor 
## 0.407854
# Spearman (Rangos - Robusto ante outliers)
cor.test(x, y, method = "spearman", use = "complete.obs")
## 
##  Spearman's rank correlation rho
## 
## data:  x and y
## S = 181438572, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.4048838

Análisis del coeficiente de Pearson: * El valor estimado (cor) situado al final de la salida nos muestra la fuerza y dirección de la relación. (Se debe contrastar con la tabla de interpretación del inicio del documento). * El valor de p-value es el indicador crítico de significancia. Si el p-value < 0.05, existe una evidencia estadística sólida de que la correlación real en la población es diferente de cero (es significativa).

Dirección: Es un valor positivo. Esto confirma que a medida que aumentan los días de gestación (\(X\)), el peso del bebé (\(Y\)) también tiende a aumentar.

Fuerza: Según la escala estadística, una correlación de 0.40 se clasifica como una correlación moderada. No es una relación perfecta, pero es lo suficientemente clara para ser estudiada.

Nota:

Como vimos anteriormente, la variable y (peso) no es normal y el dataset tiene valores atípicos (outliers).

Pearson (el que ya hiciste) es como un juez muy estricto que se deja engañar fácilmente por los datos extremos. Si un bebé pesa muy poco o mucho, Pearson se “distorsiona”.

Spearman y Kendall son jueces más sabios: a ellos no les importa el valor exacto (120 onzas), sino la posición (quién es el 1er bebé más pesado, quién el 2do, etc.). Esto los hace robustos.

# 2. Spearman (Basada en rangos, robusta ante la presencia de outliers)
cor.test(x, y, method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  x and y
## S = 181438572, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.4048838
# 3. Kendall (Basada en conteo de pares concordantes y discordantes)
cor.test(x, y, method = "kendall")
## 
##  Kendall's rank correlation tau
## 
## data:  x and y
## z = 14.718, p-value < 2.2e-16
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.2863073

Análisis de los métodos no paramétricos: * Los estimadores rho (para Spearman) y tau (para Kendall) nos entregan la magnitud de la relación monótona. Al igual que en el caso paramétrico, si sus respectivos p-values < 0.05, concluimos que la relación es estadísticamente significativa de manera independiente a la forma en que se distribuyan los datos.

Rho de Spearman = 0.4048

Tau de Kendall (en tu salida de R) = [valor similar]

P-value < 2.2e-16 en ambos.

¿Qué significa esto? Significa que, incluso usando métodos que ignoran los valores atípicos y solo miran el orden, la correlación sigue siendo casi la misma que la de Pearson (\(0.407\)).

“Significaría que el tiempo de gestación no influye en el peso del bebé. Biológicamente, esto sería muy extraño, ya que sabemos que un bebé gana peso mientras más tiempo pasa en el útero.”

Analisis

A pesar de que las variables no presentan una distribución normal y existen valores atípicos, la consistencia entre los coeficientes de Pearson (0.407) y Spearman (0.404) demuestra que la relación es robusta. Por lo tanto, el uso de un modelo de regresión lineal para describir la tendencia promedio es estadísticamente justificado y confiable

Los datos tienen “ruido” (outliers) y no son “perfectos” (no normales), pero la señal biológica es tan fuerte que todos los métodos —sean estrictos o sabios— coinciden en el mismo diagnóstico: hay una relación positiva y moderada que merece ser modelada.


6 ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

El objetivo supremo del análisis de regresión es hallar la ecuación de la línea recta que mejor se ajuste a la nube de datos experimentales, con el fin de construir modelos predictivos.

7 Modelo de Regresión Lineal

Un Modelo de Regresión Lineal es una técnica estadística utilizada para cuantificar la relación entre una variable que queremos predecir (llamada Variable Dependiente o Respuesta) y una o más variables que explican ese fenómeno (llamadas Variables Independientes o Predictores).

En su forma más simple (Regresión Lineal Simple), el objetivo es encontrar la línea recta que mejor se ajuste a una nube de puntos en un plano cartesiano.

Modelo Matemático Poblacional:

El modelo se expresa mediante la ecuación de una línea recta:

\[Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i\]

Donde: * \(Y_i\): Valor de la variable dependiente (lo que predecimos). Es el resultado que buscamos explicar (ej. el peso del bebé).

¿Cómo funciona? (Mínimos Cuadrados Ordinarios - OLS)

El modelo no traza cualquier línea. Utiliza un método matemático llamado Mínimos Cuadrados. Este algoritmo busca la posición de la recta que haga que la distancia (el error) entre todos los puntos reales y la línea sea la más pequeña posible.

Utilidad del Modelo

Un modelo de regresión lineal sirve principalmente para dos cosas:Descripción y Explicación: Ayuda a entender si una variable realmente afecta a otra y en qué medida (ej. “¿Realmente influye la gestación en el peso?”).Predicción: Permite calcular valores futuros. Si conocemos la ecuación y nos dan un valor de \(X\) que no estaba en los datos originales, podemos “predecir” cuál sería el valor de \(Y\).

7.0.1 Método OLS (Mínimos Cuadrados Ordinarios)

El método OLS busca estimar los parámetros reduciendo al mínimo posible la suma de los residuos al cuadrado:

\[S(\beta_0, \beta_1) = \sum(y_i - \beta_0 - \beta_1 x_i)^2\]

7.0.2 Ejemplo Numérico Paso a Paso (Cálculo Teórico)

Consideremos una muestra pequeña: \(X = \{1, 2, 3, 4, 5\}\) e \(Y = \{2, 3, 5, 4, 6\}\).

Paso 1: Calcular medias aritméticas \(\bar{x} = 3\) ; \(\bar{y} = 4\)

Paso 2: Calcular pendiente (\(\hat{\beta}_1\)) Fórmula: \(\hat{\beta}_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}\)

Observación (\(X\)) Observación (\(Y\)) \(X - \bar{x}\) \(Y - \bar{y}\) Producto de desviaciones \((X - \bar{x})^2\)
1 2 -2 -2 4 4
2 3 -1 -1 1 1
3 5 0 1 0 0
4 4 1 0 0 1
5 6 2 2 4 4
Sumas 9 10

Al sumar las columnas obtenemos: \(\sum(x_i - \bar{x})(y_i - \bar{y}) = 9\) y \(\sum(x_i - \bar{x})^2 = 10\).

Por ende, \(\hat{\beta}_1 = \frac{9}{10} = 0.9\)

Paso 3: Calcular Intercepto (\(\hat{\beta}_0\))

Fórmula: \(\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\) \(\hat{\beta}_0 = 4 - 0.9(3) = 1.3\)

Ecuación del Modelo estimado: \(\hat{Y} = 1.3 + 0.9X\)

Interpretación práctica: Por cada unidad que aumenta la variable \(X\), la variable \(Y\) experimenta un incremento promedio de 0.9 unidades.

7.0.3 Supuestos Críticos

Para que un modelo de regresión lineal sea confiable en términos científicos, debe cumplir con ciertas reglas sobre sus errores (residuos):

Linealidad: La relación entre las variables debe ser realmente una línea recta, no una curva.

Independencia: Las observaciones no deben influirse entre sí.

Homocedasticidad: La dispersión de los errores debe ser constante en todo el modelo.

Normalidad: Los errores deben seguir una distribución normal (campana de Gauss).

Es una herramienta que traduce una nube de puntos dispersos en una fórmula matemática simple para explicar y predecir la realidad.


7.0.4 Construcción y Análisis del Modelo Predictivo en R

Retomando nuestra base de datos original (dt), procedemos a ajustar el modelo de regresión lineal.

8 Creación del modelo: “Y en función de X”

modelo <- lm(y ~ x, data = dt)

9 Imprimir el resumen estadístico exhaustivo del modelo

summary(modelo)

# Ajuste del modelo mediante Mínimos Cuadrados Ordinarios (OLS)
modelo <- lm(bwt ~ gestation, data = dt)

# Resumen estadístico
summary(modelo)
## 
## Call:
## lm(formula = bwt ~ gestation, data = dt)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -49.394 -11.125   0.071  10.106  57.353 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -10.06418    8.32220  -1.209    0.227    
## gestation     0.46426    0.02974  15.609   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.66 on 1221 degrees of freedom
##   (13 observations deleted due to missingness)
## Multiple R-squared:  0.1663, Adjusted R-squared:  0.1657 
## F-statistic: 243.6 on 1 and 1221 DF,  p-value: < 2.2e-16

Análisis e interpretación del Resumen (Summary): 1. Coefficients (Estimate): * El renglón (Intercept) corresponde a nuestro parámetro \(\beta_0\). * El renglón debajo del intercepto (asociado a la variable \(X\)) es nuestro parámetro \(\beta_1\) o pendiente. Determina el impacto numérico de \(X\) sobre \(Y\). 2. Significancia Pr(>|t|): Si el p-value asociado a la variable \(X\) posee asteriscos (*, **, ***) y es estrictamente menor a 0.05, comprobamos que la variable \(X\) es un predictor altamente significativo para estimar \(Y\). 3. Multiple R-squared (\(R^2\)): Es el Coeficiente de Determinación. Si el valor es, por ejemplo, 0.60, interpretamos que el modelo es capaz de explicar el 60% de la variabilidad existente en \(Y\) utilizando únicamente los datos de \(X\).

Interpretación del Modelo:

Pendiente (\(\beta_1\)): Por cada día adicional de gestación, el peso del bebé aumenta en promedio las unidades indicadas en el Estimate de gestation.

Significancia: Si \(p < 0.05\) en gestation, el tiempo de embarazo es un predictor significativo.\(R^2\)

Ajustado: Indica qué porcentaje de la variación del peso es explicada únicamente por la gestación.

10 ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Tras confirmar una correlación moderada y significativa entre las variables, procedemos a interpretar el modelo matemático generado por la función lm(bwt ~ gestation, data = dt).

10.1 La Ecuación del Modelo Estimado

Basándonos en la columna Estimate de la tabla de coeficientes, la ecuación de nuestra línea de regresión se define de la siguiente manera:

\[\widehat{bwt} = -10.06418 + 0.46426 \cdot \text{gestation}\]

10.1.1 Interpretación de los Parámetros:

  • \(\beta_0\) (Intercepto) = \(-10.06418\): Matemáticamente, representa el peso esperado del neonato cuando la gestación es de 0 días. Aunque en este contexto biológico no posee una interpretación práctica, funciona como el punto de origen de la recta en el eje \(Y\).
  • \(\beta_1\) (Pendiente) = \(0.46426\): Es el coeficiente crítico del modelo. Indica que por cada día adicional de gestación, el peso del recién nacido aumenta, en promedio, 0.464 onzas.

10.2 Desglose y Evaluación del Cuadro de Resultados

A continuación, se describen los componentes estadísticos obtenidos en la salida de R:

10.2.1 1. Residuos (Residuals)

Representan la diferencia entre los valores observados y los valores predichos por el modelo (\(e_i = y_i - \hat{y}_i\)): * Rango: Los errores oscilan entre \(-49.39\) y \(57.35\) onzas. * Mediana: El valor de \(0.071\) es cercano a cero, lo que sugiere que el modelo no presenta un sesgo sistemático severo en la tendencia central.

10.2.2 2. Significación de los Coeficientes (\(Pr(>|t|)\))

  • Para la variable gestation, el p-valor es \(< 2 \times 10^{-16}\), identificado con el código de significancia ***.
  • Análisis: Al ser un valor extremadamente inferior al nivel de significancia \(\alpha = 0.05\), se rechaza la hipótesis nula (\(H_0: \beta_1 = 0\)). Concluimos que la duración del embarazo es un predictor altamente significativo para el peso al nacer.

10.2.3 3. Error Estándar de los Residuos (Residual Standard Error)

El valor obtenido es de 16.66 sobre 1221 grados de libertad. * Análisis: Indica la desviación promedio de los datos respecto a la línea de regresión. En promedio, las predicciones de peso del modelo pueden variar en \(\pm 16.66\) onzas respecto al peso real.

10.2.4 4. Coeficiente de Determinación (\(R^2\))

El valor de Multiple R-squared es 0.1663. * Análisis: El modelo logra explicar el 16.63% de la variabilidad total del peso al nacer utilizando únicamente la gestación. El 83.37% restante de la varianza se atribuye a factores no incluidos en este modelo simple (como tabaquismo, genética o nutrición materna).

10.2.5 5. Estadística F (\(F-statistic\))

El p-valor global del modelo es \(< 2.2 \times 10^{-16}\). * Análisis: Este resultado valida la utilidad global del modelo. Confirma que el modelo de regresión lineal aporta una explicación significativamente mejor que el uso simple del promedio de la variable dependiente.


10.3 Conclusión del Modelo

El análisis de regresión lineal simple demuestra una relación positiva y estadísticamente significativa. A pesar de conservar los valores atípicos, el modelo captura la tendencia biológica fundamental: el desarrollo fetal es un proceso acumulativo donde cada día de gestación es un motor crítico para el incremento del peso neonatal.

# Análisis de Varianza del Modelo
anova(modelo)
## Analysis of Variance Table
## 
## Response: bwt
##             Df Sum Sq Mean Sq F value    Pr(>F)    
## gestation    1  67661   67661  243.63 < 2.2e-16 ***
## Residuals 1221 339092     278                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Análisis de la tabla ANOVA: Esta prueba evalúa la pertinencia global del modelo de regresión en su totalidad. Si el valor de Pr(>F) es inferior a 0.05, podemos afirmar contundentemente que el modelo construido es estadísticamente válido y aporta una mejora predictiva superior a simplemente adivinar usando el promedio de \(Y\).


11 VALIDACIÓN DE SUPUESTOS (Gauss-Markov)

Para que el modelo sea confiable, los residuos (\(\varepsilon\)) deben cumplir:

Normalidad: Los errores deben seguir una distribución normal.

shapiro.test(residuals(modelo))

Homocedasticidad: La varianza de los errores debe ser constante. (Breusch-Pagan)

bptest(modelo)

Independencia: No debe haber autocorrelación en los errores (Durbin-Watson)

dwtest(modelo)

11.1 SUPUESTOS DEL MODELO CLÁSICO (Teorema de Gauss-Markov)

Para que los pronósticos y los p-values arrojados por el modelo de regresión sean matemáticamente correctos y confiables en la realidad, los errores generados por el modelo (conocidos como residuos, \(\varepsilon_i\)) deben obedecer cinco reglas fundamentales:

  1. Linealidad: \(E(Y|X) = \beta_0 + \beta_1 X\). La forma real de los datos obedece a una línea recta.

  2. Media cero del error: \(E(\varepsilon_i) = 0\). Los errores positivos y negativos se cancelan mutuamente (garantiza que el modelo es insesgado).

  3. Homocedasticidad: \(Var(\varepsilon_i) = \sigma^2\). La varianza o dispersión de los residuos debe ser constante a lo largo de todo el modelo (no deben formar patrones en forma de cono o embudo).

  4. Independencia: \(Cov(\varepsilon_i, \varepsilon_j) = 0\). Un error no debe predecir o influir en el error siguiente (ausencia absoluta de autocorrelación).

  5. Normalidad: \(\varepsilon_i \sim N(0, \sigma^2)\). Los residuos deben graficar una campana de Gauss perfecta (esto es obligatorio para que las pruebas de inferencia exacta sean válidas).

11.2 Verificación Estadística de los Supuestos

Procedemos a evaluar de forma rigurosa si nuestro modelo cumple estas exigencias matemáticas.

# 1. Validación de la Normalidad de los residuos
shapiro.test(residuals(modelo))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.99773, p-value = 0.08816

Análisis de Normalidad: * \(H_0\): Los residuos siguen una distribución normal simétrica.

  • Para dar por cumplido este supuesto y avalar la validez del modelo, necesitamos imperativamente que el p-value sea mayor a 0.05.
# 2. Validación de la Homocedasticidad (Varianza constante)
library(lmtest)
bptest(modelo) # Breusch-Pagan Test
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 7.1596, df = 1, p-value = 0.007456

Análisis de Homocedasticidad: * \(H_0\): Existe varianza constante a lo largo del modelo (homocedasticidad).

  • Se requiere que el p-value sea mayor a 0.05. Si es menor, el modelo sufre de “heterocedasticidad”, lo que indica que las predicciones para ciertos valores de \(X\) serán mucho más erráticas e imprecisas que para otros.
# 3. Validación de Independencia (Autocorrelación)
dwtest(modelo) # Durbin-Watson Test
## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 2.0075, p-value = 0.552
## alternative hypothesis: true autocorrelation is greater than 0

Análisis de Independencia: * Esta prueba dictamina si un residuo arrastra información al siguiente.

  • El estadístico de prueba DW debe rondar el valor de 2. Si el p-value resulta ser mayor a 0.05, celebramos la ausencia de autocorrelación, dando por cumplido el supuesto.

12 REGRESIÓN LINEAL MÚLTIPLE

Si nuestra matriz de datos posee múltiples variables explicativas que, en teoría, afectan a la variable dependiente \(Y\) (por ejemplo, incorporamos una variable \(Z\) y otra \(W\)), el modelo analítico se expande.

# Simulación de asignación de variables adicionales
z <- dt[, 3]
w <- dt[, 4]

# Construcción del Modelo de Regresión Múltiple
modelo_multi <- lm(y ~ x + z + w, data = dt)

# Extracción de resultados
summary(modelo_multi)

Análisis de Regresión Múltiple: El resumen estadístico presentará ahora múltiples p-values (uno para \(X\), uno para \(Z\) y otro para \(W\)). Las variables cuyo p-value sea menor a 0.05 se coronan como predictoras significativas y deben mantenerse en la ecuación; aquellas que superen este umbral no aportan valor predictivo real y la mejor práctica estadística es eliminarlas del modelo definitivo.

# Evaluación comparativa mediante el Criterio de Información de Akaike (AIC)
AIC(modelo, modelo_multi)

Análisis del criterio AIC: Cuando un analista compite con varios modelos matemáticos para explicar un mismo fenómeno, el modelo ganador será estrictamente aquel que exhiba el valor de AIC más bajo, ya que este indicador penaliza la complejidad innecesaria y premia el mejor ajuste con la menor cantidad de variables posibles.


13 CONCLUSIONES Y RECOMENDACIONES

  1. La visualización no es un paso omitible: El análisis exploratorio visual (mediante diagramas de Cajas y de Dispersión) es el primer paso innegociable antes de ejecutar cualquier prueba estadística. Nos protege de asumir tendencias falsas.

  2. Elección del método adecuado: Pearson asume normalidad estricta. Spearman y Kendall no son metodologías “inferiores”, sino las alternativas correctas y robustas que la estadística dispone si los datos presentan asimetría o valores atípicos severos.

  3. Fiabilidad predictiva: El núcleo matemático de la regresión es el método OLS. Sin embargo, la confiabilidad de cualquier predicción que hagamos en el mundo real utilizando la ecuación del modelo descansa enteramente en que sus residuos superen satisfactoriamente las pruebas de Normalidad, Homocedasticidad e Independencia.