En este módulo se estudian herramientas fundamentales de la estadística aplicada al análisis de datos:
Lo anterior permite analizar relaciones matemáticas entre variables, explicar fenómenos del mundo real y construir modelos predictivos robustos.
Comprender formalmente y aplicar:
En términos estadísticos, la correlación es una medida que evalúa la relación cuantitativa, la fuerza y la dirección de la asociación lineal entre dos variables cuantitativas. Se representa habitualmente mediante el coeficiente de correlación de Pearson (\(r\)), que toma valores estrictamente entre \(-1\) y \(1\).
El comportamiento del coeficiente de correlación (\(r\)) nos indica:
Una correlación perfecta se puede visualizar cuando todos los puntos de un diagrama de dispersión forman una línea recta inquebrantable (+1 o -1). Estas correlaciones perfectas prácticamente no existen en la biología o ciencias sociales; suelen ser privilegio exclusivo de las ciencias físicas exactas.
| Valor del coeficiente (\(r\)) | Interpretación Estadística |
|---|---|
| \(r > 0.7\) | Correlación fuerte positiva |
| \(0.4 < r \le 0.7\) | Correlación moderada positiva |
| \(0 < r \le 0.4\) | Correlación débil positiva |
| \(r \approx 0\) | Correlación nula |
| \(-0.4 \le r < 0\) | Correlación débil negativa |
| \(-0.7 \le r < -0.4\) | Correlación moderada negativa |
| \(r < -0.7\) | Correlación fuerte negativa |
El hecho de que dos variables estén correlacionadas matemáticamente no quiere decir, bajo ninguna circunstancia, que una sea la causante de la otra. Existen diversas situaciones que pueden explicar esta relación:
¿Solo se aplica la correlación de Pearson? No. Existen tres coeficientes principales según la naturaleza de nuestros datos:
| Método Estadístico | Tipo de relación evaluada | ¿Requiere normalidad? | Sensibilidad a valores atípicos |
|---|---|---|---|
| Pearson | Lineal | Sí (para pruebas de inferencia) | Sí, es altamente sensible |
| Spearman | Monótona (Rangos) | No | Menos sensible |
| Kendall | Monótona (Ordinal) | No | Más robusto (Ideal para muestras pequeñas) |
Es adecuado cuando las observaciones están medidas en escalas de intervalos y se asume una distribución aproximadamente normal bivariante.
Fórmula matemática: \[r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}\]
¿Qué significa cada variable en la fórmula? * \(n\): Número total de observaciones o registros (tamaño de la muestra).
\(x_i, y_i\): Valores individuales y puntuales de las variables \(X\) e \(Y\) para la observación \(i\).
\(\bar{x}, \bar{y}\): Medias aritméticas (promedios) de todos los valores de las variables.
Numerador: Representa la covarianza (cómo varían de forma conjunta \(X\) e \(Y\)).
Denominador: Es el producto de las desviaciones estándar (este factor normaliza el valor para que el resultado final quede estrictamente delimitado entre -1 y 1).
Es el cuadrado del coeficiente de Pearson. Representa la proporción de la variabilidad en una variable que es explicada o atribuible a la variabilidad de la otra. \[R^2 = 1 - \frac{SSE}{SST}\] Nota: ¿Ese porcentaje es alto? Sí. Entonces ahora sí vale la pena armar un modelo de Regresión.
NOTA CLAVE: ¿Por qué hablamos de \(R^2\) en el tema de Correlación?
El coeficiente de Pearson (\(r\)) es engañoso porque no es un porcentaje. Un \(r = 0.70\) no significa que las variables estén relacionadas en un 70%.
Para saber qué significa realmente, se eleva al cuadrado: \((0.70)^2 = 0.49\). Al convertirlo a \(R^2\), descubrimos que esas variables solo comparten el 49% de la información.
El \(R^2\) es la “calificación” de un modelo predictivo. Se enseña junto con la correlación para no dejarse engañar por valores altos de \(r\) y entender qué porcentaje de la realidad lograremos explicar antes de intentar construir un modelo de regresión complejo.Es una alternativa no paramétrica que se basa en los rangos (posiciones u orden) de los datos, y no en sus valores exactos. Es el método ideal si existen valores atípicos severos o los datos no son normales. \[\rho_s = 1 - \frac{6\sum d_i^2}{n(n^2 - 1)}\] Donde \(d_i\) es la diferencia entre los rangos de las observaciones.
Se fundamenta en la contabilidad de pares concordantes y discordantes. Es un método sumamente robusto para muestras pequeñas o cuando existen muchos datos con el mismo valor (empates). \[\tau = \frac{C - D}{\frac{n(n-1)}{2}}\]
Nota: Pearson asume que cuando X aumenta en 1 unidad, Y aumenta a un ritmo constante (formando una línea recta perfecta).
Spearman y Kendall miden una relación monótona. ¿Qué significa esto? Significa que cuando X aumenta, Y también aumenta (o disminuye), pero no importa a qué ritmo lo haga. Puede subir rápido, luego lento, luego rápido otra vez, formando una curva.
Si tus datos forman una curva perfecta (ej. crecimiento exponencial del COVID-19), Pearson te dirá que la correlación no es perfecta (porque no es una línea recta).
Spearman y Kendall te dirán que la correlación es del 100% (1.0), porque reconocen que, aunque sea una curva, siempre que X avanza, Y también avanza sin dar pasos hacia atrás.
NOTA CLAVE: ¿Para qué sirven Spearman y Kendall si no miden relaciones lineales?
Pearson es el rey de la “línea recta perfecta”. Sin embargo, Spearman y Kendall miden relaciones monótonas. Esto significa que cuando \(X\) aumenta, \(Y\) también aumenta (o disminuye), pero no importa a qué ritmo lo haga (puede formar una curva).
Se utilizan como el “Plan B” definitivo cuando Pearson fracasa por tres motivos: 1. Datos asimétricos: No pasan la prueba de normalidad de Shapiro-Wilk. 2. Presencia de valores atípicos (Outliers): Como usan el orden de los datos y no sus valores reales, un dato extremadamente atípico no destruye el cálculo. 3. Variables ordinales: Cuando se analizan categorías ordenadas (ej. “Malo”, “Regular”, “Bueno”).
Usa Kendall específicamente cuando tengas muestras muy pequeñas (< 15 datos) o cuando existan muchos “empates” (valores repetidos) en tu base de datos.Antes de ejecutar cualquier bloque de código, es indispensable definir lógicamente los roles de nuestras variables:
Variable Dependiente (\(Y\)): También llamada variable respuesta. Es la variable que queremos predecir o explicar. Asumimos matemáticamente que su comportamiento depende de la otra variable. También conocida como variable respuesta o endógena. Es el “efecto”. La llamamos dependiente porque asumimos matemáticamente que su comportamiento o valor final depende de lo que ocurra en \(X\). Es el objetivo principal de nuestro estudio: lo que el modelo intentará predecir.
Variable Independiente (\(X\)): También conocida como variable predictora o explicativa. Es la variable que utilizamos como insumo para explicar los cambios en \(Y\). También conocida como variable predictora, explicativa o exógena. Es la variable que asumimos como la “causa”. La elegimos como \(X\) porque creemos que sus cambios y variaciones tienen la capacidad de influir o explicar el comportamiento de otras variables.
Ejemplo de contexto: Si nuestra base de datos recolectara métricas corporales, definiríamos como Variable Independiente (\(X\)) a la “Altura” de la persona, ya que usaremos ese dato como insumo para predecir nuestra Variable Dependiente (\(Y\)), que sería el “Peso”. No lo haríamos al revés, ya que la altura de una persona no se ve modificada por engordar o adelgazar, pero su peso sí suele tener una relación directa con su estructura ósea (altura).
El Problema: El objetivo de este análisis es cuantificar y modelar la relación biológica entre la duración del embarazo y el peso del bebé al nacer. Comprender cómo cada día adicional de gestación influye en el peso final es crucial en la salud perinatal para identificar y predecir posibles desviaciones del desarrollo normal.
Los Datos: Se utiliza el conjunto de datos de registros perinatales (babies) cargado desde la URL proporcionada
# Cargar la base de datos
url <- 'https://tinyurl.com/ya9fvteb'
dt <- read.table(url, header=TRUE, sep='\t')
# Observar los primeros 6 registros para confirmar la lectura correcta
head(dt)## bwt gestation parity age height weight smoke
## 1 120 284 First born 27 62 100 Not
## 2 113 282 First born 33 64 135 Not
## 3 128 279 First born 28 64 115 Yes
## 4 123 NA First born 36 69 190 Not
## 5 108 282 First born 23 67 125 Yes
## 6 136 286 First born 25 62 93 Not
## bwt gestation parity age height weight smoke
## 1 120 284 First born 27 62 100 Not
## 2 113 282 First born 33 64 135 Not
## 3 128 279 First born 28 64 115 Yes
## 4 123 NA First born 36 69 190 Not
## 5 108 282 First born 23 67 125 Yes
## 6 136 286 First born 25 62 93 Not
Para facilitar la lectura en el código, definimos las variables directamente de ‘dt’
Variable Independiente (Eje X): gestation
x = gestation (Días de embarazo)
Duración total del embarazo medida en días.
¿Por qué se elige como X? En una relación causa-efecto, el tiempo que el bebé pasa desarrollándose en el útero es el predictor biológico o la “causa” que influye directamente en su crecimiento físico final. Variable Independiente o Predictora (Eje X): Es el factor que asumimos como la “causa”. En este contexto perinatal, esta variable es gestation (la duración del embarazo en días). La elegimos como \(X\) porque el tiempo que el bebé pasa en el útero influye directamente en su desarrollo físico.
Variable Dependiente (Eje Y): bwt
y = bwt (Peso al nacer en onzas)
Descripción: Peso del bebé al nacer medido en onzas.
¿Por qué se elige como Y? El peso al nacer es el resultado final o el “efecto” que queremos predecir y explicar en función del tiempo de gestación transcurrido.
Variable Dependiente o Respuesta (Eje Y): Es el “efecto” que el modelo intentará predecir. En este caso, es bwt (el peso del bebé al nacer, en onzas).Hipótesis a correlacionar: Asumimos teóricamente que el peso al nacer (\(Y\)) depende directamente de los días de gestación (\(X\)). Buscaremos comprobar estadísticamente esta relación y predecir cuántas onzas de peso se ganan por cada día adicional de embarazo.
En estadística, antes de calcular números, es una regla inquebrantable observar la forma de los datos. Utilizaremos el diagrama de cajas y bigotes y el diagrama de dispersión.
Este gráfico es vital para entender la distribución individual y visualizar la presencia de valores atípicos (que en este caso, por instrucción tuya, conservaremos para reflejar la realidad biológica total, como los partos prematuros extremos).
Este gráfico es vital para entender la distribución individual de cada variable y detectar la presencia de valores atípicos (outliers).
# Configurar la ventana gráfica para mostrar dos gráficos lado a lado
par(mfrow=c(1,2))
boxplot(x, main="Distribución: Gestación (X)", col="#85C1E9", ylab="Días")
boxplot(y, main="Distribución: Peso (Y)", col="#82E0AA", ylab="Onzas")Análisis del diagrama de bigotes: * La línea horizontal gruesa que divide la caja representa la mediana (el valor exactamente central de los datos). * La caja coloreada abarca el rango intercuartílico (contiene el 50% central y más denso de los datos). * Los “bigotes” (las líneas que se extienden) muestran el rango esperado y normal de los datos. * Si se observan puntos individuales flotando por fuera de los límites de los bigotes, significa que existen valores atípicos (outliers). Si estos valores son extremos o abundantes, la estadística sugiere utilizar la correlación de Spearman en lugar de la de Pearson.
Verás puntos fuera de los bigotes en ambas variables. Al no eliminarlos, reconocemos que existen embarazos inusualmente cortos o largos y pesos extremos que influirán en el comportamiento de nuestro modelo de mínimos cuadrados.
Este gráfico evalúa conjuntamente la relación entre \(X\) e \(Y\) en un plano cartesiano, permitiéndonos visualizar intuitivamente si existe una tendencia lineal.
# Cargar librería para gráficos elegantes
library(ggplot2)
ggplot(dt, aes(x = gestation, y = bwt)) +
geom_point(color = "#2C3E50", size = 2, alpha = 0.5) +
geom_smooth(method = "lm", color = "red", se = TRUE) +
labs(title = "Relación entre Gestation y bwt",
x = "Días de Gestación (X)",
y = "Peso al Nacer (Y)") +
theme_minimal()Análisis del diagrama de dispersión: * Si la nube de puntos tiende a ascender de izquierda a derecha, nos encontramos frente a una correlación positiva. * Si la tendencia desciende de izquierda a derecha, la correlación es negativa. * Si los puntos se dispersan formando una nube sin ningún patrón o dirección clara, la correlación es cercana a nula. * Si el patrón dibuja una curva (como una forma de “U”), la relación existe pero no es lineal, lo que invalidaría el uso del método de Pearson.
Se observa una nube de puntos con tendencia ascendente, lo que indicaría una correlación positiva
Para tener certeza matemática de si es correcto utilizar el coeficiente paramétrico de Pearson, debemos comprobar si las variables \(X\) e \(Y\) provienen de una distribución normal.
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.9311, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.99559, p-value = 0.001192
Análisis e interpretación del test de Shapiro-Wilk: * Hipótesis Nula (\(H_0\)): Los datos provienen de una distribución normal.
Si el p-value arrojado es mayor a 0.05 en ambas variables, carecemos de evidencia para rechazar \(H_0\). Por lo tanto, asumimos que los datos son normales y procedemos lícitamente a usar Pearson.
Si alguna de las dos variables presenta un p-value menor a 0.05, los datos no siguen una campana de Gauss normal. En este escenario, la teoría indica que debemos utilizar Spearman o Kendall.
Con base en la normalidad de nuestros datos, procedemos a calcular los coeficientes de correlación y sus respectivas pruebas de significancia estadística.
# 1. Pearson (Asume normalidad y relación estrictamente lineal)
# Pearson (Lineal)
cor.test(x, y, method = "pearson", use = "complete.obs")##
## Pearson's product-moment correlation
##
## data: x and y
## t = 15.609, df = 1221, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.3600303 0.4535398
## sample estimates:
## cor
## 0.407854
# Spearman (Rangos - Robusto ante outliers)
cor.test(x, y, method = "spearman", use = "complete.obs")##
## Spearman's rank correlation rho
##
## data: x and y
## S = 181438572, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.4048838
Análisis del coeficiente de Pearson: * El valor
estimado (cor) situado al final de la salida nos muestra la
fuerza y dirección de la relación. (Se debe contrastar con la tabla de
interpretación del inicio del documento). * El valor de
p-value es el indicador crítico de significancia. Si el
p-value < 0.05, existe una evidencia estadística sólida
de que la correlación real en la población es diferente de cero (es
significativa).
Dirección: Es un valor positivo. Esto confirma que a medida que aumentan los días de gestación (\(X\)), el peso del bebé (\(Y\)) también tiende a aumentar.
Fuerza: Según la escala estadística, una correlación de 0.40 se clasifica como una correlación moderada. No es una relación perfecta, pero es lo suficientemente clara para ser estudiada.
Nota:
Como vimos anteriormente, la variable y (peso) no es normal y el dataset tiene valores atípicos (outliers).
Pearson (el que ya hiciste) es como un juez muy estricto que se deja engañar fácilmente por los datos extremos. Si un bebé pesa muy poco o mucho, Pearson se “distorsiona”.
Spearman y Kendall son jueces más sabios: a ellos no les importa el valor exacto (120 onzas), sino la posición (quién es el 1er bebé más pesado, quién el 2do, etc.). Esto los hace robustos.
# 2. Spearman (Basada en rangos, robusta ante la presencia de outliers)
cor.test(x, y, method = "spearman")##
## Spearman's rank correlation rho
##
## data: x and y
## S = 181438572, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.4048838
# 3. Kendall (Basada en conteo de pares concordantes y discordantes)
cor.test(x, y, method = "kendall")##
## Kendall's rank correlation tau
##
## data: x and y
## z = 14.718, p-value < 2.2e-16
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
## tau
## 0.2863073
Análisis de los métodos no paramétricos: * Los
estimadores rho (para Spearman) y tau (para
Kendall) nos entregan la magnitud de la relación monótona. Al igual que
en el caso paramétrico, si sus respectivos
p-values < 0.05, concluimos que la relación es
estadísticamente significativa de manera independiente a la forma en que
se distribuyan los datos.
Rho de Spearman = 0.4048
Tau de Kendall (en tu salida de R) = [valor similar]
P-value < 2.2e-16 en ambos.
¿Qué significa esto? Significa que, incluso usando métodos que ignoran los valores atípicos y solo miran el orden, la correlación sigue siendo casi la misma que la de Pearson (\(0.407\)).
“Significaría que el tiempo de gestación no influye en el peso del bebé. Biológicamente, esto sería muy extraño, ya que sabemos que un bebé gana peso mientras más tiempo pasa en el útero.”
Analisis
A pesar de que las variables no presentan una distribución normal y existen valores atípicos, la consistencia entre los coeficientes de Pearson (0.407) y Spearman (0.404) demuestra que la relación es robusta. Por lo tanto, el uso de un modelo de regresión lineal para describir la tendencia promedio es estadísticamente justificado y confiable
Los datos tienen “ruido” (outliers) y no son “perfectos” (no normales), pero la señal biológica es tan fuerte que todos los métodos —sean estrictos o sabios— coinciden en el mismo diagnóstico: hay una relación positiva y moderada que merece ser modelada.
El objetivo supremo del análisis de regresión es hallar la ecuación de la línea recta que mejor se ajuste a la nube de datos experimentales, con el fin de construir modelos predictivos.
Un Modelo de Regresión Lineal es una técnica estadística utilizada para cuantificar la relación entre una variable que queremos predecir (llamada Variable Dependiente o Respuesta) y una o más variables que explican ese fenómeno (llamadas Variables Independientes o Predictores).
En su forma más simple (Regresión Lineal Simple), el objetivo es encontrar la línea recta que mejor se ajuste a una nube de puntos en un plano cartesiano.
Modelo Matemático Poblacional:
El modelo se expresa mediante la ecuación de una línea recta:
\[Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i\]
Donde: * \(Y_i\): Valor de la variable dependiente (lo que predecimos). Es el resultado que buscamos explicar (ej. el peso del bebé).
\(X_i\): Valor de la variable independiente (el dato que introducimos). Es el factor que influye en el resultado (ej. días de gestación).
\(\beta_0\): Intercepto (El valor numérico que toma \(Y\) cuando \(X\) equivale exactamente a 0). Es el valor de \(Y\) cuando \(X\) es cero. Es el punto donde la recta choca con el eje vertical.
\(\beta_1\): Pendiente (La tasa de cambio: cuánto aumenta o disminuye \(Y\) por cada unidad adicional de \(X\)). Es el coeficiente más importante. Indica cuánto cambia \(Y\) por cada unidad que aumenta \(X\).
\(\varepsilon_i\): Término de error o residuo (El margen de variabilidad que el modelo matemático no es capaz de explicar). Es la diferencia entre el valor real observado y el valor que predice la recta. Ningún modelo es perfecto, y este término reconoce esa variabilidad.
¿Cómo funciona? (Mínimos Cuadrados Ordinarios - OLS)
El modelo no traza cualquier línea. Utiliza un método matemático llamado Mínimos Cuadrados. Este algoritmo busca la posición de la recta que haga que la distancia (el error) entre todos los puntos reales y la línea sea la más pequeña posible.
Utilidad del Modelo
Un modelo de regresión lineal sirve principalmente para dos cosas:Descripción y Explicación: Ayuda a entender si una variable realmente afecta a otra y en qué medida (ej. “¿Realmente influye la gestación en el peso?”).Predicción: Permite calcular valores futuros. Si conocemos la ecuación y nos dan un valor de \(X\) que no estaba en los datos originales, podemos “predecir” cuál sería el valor de \(Y\).
El método OLS busca estimar los parámetros reduciendo al mínimo posible la suma de los residuos al cuadrado:
\[S(\beta_0, \beta_1) = \sum(y_i - \beta_0 - \beta_1 x_i)^2\]
Consideremos una muestra pequeña: \(X = \{1, 2, 3, 4, 5\}\) e \(Y = \{2, 3, 5, 4, 6\}\).
Paso 1: Calcular medias aritméticas \(\bar{x} = 3\) ; \(\bar{y} = 4\)
Paso 2: Calcular pendiente (\(\hat{\beta}_1\)) Fórmula: \(\hat{\beta}_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}\)
| Observación (\(X\)) | Observación (\(Y\)) | \(X - \bar{x}\) | \(Y - \bar{y}\) | Producto de desviaciones | \((X - \bar{x})^2\) |
|---|---|---|---|---|---|
| 1 | 2 | -2 | -2 | 4 | 4 |
| 2 | 3 | -1 | -1 | 1 | 1 |
| 3 | 5 | 0 | 1 | 0 | 0 |
| 4 | 4 | 1 | 0 | 0 | 1 |
| 5 | 6 | 2 | 2 | 4 | 4 |
| Sumas | 9 | 10 |
Al sumar las columnas obtenemos: \(\sum(x_i - \bar{x})(y_i - \bar{y}) = 9\) y \(\sum(x_i - \bar{x})^2 = 10\).
Por ende, \(\hat{\beta}_1 = \frac{9}{10} = 0.9\)
Paso 3: Calcular Intercepto (\(\hat{\beta}_0\))
Fórmula: \(\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\) \(\hat{\beta}_0 = 4 - 0.9(3) = 1.3\)
Ecuación del Modelo estimado: \(\hat{Y} = 1.3 + 0.9X\)
Interpretación práctica: Por cada unidad que aumenta la variable \(X\), la variable \(Y\) experimenta un incremento promedio de 0.9 unidades.
Para que un modelo de regresión lineal sea confiable en términos científicos, debe cumplir con ciertas reglas sobre sus errores (residuos):
Linealidad: La relación entre las variables debe ser realmente una línea recta, no una curva.
Independencia: Las observaciones no deben influirse entre sí.
Homocedasticidad: La dispersión de los errores debe ser constante en todo el modelo.
Normalidad: Los errores deben seguir una distribución normal (campana de Gauss).
Es una herramienta que traduce una nube de puntos dispersos en una fórmula matemática simple para explicar y predecir la realidad.
Retomando nuestra base de datos original (dt),
procedemos a ajustar el modelo de regresión lineal.
modelo <- lm(y ~ x, data = dt)
summary(modelo)
# Ajuste del modelo mediante Mínimos Cuadrados Ordinarios (OLS)
modelo <- lm(bwt ~ gestation, data = dt)
# Resumen estadístico
summary(modelo)##
## Call:
## lm(formula = bwt ~ gestation, data = dt)
##
## Residuals:
## Min 1Q Median 3Q Max
## -49.394 -11.125 0.071 10.106 57.353
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -10.06418 8.32220 -1.209 0.227
## gestation 0.46426 0.02974 15.609 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.66 on 1221 degrees of freedom
## (13 observations deleted due to missingness)
## Multiple R-squared: 0.1663, Adjusted R-squared: 0.1657
## F-statistic: 243.6 on 1 and 1221 DF, p-value: < 2.2e-16
Análisis e interpretación del Resumen (Summary): 1.
Coefficients (Estimate): * El renglón
(Intercept) corresponde a nuestro parámetro \(\beta_0\). * El renglón debajo del
intercepto (asociado a la variable \(X\)) es nuestro parámetro \(\beta_1\) o pendiente. Determina el impacto
numérico de \(X\) sobre \(Y\). 2. Significancia
Pr(>|t|): Si el p-value asociado a la variable \(X\) posee asteriscos (*,
**, ***) y es estrictamente menor a 0.05,
comprobamos que la variable \(X\) es un
predictor altamente significativo para estimar \(Y\). 3. Multiple R-squared (\(R^2\)): Es el Coeficiente de
Determinación. Si el valor es, por ejemplo, 0.60, interpretamos que el
modelo es capaz de explicar el 60% de la variabilidad existente en \(Y\) utilizando únicamente los datos de
\(X\).
Interpretación del Modelo:
Pendiente (\(\beta_1\)): Por cada día adicional de gestación, el peso del bebé aumenta en promedio las unidades indicadas en el Estimate de gestation.
Significancia: Si \(p < 0.05\) en gestation, el tiempo de embarazo es un predictor significativo.\(R^2\)
Ajustado: Indica qué porcentaje de la variación del peso es explicada únicamente por la gestación.
Tras confirmar una correlación moderada y significativa entre las
variables, procedemos a interpretar el modelo matemático generado por la
función lm(bwt ~ gestation, data = dt).
Basándonos en la columna Estimate de la tabla de coeficientes, la ecuación de nuestra línea de regresión se define de la siguiente manera:
\[\widehat{bwt} = -10.06418 + 0.46426 \cdot \text{gestation}\]
A continuación, se describen los componentes estadísticos obtenidos en la salida de R:
Representan la diferencia entre los valores observados y los valores predichos por el modelo (\(e_i = y_i - \hat{y}_i\)): * Rango: Los errores oscilan entre \(-49.39\) y \(57.35\) onzas. * Mediana: El valor de \(0.071\) es cercano a cero, lo que sugiere que el modelo no presenta un sesgo sistemático severo en la tendencia central.
gestation, el p-valor es \(< 2 \times 10^{-16}\), identificado con
el código de significancia ***.El valor obtenido es de 16.66 sobre 1221 grados de libertad. * Análisis: Indica la desviación promedio de los datos respecto a la línea de regresión. En promedio, las predicciones de peso del modelo pueden variar en \(\pm 16.66\) onzas respecto al peso real.
El valor de Multiple R-squared es 0.1663. * Análisis: El modelo logra explicar el 16.63% de la variabilidad total del peso al nacer utilizando únicamente la gestación. El 83.37% restante de la varianza se atribuye a factores no incluidos en este modelo simple (como tabaquismo, genética o nutrición materna).
El p-valor global del modelo es \(< 2.2 \times 10^{-16}\). * Análisis: Este resultado valida la utilidad global del modelo. Confirma que el modelo de regresión lineal aporta una explicación significativamente mejor que el uso simple del promedio de la variable dependiente.
El análisis de regresión lineal simple demuestra una relación positiva y estadísticamente significativa. A pesar de conservar los valores atípicos, el modelo captura la tendencia biológica fundamental: el desarrollo fetal es un proceso acumulativo donde cada día de gestación es un motor crítico para el incremento del peso neonatal.
## Analysis of Variance Table
##
## Response: bwt
## Df Sum Sq Mean Sq F value Pr(>F)
## gestation 1 67661 67661 243.63 < 2.2e-16 ***
## Residuals 1221 339092 278
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Análisis de la tabla ANOVA: Esta prueba evalúa la
pertinencia global del modelo de regresión en su totalidad. Si el valor
de Pr(>F) es inferior a 0.05, podemos afirmar
contundentemente que el modelo construido es estadísticamente válido y
aporta una mejora predictiva superior a simplemente adivinar usando el
promedio de \(Y\).
Para que el modelo sea confiable, los residuos (\(\varepsilon\)) deben cumplir:
Normalidad: Los errores deben seguir una distribución normal.
shapiro.test(residuals(modelo))
Homocedasticidad: La varianza de los errores debe ser constante. (Breusch-Pagan)
bptest(modelo)
Independencia: No debe haber autocorrelación en los errores (Durbin-Watson)
dwtest(modelo)
Para que los pronósticos y los p-values arrojados por el modelo de regresión sean matemáticamente correctos y confiables en la realidad, los errores generados por el modelo (conocidos como residuos, \(\varepsilon_i\)) deben obedecer cinco reglas fundamentales:
Linealidad: \(E(Y|X) = \beta_0 + \beta_1 X\). La forma real de los datos obedece a una línea recta.
Media cero del error: \(E(\varepsilon_i) = 0\). Los errores positivos y negativos se cancelan mutuamente (garantiza que el modelo es insesgado).
Homocedasticidad: \(Var(\varepsilon_i) = \sigma^2\). La varianza o dispersión de los residuos debe ser constante a lo largo de todo el modelo (no deben formar patrones en forma de cono o embudo).
Independencia: \(Cov(\varepsilon_i, \varepsilon_j) = 0\). Un error no debe predecir o influir en el error siguiente (ausencia absoluta de autocorrelación).
Normalidad: \(\varepsilon_i \sim N(0, \sigma^2)\). Los residuos deben graficar una campana de Gauss perfecta (esto es obligatorio para que las pruebas de inferencia exacta sean válidas).
Procedemos a evaluar de forma rigurosa si nuestro modelo cumple estas exigencias matemáticas.
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo)
## W = 0.99773, p-value = 0.08816
Análisis de Normalidad: * \(H_0\): Los residuos siguen una distribución normal simétrica.
p-value sea
mayor a 0.05.# 2. Validación de la Homocedasticidad (Varianza constante)
library(lmtest)
bptest(modelo) # Breusch-Pagan Test##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 7.1596, df = 1, p-value = 0.007456
Análisis de Homocedasticidad: * \(H_0\): Existe varianza constante a lo largo del modelo (homocedasticidad).
p-value sea mayor a
0.05. Si es menor, el modelo sufre de “heterocedasticidad”, lo
que indica que las predicciones para ciertos valores de \(X\) serán mucho más erráticas e imprecisas
que para otros.##
## Durbin-Watson test
##
## data: modelo
## DW = 2.0075, p-value = 0.552
## alternative hypothesis: true autocorrelation is greater than 0
Análisis de Independencia: * Esta prueba dictamina si un residuo arrastra información al siguiente.
DW debe rondar el valor de 2.
Si el p-value resulta ser mayor a 0.05,
celebramos la ausencia de autocorrelación, dando por cumplido el
supuesto.Si nuestra matriz de datos posee múltiples variables explicativas que, en teoría, afectan a la variable dependiente \(Y\) (por ejemplo, incorporamos una variable \(Z\) y otra \(W\)), el modelo analítico se expande.
# Simulación de asignación de variables adicionales
z <- dt[, 3]
w <- dt[, 4]
# Construcción del Modelo de Regresión Múltiple
modelo_multi <- lm(y ~ x + z + w, data = dt)
# Extracción de resultados
summary(modelo_multi)Análisis de Regresión Múltiple: El resumen
estadístico presentará ahora múltiples p-values (uno para
\(X\), uno para \(Z\) y otro para \(W\)). Las variables cuyo p-value sea menor
a 0.05 se coronan como predictoras significativas y deben mantenerse en
la ecuación; aquellas que superen este umbral no aportan valor
predictivo real y la mejor práctica estadística es eliminarlas del
modelo definitivo.
# Evaluación comparativa mediante el Criterio de Información de Akaike (AIC)
AIC(modelo, modelo_multi)Análisis del criterio AIC: Cuando un analista compite con varios modelos matemáticos para explicar un mismo fenómeno, el modelo ganador será estrictamente aquel que exhiba el valor de AIC más bajo, ya que este indicador penaliza la complejidad innecesaria y premia el mejor ajuste con la menor cantidad de variables posibles.
La visualización no es un paso omitible: El análisis exploratorio visual (mediante diagramas de Cajas y de Dispersión) es el primer paso innegociable antes de ejecutar cualquier prueba estadística. Nos protege de asumir tendencias falsas.
Elección del método adecuado: Pearson asume normalidad estricta. Spearman y Kendall no son metodologías “inferiores”, sino las alternativas correctas y robustas que la estadística dispone si los datos presentan asimetría o valores atípicos severos.
Fiabilidad predictiva: El núcleo matemático de la regresión es el método OLS. Sin embargo, la confiabilidad de cualquier predicción que hagamos en el mundo real utilizando la ecuación del modelo descansa enteramente en que sus residuos superen satisfactoriamente las pruebas de Normalidad, Homocedasticidad e Independencia.