1 INTRODUCCIÓN

En este módulo se abordan herramientas fundamentales de la inferencia estadística aplicadas al análisis de datos:

  • Correlación: Medición de la asociación lineal y fuerza de relación entre variables.

  • Regresión Lineal: Para modelar relaciones continuas y predecir valores.Modelado de relaciones funcionales para la estimación y predicción de variables de respuesta.

  • Regresión Logística: Para modelar clasificaciones. Modelado para variables dependientes categóricas

Lo anterior permite analizar relaciones matemáticas entre variables, explicar fenómenos del mundo real y construir modelos predictivos robustos.


2 Unidad 1-2: Correlación y Regresión Lineal Simple

2.1 Objetivo

Comprender formalmente y aplicar:

  1. Identificar las diferencias analíticas y de aplicación entre los coeficientes de Pearson, Spearman y Kendall.

  2. Modelo de regresión lineal simple. Ajustar un modelo de regresión lineal simple mediante el método de Mínimos Cuadrados Ordinarios (OLS).

  3. Calcular e interpretar formalmente los estimadores de los parámetros (\(\beta_0\) y \(\beta_1\)).

  4. Evaluar el cumplimiento de los supuestos del teorema de Gauss-Markov.

  5. Desarrollar inferencia estadística rigurosa en modelos predictivos.


3 CORRELACIÓN

En términos estadísticos, la correlación es una medida que evalúa la relación cuantitativa, la fuerza y la dirección de la asociación lineal entre dos variables cuantitativas. Se representa habitualmente mediante el coeficiente de correlación de Pearson (\(r\)), que toma valores estrictamente en el intervalo \([-1, 1]\)

El comportamiento del coeficiente de correlación (\(r\)) nos indica:

  • \(r > 0\) (Relación positiva o directa): Cuando el aumento de una de las variables viene acompañado del aumento de la otra. Ejemplo: La superficie de un bosque y el número de nidos en él.
  • \(r < 0\) (Relación negativa o inversa): Si el aumento de una variable viene acompañado de una disminución en la otra.
  • \(r = 0\) (No hay relación lineal): Sin embargo, que ocurra \(r = 0\) solo nos dice que no hay correlación lineal, pero puede que exista una relación de otro tipo (por ejemplo, cuadrática o parabólica).

Una correlación perfecta se puede visualizar cuando todos los puntos de un diagrama de dispersión forman una línea recta inquebrantable (+1 o -1). Estas correlaciones perfectas prácticamente no existen en la biología o ciencias sociales; suelen ser privilegio exclusivo de las ciencias físicas exactas.

3.0.1 Tabla de Interpretación de \(r\)

Valor del coeficiente (\(r\)) Interpretación Estadística
\(r > 0.7\) Correlación fuerte positiva
\(0.4 < r \le 0.7\) Correlación moderada positiva
\(0 < r \le 0.4\) Correlación débil positiva
\(r \approx 0\) Correlación nula
\(-0.4 \le r < 0\) Correlación débil negativa
\(-0.7 \le r < -0.4\) Correlación moderada negativa
\(r < -0.7\) Correlación fuerte negativa

3.0.2 Importante: Correlación NO implica causalidad

El hecho de que dos variables estén correlacionadas matemáticamente no quiere decir, bajo ninguna circunstancia, que una sea la causante de la otra. Existen diversas situaciones que pueden explicar esta relación:

  1. Causalidad real: La variable \(X\) causa directamente el comportamiento de \(Y\).
  2. Causalidad inversa: La variable \(Y\) causa el comportamiento de \(X\).
  3. Variable oculta: Dos variables pueden estar independientemente relacionadas con una tercera (quizás no identificada) que afecta a \(X\) e \(Y\) de forma simultánea.
  4. Correlación espuria: Relación por mera coincidencia sin ningún sentido causal lógico. (Ejemplo: Las ventas de helados aumentan y, al mismo tiempo, los accidentes en piscina aumentan. No se causan entre sí; la causa real y oculta es la alta temperatura del verano).

Nota Epistemológica: La correlación estadística cuantifica covariación matemática, no direccionalidad causal. La relación puede estar mediada por variables latentes u obedecer a correlaciones espurias.


3.1 MÉTODOS DE CORRELACIÓN

¿Solo se aplica la correlación de Pearson? No. Existen tres coeficientes principales según la naturaleza de nuestros datos:

Criterios de Selección del Coeficiente

La elección del estadístico de correlación depende de la distribución subyacente de los datos:

Método Estadístico Tipo de relación evaluada ¿Requiere normalidad? Sensibilidad a valores atípicos
Pearson Lineal Sí (para pruebas de inferencia) Sí, es altamente sensible
Spearman Monótona (Rangos) No Menos sensible
Kendall Monótona (Ordinal) No Más robusto (Ideal para muestras pequeñas)

3.1.1 A. Coeficiente de Correlación de Pearson (\(r\))

Es adecuado cuando las observaciones están medidas en escalas de intervalos y se asume una distribución aproximadamente normal bivariante.

Fórmula matemática: \[r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}\]

¿Qué significa cada variable en la fórmula? * \(n\): Número total de observaciones o registros (tamaño de la muestra).

  • \(x_i, y_i\): Valores individuales y puntuales de las variables \(X\) e \(Y\) para la observación \(i\).

  • \(\bar{x}, \bar{y}\): Medias aritméticas (promedios) de todos los valores de las variables.

  • Numerador: Representa la covarianza (cómo varían de forma conjunta \(X\) e \(Y\)).

  • Denominador: Es el producto de las desviaciones estándar (este factor normaliza el valor para que el resultado final quede estrictamente delimitado entre -1 y 1).

3.1.2 B. Coeficiente de Determinación (\(R^2\))

Es el cuadrado del coeficiente de Pearson. Representa la proporción de la variabilidad en una variable que es explicada o atribuible a la variabilidad de la otra. \[R^2 = 1 - \frac{SSE}{SST}\] Representa la proporción de la variabilidad total de la variable dependiente que es explicada sistemáticamente por el modelo empírico.

Nota: ¿Ese porcentaje es alto? Sí. Entonces ahora sí vale la pena armar un modelo de Regresión.

NOTA CLAVE: ¿Por qué hablamos de \(R^2\) en el tema de Correlación?

El coeficiente de Pearson (\(r\)) es engañoso porque no es un porcentaje. Un \(r = 0.70\) no significa que las variables estén relacionadas en un 70%.

Para saber qué significa realmente, se eleva al cuadrado: \((0.70)^2 = 0.49\). Al convertirlo a \(R^2\), descubrimos que esas variables solo comparten el 49% de la información.

El \(R^2\) es la “calificación” de un modelo predictivo. Se enseña junto con la correlación para no dejarse engañar por valores altos de \(r\) y entender qué porcentaje de la realidad lograremos explicar antes de intentar construir un modelo de regresión complejo.

3.1.3 C. Coeficiente por Rangos de Spearman (\(\rho_s\))

Es una alternativa no paramétrica que se basa en los rangos (posiciones u orden) de los datos, y no en sus valores exactos. Es el método ideal si existen valores atípicos severos o los datos no son normales. \[\rho_s = 1 - \frac{6\sum d_i^2}{n(n^2 - 1)}\] Donde \(d_i\) es la diferencia entre los rangos de las observaciones.

3.1.4 D. Coeficiente de Kendall (\(\tau\))

Se fundamenta en la contabilidad de pares concordantes y discordantes. Es un método sumamente robusto para muestras pequeñas o cuando existen muchos datos con el mismo valor (empates). \[\tau = \frac{C - D}{\frac{n(n-1)}{2}}\]


Nota: Pearson asume que cuando X aumenta en 1 unidad, Y aumenta a un ritmo constante (formando una línea recta perfecta).

Spearman y Kendall miden una relación monótona. ¿Qué significa esto? Significa que cuando X aumenta, Y también aumenta (o disminuye), pero no importa a qué ritmo lo haga. Puede subir rápido, luego lento, luego rápido otra vez, formando una curva.

Si tus datos forman una curva perfecta (ej. crecimiento exponencial del COVID-19), Pearson te dirá que la correlación no es perfecta (porque no es una línea recta).

Spearman y Kendall te dirán que la correlación es del 100% (1.0), porque reconocen que, aunque sea una curva, siempre que X avanza, Y también avanza sin dar pasos hacia atrás.

NOTA CLAVE: ¿Para qué sirven Spearman y Kendall si no miden relaciones lineales?

Pearson es el rey de la “línea recta perfecta”. Sin embargo, Spearman y Kendall miden relaciones monótonas. Esto significa que cuando \(X\) aumenta, \(Y\) también aumenta (o disminuye), pero no importa a qué ritmo lo haga (puede formar una curva).

Se utilizan como el “Plan B” definitivo cuando Pearson fracasa por tres motivos: 1. Datos asimétricos: No pasan la prueba de normalidad de Shapiro-Wilk. 2. Presencia de valores atípicos (Outliers): Como usan el orden de los datos y no sus valores reales, un dato extremadamente atípico no destruye el cálculo. 3. Variables ordinales: Cuando se analizan categorías ordenadas (ej. “Malo”, “Regular”, “Bueno”).

Usa Kendall específicamente cuando tengas muestras muy pequeñas (< 15 datos) o cuando existan muchos “empates” (valores repetidos) en tu base de datos.


4 APLICACIÓN PRÁCTICA DE CORRELACIÓN CON DATOS

4.0.1 Entendiendo la Base de Datos y las Variables

Antes de ejecutar cualquier bloque de código, es indispensable definir lógicamente los roles de nuestras variables:

  1. Variable Dependiente (\(Y\)): También llamada variable respuesta. Es la variable que queremos predecir o explicar. Asumimos matemáticamente que su comportamiento depende de la otra variable. También conocida como variable respuesta o endógena. Es el “efecto”. La llamamos dependiente porque asumimos matemáticamente que su comportamiento o valor final depende de lo que ocurra en \(X\). Es el objetivo principal de nuestro estudio: lo que el modelo intentará predecir.

  2. Variable Independiente (\(X\)): También conocida como variable predictora o explicativa. Es la variable que utilizamos como insumo para explicar los cambios en \(Y\). También conocida como variable predictora, explicativa o exógena. Es la variable que asumimos como la “causa”. La elegimos como \(X\) porque creemos que sus cambios y variaciones tienen la capacidad de influir o explicar el comportamiento de otras variables.

Ejemplo de contexto: Si nuestra base de datos recolectara métricas corporales, definiríamos como Variable Independiente (\(X\)) a la “Altura” de la persona, ya que usaremos ese dato como insumo para predecir nuestra Variable Dependiente (\(Y\)), que sería el “Peso”. No lo haríamos al revés, ya que la altura de una persona no se ve modificada por engordar o adelgazar, pero su peso sí suele tener una relación directa con su estructura ósea (altura).

5 Analisis de estudio

Problema: El objetivo de este análisis es cuantificar y modelar la relación biológica entre la duración del embarazo y el peso del bebé al nacer. Comprender cómo cada día adicional de gestación influye en el peso final es crucial en la salud perinatal para identificar y predecir posibles desviaciones del desarrollo normal.

Los Datos: Se utiliza el conjunto de datos de registros perinatales (babies) cargado desde la URL proporcionada

# Cargar la base de datos 
url <- 'https://tinyurl.com/ya9fvteb'
dt <- read.table(url, header=TRUE, sep='\t')


# Observar los primeros 6 registros para confirmar la lectura correcta
head(dt)
# Definición de variables para el análisis
x <- dt$gestation
y <- dt$bwt

head(dt)

Para facilitar la lectura en el código, definimos las variables directamente de ‘dt’

5.0.1 Planteamiento del Problema y Variables

El objetivo del estudio es modelar estadísticamente la influencia de la duración de la gestación sobre el peso del neonato, un factor crítico en el desarrollo perinatal.

Variable Independiente Explicativa (\(X\)): Gestación (días).

¿Por qué se elige como X? En una relación causa-efecto, el tiempo que el bebé pasa desarrollándose en el útero es el predictor biológico o la “causa” que influye directamente en su crecimiento físico final.

Variable Independiente o Predictora (Eje X): Es el factor que asumimos como la “causa”. En este contexto perinatal, esta variable es gestation (la duración del embarazo en días). La elegimos como \(X\) porque el tiempo que el bebé pasa en el útero influye directamente en su desarrollo físico.

Variable Dependiente de Respuesta (\(Y\)): Peso al nacer (onzas).

Variable Dependiente (Eje Y): bwt

y = bwt (Peso al nacer en onzas)

Descripción: Peso del bebé al nacer medido en onzas.

¿Por qué se elige como Y? El peso al nacer es el resultado final o el “efecto” que queremos predecir y explicar en función del tiempo de gestación transcurrido.

Variable Dependiente o Respuesta (Eje Y): Es el “efecto” que el modelo intentará predecir. En este caso, es bwt (el peso del bebé al nacer, en onzas).Hipótesis a correlacionar: Asumimos teóricamente que el peso al nacer (\(Y\)) depende directamente de los días de gestación (\(X\)). Buscaremos comprobar estadísticamente esta relación y predecir cuántas onzas de peso se ganan por cada día adicional de embarazo.


5.1 Análisis Exploratorio Visual (Gráficos)

En estadística, antes de calcular números, es una regla inquebrantable observar la forma de los datos. Utilizaremos el diagrama de cajas y bigotes y el diagrama de dispersión.

Este gráfico es vital para entender la distribución individual y visualizar la presencia de valores atípicos (que en este caso, por instrucción tuya, conservaremos para reflejar la realidad biológica total, como los partos prematuros extremos).

5.1.1 Diagrama de Cajas y Bigotes (Boxplot)

Este gráfico es vital para entender la distribución individual de cada variable y detectar la presencia de valores atípicos (outliers).

# Configurar la ventana gráfica para mostrar dos gráficos lado a lado
par(mfrow=c(1,2))
boxplot(x, main="Distribución: Gestación (X)", col="#85C1E9", ylab="Días")
boxplot(y, main="Distribución: Peso (Y)", col="#82E0AA", ylab="Onzas")

par(mfrow=c(1,1))

Análisis del diagrama de bigotes: * La línea horizontal gruesa que divide la caja representa la mediana (el valor exactamente central de los datos).

  • La caja coloreada abarca el rango intercuartílico (contiene el 50% central y más denso de los datos).

  • Los “bigotes” (las líneas que se extienden) muestran el rango esperado y normal de los datos.

  • Si se observan puntos individuales flotando por fuera de los límites de los bigotes, significa que existen valores atípicos (outliers). Si estos valores son extremos o abundantes, la estadística sugiere utilizar la correlación de Spearman en lugar de la de Pearson.

Verás puntos fuera de los bigotes en ambas variables. Al no eliminarlos, reconocemos que existen embarazos inusualmente cortos o largos y pesos extremos que influirán en el comportamiento de nuestro modelo de mínimos cuadrados.

A partir de los resultados presentados en las imágenes, se observa que ambas variables analizadas presentan una desviación significativa de la distribución normal, influenciada principalmente por la presencia de valores atípicos.

Distribución de Gestación (X): Se observa una alta concentración de datos alrededor de la mediana (aprox. 280 días), pero con una gran cantidad de valores atípicos (outliers) en ambos extremos, especialmente hacia gestaciones inusualmente cortas (menos de 200 días).

Distribución de Peso (Y): La caja muestra una distribución aparentemente más simétrica que la gestación, pero igualmente presenta puntos individuales fuera de los “bigotes” en ambos extremos del rango de onzas.

5.1.2 Diagrama de Dispersión (Prueba Gráfica de Correlación)

Este gráfico evalúa conjuntamente la relación entre \(X\) e \(Y\) en un plano cartesiano, permitiéndonos visualizar intuitivamente si existe una tendencia lineal.

# Cargar librería para gráficos elegantes
library(ggplot2)

ggplot(dt, aes(x = gestation, y = bwt)) +
  geom_point(color = "#2C3E50", size = 2, alpha = 0.5) +
  geom_smooth(method = "lm", color = "red", se = TRUE) +
  labs(title = "Relación entre Gestation y bwt",
       x = "Días de Gestación (X)",
       y = "Peso al Nacer (Y)") +
  theme_minimal()

Análisis del diagrama de dispersión: * Si la nube de puntos tiende a ascender de izquierda a derecha, nos encontramos frente a una correlación positiva. * Si la tendencia desciende de izquierda a derecha, la correlación es negativa. * Si los puntos se dispersan formando una nube sin ningún patrón o dirección clara, la correlación es cercana a nula. * Si el patrón dibuja una curva (como una forma de “U”), la relación existe pero no es lineal, lo que invalidaría el uso del método de Pearson.

Se observa una nube de puntos con tendencia ascendente, lo que indicaría una correlación positiva

El gráfico de dispersión visualiza la relación conjunta entre los días de gestación (\(X\)) y el peso del neonato en onzas (\(Y\)).

Tendencia y Dirección: Se observa una nube de puntos con una trayectoria ascendente de izquierda a derecha. Esto confirma visualmente una correlación positiva, indicando que a mayores días de gestación, el valor esperado del peso del bebé tiende a incrementarse. Ajuste Lineal: La línea roja representa la recta de regresión ajustada mediante Mínimos Cuadrados Ordinarios (OLS). Esta línea actúa como el mejor predictor del peso basado únicamente en la duración del embarazo.

Variabilidad y Outliers: La dispersión de los puntos alrededor de la línea y la presencia de casos alejados (especialmente en gestaciones cortas con pesos variados) confirman la existencia de valores atípicos.


5.2 Pruebas de Normalidad (Shapiro-Wilk)

Para tener certeza matemática de si es correcto utilizar el coeficiente paramétrico de Pearson, debemos comprobar si las variables \(X\) e \(Y\) provienen de una distribución normal.

# Ejecutar prueba de normalidad para ambas variables
shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.9311, p-value < 2.2e-16
shapiro.test(y)
## 
##  Shapiro-Wilk normality test
## 
## data:  y
## W = 0.99559, p-value = 0.001192

Análisis e interpretación del test de Shapiro-Wilk: * Hipótesis Nula (\(H_0\)): Los datos provienen de una distribución normal.

  • Si el p-value arrojado es mayor a 0.05 en ambas variables, carecemos de evidencia para rechazar \(H_0\). Por lo tanto, asumimos que los datos son normales y procedemos lícitamente a usar Pearson.

  • Si alguna de las dos variables presenta un p-value menor a 0.05, los datos no siguen una campana de Gauss normal. En este escenario, la teoría indica que debemos utilizar Spearman o Kendall.

El test de Shapiro-Wilk evalúa la hipótesis nula (\(H_0\)) de que una muestra proviene de una población con distribución normal.

Para la Variable X (Gestación): se obtiene un \(W = 0.9311\) y un \(p\text{-value} < 2.2 \times 10^{-16}\).Para la Variable Y (Peso): se obtiene un \(W = 0.99559\) y un \(p\text{-value} = 0.001192\). Interpretación: Dado que en ambos casos el \(p\text{-value}\) es menor al nivel de significancia crítico de \(\alpha = 0.05\), existe evidencia estadística suficiente para rechazar la hipótesis nula de normalidad. Esto confirma que ninguna de las dos variables sigue una distribución de campana de Gauss.


5.3 Cálculo de la Correlación

Con base en la normalidad de nuestros datos, procedemos a calcular los coeficientes de correlación y sus respectivas pruebas de significancia estadística.

# Spearman (Rangos - Robusto ante outliers)
cor.test(x, y, method = "spearman", use = "complete.obs")
## 
##  Spearman's rank correlation rho
## 
## data:  x and y
## S = 181438572, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.4048838

Pearson es altamente sensible a valores atípicos, ya que depende de los momentos muestrales. Por el contrario, los estimadores no paramétricos (Spearman y Kendall) ofrecen robustez estadística al basarse en el ordenamiento por rangos. Si un bebé pesa muy poco o mucho, Pearson se “distorsiona”.

Spearman y Kendall son pruebas apropiadas para el comportamiento de estos datos: a ellos no les importa el valor exacto (120 onzas), sino la posición (quién es el 1er bebé más pesado, quién el 2do, etc.). Esto los hace robustos.

# 2. Spearman (Basada en rangos, robusta ante la presencia de outliers)
cor.test(x, y, method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  x and y
## S = 181438572, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.4048838
# 3. Kendall (Basada en conteo de pares concordantes y discordantes)
cor.test(x, y, method = "kendall")
## 
##  Kendall's rank correlation tau
## 
## data:  x and y
## z = 14.718, p-value < 2.2e-16
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.2863073

Análisis de los métodos no paramétricos: * Los estimadores rho (para Spearman) y tau (para Kendall) nos entregan la magnitud de la relación monótona. Al igual que en el caso paramétrico, si sus respectivos p-values < 0.05, concluimos que la relación es estadísticamente significativa de manera independiente a la forma en que se distribuyan los datos.

Rho de Spearman = 0.4048

Tau de Kendall (en tu salida de R) = [valor similar]

P-value < 2.2e-16 en ambos.

¿Qué significa esto? Significa que, incluso usando métodos que ignoran los valores atípicos y solo miran el orden, la correlación sigue siendo casi la misma que la de Pearson (\(0.407\)).

“Significaría que el tiempo de gestación no influye en el peso del bebé.

Biológicamente, esto sería muy extraño, ya que sabemos que un bebé gana peso mientras más tiempo pasa en el útero.”

Analisis

A pesar de que las variables no presentan una distribución normal y existen valores atípicos, la consistencia entre los coeficientes de Spearman (0.404) demuestra que la relación es robusta. Por lo tanto, el uso de un modelo de regresión lineal para describir la tendencia promedio es estadísticamente justificado y confiable

Los datos tienen “ruido” (outliers) y no son “perfectos” (no normales), pero la señal biológica es tan fuerte que todos los métodos —sean estrictos o sabios— coinciden en el mismo diagnóstico: hay una relación positiva y moderada que merece ser modelada.


6 ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

El objetivo supremo del análisis de regresión es hallar la ecuación de la línea recta que mejor se ajuste a la nube de datos experimentales, con el fin de construir modelos predictivos.

7 Modelo de Regresión Lineal

Un Modelo de Regresión Lineal es una técnica estadística utilizada para cuantificar la relación entre una variable que queremos predecir (llamada Variable Dependiente o Respuesta) y una o más variables que explican ese fenómeno (llamadas Variables Independientes o Predictores).

En su forma más simple (Regresión Lineal Simple), el objetivo es encontrar la línea recta que mejor se ajuste a una nube de puntos en un plano cartesiano.

Modelo Matemático Poblacional:

El modelo se expresa mediante la ecuación de una línea recta:

\[Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i\]

Donde: * \(Y_i\): Valor de la variable dependiente (lo que predecimos). Es el resultado que buscamos explicar (ej. el peso del bebé).

  • \(X_i\): Valor de la variable independiente (el dato que introducimos). Es el factor que influye en el resultado (ej. días de gestación).

  • \(\beta_0\): Intercepto (El valor numérico que toma \(Y\) cuando \(X\) equivale exactamente a 0). Es el valor de \(Y\) cuando \(X\) es cero. Es el punto donde la recta choca con el eje vertical.

  • \(\beta_1\): Pendiente (La tasa de cambio: cuánto aumenta o disminuye \(Y\) por cada unidad adicional de \(X\)). Es el coeficiente más importante. Indica cuánto cambia \(Y\) por cada unidad que aumenta \(X\).

  • \(\varepsilon_i\): Término de error o residuo (El margen de variabilidad que el modelo matemático no es capaz de explicar). Es la diferencia entre el valor real observado y el valor que predice la recta. Ningún modelo es perfecto, y este término reconoce esa variabilidad.

¿Cómo funciona? (Mínimos Cuadrados Ordinarios - OLS)

El modelo no traza cualquier línea. Utiliza un método matemático llamado Mínimos Cuadrados. Este algoritmo busca la posición de la recta que haga que la distancia (el error) entre todos los puntos reales y la línea sea la más pequeña posible.

El ajuste empírico se realiza a través de Mínimos Cuadrados Ordinarios (OLS), algoritmo que minimiza la suma de los residuos al cuadrado \(\sum(y_i - \hat{y}_i)^2\).

Utilidad del Modelo

Un modelo de regresión lineal sirve principalmente para dos cosas:Descripción y Explicación: Ayuda a entender si una variable realmente afecta a otra y en qué medida (ej. “¿Realmente influye la gestación en el peso?”).Predicción: Permite calcular valores futuros. Si conocemos la ecuación y nos dan un valor de \(X\) que no estaba en los datos originales, podemos “predecir” cuál sería el valor de \(Y\).

7.0.1 Método OLS (Mínimos Cuadrados Ordinarios)

El método OLS busca estimar los parámetros reduciendo al mínimo posible la suma de los residuos al cuadrado:

\[S(\beta_0, \beta_1) = \sum(y_i - \beta_0 - \beta_1 x_i)^2\]

7.0.2 Ejemplo Numérico Paso a Paso (Cálculo Teórico)

Consideremos una muestra pequeña: \(X = \{1, 2, 3, 4, 5\}\) e \(Y = \{2, 3, 5, 4, 6\}\).

Paso 1: Calcular medias aritméticas \(\bar{x} = 3\) ; \(\bar{y} = 4\)

Paso 2: Calcular pendiente (\(\hat{\beta}_1\)) Fórmula: \(\hat{\beta}_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}\)

Observación (\(X\)) Observación (\(Y\)) \(X - \bar{x}\) \(Y - \bar{y}\) Producto de desviaciones \((X - \bar{x})^2\)
1 2 -2 -2 4 4
2 3 -1 -1 1 1
3 5 0 1 0 0
4 4 1 0 0 1
5 6 2 2 4 4
Sumas 9 10

Al sumar las columnas obtenemos: \(\sum(x_i - \bar{x})(y_i - \bar{y}) = 9\) y \(\sum(x_i - \bar{x})^2 = 10\).

Por ende, \(\hat{\beta}_1 = \frac{9}{10} = 0.9\)

Paso 3: Calcular Intercepto (\(\hat{\beta}_0\))

Fórmula: \(\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\) \(\hat{\beta}_0 = 4 - 0.9(3) = 1.3\)

Ecuación del Modelo estimado: \(\hat{Y} = 1.3 + 0.9X\)

Interpretación práctica: Por cada unidad que aumenta la variable \(X\), la variable \(Y\) experimenta un incremento promedio de 0.9 unidades.

7.0.3 Supuestos Críticos

Para que un modelo de regresión lineal sea confiable en términos científicos, debe cumplir con ciertas reglas sobre sus errores (residuos):

Linealidad: La relación entre las variables debe ser realmente una línea recta, no una curva.

Independencia: Las observaciones no deben influirse entre sí.

Homocedasticidad: La dispersión de los errores debe ser constante en todo el modelo.

Normalidad: Los errores deben seguir una distribución normal (campana de Gauss).

Es una herramienta que traduce una nube de puntos dispersos en una fórmula matemática simple para explicar y predecir la realidad.


7.0.4 Construcción y Análisis del Modelo Predictivo en R

Retomando nuestra base de datos original (dt), procedemos a ajustar el modelo de regresión lineal.

8 Creación del modelo: “Y en función de X”

modelo <- lm(y ~ x, data = dt)

9 Imprimir el resumen estadístico exhaustivo del modelo

summary(modelo)

# Ajuste del modelo mediante Mínimos Cuadrados Ordinarios (OLS)
modelo <- lm(bwt ~ gestation, data = dt)

# Resumen estadístico
summary(modelo)
## 
## Call:
## lm(formula = bwt ~ gestation, data = dt)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -49.394 -11.125   0.071  10.106  57.353 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -10.06418    8.32220  -1.209    0.227    
## gestation     0.46426    0.02974  15.609   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.66 on 1221 degrees of freedom
##   (13 observations deleted due to missingness)
## Multiple R-squared:  0.1663, Adjusted R-squared:  0.1657 
## F-statistic: 243.6 on 1 and 1221 DF,  p-value: < 2.2e-16

Análisis e interpretación del Resumen (Summary):

  1. Coefficients (Estimate):

    • El renglón (Intercept) corresponde a nuestro parámetro \(\beta_0\).
    • El renglón debajo del intercepto (asociado a la variable \(X\)) es nuestro parámetro \(\beta_1\) o pendiente. Determina el impacto numérico de \(X\) sobre \(Y\).
  2. Significancia Pr(>|t|): Si el p-value asociado a la variable \(X\) posee asteriscos (*, **, ***) y es estrictamente menor a 0.05, comprobamos que la variable \(X\) es un predictor altamente significativo para estimar \(Y\).

  3. Multiple R-squared (\(R^2\)): Es el Coeficiente de Determinación. Si el valor es, por ejemplo, 0.60, interpretamos que el modelo es capaz de explicar el 60% de la variabilidad existente en \(Y\) utilizando únicamente los datos de \(X\).

Interpretación del Modelo:

Ecuación: Indica el modelo

Pendiente (\(\beta_1\)): Indica que en promedio el valor esperado del peso aumenta en 0.464 onzas por cada día adicional de gestación.

Significancia: Si \(p < 0.05\) en gestation, el tiempo de embarazo es un predictor significativo.\(R^2\)

Bondad de ajuste: Indica qué porcentaje de la variación del peso es explicada únicamente por la gestación.

10 ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Tras confirmar una correlación moderada y significativa entre las variables, procedemos a interpretar el modelo matemático generado por la función lm(bwt ~ gestation, data = dt).

10.1 La Ecuación del Modelo Estimado

Basándonos en la columna Estimate de la tabla de coeficientes, la ecuación de nuestra línea de regresión se define de la siguiente manera:

\[\widehat{bwt} = -10.06418 + 0.46426 \cdot \text{gestation}\]

10.1.1 Interpretación de los Parámetros:

  • \(\beta_0\) (Intercepto) = \(-10.06418\): Matemáticamente, representa el peso esperado del neonato cuando la gestación es de 0 días. Aunque en este contexto biológico no posee una interpretación práctica, funciona como el punto de origen de la recta en el eje \(Y\).
  • \(\beta_1\) (Pendiente) = \(0.46426\): Es el coeficiente crítico del modelo. Indica que por cada día adicional de gestación, el peso del recién nacido aumenta, en promedio, 0.464 onzas.

10.2 Desglose y Evaluación del Cuadro de Resultados

A continuación, se describen los componentes estadísticos obtenidos en la salida de R:

10.2.1 1. Residuos (Residuals)

Representan la diferencia entre los valores observados y los valores predichos por el modelo (\(e_i = y_i - \hat{y}_i\)): * Rango: Los errores oscilan entre \(-49.39\) y \(57.35\) onzas. * Mediana: El valor de \(0.071\) es cercano a cero, lo que sugiere que el modelo no presenta un sesgo sistemático severo en la tendencia central.

10.2.2 2. Significación de los Coeficientes (\(Pr(>|t|)\))

  • Para la variable gestation, el p-valor es \(< 2 \times 10^{-16}\), identificado con el código de significancia ***.
  • Análisis: Al ser un valor extremadamente inferior al nivel de significancia \(\alpha = 0.05\), se rechaza la hipótesis nula (\(H_0: \beta_1 = 0\)). Concluimos que la duración del embarazo es un predictor altamente significativo para el peso al nacer.

10.2.3 3. Error Estándar de los Residuos (Residual Standard Error)

El valor obtenido es de 16.66 sobre 1221 grados de libertad. * Análisis: Indica la desviación promedio de los datos respecto a la línea de regresión. En promedio, las predicciones de peso del modelo pueden variar en \(\pm 16.66\) onzas respecto al peso real.

10.2.4 4. Coeficiente de Determinación (\(R^2\))

El valor de Multiple R-squared es 0.1663. * Análisis: El modelo logra explicar el 16.63% de la variabilidad total del peso al nacer utilizando únicamente la gestación. El 83.37% restante de la varianza se atribuye a factores no incluidos en este modelo simple (como tabaquismo, genética o nutrición materna).

10.2.5 5. Estadística F (\(F-statistic\))

El p-valor global del modelo es \(< 2.2 \times 10^{-16}\). * Análisis: Este resultado valida la utilidad global del modelo. Confirma que el modelo de regresión lineal aporta una explicación significativamente mejor que el uso simple del promedio de la variable dependiente.


10.3 Conclusión del Modelo

El análisis de regresión lineal simple demuestra una relación positiva y estadísticamente significativa. A pesar de conservar los valores atípicos, el modelo captura la tendencia biológica fundamental: el desarrollo fetal es un proceso acumulativo donde cada día de gestación es un motor crítico para el incremento del peso neonatal.

# Análisis de Varianza del Modelo
anova(modelo)

Análisis de la tabla ANOVA: Esta prueba evalúa la pertinencia global del modelo de regresión en su totalidad. Si el valor de Pr(>F) es inferior a 0.05, podemos afirmar contundentemente que el modelo construido es estadísticamente válido y aporta una mejora predictiva superior a simplemente adivinar usando el promedio de \(Y\).


11 VALIDACIÓN DE SUPUESTOS (Gauss-Markov)

Para que el estimador de Mínimos Cuadrados Ordinarios (MCO) alcance las propiedades del Mejor Estimador Lineal Insesgado (BLUE)

Para que el modelo sea confiable, los residuos (\(\varepsilon\)) deben cumplir:

Normalidad: Los errores deben seguir una distribución normal.

shapiro.test(residuals(modelo))

Homocedasticidad: La varianza de los errores debe ser constante. (Breusch-Pagan)

bptest(modelo)

Independencia: No debe haber autocorrelación en los errores (Durbin-Watson)

dwtest(modelo)

11.1 SUPUESTOS DEL MODELO CLÁSICO (Teorema de Gauss-Markov)

Para que los pronósticos y los p-values arrojados por el modelo de regresión sean matemáticamente correctos y confiables en la realidad, los errores generados por el modelo (conocidos como residuos, \(\varepsilon_i\)) deben obedecer cinco reglas fundamentales:

  1. Linealidad: \(E(Y|X) = \beta_0 + \beta_1 X\). La forma real de los datos obedece a una línea recta.

  2. Media cero del error: \(E(\varepsilon_i) = 0\). Los errores positivos y negativos se cancelan mutuamente (garantiza que el modelo es insesgado).

  3. Homocedasticidad: \(Var(\varepsilon_i) = \sigma^2\). La varianza o dispersión de los residuos debe ser constante a lo largo de todo el modelo (no deben formar patrones en forma de cono o embudo).

  4. Independencia: \(Cov(\varepsilon_i, \varepsilon_j) = 0\). Un error no debe predecir o influir en el error siguiente (ausencia absoluta de autocorrelación).

  5. Normalidad: \(\varepsilon_i \sim N(0, \sigma^2)\). Los residuos deben graficar una campana de Gauss perfecta (esto es obligatorio para que las pruebas de inferencia exacta sean válidas).

11.2 Verificación Estadística de los Supuestos

Procedemos a evaluar de forma rigurosa si nuestro modelo cumple estas exigencias matemáticas.

Para que el estimador de Mínimos Cuadrados Ordinarios (MCO) alcance las propiedades del Mejor Estimador Lineal Insesgado (BLUE) (es decir, poseer la mínima varianza entre todos los estimadores lineales e insesgados) y para que la inferencia paramétrica sea válida, el término de perturbación aleatoria (\(\varepsilon\)) debe satisfacer cinco condiciones teóricas fundamentales.

11.2.1 1. Linealidad

El modelo postula que la esperanza matemática condicional de la variable respuesta es una función estrictamente lineal de los parámetros poblacionales (los coeficientes \(\beta\)). Fórmula: \[E(Y|X) = \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k\]

11.2.2 2. Media Cero del Error

El valor esperado o esperanza matemática de la perturbación estocástica poblacional es estrictamente nulo. Indica que, en promedio, los factores inobservables no ejercen una influencia sistemática sobre la variable dependiente. Fórmula: \[E(\varepsilon_i) = 0\]

En la estimación MCO, si la matriz de diseño incluye un término independiente (el intercepto \(\beta_0\)), las ecuaciones normales del estimador fuerzan mecánicamente a que la media de los residuos muestrales sea exactamente cero. Por lo tanto, no se requiere un contraste de hipótesis, sino una comprobación algebraica.

# Extracción del vector de residuos muestrales
residuos_mco <- residuals(modelo)

# Cálculo de la media aritmética
media_residuos <- mean(residuos_mco)

# Impresión del resultado (Notación científica)
cat("La media aritmética de los residuos es:", media_residuos, "\n")
## La media aritmética de los residuos es: -1.022568e-15
# Comprobación de equivalencia computacional a cero
all.equal(media_residuos, 0)
## [1] TRUE

Analisis: Interpretación Analítica del Resultado:

Magnitud Infinitesimal: El valor obtenido para la media aritmética de los residuos (\(-1.022568 \times 10^{-15}\)) es un número infinitesimal. Esta minúscula desviación del cero absoluto no es un error estadístico, sino un artefacto computacional conocido como error de precisión de coma flotante (estándar IEEE 754), inherente a los lenguajes de programación al procesar matrices con múltiples decimales.

Equivalencia Algebraica: La prueba lógica all.equal(media_residuos, 0) arrojó el valor booleano TRUE. Esto certifica que el resultado empírico es computacional y algebraicamente equivalente a cero.

Conclusión del Supuesto: Se confirma el cumplimiento estricto del supuesto \(E(\varepsilon_i) = 0\). Esto garantiza empíricamente que la inclusión del parámetro del intercepto (\(\beta_0\)) en el modelo MCO ha centrado correctamente el hiperplano de regresión, anulando cualquier sesgo sistemático global en las predicciones.

11.2.3 3. Homocedasticidad

La varianza de la perturbación estocástica es finita, constante e idéntica para todas las observaciones poblacionales, independientemente de la magnitud que tomen las variables explicativas. Fórmula: \[Var(\varepsilon_i) = \sigma^2\]

Se evalúa mediante la prueba de Breusch-Pagan. Es una condición necesaria para que el estimador MCO alcance la cota inferior de la varianza. Si falla, los errores estándar calculados se vuelven sesgados.

library(lmtest)
# H0: Existe varianza constante a lo largo del modelo (homocedasticidad).
bptest(modelo)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 7.1596, df = 1, p-value = 0.007456

La prueba de Breusch-Pagan arrojó un estadístico \(BP = 7.1596\) con un \(p\text{-value} = 0.007456\). Al ser el valor \(p < \alpha\) (\(0.05\)), se rechaza contundentemente la hipótesis nula de homocedasticidad.

Diagnóstico del Modelo: Existe evidencia empírica suficiente para concluir la presencia de heterocedasticidad en el modelo. Esto indica que la dispersión de los residuos cambia de forma sistemática según la magnitud de la variable independiente.

11.2.4 4. Independencia (Ausencia de Autocorrelación)

Las perturbaciones estocásticas de cualquier par de observaciones distintas son variables aleatorias ortogonales. La magnitud del error en una observación no contiene información condicional sobre el error en otra observación. Fórmula: \[Cov(\varepsilon_i, \varepsilon_j) = 0 \quad \text{para todo } i \neq j\]

Se evalúa frecuentemente mediante el estadístico de Durbin-Watson, el cual detecta correlación serial de primer orden. Al igual que la homocedasticidad, garantiza que la matriz de varianzas y covarianzas de los errores sea escalar (esférica).

# H0: Ausencia de autocorrelación serial (independencia).
dwtest(modelo)
## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 2.0075, p-value = 0.552
## alternative hypothesis: true autocorrelation is greater than 0

El valor obtenido de \(DW = 2.0075\) se sitúa extremadamente cerca del valor teórico de 2, lo que sugiere una estructura de residuos puramente aleatoria (ruido blanco).

Decisión Estadística: Con un \(p\text{-value} = 0.552\), no existe evidencia estadística para rechazar la hipótesis nula (\(H_0\)) de ausencia de autocorrelación con un nivel de confianza del 95%.

Implicación Teórica: Al confirmarse la independencia de los residuos, se valida que la matriz de varianzas y covarianzas de las perturbaciones mantiene una estructura diagonal (esfericidad), garantizando que los errores estándar de los estimadores no están subestimados.

Conclusión del Supuesto: El modelo cumple satisfactoriamente con el supuesto de independencia, asegurando que la información de una observación no contamina la predicción de las unidades contiguas en la muestra.

11.2.5 5. Normalidad

El término de error poblacional sigue una distribución de probabilidad continua y simétrica en forma de campana de Gauss. Es indispensable para que las pruebas de inferencia exacta (\(t\)-Student y \(F\)-Snedecor) sean válidas en muestras finitas. Fórmula: \[\varepsilon_i \sim N(0, \sigma^2)\]

Se evalúa analíticamente mediante la prueba de bondad de ajuste de Shapiro-Wilk. Gráficamente, se exigiría que los residuos se alineen sobre la diagonal en un Q-Q Plot.

# H0: Los residuos siguen una distribución normal simétrica.
shapiro.test(residuals(modelo))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.99773, p-value = 0.08816

Análisis: Para avalar el cumplimiento de este supuesto, requerimos imperativamente que el \(p\text{-value} > 0.05\), lo que indicaría que no hay evidencia suficiente para rechazar la normalidad de los errores.

Validación de la Normalidad

Se evalúa analíticamente si el término de error poblacional converge hacia una distribución normal, condición necesaria para la validez de la inferencia paramétrica clásica.

Estadístico de Prueba y Decisión: La prueba de Shapiro-Wilk arrojó un estadístico \(W = 0.9977\) y un \(p\text{-value} = 0.08816\). Dado que el \(p\text{-value} > \alpha\) (considerando un nivel de significancia del \(0.05\)), no se rechaza la hipótesis nula de normalidad.

Conclusión del Supuesto: Se concluye estadísticamente que las perturbaciones estocásticas se ajustan a una distribución normal asintótica \(\varepsilon \sim N(0, \sigma^2)\).

11.2.6 Conclusión del modelo

El modelo satisface los supuestos de Linealidad y Media Cero del Error (\(E[\varepsilon_i] = 0\)). Matemáticamente, esto garantiza que los coeficientes calculados (\(\hat{\beta}\)) son insesgados y consistentes. En términos prácticos, el efecto estimado de la gestación, la paridad y la edad sobre el peso del neonato no presenta desviaciones sistemáticas y representa el verdadero valor poblacional promedio.

El modelo evaluado se considera Científicamente Válido y Confiable para la toma de decisiones y la interpretación académica, fundamentado en los siguientes puntos:

Estado de los Supuestos: Se cumplen satisfactoriamente 4 de los 5 supuestos fundamentales (Linealidad, Media Cero, Independencia y Normalidad).

Tratamiento de la Heterocedasticidad: Para neutralizar el impacto del rechazo de la homocedasticidad, se procedió a realizar una Inferencia Robusta mediante el Estimador de White (HC1). Este ajuste recalibra los errores estándar sin alterar los coeficientes, devolviendo la validez a los p-values y asegurando que la significancia observada sea real y no un artefacto de la varianza no constante.


¿Qué pasa con el modelo si NO se cumple un supuesto?

1. Si falla la Linealidad (Error de Especificación)¿Qué ocurre?

Estás ajustando un hiperplano o línea recta (\(Y = \beta_0 + \beta_1 X\)) cuando la verdadera relación poblacional obedece a una estructura diferente (por ejemplo, logarítmica, cuadrática o exponencial). Consecuencia Matemática (Gravedad Extrema): Los estimadores \(\hat{\beta}\) se vuelven sesgados e inconsistentes.

Impacto Práctico: El coeficiente estimado no reflejará el verdadero efecto marginal de \(X\) sobre \(Y\). El modelo producirá predicciones sistemáticamente erróneas, sobreestimando en algunos tramos de los datos y subestimando en otros. Ningún aumento en el tamaño de la muestra (\(n \to \infty\)) corregirá este sesgo.

2. Si falla la Media Cero del Error (y su extensión: la Exogeneidad)¿Qué ocurre? Aquí hay que hacer una distinción matemática estricta: Si literalmente solo falla \(E(\varepsilon_i) = 0\), pero incluyes un intercepto (\(\beta_0\)) en tu modelo, el intercepto absorberá matemáticamente esa diferencia. Los coeficientes de las pendientes (\(\beta_1, \beta_2...\)) seguirán siendo correctos.Pero en estadística avanzada, este supuesto va de la mano con la Exogeneidad Estricta (\(E(\varepsilon_i | X) = 0\)). Si esto falla (lo que llamamos Endogeneidad), significa que el error está correlacionado con tus variables explicativas (\(Cov(X, \varepsilon) \neq 0\)). Esto suele pasar si omites una variable importante que afecta tanto a \(X\) como a \(Y\).

Consecuencia Matemática (Gravedad Fatal): Genera el Sesgo de Variable Omitida. Todos los estimadores \(\hat{\beta}\) se vuelven sesgados e inconsistentes.

Impacto Práctico: El modelo le atribuirá a la variable \(X\) un efecto que en realidad le corresponde al factor inobservable oculto en el error. Pierdes toda capacidad de hacer inferencia causal.

3. Si falla la Homocedasticidad (Aparición de Heterocedasticidad)¿Qué ocurre?

La varianza condicional de los errores no es constante (\(Var(\varepsilon_i | X) \neq \sigma^2\)). Es decir, el margen de error del modelo crece o se encoge dependiendo de los valores de \(X\) (típicamente formando un gráfico de dispersión en forma de embudo).

Consecuencia Matemática (Gravedad Moderada - Ineficiencia): Los estimadores \(\hat{\beta}\) siguen siendo insesgados y consistentes (el cálculo central de la pendiente es correcto en promedio). Sin embargo, dejan de ser el Mejor Estimador Lineal Insesgado (BLUE) porque pierden la propiedad de varianza mínima.

Impacto Práctico: Las fórmulas estándar para calcular la varianza de \(\hat{\beta}\) colapsan. Los errores estándar (\(SE\)) calculados por el software estarán sesgados (usualmente se subestiman). Esto infla artificialmente los estadísticos \(t\) y reduce los \(p\text{-values}\), llevándote a cometer un Error Tipo I: concluir que una variable es estadísticamente significativa cuando en realidad no lo es.

Solución: Se deben usar Errores Estándar Robustos (como el estimador de White o Huber-White).

4. Si falla la Independencia (Aparición de Autocorrelación)¿Qué ocurre? Las perturbaciones estocásticas están correlacionadas entre sí (\(Cov(\varepsilon_i, \varepsilon_j) \neq 0\)). Un choque o error en la observación \(i\) contiene información sistemática sobre el error en la observación \(j\). (Muy común en series de tiempo o econometría espacial). Consecuencia Matemática (Gravedad Moderada - Ineficiencia): Las consecuencias son matemáticamente idénticas a las de la heterocedasticidad. Los estimadores MCO se mantienen insesgados y consistentes, pero se vuelven ineficientes. La matriz de varianzas y covarianzas de los errores deja de ser escalar.

Impacto Práctico: Los errores estándar se calculan de manera incorrecta, invalidando por completo la inferencia estadística (los intervalos de confianza y las pruebas de hipótesis \(t\) y \(F\) carecen de validez matemática).

Solución: Se deben aplicar estimadores de varianza robustos a la autocorrelación (como Newey-West) o cambiar la estimación a Mínimos Cuadrados Generalizados (MCG).


12 REGRESIÓN LINEAL MÚLTIPLE

Un Modelo de Regresión Lineal Múltiple es una extensión del modelo simple que permite examinar la relación entre una variable dependiente continua (\(Y\)) y un conjunto de \(k\) variables independientes o predictores (\(X_1, X_2, \dots, X_k\)).

Desde la perspectiva del álgebra lineal, el modelo busca el mejor hiperplano de ajuste en un espacio de \(k+1\) dimensiones, minimizando la suma de los cuadrados de los residuos (\(SSR\)). Su ventaja fundamental es que permite estimar el efecto marginal de cada variable manteniendo las demás constantes (condición Ceteris Paribus).

Fórmula: \[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + \varepsilon_i\] Donde:

\(\beta_0\): Es el intercepto o valor esperado de \(Y\) cuando todos los predictores son cero.

\(\beta_j\): Son los coeficientes de regresión parcial. Representan el cambio en la media de \(Y\) por cada unidad de cambio en \(X_j\), controlando por el resto de variables en el modelo.

\(\varepsilon_i\): Error estocástico que captura los factores no observados, donde se asume \(\varepsilon \sim N(0, \sigma^2)\).

Si nuestra matriz de datos posee múltiples variables explicativas que, en teoría, afectan a la variable dependiente \(Y\) (por ejemplo, incorporamos una variable \(Z\) y otra \(W\)), el modelo analítico se expande.

Simulación de asignación de variables adicionales z <- dt[, 3] w <- dt[, 4]

Construcción del Modelo de Regresión Múltiple modelo_multi <- lm(y ~ x + z + w, data = dt)

*Extracción de resultados summary(modelo_multi)

Presentará ahora múltiples p-values (uno para \(X\), uno para \(Z\) y otro para \(W\)). Las variables cuyo p-value sea menor a 0.05 se coronan como predictoras significativas y deben mantenerse en la ecuación; aquellas que superen este umbral no aportan valor predictivo real y la mejor práctica estadística es eliminarlas del modelo definitivo.

En nuestro análisis del peso al nacer (bwt), expandimos la especificación inicial incorporando las siguientes covariables biológicas:

gestation (Días de gestación): Predictor principal. Matemáticamente, esperamos una correlación positiva fuerte, ya que el desarrollo fetal es una función directa del tiempo intrauterino.

age (Edad materna): Variable continua. Se incorpora para controlar el efecto de la madurez fisiológica de la madre, la cual puede influir en la eficiencia placentaria y la disponibilidad de nutrientes para el feto.

\[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \varepsilon_i\] \(Y\): Peso al nacer (bwt).

\(X_1\): Días de gestación (gestation).

\(X_2\): Edad materna (age).

# Especificación del modelo utilizando únicamente variables continuas
modelo_multi <- lm(bwt ~ gestation + age, data = dt)

# Resumen estadístico del modelo
summary(modelo_multi)
## 
## Call:
## lm(formula = bwt ~ gestation + age, data = dt)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -50.188 -11.165   0.116  10.101  57.672 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.52262    8.75495  -1.773   0.0765 .  
## gestation     0.46765    0.02978  15.702   <2e-16 ***
## age           0.16568    0.08282   2.001   0.0457 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.66 on 1218 degrees of freedom
##   (15 observations deleted due to missingness)
## Multiple R-squared:  0.1691, Adjusted R-squared:  0.1677 
## F-statistic: 123.9 on 2 and 1218 DF,  p-value: < 2.2e-16

Interpretación de los Parámetros (\(\beta\))Basado en las estimaciones obtenidas por el método de Mínimos Cuadrados Ordinarios (MCO),

la ecuación predictiva es:

\[\widehat{Peso} = -15.52 + 0.467 \cdot (Gestation) + 0.165 \cdot (Age)\] Intercepto (\(\beta_0 = -15.52\)): Representa el valor teórico del peso cuando las variables explicativas son nulas. En este contexto biológico, actúa principalmente como una constante de ajuste para situar el hiperplano de regresión.

Coeficiente de Gestación (\(\beta_1 = 0.467\)): Indica que, manteniendo la edad constante, por cada día adicional de gestación, el peso del bebé aumenta en promedio 0.467 onzas.

Coeficiente de Edad (\(\beta_2 = 0.165\)): Indica que, a igualdad de días de gestación, por cada año adicional en la edad de la madre, el peso del neonato aumenta en promedio 0.165 onzas.3. Análisis de ResultadosA.

Evaluación de Significancia IndividualGestation (\(p < 2 \times 10^{-16}\)): El valor \(p\) es infinitesimal, lo que confirma que la duración del embarazo es un predictor crítico y altamente significativo.

Age (\(p = 0.0457\)): La edad es significativa al nivel del 5% (\(\alpha = 0.05\)). Esto demuestra que la madurez fisiológica materna aporta información estadísticamente relevante para explicar el peso al nacer, más allá del tiempo de gestación.

12.1 Selección del Modelo: Criterio de Información de Akaike (AIC)

Una vez estimados los modelos simple y múltiple, es necesario determinar cuál de las especificaciones representa de mejor manera la realidad biológica de los datos bajo el Principio de Parsimonia. Para ello, se utiliza el estadístico AIC.

12.1.1 Definición y Propósito

El Criterio de Información de Akaike (AIC) es una métrica de calidad relativa que estima la cantidad de información perdida por un modelo específico. Su objetivo es encontrar el equilibrio óptimo entre: * Bondad de ajuste: Qué tan bien predice el modelo los datos observados. * Simplicidad (Parsimonia): El menor número posible de variables explicativas.

12.1.2 Fórmula:

El cálculo del AIC se fundamenta en la teoría de la información y la máxima verosimilitud: \[AIC = 2k - 2\ln(\hat{L})\]

Donde: * \(k\): Es el número de parámetros en el modelo (incluyendo el intercepto). Actúa como una penalización por complejidad. * \(\hat{L}\): Es el valor máximo de la función de verosimilitud del modelo. Representa el éxito del ajuste.

12.1.3 Implementación de la Comparación en R

En este bloque se compara el modelo inicial (una variable) con el modelo expandido (dos variables):

# Evaluación comparativa mediante el Criterio de Información de Akaike (AIC)
AIC(modelo, modelo_multi)

Análisis del criterio AIC: Cuando un analista compite con varios modelos matemáticos para explicar un mismo fenómeno, el modelo ganador será estrictamente aquel que exhiba el valor de AIC más bajo, ya que este indicador penaliza la complejidad innecesaria y premia el mejor ajuste con la menor cantidad de variables posibles.

Bondad de Ajuste y Comparación (AIC)R-cuadrado Ajustado (\(0.1677\)): El modelo explica el 16.77% de la varianza total del peso.

Criterio de Akaike (AIC): Al comparar con el modelo simple, el modelo múltiple exhibe un estadístico AIC estrictamente menor. Este criterio premia la reducción del error y penaliza la complejidad innecesaria, confirmando la superioridad estadística de esta especificación.


13 METODOLOGÍA DE SELECCIÓN DE VARIABLES

Para determinar la especificación definitiva del modelo, se aplica un enfoque multicriterio basado en el rigor estadístico y el principio de parsimonia. A continuación, se detallan los filtros utilizados:

13.0.1 1. Criterio de Significancia Individual (\(p\text{-value}\))

Es el primer filtro de exclusión. Se analiza la probabilidad de que el coeficiente estimado sea distinto de cero por puro azar.

  • Regla de decisión: Se conservan las variables con un \(p\text{-value} < 0.05\) (nivel de confianza del 95%).
  • Resultados en el modelo actual:
    • Gestation: \(p < 2 \times 10^{-16}\) (Altamente significativa; se conserva).
    • Age: \(p = 0.0457\) (Significativa; se conserva al situarse bajo el umbral del 5%).

13.0.2 2. Criterio de Parsimonia (AIC)

El Criterio de Información de Akaike evalúa la calidad relativa del modelo, penalizando el exceso de parámetros. * Regla de decisión: Se prefiere siempre el modelo con el AIC más bajo. * Procedimiento: Si al eliminar una variable el AIC aumenta, se concluye que la variable era necesaria para la estructura informativa del modelo. En nuestro caso, el modelo múltiple redujo el AIC en 21 unidades respecto al simple, validando la inclusión de la edad materna.

13.0.3 3. Coeficiente de Determinación Ajustado (\(\bar{R}^2\))

A diferencia del \(R^2\) convencional, el \(R^2\) ajustado solo incrementa si la nueva variable mejora el ajuste más de lo que se esperaría por simple azar. * Selección: Se consideran “variables útiles” aquellas que logran elevar este indicador, demostrando que su aporte a la varianza explicada supera el costo de perder un grado de libertad.

13.0.4 4. Filtro de Multicolinealidad (VIF)

Este criterio previene la redundancia de información entre predictores, lo cual podría inflar artificialmente las varianzas y desestabilizar el modelo. * Criterio VIF (Variance Inflation Factor): * VIF < 5: Indica una relación segura entre predictores. * VIF > 5 o 10: Sugiere una redundancia severa que exigiría la eliminación de la variable menos significativa para corregir la inestabilidad.

13.0.5 5. Estrategia de Depuración: Eliminación hacia atrás (Backward Elimination)

la metodología más robusta en inferencia estadística, siguiendo estos pasos:

  1. Se inicia con el modelo saturado (todos los predictores continuos disponibles).
  2. Se identifica y elimina la variable con el \(p\text{-value}\) más alto que supere el 0.05.
  3. Se reajusta el modelo y se repite el proceso iterativamente hasta obtener una especificación donde todos los predictores sean significativos.
  4. Se verifica finalmente que el modelo resultante sea el de menor AIC.

Justificación de la Selección Final: Para la configuración definitiva de este estudio, se aplica la estrategia de depuración manual detallada anteriormente. Se mantuvieron en el modelo únicamente aquellas variables cuyo \(p\text{-value}\) fuera inferior a \(0.05\) (Gestation y Age). Asimismo, la reducción sustancial del estadístico AIC en el modelo múltiple confirma que ambas variables deben ser conservadas para garantizar la máxima capacidad explicativa con la menor pérdida de información, blindando la validez de las conclusiones perinatales.

14 Nuevamente el modelo eliminando los outliers

. TRATAMIENTO DE DATOS Y VALORES CENTINELA En el analisis de datos profesionales, es comun encontrarse con “Valores Centinela”. Estos no son errores de digitacion, sino codigos diseñados por los investigadores originales para representar informacion faltante.

Explicacion de los codigos 99 y 999 En el estudio original de Berkeley (Child Health and Development Studies), del cual proviene la base de datos babies:

999 (en Gestacion): Se utilizo para indicar que la duracion del embarazo era desconocida (usualmente por falta de registros del ultimo periodo menstrual).

99 (en Edad): Representa registros donde la edad de la madre no fue recolectada.

Importancia de la Limpieza: Si estos codigos no se transforman en valores nulos (NA), el software los tratara como numeros reales. Esto causaria que el promedio de gestacion subiera drasticamente, arruinando la pendiente de la regresion y cualquier conclusion medica.

15 Carga de datos identificando espacios vacios

# Cargar la base de datos 
url <- 'https://tinyurl.com/ya9fvteb'
datos_estudio <- read.table(url, header=TRUE, sep='\t', na.strings = c("", " "))

# Paso 1: Codificacion de valores centinela a NA
datos_estudio$gestation[datos_estudio$gestation == 999] <- NA
datos_estudio$age[datos_estudio$age == 99] <- NA

# Paso 2: Imputacion por la Media
# Sustituimos los vacios por el promedio para no perder registros (conservar n)
med_gest <- mean(datos_estudio$gestation, na.rm = TRUE)
datos_estudio$gestation[is.na(datos_estudio$gestation)] <- med_gest

med_age <- mean(datos_estudio$age, na.rm = TRUE)
datos_estudio$age[is.na(datos_estudio$age)] <- med_age

# Aseguramos formato numerico
datos_estudio$gestation <- as.numeric(datos_estudio$gestation)
datos_estudio$age <- as.numeric(datos_estudio$age)


cat("Limpieza completada. Datos faltantes restantes:", sum(is.na(datos_estudio$bwt)))
## Limpieza completada. Datos faltantes restantes: 0
  1. MODELO DE REGRESION LINEAL (BWT ~ GESTATION)

Se define el modelo de respuesta para cuantificar la relacion entre el tiempo intrauterino y el desarrollo fisico final del neonato.

# Ajuste del modelo con nuevos nombres de objetos
fit_peso_neonatal <- lm(bwt ~ gestation, data = datos_estudio)

# Resumen de resultados
summary(fit_peso_neonatal)
## 
## Call:
## lm(formula = bwt ~ gestation, data = datos_estudio)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -49.394 -11.125   0.071  10.106  57.353 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -10.06418    8.32220  -1.209    0.227    
## gestation     0.46426    0.02974  15.609   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.66 on 1221 degrees of freedom
##   (13 observations deleted due to missingness)
## Multiple R-squared:  0.1663, Adjusted R-squared:  0.1657 
## F-statistic: 243.6 on 1 and 1221 DF,  p-value: < 2.2e-16

Ecuación del Modelo:

la relación funcional se expresa como: \[\widehat{bwt} = -10.064 + 0.464 \cdot (gestation)\]

  1. Significado de los Coeficientes (\(\beta\))

\(\beta_1\) (Pendiente = \(0.464\)): Este es el corazón del modelo. Indica que por cada día adicional de gestación, el peso del neonato aumenta en promedio 0.464 onzas. Es una relación positiva que confirma el crecimiento fetal acumulativo.

\(\beta_0\) (Intercepto = \(-10.064\)): Representa el valor teórico del peso a los 0 días de gestación. Dado que su \(p\text{-value}\) (\(0.227\)) es mayor a \(0.05\), este valor no es estadísticamente diferente de cero, lo cual es coherente con la realidad biológica.

# Tabla ANOVA para verificar la varianza
anova(fit_peso_neonatal)
  1. EVALUACIÓN DE LOS SUPUESTOS DE GAUSS-MARKOV

Para validar la robustez del modelo fit_peso_neonatal, analizamos los residuos:

A. Media de los Residuos Se verifica que el error promedio sea cero, lo cual confirma que el modelo es insesgado.

mean(residuals(fit_peso_neonatal))
## [1] -1.022568e-15

B. Homocedasticidad Se utiliza la prueba de Breusch-Pagan. Buscamos que la varianza de los errores sea constante a lo largo de todas las observaciones.

# Hipotesis Nula (H0): Existe homocedasticidad
bptest(fit_peso_neonatal)
## 
##  studentized Breusch-Pagan test
## 
## data:  fit_peso_neonatal
## BP = 7.1596, df = 1, p-value = 0.007456

C. Independencia Evaluamos la ausencia de autocorrelacion serial mediante la prueba de Durbin-Watson.

# Hipotesis Nula (H0): Los residuos son independientes
dwtest(fit_peso_neonatal)
## 
##  Durbin-Watson test
## 
## data:  fit_peso_neonatal
## DW = 2.0075, p-value = 0.552
## alternative hypothesis: true autocorrelation is greater than 0

D. Normalidad Comprobamos si los residuos siguen una distribucion normal (Campana de Gauss), requisito clave para la validez de los p-values.

# Hipotesis Nula (H0): Los residuos son normales
shapiro.test(residuals(fit_peso_neonatal))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(fit_peso_neonatal)
## W = 0.99773, p-value = 0.08816

¡Por que da igual al anterior? Lo que hicimos (Limpiar códigos 999): Solo le dijimos a R que el “999” no es un número, sino un vacío. Al final, R terminó borrando esas filas (o tú las llenaste con la media, pero el modelo no lo tomó). Como esos 999 ya eran “basura” que R ignoraba, el resultado no cambia.

Lo que NO hicimos (Eliminar Outliers biológicos): No borramos a los bebés que nacieron muy prematuros (ej. 150 días) ni a los que pesaron muy poco. Estos son “outliers” reales que sí están en el modelo y mueven la línea de regresión. Decidimos conservarlos para que el modelo sea fiel a la realidad biológica total.


16 Otro ejemplo con otra data:

1. DESCRIPCIÓN DE LA DATA Y EL PROBLEMA:

Para este análisis utilizaremos el conjunto de datos mtcars, extraído de la revista Motor Trend de 1974. Este dataset comprende el consumo de combustible y 10 aspectos del diseño y rendimiento para 32 automóviles.Variables de EstudioSeleccionaremos tres variables continuas principales para nuestro análisis:

mpg (Variable Dependiente - \(Y\)): Millas por galón (Rendimiento de combustible).

wt (Variable Independiente 1 - \(X_1\)): Peso del vehículo (en miles de libras).hp (Variable Independiente 2 - \(X_2\)): Caballos de fuerza (Potencia bruta).

Planteamiento del Problema

Objetivo: Determinar cómo las características físicas y mecánicas de un automóvil afectan su eficiencia de combustible.Pregunta de investigación: ¿Es posible predecir el consumo de combustible (mpg) de un vehículo basándonos en su peso (wt) y su potencia (hp)?

# Cargar la base de datos (ya viene preinstalada en R y es 100% numerica)
datos_autos <- mtcars


# Visualizar las primeras filas de las variables de interes
head(datos_autos[, c("mpg", "wt", "hp")])
  1. ANÁLISIS DE CORRELACIÓNAntes de modelar, verificamos si existe una asociación matemática lineal entre nuestras variables. Dado que son variables continuas estándar, utilizaremos el Coeficiente de Correlación de Pearson.Hipótesis Bi-variadaAsumimos que a mayor peso (wt), menor será el rendimiento (mpg).Asumimos que a mayor potencia (hp), el motor consumirá más, bajando el rendimiento (mpg).
#Correlacion entre Peso y Rendimiento
cor_peso <- cor.test(datos_autos$wt, datos_autos$mpg, method = "pearson")
print(cor_peso)
## 
##  Pearson's product-moment correlation
## 
## data:  datos_autos$wt and datos_autos$mpg
## t = -9.559, df = 30, p-value = 1.294e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.9338264 -0.7440872
## sample estimates:
##        cor 
## -0.8676594
# Matriz de correlacion general
cor(datos_autos[, c("mpg", "wt", "hp")])
##            mpg         wt         hp
## mpg  1.0000000 -0.8676594 -0.7761684
## wt  -0.8676594  1.0000000  0.6587479
## hp  -0.7761684  0.6587479  1.0000000

Interpretación de la Correlación:

La correlación entre Peso y Rendimiento es de -0.867. Es una correlación fuerte y negativa. Significa que mientras más pesado es el auto, menos millas recorre por galón.El \(p\text{-value}\) es \(1.294 \times 10^{-10}\), confirmando que esta relación es estadísticamente significativa (\(p < 0.05\)).3. MODELO DE REGRESIÓN LINEAL SIMPLEIniciamos con un modelo bivariado para predecir el rendimiento (\(Y\)) basándonos únicamente en el peso del auto (\(X\)).Ecuación teórica:\[Y = \beta_0 + \beta_1 X + \varepsilon\]

# Ajuste del modelo de regresion simple
fit_simple <- lm(mpg ~ wt, data = datos_autos)

# Resumen de resultados
summary(fit_simple)
## 
## Call:
## lm(formula = mpg ~ wt, data = datos_autos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5432 -2.3647 -0.1252  1.4096  6.8727 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
## wt           -5.3445     0.5591  -9.559 1.29e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.046 on 30 degrees of freedom
## Multiple R-squared:  0.7528, Adjusted R-squared:  0.7446 
## F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

modelo: \[\text{mpg} = 37.2851 - 5.3445 \cdot (\text{wt})\]

Análisis del Modelo Simple:

Pendiente (\(\beta_1\) = -5.344): Por cada 1,000 libras adicionales de peso, el rendimiento del auto disminuye en 5.34 millas por galón.

Bondad de Ajuste (\(R^2\)): El peso por sí solo explica el 75.28% de la variabilidad en el consumo de combustible.

4. MODELO DE REGRESIÓN LINEAL MÚLTIPLE

Para hacer nuestra predicción más exacta, expandimos el modelo incorporando los Caballos de Fuerza (hp).

Ecuación teórica:

\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\]

# Ajuste del modelo de regresion multiple
fit_multiple <- lm(mpg ~ wt + hp, data = datos_autos)

# Resumen de resultados
summary(fit_multiple)
## 
## Call:
## lm(formula = mpg ~ wt + hp, data = datos_autos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.941 -1.600 -0.182  1.050  5.854 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37.22727    1.59879  23.285  < 2e-16 ***
## wt          -3.87783    0.63273  -6.129 1.12e-06 ***
## hp          -0.03177    0.00903  -3.519  0.00145 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.593 on 29 degrees of freedom
## Multiple R-squared:  0.8268, Adjusted R-squared:  0.8148 
## F-statistic: 69.21 on 2 and 29 DF,  p-value: 9.109e-12

Análisis del Modelo Múltiple:

modelo: \[\text{mpg} = 37.227 - 3.877 \cdot (\text{wt}) - 0.031 \cdot (\text{hp})\]

Efecto del Peso (\(\beta_1\) = -3.877): Manteniendo la potencia constante, por cada 1,000 libras extra, el rendimiento cae 3.87 millas por galón. Es altamente significativo (\(p = 0.00145\)).

Efecto de la Potencia (\(\beta_2\) = -0.031): Manteniendo el peso constante, por cada caballo de fuerza adicional, el rendimiento cae 0.031 millas por galón. También es significativo (\(p = 0.00145\))

.Mejora del Ajuste (Adjusted \(R^2\)): El \(R^2\) ajustado subió al 81.48%. Esto demuestra que agregar la potencia (hp) mejoró genuinamente la capacidad predictiva del modelo.

  1. CONCLUSIÓN

La transición del modelo simple al modelo múltiple demuestra que el consumo de combustible es un fenómeno multifactorial. Aunque el peso es el factor más determinante (correlación de -0.86), la incorporación de la potencia del motor refina la ecuación, logrando explicar más del 81% del comportamiento del vehículo sin caer en redundancias matemáticas.


17 Modelo de Regresión Logistica

La Regresión Logística es una técnica estadística y de aprendizaje automático (Machine Learning) es una técnica de modelado predictivo utilizada para la clasificación binaria.

Mientras que la Regresión Lineal responde a la pregunta “¿Cuánto?” (predice cantidades continuas como el peso, el precio o la distancia), la Regresión Logística responde a la pregunta “¿Ocurrirá o no?”. Su objetivo es calcular la probabilidad de que una observación pertenezca a una categoría específica.

A diferencia de la regresión lineal que predice variables continuas (magnitudes), la regresión logística predice la probabilidad de ocurrencia de un evento que solo tiene dos resultados posibles (Ej. Éxito/Fracaso, Sano/Enfermo, 1/0).

Para lograr esto, utiliza la Función Sigmoide, la cual transforma cualquier valor matemático en un rango estrictamente acotado entre \(0\) y \(1\) (probabilidades).

El corazón de la regresión logística es la Función Sigmoide (o curva logística). Es una función en forma de “S” que transforma el resultado infinito de una ecuación lineal en una probabilidad válida.La fórmula de la probabilidad \(P\) de que ocurra el evento (\(Y=1\)) dados ciertos predictores (\(X\)) es:

La probabilidad condicional de que el evento de riesgo ocurra (\(Y=1\)) dado un factor predictivo (\(X\)), se modela matemáticamente como:

\[P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1)}}\] \(P(Y=1|X)\): Es la probabilidad resultante (el valor entre 0 y 1).

\(1\) (en el numerador): Es el “techo” de la función. Garantiza que la curva nunca supere el 100%.

\(e\): Es el Número de Euler (\(\approx 2.71828\)), la base de los logaritmos naturales, usado para modelar tasas de crecimiento.

\((\beta_0 + \beta_1 X_1 + \dots)\): Esta es tu vieja conocida, la ecuación de la línea recta. Actúa como el exponente (con signo negativo).

Mecánica de la fórmula: Si la ecuación lineal da un número positivo muy grande, \(e^{-\text{grande}}\) se vuelve casi \(0\). La fórmula queda \(\frac{1}{1+0} = 1\) (Alta probabilidad).

Si la ecuación lineal da un número negativo muy grande, \(e^{-(-\text{grande})}\) tiende a infinito. La fórmula queda \(\frac{1}{1+\infty} = 0\) (Baja probabilidad).

El Enlace “Logit” (Cómo lo calcula el software)Para que programas como R puedan estimar los coeficientes (\(\beta\)), necesitan trabajar con relaciones lineales. Para ello, aplican álgebra para despejar la ecuación anterior, transformando la probabilidad en lo que se conoce como la Función Logit.Primero, se calculan las Ventajas (Odds), que es la razón entre la probabilidad de que el evento ocurra y la probabilidad de que no ocurra:\[\text{Odds} = \frac{P}{1 - P}\]Luego, se le aplica el logaritmo natural (\(\ln\)) a estas ventajas.

Esta transformación nos devuelve nuestra ecuación lineal clásica:\[\ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots\]Es decir, en la regresión logística, no predecimos la probabilidad directamente mediante una suma, sino que predecimos el logaritmo de las ventajas de que el evento suceda.

Interpretación Práctica (Odds Ratios) Dado que a los seres humanos nos cuesta interpretar “logaritmos de ventajas”, cuando obtenemos los coeficientes (\(\beta\)) de nuestro modelo, les aplicamos la función exponencial (\(e^\beta\)) para obtener los Odds Ratios (OR).

Si el OR es \(> 1\): El predictor es un factor de riesgo. (Ej. Fumar aumenta el riesgo de cáncer).

Si el OR es \(< 1\): El predictor es un factor protector. (Ej. Como vimos en tu modelo perinatal, más días de gestación disminuyen el riesgo de bajo peso).

Si el OR es \(= 1\): El predictor no tiene efecto sobre el evento.

Para poder estimar los parámetros \(\beta\) mediante máxima verosimilitud, la ecuación se transforma a su forma lineal conocida como el Enlace Logit (logaritmo de las ventajas u odds):

\[\ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1\]

Variable Dependiente (\(Y\)): Es dicotómica o binaria. Solo tiene dos valores posibles (ej. \(1\) = Sí/Éxito/Enfermo, \(0\) = No/Fracaso/Sano).

Resultado del Modelo: No escupe un simple “1” o “0”, sino una probabilidad en porcentaje (ej. Existe un 85% de probabilidad de que el paciente desarrolle la enfermedad).

** PREPARACIÓN Y DEPURACIÓN DE DATOS**

El objetivo del estudio es predecir la probabilidad de que un neonato nazca con Bajo Peso (menor a 88 onzas) utilizando la duración de la gestación como variable predictora

# Cargar la base de datos 
url <- 'https://tinyurl.com/ya9fvteb'
datos_logit <- read.table(url, header=TRUE, sep='\t', na.strings = c("", " "))

# 2. Tratamiento de Valores Centinela (999) e Imputación por Media
datos_logit$gestation[datos_logit$gestation == 999] <- NA
media_gest <- mean(datos_logit$gestation, na.rm = TRUE)
datos_logit$gestation[is.na(datos_logit$gestation)] <- media_gest
datos_logit$gestation <- as.numeric(datos_logit$gestation)

# 3. Creación de la Variable Dicotómica (Variable de Respuesta Y)
# 1 = Riesgo (Bajo peso: < 88 onzas), 0 = Normal
datos_logit$low_bwt <- ifelse(datos_logit$bwt < 88, 1, 0)

# Distribución de la variable de interés
table(Riesgo = datos_logit$low_bwt)
## Riesgo
##    0    1 
## 1178   58

17.1 ESTIMACIÓN DEL MODELO LOGÍSTICO

Se utiliza la función glm() especificando la familia binomial para aplicar la transformación logit.

# Ajuste del modelo: Probabilidad de bajo peso en función de la gestación
modelo_riesgo <- glm(low_bwt ~ gestation, data = datos_logit, family = "binomial")

# Resumen de estimadores
summary(modelo_riesgo)
## 
## Call:
## glm(formula = low_bwt ~ gestation, family = "binomial", data = datos_logit)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) 17.510597   2.238010   7.824 5.11e-15 ***
## gestation   -0.075805   0.008461  -8.959  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 460.83  on 1222  degrees of freedom
## Residual deviance: 362.78  on 1221  degrees of freedom
##   (13 observations deleted due to missingness)
## AIC: 366.78
## 
## Number of Fisher Scoring iterations: 6

La Ecuación del Modelo (El Modelo Matemático)A partir de la columna Estimate, podemos construir la ecuación real.

Recuerda que la regresión logística primero calcula el logaritmo de las ventajas (Log-Odds) de que el bebé nazca con bajo peso.

La ecuación lineal (Logit) es:

\[\ln\left(\frac{P}{1-P}\right) = 17.510597 - 0.075805 \cdot (\text{gestation})\] Y la ecuación real de probabilidad (la Función Sigmoide) queda así: \[P(\text{Bajo Peso}) = \frac{1}{1 + e^{-(17.510597 - 0.075805 \cdot \text{gestation})}}\]

  1. ¿Qué significan los coeficientes? El Intercepto (\(17.510\)): Es el valor matemático cuando la gestación es \(0\). En la vida real, un bebé no puede tener 0 días de gestación, por lo que este número es solo el “ancla” matemática para que la curva en S se posicione correctamente en el gráfico.La Pendiente o Gestación (\(-0.0758\)):

Este es el dato vital. El signo negativo indica que la relación es inversa: a medida que aumentan los días de gestación, disminuye el riesgo (los log-odds) de que el bebé nazca con bajo peso.

Significancia (***): El \(p\text{-value}\) es \(< 2e-16\). Es decir, la probabilidad de que esta relación sea una coincidencia es prácticamente cero. La gestación es un predictor definitivo del bajo peso.

17.1.1 Interpretación de los Coeficientes (Odds Ratios)

Debido a que los coeficientes originales de glm están en escala logarítmica, aplicamos la función exponencial para convertirlos en Odds Ratios (OR), facilitando su interpretación clínica.

# Cálculo de Odds Ratios e Intervalos de Confianza (95%)
or_resultados <- exp(cbind(OR = coef(modelo_riesgo), confint(modelo_riesgo)))
round(or_resultados, 3)
##                       OR      2.5 %       97.5 %
## (Intercept) 40249062.762 548723.341 3.620132e+09
## gestation          0.927      0.911 9.420000e-01

Análisis Clínico: El Odds Ratio para la gestación es significativamente menor a 1. Esto indica un efecto protector: por cada día adicional que el feto permanece en el útero, las probabilidades (odds) de nacer con bajo peso disminuyen significativamente.

17.1.2 EVALUACIÓN DEL PODER PREDICTIVO

Para evaluar qué tan bueno es nuestro modelo tomando decisiones clínicas, generamos predicciones de probabilidad y las comparamos con los datos reales usando una Matriz de Confusión

# 4. EVALUACIÓN DEL PODER PREDICTIVO

# 1. Generar probabilidades predichas para cada paciente
probabilidades <- predict(modelo_riesgo, type = "response")

# 2. Convertir probabilidad en clasificación binaria (Punto de corte: 0.5 o 50%)
predicciones <- ifelse(probabilidades > 0.5, 1, 0)

# 3. Matriz de Confusión (CORREGIDA)
# Usamos modelo_riesgo$y para obtener exactamente los 1223 datos reales que uso el modelo
matriz_confusion <- table(Prediccion = predicciones, Real = modelo_riesgo$y)
print(matriz_confusion)
##           Real
## Prediccion    0    1
##          0 1161   53
##          1    5    4
# 4. Cálculo de Precisión Global (Accuracy)
precision <- sum(diag(matriz_confusion)) / sum(matriz_confusion)
cat("La precisión global del modelo es:", round(precision * 100, 2), "%\n")
## La precisión global del modelo es: 95.26 %

Verdaderos Negativos (1161): El modelo predijo que el bebé nacería sano (peso normal) y, efectivamente, nació sano. ¡Excelente!

Falsos Positivos (5): El modelo predijo Bajo Peso, pero el bebé nació sano. (Una falsa alarma clínica, asusta a los padres, pero no es grave).

Verdaderos Positivos (4): El modelo predijo Bajo Peso y el bebé nació con Bajo Peso. (El modelo salvó el día preparó la incubadora).

Falsos Negativos (53): El modelo predijo peso normal, pero el bebé nació con Bajo Peso

¿Por qué tu precisión global es tan alta si el modelo se equivocó 53 veces fallando en detectar el riesgo? Ocurre porque la base de datos está desbalanceada. La inmensa mayoría de los bebés (\(1161 + 5 = 1166\)) nacen sanos. Solo \(57\) bebés nacieron con bajo peso. Si realizaramos un modelo “tonto” que siempre dijera “El bebé nacerá sano” sin importar la gestación, acertaría \(1166\) de \(1223\) veces, dando una precisión del 95.3%.Tu modelo es preciso matemáticamente, pero clínicamente no está logrando su objetivo principal: encontrar a los bebés en riesgo.