Clase 5

Esta unidad introduce los conceptos fundamentales de correlación y regresión como herramientas estadísticas para analizar la relación entre dos variables cuantitativas. Se estudia cómo identificar y medir la fuerza y dirección de una relación lineal mediante el coeficiente de correlación, así como cómo modelar dicha relación a través de una recta de regresión.
Autor/a
Afiliación

Blás Antonio Benítez Cristaldo

Fecha de publicación

9 de abril de 2025

1 📚 Introducción

Esta unidad introduce los conceptos fundamentales de correlación y regresión como herramientas estadísticas para analizar la relación entre dos variables cuantitativas.

Se estudia cómo identificar y medir la fuerza y dirección de una relación lineal mediante el coeficiente de correlación de Pearson, así como cómo modelar dicha relación a través de una recta de regresión lineal.

También se abordan las medidas de ajuste del modelo, como el coeficiente de determinación, y se analizan los supuestos del modelo.


2 🎯 Objetivos

  • Interpretar y calcular el coeficiente de correlación lineal.

  • Ajustar un modelo de regresión lineal simple.

  • Verificar los supuestos del modelo.

  • Evaluar la calidad del ajuste del modelo.


3 📊 Generación de datos y modelo lineal

Código
set.seed(123)

x <- rnorm(100, mean = 50, sd = 10)
error <- rnorm(100, mean = 0, sd = 5)
y <- 3 + 0.7 * x + error

datos <- data.frame(x, y)

modelo <- lm(y ~ x, data = datos)
summary(modelo)

Call:
lm(formula = y ~ x, data = datos)

Residuals:
    Min      1Q  Median      3Q     Max 
-9.5367 -3.4175 -0.4375  2.9032 16.4520 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.79778    2.76324   1.374    0.172    
x            0.67376    0.05344  12.608   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.854 on 98 degrees of freedom
Multiple R-squared:  0.6186,    Adjusted R-squared:  0.6147 
F-statistic:   159 on 1 and 98 DF,  p-value: < 2.2e-16

Interpretación: El modelo ajustado es \(\overline{y}=\beta_0 + \beta_1 x\), donde los coeficientes indican la pendiente y la ordenada al origen de la recta de regresión. El summary(modelo) nos brinda estos valores, junto con el valor \(R^2\), los errores estándar y los valores p asociados.


4 📈 Visualización de la regresión

Código
library(ggplot2)

ggplot(datos, aes(x = x, y = y)) +
  geom_point(color = "steelblue") +
  geom_smooth(method = "lm", color = "darkred", se = FALSE) +
  theme_minimal() +
  labs(title = "Recta de regresion",
       x = "Variable X",
       y = "Variable Y")

Interpretación: El gráfico muestra una nube de puntos y la recta de regresión ajustada. Visualmente podemos evaluar si existe una tendencia lineal clara, y si hay valores atípicos o dispersión irregular de los puntos.


5 ✅ Verificación de supuestos

5.1 1. Linealidad y homocedasticidad

Interpretación: Este gráfico de residuos frente a los valores ajustados nos permite verificar la linealidad (patrón en forma de nube) y la homocedasticidad (la varianza de los residuos debe ser constante a lo largo de los valores ajustados).


5.2 2. Normalidad de los residuos


    Shapiro-Wilk normality test

data:  residuals(modelo)
W = 0.9748, p-value = 0.05204

Interpretación:

  • El gráfico QQ-plot nos muestra si los residuos siguen una distribución normal. Si los puntos se alinean con la recta, se cumple el supuesto.
  • El test de Shapiro-Wilk evalúa estadísticamente la normalidad. Un valor \(p > 0.05\) indica que no se rechaza la hipótesis de normalidad.

5.3 3. Independencia de los errores

 lag Autocorrelation D-W Statistic p-value
   1      -0.1257677      2.233153   0.264
 Alternative hypothesis: rho != 0

Interpretación: El test de Durbin-Watson evalúa la autocorrelación de los residuos. Un valor cercano a 2 indica independencia. Valores cercanos a 0 o 4 indican autocorrelación positiva o negativa, respectivamente.


6 📐 Fórmulas

Coeficiente de correlación lineal de Pearson:

\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \]

Recta de regresión lineal:

\[ \hat{y} = \beta_0 + \beta_1 x \]

Coeficiente de determinación:

\[ R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST} \]


7 🧪 Supuestos del Modelo de Regresión Lineal

  • Linealidad: la relación entre ( \(x\) ) y ( \(y\) ) es lineal.
  • Independencia de los errores.
  • Homocedasticidad: varianza constante de los errores.
  • Normalidad de los errores.
  • No multicolinealidad (en caso de regresión múltiple).

8 📝 Conclusión

El análisis de regresión lineal permite modelar y predecir una variable dependiente a partir de una independiente, siempre que se cumplan ciertos supuestos estadísticos. Es fundamental validar estos supuestos para obtener resultados confiables y útiles para la toma de decisiones.