Unidad 1: Correlación y Regresión Lineal Simple

Objetivo

Comprender formalmente:

Las diferencias entre correlación de Pearson, Spearman y Kendall.
El modelo de regresión lineal simple.
El cálculo manual de \(\beta_0\) y \(\beta_1\).
El significado de los supuestos clásicos.
La inferencia en regresión.

1. CORRELACIÓN

1.1 ¿Solo se aplica la correlación de Pearson?

No. Existen tres coeficientes principales:

Método	Tipo de relación	Requiere normalidad	Sensible a atípicos
Pearson	Lineal	Sí (para inferencia)	Sí
Spearman	Monótona	No	Menos sensible
Kendall	Monótona	No	Más robusto

1.2 Correlación de Pearson

Definición

\[ r = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}} \]

¿Cuándo usarla?

Variables continuas.
Relación aproximadamente lineal.
Datos sin valores extremos severos.

1.3 Correlación de Spearman

Se basa en rangos.

\[ \rho_s = 1 - \frac{6\sum d_i^2}{n(n^2-1)} \]

Donde \(d_i\) es la diferencia entre rangos.

¿Cuándo usarla?

Variables ordinales.
Relación monótona (no necesariamente lineal).
Presencia de outliers.

1.4 Correlación de Kendall

Basada en pares concordantes y discordantes:

\[ \tau = \frac{C-D}{\frac{n(n-1)}{2}} \]

Donde: - C = pares concordantes - D = pares discordantes

¿Cuándo usarla?

Muestras pequeñas.
Muchos empates.
Análisis no paramétrico más robusto.

Ejemplo

set.seed(123)
x <- 1:10
y <- c(2,4,5,4,6,7,8,9,10,12)

cor.test(x,y, method="pearson")

## 
##  Pearson's product-moment correlation
## 
## data:  x and y
## t = 13.54, df = 8, p-value = 8.501e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9102563 0.9951583
## sample estimates:
##       cor 
## 0.9788709

cor.test(x,y, method="spearman")

## Warning in cor.test.default(x, y, method = "spearman"): Cannot compute exact
## p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  x and y
## S = 3.5099, p-value = 8.731e-07
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9787279

cor.test(x,y, method="kendall")

## Warning in cor.test.default(x, y, method = "kendall"): Cannot compute exact
## p-value with ties

## 
##  Kendall's rank correlation tau
## 
## data:  x and y
## z = 3.7717, p-value = 0.0001621
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.9438798

2. REGRESIÓN LINEAL SIMPLE

Modelo poblacional:

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \]

2.1 Ejemplo numérico paso a paso

Datos:

X	Y
1	2
2	3
3	5
4	4
5	6

Paso 1: Calcular medias

\[ \bar{x} = 3 \]

\[ \bar{y} = 4 \]

Paso 2: Calcular \(\hat{\beta}_1\)

\[ \hat{\beta}_1 = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})} {\sum (x_i-\bar{x})^2} \]

Tabla auxiliar:

X	Y	X-3	Y-4	Producto	(X-3)^2
1	2	-2	-2	4	4
2	3	-1	-1	1	1
3	5	0	1	0	0
4	4	1	0	0	1
5	6	2	2	4	4

Sumas:

\[ \sum (x_i-\bar{x})(y_i-\bar{y}) = 9 \]

\[ \sum (x_i-\bar{x})^2 = 10 \]

Entonces:

\[ \hat{\beta}_1 = 9/10 = 0.9 \]

Paso 3: Calcular \(\hat{\beta}_0\)

\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]

\[ \hat{\beta}_0 = 4 - 0.9(3) \]

\[ \hat{\beta}_0 = 1.3 \]

Modelo estimado:

\[ \hat{Y} = 1.3 + 0.9X \]

Interpretación:

Por cada unidad que aumenta X, Y aumenta en promedio 0.9 unidades.

Código:

datos <- data.frame(
  X=c(1,2,3,4,5),
  Y=c(2,3,5,4,6)
)

modelo <- lm(Y~X, data=datos)
summary(modelo)

## 
## Call:
## lm(formula = Y ~ X, data = datos)
## 
## Residuals:
##    1    2    3    4    5 
## -0.2 -0.1  1.0 -0.9  0.2 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   1.3000     0.8347   1.558   0.2172  
## X             0.9000     0.2517   3.576   0.0374 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7958 on 3 degrees of freedom
## Multiple R-squared:   0.81,  Adjusted R-squared:  0.7467 
## F-statistic: 12.79 on 1 and 3 DF,  p-value: 0.03739

3. ¿Qué son los OLS?

OLS significa Ordinary Least Squares (Mínimos Cuadrados Ordinarios).

Definición formal:

Método que minimiza:

\[ S(\beta_0,\beta_1)=\sum (y_i-\beta_0-\beta_1x_i)^2 \]

Se llama:

Ordinarios → porque no pondera observaciones.
Mínimos cuadrados → porque minimiza suma de residuos al cuadrado.

4. SUPUESTOS DEL MODELO CLÁSICO

4.1 Linealidad

\[ E(Y|X)=\beta_0+\beta_1X \]

Significa que la media condicional es lineal.

4.2 \(E(\varepsilon_i)=0\)

Se llama supuesto de media cero del error.

Significa:

\[ E(Y|X)=\beta_0+\beta_1X \]

El error no sesga el modelo.

4.3 Homocedasticidad

\[ Var(\varepsilon_i)=\sigma^2 \]

Varianza constante de errores.

4.4 Independencia

\[ Cov(\varepsilon_i,\varepsilon_j)=0 \]

No hay autocorrelación.

4.5 Normalidad

\[ \varepsilon_i \sim N(0,\sigma^2) \]

Necesaria para inferencia exacta.

5. INFERENCIA: Ejemplo

Prueba:

\[ H_0: \beta_1=0 \]

Estadístico:

\[ t=\frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} \]

En R:

summary(modelo)

## 
## Call:
## lm(formula = Y ~ X, data = datos)
## 
## Residuals:
##    1    2    3    4    5 
## -0.2 -0.1  1.0 -0.9  0.2 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   1.3000     0.8347   1.558   0.2172  
## X             0.9000     0.2517   3.576   0.0374 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7958 on 3 degrees of freedom
## Multiple R-squared:   0.81,  Adjusted R-squared:  0.7467 
## F-statistic: 12.79 on 1 and 3 DF,  p-value: 0.03739

Interpretación:

Si p < 0.05 → la pendiente es significativa.
Intervalo de confianza:

confint(modelo)

##                   2.5 %   97.5 %
## (Intercept) -1.35627846 3.956278
## X            0.09910191 1.700898

Coeficiente de determinación

\[ R^2 = 1-\frac{SSE}{SST} \]

En R:

summary(modelo)$r.squared

## [1] 0.81

Interpretación:

Proporción de variabilidad explicada por X.

6. VERIFICACIÓN DE SUPUESTOS (Ejemplo)

plot(modelo)

Durbin-Watson

library(lmtest)

## Cargando paquete requerido: zoo

## 
## Adjuntando el paquete: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

dwtest(modelo)

## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 3.1789, p-value = 0.8406
## alternative hypothesis: true autocorrelation is greater than 0

Breusch-Pagan

bptest(modelo)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 0.34137, df = 1, p-value = 0.559

Shapiro-Wilk

shapiro.test(modelo$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.97256, p-value = 0.8914

CONCLUSIÓN

Pearson → relación lineal paramétrica.
Spearman y Kendall → relaciones monótonas no paramétricas.
OLS → método de estimación óptimo bajo Gauss-Markov.
Supuesto \(E(\varepsilon_i)=0\) → garantiza insesgadez.
La inferencia depende de la normalidad.

Modelos de regresión

Karol Zambrano

2026-03-03

Unidad 1: Correlación y Regresión Lineal Simple

Objetivo

1. CORRELACIÓN

1.1 ¿Solo se aplica la correlación de Pearson?

1.2 Correlación de Pearson

Definición

¿Cuándo usarla?

1.3 Correlación de Spearman

¿Cuándo usarla?

1.4 Correlación de Kendall

¿Cuándo usarla?

Ejemplo

2. REGRESIÓN LINEAL SIMPLE

2.1 Ejemplo numérico paso a paso

Paso 1: Calcular medias

Paso 2: Calcular \(\hat{\beta}_1\)

Paso 3: Calcular \(\hat{\beta}_0\)

Modelo estimado:

Código:

3. ¿Qué son los OLS?

Definición formal:

4. SUPUESTOS DEL MODELO CLÁSICO

4.1 Linealidad

4.2 \(E(\varepsilon_i)=0\)

4.3 Homocedasticidad

4.4 Independencia

4.5 Normalidad

5. INFERENCIA: Ejemplo

Coeficiente de determinación

6. VERIFICACIÓN DE SUPUESTOS (Ejemplo)

Durbin-Watson

Breusch-Pagan

Shapiro-Wilk

CONCLUSIÓN