INTRODUCCIÓN

En este módulo se estudian herramientas fundamentales de la estadística aplicada:

Estas permiten analizar relaciones entre variables, explicar fenómenos y construir modelos predictivos.


1. CORRELACIÓN

Definición

La correlación mide la fuerza y dirección de la relación entre dos variables.

  • Valores cercanos a +1 → relación positiva fuerte
  • Valores cercanos a -1 → relación negativa fuerte
  • Valores cercanos a 0 → ausencia de relación lineal

Correlación NO implica causalidad

Esto significa que:

Que dos variables estén relacionadas NO implica que una cause a la otra.

Explicación

Existen varias situaciones:

  1. Causalidad real
    X causa Y

  2. Causalidad inversa
    Y causa X

  3. Variable oculta
    Una tercera variable Z afecta a X e Y

  4. Correlación espuria
    Relación por coincidencia sin sentido causal

Ejemplo conceptual

  • Ventas de helados ↑
  • Accidentes en piscina ↑

No se causan entre sí. La causa real es:

Temperatura alta (verano)


1.1 Correlación de Pearson

Fórmula

\[ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} \]

Explicación

  • \(x_i, y_i\): observaciones
  • \(\bar{x}, \bar{y}\): medias
  • Numerador: covarianza
  • Denominador: normalización

Resultado: valor entre -1 y 1


1.2 Correlación de Spearman

\[ \rho_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \]

Explicación

  • \(d_i\): diferencia entre rangos
  • Usa orden, no valores
  • Detecta relaciones monótonas

1.3 Correlación de Kendall

\[ \tau = \frac{C - D}{\frac{n(n-1)}{2}} \]

Explicación

  • \(C\): pares concordantes
  • \(D\): pares discordantes
  • Más robusto para muestras pequeñas

1.4 Ejemplo en R

x <- c(1,2,3,4,5,6,7,8,9,10)
y <- c(2,4,5,4,6,7,8,9,10,12)

shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.97016, p-value = 0.8924
shapiro.test(y)
## 
##  Shapiro-Wilk normality test
## 
## data:  y
## W = 0.98116, p-value = 0.9711

Si ambas variables son normales, se puede usar Pearson.

cor.test(x, y, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  x and y
## t = 13.54, df = 8, p-value = 8.501e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9102563 0.9951583
## sample estimates:
##       cor 
## 0.9788709
cor.test(x, y, method = "spearman")
## Warning in cor.test.default(x, y, method = "spearman"): Cannot compute exact
## p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  x and y
## S = 3.5099, p-value = 8.731e-07
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9787279
cor.test(x, y, method = "kendall")
## Warning in cor.test.default(x, y, method = "kendall"): Cannot compute exact
## p-value with ties
## 
##  Kendall's rank correlation tau
## 
## data:  x and y
## z = 3.7717, p-value = 0.0001621
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.9438798