En este módulo se estudian herramientas fundamentales de la estadística aplicada:
Estas permiten analizar relaciones entre variables, explicar fenómenos y construir modelos predictivos.
La correlación mide la fuerza y dirección de la relación entre dos variables.
Esto significa que:
Que dos variables estén relacionadas NO implica que una cause a la otra.
Existen varias situaciones:
Causalidad real
X causa Y
Causalidad inversa
Y causa X
Variable oculta
Una tercera variable Z afecta a X e Y
Correlación espuria
Relación por coincidencia sin sentido causal
No se causan entre sí. La causa real es:
Temperatura alta (verano)
\[ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} \]
Resultado: valor entre -1 y 1
\[ \rho_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \]
\[ \tau = \frac{C - D}{\frac{n(n-1)}{2}} \]
x <- c(1,2,3,4,5,6,7,8,9,10)
y <- c(2,4,5,4,6,7,8,9,10,12)
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.97016, p-value = 0.8924
shapiro.test(y)
##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.98116, p-value = 0.9711
Si ambas variables son normales, se puede usar Pearson.
cor.test(x, y, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: x and y
## t = 13.54, df = 8, p-value = 8.501e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9102563 0.9951583
## sample estimates:
## cor
## 0.9788709
cor.test(x, y, method = "spearman")
## Warning in cor.test.default(x, y, method = "spearman"): Cannot compute exact
## p-value with ties
##
## Spearman's rank correlation rho
##
## data: x and y
## S = 3.5099, p-value = 8.731e-07
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.9787279
cor.test(x, y, method = "kendall")
## Warning in cor.test.default(x, y, method = "kendall"): Cannot compute exact
## p-value with ties
##
## Kendall's rank correlation tau
##
## data: x and y
## z = 3.7717, p-value = 0.0001621
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
## tau
## 0.9438798