Correlación
Anteriormente se realizó el anĆ”lisis de regresión, el cual es una tĆ©cnica utilizada para evaluar la relación entre una variable de resultado y uno o mĆ”s factores de riesgo o variables de confusión. Ahora, se desarrollarĆ” el anĆ”lisis de correlación. La correlación es otra forma de evaluar la relación entre variables. EspecĆficamente, mide el alcance de la correspondencia entre el orden de dos variables aleatorias. De ahĆ que la regresión y la correlación se asemejen mucho por sus mĆ©todos para interpretar la relación.
El Coeficiente de Correlación
EstĆ” representado por el sĆmbolo \(p\). Mide la fuerza y el sentido de la relación lineal entre dos variables cuantitativas. \[ \rho = \frac{S_{xy}}{S_xS_y} \] Donde: \[ s_{xy}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y}) \\ S_x=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2} \\ s_y=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\overline{y})^2} \] En palabras:
- \(S_{xy}\) es la covarianza de x e y.
- \(s_x\) es la desviación estÔndar de la variable de x.
- \(x_y\) es la desviación estÔndar de la variable de y.
Otra forma de hallar la correlación es: \[ \rho=\frac{n\sum XY - \sum X \sum Y}{\sqrt{n \sum X^2 - (\sum X)^2}\sqrt{n \sum Y^2 - (\sum Y)^2}} \] ## Tipos de Correlación
La correlación postivia perfecta es cuando \(\rho=1\). Tal como se aprecia en la siguiente imagen:
La correlación postivia perfecta es cuando \(0<\rho<1\) es 1. Tal como se aprecia en la siguiente imagen:
La correlación postivia perfecta es cuando \(\rho=0\). Tal como se aprecia en la siguiente imagen:
La correlación postivia perfecta es cuando \(-1<\rho<0\) es 1. Tal como se aprecia en la siguiente imagen:
La correlación postivia perfecta es cuando \(\rho=-1\) es 1. Tal como se aprecia en la siguiente imagen:
Ejemplo:
Calcular el coeficiente de correlación entre X e Y. Donde X son los gastos en publicidad de un producto e Y son las ventas conseguidas:
x | y |
---|---|
1 | 10 |
2 | 17 |
3 | 30 |
4 | 28 |
5 | 29 |
6 | 47 |
Solución: \[ \overline{x}=3.5 \\ \overline{y}=28.5 \\ n = 6 \\ s_{xy}=\frac{1}{5} \sum_{i=1}^{6} (x_i-3.5)(y_i-28.5)=24.9 \\ s_x=\sqrt{\frac{1}{5}\sum_{i=1}^{6}(x_i-3.50)^2} = 1.8708 \\ s_y \sqrt{\frac{1}{5}\sum_{i=1}^{6}(y_i-28.5)^2} = 13.6345 \\ \rho = \frac{s_{xy}}{s_xs_y} = \frac{24.9}{1.8708 * 13.6345} = 0.9762 \]
Correlación en R
Para ello se usa la función \(corr\).
## x y
## 1 1 10
## 2 2 17
## 3 3 30
## 4 4 28
## 5 5 39
## 6 6 47
## [1] 0.9761704
Otra manera de resolver es dividiendo la covarianza entre el producto de la desviación estĆ”ndar de š„ y la desviación estĆ”ndar de š¦. Para calcular la covarianza en R, se usa la función cov.
## [1] 0.9761704
Comparando ello con un modelo de regresión lineal:
##
## Call:
## lm(formula = y ~ x, data = Data)
##
## Residuals:
## 1 2 3 4 5 6
## -0.7143 -0.8286 5.0571 -4.0571 -0.1714 0.7143
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.6000 3.0796 1.169 0.307319
## x 7.1143 0.7908 8.997 0.000845 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.308 on 4 degrees of freedom
## Multiple R-squared: 0.9529, Adjusted R-squared: 0.9411
## F-statistic: 80.94 on 1 and 4 DF, p-value: 0.000845
Viendo la grƔfica de Y vs X:
plot(x,y,type="p", pch=21, bg="turquoise", main="GrƔfica de Y vs X")
abline(reg=modelo, col="red", lwd=1.5)
Correlación Múltiple
La siguiente tabla muestra una matriz de correlación: Donde:
- Ingresos y Analf. son variables independientes que representan el ingreso per capita y el porcentaje de analfabetos, respectivamente.
- Grado es la variable dependiente que representa el porcentaje de graduados de secundaria.
Cada celda representa la correlación entre la variable de la fila y la variable de la columna. Por ejemplo, 0.6199323 representa la correlación de Grados con Ingresos, la cual es positiva.
La correlación de una variable consigo misma es 1. Por esto, en la diagonal se observa la unidad. AdemÔs, las celdas sobre la diagonal continenen los mismos valores que los de las celdas debajo de la diagonal principal. Por ello, solo es necesario completar la mitad de la matriz. Los coeficientes de correlación en esta matriz se combinan para producir un coeficiente de correlación múltiple. Este es un número que resume la relación entre la variable dependiente (Grado, en este ejemplo) y las dos variables independientes (Ingreso y Analf.).
Notación:
- rGa: Coeficiente de correlación para Grado y Analf.
- rGi: coeficiente de correlación para Grado e Ingreso.
- rIA: Coeficiente de correlación para Ingreso y Analf.
Fórmula: \[ R_{G.I.A}= \sqrt{\frac{r_{GI}^2+r_{GA}^2-2r_{GI}*r_{GA}*r_{IA}}{1-r_{IA}^2}} \] RG.IA es un coeficiente de correlación mĆŗltiple a diferencia de rGA, rGI y rIA, que indican una correlación entre dos variables. El subĆndice G.IA significa que la correlación mĆŗltiple es entre G y la combinación de I y A. Aplicando la fórmula se obtiene: \[ R_{G.I.A}=\sqrt{\frac{0.61^2+(-0.65)^2-2.06-0.65-0.43}{1-(-0.43)^2}} \] El coeficiente de determinación mĆŗltiple es el cuadrado del coeficiente de correlación mĆŗltiple. Para este ejemplo, el resultado es: \[ R_{G.I.A}^2=(0.754)^2=0.5687 \] En R, ello serĆa de la siguiente manera: Primero se crea la tabla que exista en el mismo sistema R de EEUU, conocida como āState.x77ā, y solo tomarĆ” las columnas, 2 que es Ingreso, 3 que es Analfabetismo y 6 que es graduados de secundaria.
DataEEUU<-as.data.frame(state.x77[,c(2,3,6)])
colnames(DataEEUU)<-c("Ingreso","Analf","Grad")
head(DataEEUU)
## Ingreso Analf Grad
## Alabama 3624 2.1 41.3
## Alaska 6315 1.5 66.7
## Arizona 4530 1.8 58.1
## Arkansas 3378 1.9 39.9
## California 5114 1.1 62.6
## Colorado 4884 0.7 63.9
COn ello hallamos la correlación:
## Ingreso Analf Grad
## Ingreso 1.0000000 -0.4370752 0.6199323
## Analf -0.4370752 1.0000000 -0.6571886
## Grad 0.6199323 -0.6571886 1.0000000
Ello tambiƩn puede hallarse con el comando \(cor.test()\).
##
## Pearson's product-moment correlation
##
## data: DataEEUU$Grad and DataEEUU$Ingreso
## t = 5.4738, df = 48, p-value = 1.579e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4128194 0.7660866
## sample estimates:
## cor
## 0.6199323
Con la otra variable:
##
## Pearson's product-moment correlation
##
## data: DataEEUU$Grad and DataEEUU$Analf
## t = -6.0408, df = 48, p-value = 2.172e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7908657 -0.4636561
## sample estimates:
## cor
## -0.6571886
Y:
##
## Pearson's product-moment correlation
##
## data: DataEEUU$Ingreso and DataEEUU$Analf
## t = -3.3668, df = 48, p-value = 0.001505
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.6378257 -0.1807128
## sample estimates:
## cor
## -0.4370752
Anteriomente los resultados mostraron que \(R_{G(I,A)}=0.754\) y \(R_{G(I,A)}^2=0.568\). Usando la función \(lm()\) se comprobarÔ que el modelo se encuenta explicado a un 56% y siendo las variables significativas.
##
## Call:
## lm(formula = Grad ~ Ingreso + Analf, data = DataEEUU)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.6691 -3.9987 -0.9429 3.2392 13.1212
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 36.531013 7.130231 5.123 5.54e-06 ***
## Ingreso 0.005406 0.001400 3.861 0.000344 ***
## Analf -6.326603 1.411300 -4.483 4.72e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.416 on 47 degrees of freedom
## Multiple R-squared: 0.5687, Adjusted R-squared: 0.5504
## F-statistic: 30.99 on 2 and 47 DF, p-value: 2.611e-09
Con el R y R cuadrado:
## [1] 0.5687181
## [1] 0.754134
Función CORRPLOT
Esta sirve para graficar la correlación, para ello hay que tener instalado el paquete \(corrplot\) de R y luego llamar a dicho paquete con library(corrplot).
Existen muchas maneras de graficar la correlación múltiple, por ejemplo, existe la manera predeterminada:
ParÔmetros de Disposición (TYPE)
- full: muestra la matriz de correlación completa.
- upper: muestra una matriz triangular superior de la matriz de correlación completa.
- lower: muestra la matriz triangular inferior de la matriz de correlación completa.
ParƔmetros de mƩtodo(METHOD)
- circle: forma de cĆrculos.
- square: forma de cuadrados.
- ellipse: forma de elipses.
- number: forma de nĆŗmeros.
- color: forma de acuerdo al color.
- pie: forma de sectores.
Las correlaciones positivas se muestran en azul y las correlaciones negativas en rojo. La intensidad el color y del tamaƱo del cĆrculo son proporcionales a los coeficientes de correlación. El mĆ©todo predeterminado es circle.
ParƔmetros de Orden(Order)
- original: orden original.
- AOE: orden angular de los vectores propios.
- FPC: Orden primer componente principal.
- hclust: Orden de agrupación jerÔrquica.
- alphabet: Orden alfabƩtico.
corrplot(cor(DataEEUU), type = "lower", method = "ellipse", order = "hclust")
corrplot(cor(DataEEUU), type = "lower", method = "ellipse", order = "alphabet")
Función corrlot.mixed():
Nos servirÔ cuando queramos mostrar de manera grÔfica y numérica el resultado de la correlación:
Ejemplos
Ejemplo 1: Calculando el \(R^2\) usando la fórmula
Asumiendo que se tienen los siguientes datos del PBI de China desde el aƱo 2000 al 2015.
Hallar los valores de š y š cuadrado usando la fórmula. Donde X es el aƱo y Y los billones de dólares el PBI de China.
Ejemplo 1
La fórmula es: \[ r=\frac{n \sum XY - \sum X \sum Y}{\sqrt{n(\sum X^2)-(\sum X)^2}\sqrt{n(\sum Y^2)-(\sum Y)^2}} \] Reemplazando los valores: \[ n = 16 \\ r=\frac{16*157855.223-32120-78.513}{\sqrt{16*64481240-(32120)^2}\sqrt{16*566.21-(78.513)^2}} \\ r = 0.969 \] Entonces el valor de R cuadrado es: \[ R^2=0.969^2 \\ R^2=0.939 \] ## Ejemplo 2: Calculando el \(R^2\) en R
x<-2000:2015
y<-c(1.193,1.317,1.456,1.651,1.945,2.287,2.793,3.505,4.548,5.106,5.950,7.314,8.387,9.469,10.380,11.212)
plot(x,y,pch=21, bg="red",
main="China: PBI Nominal", xlab="AƱo",
ylab = "Billones de dólares")
Convertimos las variables a un Data.frame:
## x y
## x 1.0000000 0.9691218
## y 0.9691218 1.0000000
Se realiza el modelo de regresión:
##
## Call:
## lm(formula = y ~ x, data = Data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.05358 -0.75655 -0.07107 0.72451 1.58834
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.414e+03 9.651e+01 -14.65 6.92e-10 ***
## x 7.070e-01 4.808e-02 14.71 6.61e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8865 on 14 degrees of freedom
## Multiple R-squared: 0.9392, Adjusted R-squared: 0.9349
## F-statistic: 216.3 on 1 and 14 DF, p-value: 6.614e-10
El valor de \(R^2\) como se observa es: 0.9392. y el valor de R es:
## [1] 0.9691218
Con esto se comprueba que los resultados mediante la fórmula y el lenguaje R son muy aproximados.
Ejemplo 3: La función pair.panels
Usando los datos del PBI de china del ejemplo anterior, se harÔ uso de la función pair.panels. Con ello se generarÔ un dispersograma.
Desarrollo:
Los dispersogramas son grĆ”ficos elaborados a partir de las coordenadas cartesianas con el fin de mostrar los valores de los datos š e š de un mismo elemento suceso.Un diagrama de dispersión puede indicar diferentes tipos de correlaciones:
- Correlación postitiva: indica un aumento.
- Correlación negativa: indica un descenso.
- Correlación nula: no hay relación entre las variables.
En R cargamos el paquete āpsychā y luego ejecutamos la siguiente función:
Sin embargo, pairs.panels no solo grafica usando dos variables. Por ejemplo, se puede graficar DataEEUU creada anteriormente: