Anteriormente se realizó el anÔlisis de regresión, el cual es una técnica utilizada para evaluar la relación entre una variable de resultado y uno o mÔs factores de riesgo o variables de confusión. Ahora, se desarrollarÔ el anÔlisis de correlación. La correlación es otra forma de evaluar la relación entre variables. Específicamente, mide el alcance de la correspondencia entre el orden de dos variables aleatorias. De ahí que la regresión y la correlación se asemejen mucho por sus métodos para interpretar la relación.

El Coeficiente de Correlación

EstÔ representado por el símbolo \(p\). Mide la fuerza y el sentido de la relación lineal entre dos variables cuantitativas. \[ \rho = \frac{S_{xy}}{S_xS_y} \] Donde: \[ s_{xy}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y}) \\ S_x=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2} \\ s_y=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\overline{y})^2} \] En palabras:

  • \(S_{xy}\) es la covarianza de x e y.
  • \(s_x\) es la desviación estĆ”ndar de la variable de x.
  • \(x_y\) es la desviación estĆ”ndar de la variable de y.

Otra forma de hallar la correlación es: \[ \rho=\frac{n\sum XY - \sum X \sum Y}{\sqrt{n \sum X^2 - (\sum X)^2}\sqrt{n \sum Y^2 - (\sum Y)^2}} \] ## Tipos de Correlación

La correlación postivia perfecta es cuando \(\rho=1\). Tal como se aprecia en la siguiente imagen: Correlación Positiva Perfecta

La correlación postivia perfecta es cuando \(0<\rho<1\) es 1. Tal como se aprecia en la siguiente imagen: Correlación Positiva Perfecta

La correlación postivia perfecta es cuando \(\rho=0\). Tal como se aprecia en la siguiente imagen: Correlación Positiva Perfecta

La correlación postivia perfecta es cuando \(-1<\rho<0\) es 1. Tal como se aprecia en la siguiente imagen: Correlación Positiva Perfecta

La correlación postivia perfecta es cuando \(\rho=-1\) es 1. Tal como se aprecia en la siguiente imagen: Correlación Positiva Perfecta

Ejemplo:

Calcular el coeficiente de correlación entre X e Y. Donde X son los gastos en publicidad de un producto e Y son las ventas conseguidas:

x y
1 10
2 17
3 30
4 28
5 29
6 47

Solución: \[ \overline{x}=3.5 \\ \overline{y}=28.5 \\ n = 6 \\ s_{xy}=\frac{1}{5} \sum_{i=1}^{6} (x_i-3.5)(y_i-28.5)=24.9 \\ s_x=\sqrt{\frac{1}{5}\sum_{i=1}^{6}(x_i-3.50)^2} = 1.8708 \\ s_y \sqrt{\frac{1}{5}\sum_{i=1}^{6}(y_i-28.5)^2} = 13.6345 \\ \rho = \frac{s_{xy}}{s_xs_y} = \frac{24.9}{1.8708 * 13.6345} = 0.9762 \]

Correlación en R

Para ello se usa la función \(corr\).

##   x  y
## 1 1 10
## 2 2 17
## 3 3 30
## 4 4 28
## 5 5 39
## 6 6 47
## [1] 0.9761704

Otra manera de resolver es dividiendo la covarianza entre el producto de la desviación estĆ”ndar de š‘„ y la desviación estĆ”ndar de š‘¦. Para calcular la covarianza en R, se usa la función cov.

## [1] 0.9761704

Comparando ello con un modelo de regresión lineal:

## 
## Call:
## lm(formula = y ~ x, data = Data)
## 
## Residuals:
##       1       2       3       4       5       6 
## -0.7143 -0.8286  5.0571 -4.0571 -0.1714  0.7143 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.6000     3.0796   1.169 0.307319    
## x             7.1143     0.7908   8.997 0.000845 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.308 on 4 degrees of freedom
## Multiple R-squared:  0.9529, Adjusted R-squared:  0.9411 
## F-statistic: 80.94 on 1 and 4 DF,  p-value: 0.000845

Viendo la grƔfica de Y vs X:

Correlación Múltiple

La siguiente tabla muestra una matriz de correlación: Correlación Múltiple Donde:

  • Ingresos y Analf. son variables independientes que representan el ingreso per capita y el porcentaje de analfabetos, respectivamente.
  • Grado es la variable dependiente que representa el porcentaje de graduados de secundaria.

Cada celda representa la correlación entre la variable de la fila y la variable de la columna. Por ejemplo, 0.6199323 representa la correlación de Grados con Ingresos, la cual es positiva.

La correlación de una variable consigo misma es 1. Por esto, en la diagonal se observa la unidad. AdemÔs, las celdas sobre la diagonal continenen los mismos valores que los de las celdas debajo de la diagonal principal. Por ello, solo es necesario completar la mitad de la matriz. Los coeficientes de correlación en esta matriz se combinan para producir un coeficiente de correlación múltiple. Este es un número que resume la relación entre la variable dependiente (Grado, en este ejemplo) y las dos variables independientes (Ingreso y Analf.).

Notación:

  • rGa: Coeficiente de correlación para Grado y Analf.
  • rGi: coeficiente de correlación para Grado e Ingreso.
  • rIA: Coeficiente de correlación para Ingreso y Analf.

Fórmula: \[ R_{G.I.A}= \sqrt{\frac{r_{GI}^2+r_{GA}^2-2r_{GI}*r_{GA}*r_{IA}}{1-r_{IA}^2}} \] RG.IA es un coeficiente de correlación mĆŗltiple a diferencia de rGA, rGI y rIA, que indican una correlación entre dos variables. El subĆ­ndice G.IA significa que la correlación mĆŗltiple es entre G y la combinación de I y A. Aplicando la fórmula se obtiene: \[ R_{G.I.A}=\sqrt{\frac{0.61^2+(-0.65)^2-2.06-0.65-0.43}{1-(-0.43)^2}} \] El coeficiente de determinación mĆŗltiple es el cuadrado del coeficiente de correlación mĆŗltiple. Para este ejemplo, el resultado es: \[ R_{G.I.A}^2=(0.754)^2=0.5687 \] En R, ello serĆ­a de la siguiente manera: Primero se crea la tabla que exista en el mismo sistema R de EEUU, conocida como ā€œState.x77ā€, y solo tomarĆ” las columnas, 2 que es Ingreso, 3 que es Analfabetismo y 6 que es graduados de secundaria.

##            Ingreso Analf Grad
## Alabama       3624   2.1 41.3
## Alaska        6315   1.5 66.7
## Arizona       4530   1.8 58.1
## Arkansas      3378   1.9 39.9
## California    5114   1.1 62.6
## Colorado      4884   0.7 63.9

COn ello hallamos la correlación:

##            Ingreso      Analf       Grad
## Ingreso  1.0000000 -0.4370752  0.6199323
## Analf   -0.4370752  1.0000000 -0.6571886
## Grad     0.6199323 -0.6571886  1.0000000

Ello tambiƩn puede hallarse con el comando \(cor.test()\).

## 
##  Pearson's product-moment correlation
## 
## data:  DataEEUU$Grad and DataEEUU$Ingreso
## t = 5.4738, df = 48, p-value = 1.579e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4128194 0.7660866
## sample estimates:
##       cor 
## 0.6199323

Con la otra variable:

## 
##  Pearson's product-moment correlation
## 
## data:  DataEEUU$Grad and DataEEUU$Analf
## t = -6.0408, df = 48, p-value = 2.172e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7908657 -0.4636561
## sample estimates:
##        cor 
## -0.6571886

Y:

## 
##  Pearson's product-moment correlation
## 
## data:  DataEEUU$Ingreso and DataEEUU$Analf
## t = -3.3668, df = 48, p-value = 0.001505
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.6378257 -0.1807128
## sample estimates:
##        cor 
## -0.4370752

Anteriomente los resultados mostraron que \(R_{G(I,A)}=0.754\) y \(R_{G(I,A)}^2=0.568\). Usando la función \(lm()\) se comprobarÔ que el modelo se encuenta explicado a un 56% y siendo las variables significativas.

## 
## Call:
## lm(formula = Grad ~ Ingreso + Analf, data = DataEEUU)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.6691 -3.9987 -0.9429  3.2392 13.1212 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 36.531013   7.130231   5.123 5.54e-06 ***
## Ingreso      0.005406   0.001400   3.861 0.000344 ***
## Analf       -6.326603   1.411300  -4.483 4.72e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.416 on 47 degrees of freedom
## Multiple R-squared:  0.5687, Adjusted R-squared:  0.5504 
## F-statistic: 30.99 on 2 and 47 DF,  p-value: 2.611e-09

Con el R y R cuadrado:

## [1] 0.5687181
## [1] 0.754134

Función CORRPLOT

Esta sirve para graficar la correlación, para ello hay que tener instalado el paquete \(corrplot\) de R y luego llamar a dicho paquete con library(corrplot).

Existen muchas maneras de graficar la correlación múltiple, por ejemplo, existe la manera predeterminada:

ParÔmetros de Disposición (TYPE)

  • full: muestra la matriz de correlación completa.
  • upper: muestra una matriz triangular superior de la matriz de correlación completa.
  • lower: muestra la matriz triangular inferior de la matriz de correlación completa.

ParƔmetros de mƩtodo(METHOD)

  • circle: forma de cĆ­rculos.
  • square: forma de cuadrados.
  • ellipse: forma de elipses.
  • number: forma de nĆŗmeros.
  • color: forma de acuerdo al color.
  • pie: forma de sectores.

Las correlaciones positivas se muestran en azul y las correlaciones negativas en rojo. La intensidad el color y del tamaño del círculo son proporcionales a los coeficientes de correlación. El método predeterminado es circle.

ParƔmetros de Orden(Order)

  • original: orden original.
  • AOE: orden angular de los vectores propios.
  • FPC: Orden primer componente principal.
  • hclust: Orden de agrupación jerĆ”rquica.
  • alphabet: Orden alfabĆ©tico.

Función corrlot.mixed():

Nos servirÔ cuando queramos mostrar de manera grÔfica y numérica el resultado de la correlación:

Ejemplos

Ejemplo 1: Calculando el \(R^2\) usando la fórmula

Asumiendo que se tienen los siguientes datos del PBI de China desde el aƱo 2000 al 2015. Ejemplo 1

Hallar los valores de š‘… y š‘… cuadrado usando la fórmula. Donde X es el aƱo y Y los billones de dólares el PBI de China.

Ejemplo 1

Ejemplo 1

La fórmula es: \[ r=\frac{n \sum XY - \sum X \sum Y}{\sqrt{n(\sum X^2)-(\sum X)^2}\sqrt{n(\sum Y^2)-(\sum Y)^2}} \] Reemplazando los valores: \[ n = 16 \\ r=\frac{16*157855.223-32120-78.513}{\sqrt{16*64481240-(32120)^2}\sqrt{16*566.21-(78.513)^2}} \\ r = 0.969 \] Entonces el valor de R cuadrado es: \[ R^2=0.969^2 \\ R^2=0.939 \] ## Ejemplo 2: Calculando el \(R^2\) en R

Convertimos las variables a un Data.frame:

##           x         y
## x 1.0000000 0.9691218
## y 0.9691218 1.0000000

Se realiza el modelo de regresión:

## 
## Call:
## lm(formula = y ~ x, data = Data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.05358 -0.75655 -0.07107  0.72451  1.58834 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.414e+03  9.651e+01  -14.65 6.92e-10 ***
## x            7.070e-01  4.808e-02   14.71 6.61e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8865 on 14 degrees of freedom
## Multiple R-squared:  0.9392, Adjusted R-squared:  0.9349 
## F-statistic: 216.3 on 1 and 14 DF,  p-value: 6.614e-10

El valor de \(R^2\) como se observa es: 0.9392. y el valor de R es:

## [1] 0.9691218

Con esto se comprueba que los resultados mediante la fórmula y el lenguaje R son muy aproximados.

Ejemplo 3: La función pair.panels

Usando los datos del PBI de china del ejemplo anterior, se harÔ uso de la función pair.panels. Con ello se generarÔ un dispersograma.

Desarrollo:

Los dispersogramas son grĆ”ficos elaborados a partir de las coordenadas cartesianas con el fin de mostrar los valores de los datos š‘‹ e š‘Œ de un mismo elemento suceso.Un diagrama de dispersión puede indicar diferentes tipos de correlaciones:

  • Correlación postitiva: indica un aumento.
  • Correlación negativa: indica un descenso.
  • Correlación nula: no hay relación entre las variables.

En R cargamos el paquete ā€œpsychā€ y luego ejecutamos la siguiente función:

Sin embargo, pairs.panels no solo grafica usando dos variables. Por ejemplo, se puede graficar DataEEUU creada anteriormente: