Con el propósito de investigar el nexo entre dos variables, se quiere describir el comportamiento del conjunto de datos correspondiente mediante gráficas que evidencien la interacción entre las características objeto de estudio, y a través de medidas estadísticas que den cuenta de la asociación entre las variables de interés.
Cuando se trabaja con dos variables cuantitativas, es costumbre denominar a la variable \(X\) representada en el eje \(x\) variable independiente y a la variable \(Y\) representada en el eje \(y\) variable dependiente.
Es costumbre mostrar las observaciones de una muestra correspondiente a un conjunto de datos bivariado como sigue.
\(X\) | \(Y\) |
---|---|
\(x_1\) | \(y_1\) |
\(x_1\) | \(y_1\) |
\(\vdots\) | \(\vdots\) |
\(x_n\) | \(y_n\) |
En una muestra de \(n=31\) estudiantes de grado séptimo se miden el peso (en kilogramos) y la edad (en años), obteniendo los resultados que se presentan a continuación. Elaborar un dispersograma o nube de puntos de la temperatura (\(Y\)) frente al peso (\(X\)).
Edad: 12.3, 13.2, 12.5, 13.1, 12.9, 13.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12.5, 12.6, 12.8, 12.9, 12.5, 13.1, 13.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6
Peso: 39.5, 41.0, 39.7, 40.8, 40.7, 41.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39.7, 39.8, 40.0, 40.3, 39.6, 41.1, 41.3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2
En la siguiente figura se muestra el diagrama de dispersión del peso frente a la temperatura de los materiales. Se observa que la relación entre las variables es directa y aparentemente fuerte.
# datos
<- c(12.3, 13.2, 12.5, 13.1, 12.9, 13.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12.5,
edad 12.6, 12.8, 12.9, 12.5, 13.1, 13.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6)
<- c(39.5, 41.0, 39.7, 40.8, 40.7, 41.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39.7,
peso 39.8, 40.0, 40.3, 39.6, 41.1, 41.3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2)
# dispersograma
plot(x = edad, y = peso)
La covarianza muestral del conjunto de datos bivariado \((x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n)\), denotada con \(COV(x,y)\) o \(s_{xy}\), se calcula como: \[ COV(x,y)=\frac{1}{n-1}\displaystyle\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \]
Calcular e interpretar la covarianza entre el peso y la edad con el conjunto de datos bivariado del ejemplo anterior.
Para obtener la covarianza entre la edad y el peso, primero se deben calcular los promedios de estas variables. En este caso se tiene que \(\bar{x} = 12.728\) y \(\bar{y} = 40.180\). Luego de calcular los respectivos promedios, se procede a calcular las diferencias y los productos, de tal forma que la covarianza entre la temperatura y el peso es
\[\begin{align*} COV(x,y) &= \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \\ &= \frac{1}{25-1} \left((12.3-12.728)(39.5-40.180)+\ldots+(12.6-12.728)(40.2-40.180) \right) \\ &= 0.226. \end{align*}\]
Dado que la covarianza entre la edad y el peso es positiva, entonces la relación entre las dos variables es directa, como se aprecia en la Figura. Las unidades de la covarianza son unidades mixtas que en este caso corresponden a años \(\times\) kilogramo.
# datos
<- c(12.3, 13.2, 12.5, 13.1, 12.9, 13.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12.5,
edad 12.6, 12.8, 12.9, 12.5, 13.1, 13.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6)
<- c(39.5, 41.0, 39.7, 40.8, 40.7, 41.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39.7,
peso 39.8, 40.0, 40.3, 39.6, 41.1, 41.3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2)
# promedios
mean(edad)
## [1] 12.728
mean(peso)
## [1] 40.18
# covarianza
cov(edad, peso)
## [1] 0.2264167
# otra manera
<- length(edad)
n sum((edad - mean(edad))*(peso-mean(peso)))/(n-1)
## [1] 0.2264167
Si \((X,Y)\) es una variable bidimensional y \(a\), \(b\), \(c\) y \(d\) constantes, entonces se tiene que:
Una covarianza “grande” indica que hay una relación de tipo lineal entre las dos variables. Pero, ¿qué significa que la covarianza sea “grande”?
La covarianza está dada en unidades mixtas de medición, lo que motiva definir una medida de la relación entre dos variables cuantitativas, que no se vea “afectada” por los cambios de unidad de medida, es decir, que sea adimensional.
El coeficiente de correlación de Pearson del conjunto de datos \((x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n)\), denotado con \(r\), se calcula como: \[ r = \frac{COV(x,y)}{s_x*\,s_y}\, \] El coeficiente de correlación está ligado directamente con el grado de la asociación lineal de las variables. De hecho, el coeficiente de correlación únicamente caracteriza la fortaleza de la relación lineal entre dos variables cuantitativas. La siguiente figura presenta varios coeficientes de correlación asociados con diferentes nubes de puntos.
El coeficiente de correlación siempre toma valores entre \(-1\) y 1:
Calcular el coeficiente de correlación con los datos del ejemplo de la edad y el peso.
Para calcular el coeficiente de correlación entre la edad y el peso se necesita obtener previamente las desviaciones estándar correspondientes. En este caso se tiene que \(s_x= 0.339\) y \(s_y= 0.724\). Así, el coeficiente de correlación es \[ r = \frac{COV(x,y)}{s_x * s_y} = \frac{(0.226)}{(0.339)(0.724)} = 0.920. \] Este coeficiente indica que la relación lineal entre la temperatura y el peso de los materiales es directa y además fuerte.
# datos
<- c(12.3, 13.2, 12.5, 13.1, 12.9, 13.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12.5,
edad 12.6, 12.8, 12.9, 12.5, 13.1, 13.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6)
<- c(39.5, 41.0, 39.7, 40.8, 40.7, 41.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39.7,
peso 39.8, 40.0, 40.3, 39.6, 41.1, 41.3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2)
# desviaciones estandar
sd(edad)
## [1] 0.3397548
sd(peso)
## [1] 0.7239936
# coeficiente de correlacion
cor(edad, peso)
## [1] 0.9204667
# otra forma
cov(edad, peso)/(sd(edad)*sd(peso))
## [1] 0.9204667