Con el propósito de investigar el nexo entre dos variables, se quiere describir el comportamiento del conjunto de datos correspondiente mediante gráficas que evidencien la interacción entre las características objeto de estudio, y a través de medidas estadísticas que den cuenta de la asociación entre las variables de interés.
En este escenario se dispone de un conjunto de \(n\) individuos, cada uno de ellos observado en dos atributos que en adelante se representan mediante \(X\) y \(Y\).
Se elabora una tabla de frecuencias conformada por \(k \times p\) casillas o categorías, denotadas con \(C_{ij}\), para \(i=1,\ldots,k\) y \(j=1,\ldots,p\), organizadas de tal forma que se tengan \(k\) filas y \(p\) columnas con las categorías de las variables \(X\) y \(Y\), respectivamente. Tal estructura se denomina tabla de doble entrada o tabla de contingencia o tabla de clasificación.
La frecuencia absoluta conjunta de la clase \(C_{ij}\), denotada con \(n_{ij}\), es la cantidad de observaciones que hacen parte de la \(i\)-ésima fila y la \(j\)-ésima columna para \(i=1,\ldots,k\) y \(j=1,\ldots,p\).
La frecuencia relativa conjunta de la clase \(C_{ij}\), denotada con \(h_{ij}\), es la proporción de la frecuencia absoluta conjunta de la \(ij\)-ésima categoría respecto a la cantidad total de observaciones, esto es, \[ h_{ij} = \frac{n_{ij}}{n} \] para \(i=1,\ldots,k\) y \(j=1,\ldots,p\).
La frecuencia absoluta marginal de la fila \(i\), denotada con \(n_{i\bullet}\), es el total de observaciones de la \(i\)-ésima categoría de la variable de las filas para \(i=1,\ldots,k\).
La frecuencia absoluta marginal de la columna \(j\), denotada con \(n_{\bullet j}\), es el total de observaciones de la \(j\)-ésima categoría de la variable de las columnas para \(j=1,\ldots,p\).
A partir de la definición se tiene que \[ n_{i \bullet} = n_{i1} + n_{i2} + \ldots + n_{ip} = \sum_{j=1}^{p} n_{ij} \quad\text{para $i=1,\ldots,k$,} \] y además, \[ n_{\bullet j} = n_{1j} + n_{2j} + \ldots + n_{kj} = \sum_{i=1}^{k} n_{ij} \quad\text{para $j=1,\ldots,p$.} \]
Las frecuencias relativas marginales se definen análogamente.
\[ \sum_{i=1}^{k}\sum_{j=1}^{p} n_{ij} = \sum_{i=1}^{k} n_{i\bullet} = \sum_{j=1}^{p} n_{\bullet j} = n. \]
\[ \sum_{i=1}^{k}\sum_{j=1}^{p} h_{ij} = \sum_{i=1}^{k} h_{i\bullet} = \sum_{j=1}^{p} h_{\bullet j} = 1. \]
\[ h_{i \bullet} = \sum_{j=1}^{p} h_{ij} \quad\text{para $i=1,\ldots,k$.} \]
\[ h_{\bullet j} = \sum_{i=1}^{k} h_{ij} \quad\text{para $j=1,\ldots,p$.} \]
La siguiente tabla corresponde a una tabla de contingencia en la que se estudia la variable sexo (\(X\)) y nivel educativo (\(Y\)) de una muestra de personas. Obtener las frecuencias relativas conjuntas y marginales correspondientes.
| \(X / Y\) | Bachillerato | Pregrado | Posgrado | Total |
|---|---|---|---|---|
| Hombre | 4 | 9 | 12 | 25 |
| Mujer | 12 | 7 | 2 | 21 |
| Total | 16 | 16 | 14 | 46 |
En este caso se tiene que \[ k = 2,\,\, p=3,\,\, n_{1 \bullet} = 25,\,\, n_{2 \bullet} = 21,\,\, n_{\bullet 1} = 16,\,\, n_{\bullet 2} = 16,\,\, n_{\bullet 3} = 14 \quad\text{y}\quad n = 46. \] En la siguiente tabla se presentan las frecuencias relativas correspondientes que han sido calculadas con respecto al tamaño de la muestra, es decir, con respecto a \(n=46\), usando las fórmulas \[ h_{ij} = \frac{n_{ij}}{n}, \,\, h_{i \bullet}=\frac{n_{i \bullet}}{n} \quad\text{y}\quad h_{\bullet j} = \frac{n_{\bullet j}}{n} \] donde \(n_{ij}\) es la frecuencia absoluta conjunta de la \(ij\)-ésima categoría para \(i=1,2\) y \(j=1,2,3\).
Por ejemplo, se observa que el porcentaje de empleados que son hombres es \(54.3\%\), el porcentaje de empleados que tienen estudios de posgrado es \(30.4\%\) y que el porcentaje de empleados que son hombres y tienen bachillerato es \(48.7\%\).
| \(X / Y\) | Bachillerato | Pregrado | Posgrado | Total |
|---|---|---|---|---|
| Hombre | 8.7% | 19.6% | 26.1% | 54.3% |
| Mujer | 26.1% | 15.2% | 4.3% | 45.7% |
| Total | 34.8% | 34.8% | 30.4% | 100.0% |
# datos
tabla <- rbind(c(4, 9, 12), c(12, 7, 2))
rownames(tabla) <- c("Hombre","Mujer")
colnames(tabla) <- c("Bachillerato","Pregrado","Posgrado")
print(tabla)## Bachillerato Pregrado Posgrado
## Hombre 4 9 12
## Mujer 12 7 2
# agregar totales
addmargins(A = tabla, margin = c(1,2))## Bachillerato Pregrado Posgrado Sum
## Hombre 4 9 12 25
## Mujer 12 7 2 21
## Sum 16 16 14 46
# frecuencias relativas
addmargins(A = 100*prop.table(x = tabla), margin = c(1,2))## Bachillerato Pregrado Posgrado Sum
## Hombre 8.695652 19.56522 26.086957 54.34783
## Mujer 26.086957 15.21739 4.347826 45.65217
## Sum 34.782609 34.78261 30.434783 100.00000
Los perfiles fila están asociados con una tabla de doble entrada en la que se calculan las frecuencias relativas conjuntas respecto a los totales de las filas correspondientes.
Análogamente, se definen los perfiles columna.
A partir de la definición, se tiene que la frecuencia relativa de la \(ij\)-ésima categoría de una tabla de perfiles fila, denotada con \(h_{ij|i\bullet}\), está dada por: \[ h_{ij|i\bullet}=\frac{n_{ij}}{n_{i \bullet}}, \] mientras que la frecuencia relativa de la \(ij\)-ésima categoría de una tabla de perfiles columna, denotada con \(h_{ij|\bullet j}\), se está dada por: \[ h_{ij|\bullet j}=\frac{n_{ij}}{n_{\bullet j}} \] para \(i=1,\ldots,k\) y \(j=1,\ldots,p\).
\[ h_{ij|i\bullet}=\frac{h_{ij}}{h_{i \bullet}} \quad\text{para $i=1,\ldots,k$ y $j=1,\ldots,p$.} \]
\[ h_{ij|i\bullet}=\frac{h_{ij}}{h_{i \bullet}} \quad\text{para $i=1,\ldots,k$ y $j=1,\ldots,p$.} \]
\[ \sum_{j=1}^p h_{ij|i\bullet} = 1 \quad\text{para $i=1,\ldots,k$.} \]
\[ \sum_{i=1}^k h_{ij|\bullet j} = 1 \quad\text{para $j=1,\ldots,p$.} \]
Elaborar los perfiles fila y los perfiles columna de la muestra para la tabla bidimensional del ejemplo anterior.
Los perfiles fila y los perfiles columna de la muestra se las siguientes tablas. Las frecuencias relativas de estas tablas se calcularon con las fórmulas \[ h_{ij|i\bullet } =\frac{n_{ij}}{n_{i \bullet}} \quad\text{y}\quad h_{ij|\bullet j} =\frac{n_{ij}}{n_{\bullet j}} \] para \(i=1,2\) y \(j=1,2,3\).
Por ejemplo, se observa que de los hombres, tiene posgrado el 48.0%, mientras que de los individuos con posgrado, es hombre el 85.7%. Al interpretar las frecuencias relativas de los perfiles es indispensable fijarse cuál es el grupo de individuos de referencia.
Perfiles fila:
| \(X / Y\) | Bachillerato | Pregrado | Posgrado | Total |
|---|---|---|---|---|
| Hombre | 16.0% | 36.0% | 48.0% | 100.0% |
| Mujer | 57.1% | 33.3% | 9.5% | 100.0% |
| Total | 34.8% | 34.8% | 30.4% | 100.0% |
Perfiles columna:
| \(X / Y\) | Bachillerato | Pregrado | Posgrado | Total |
|---|---|---|---|---|
| Hombre | 25.0% | 56.3% | 85.7% | 54.3% |
| Mujer | 75.0% | 43.8% | 14.3% | 45.7% |
| Total | 100.0% | 100.0% | 100.0% | 100.0% |
# datos
tabla <- rbind(c(4, 9, 12), c(12, 7, 2))
rownames(tabla) <- c("Hombre","Mujer")
colnames(tabla) <- c("Bachillerato","Pregrado","Posgrado")
# perfiles fila
addmargins(A = 100*prop.table(x = tabla, margin = 1), margin = 2)## Bachillerato Pregrado Posgrado Sum
## Hombre 16.00000 36.00000 48.00000 100
## Mujer 57.14286 33.33333 9.52381 100
# perfiles columna
addmargins(A = 100*prop.table(x = tabla, margin = 2), margin = 1)## Bachillerato Pregrado Posgrado
## Hombre 25 56.25 85.71429
## Mujer 75 43.75 14.28571
## Sum 100 100.00 100.00000
# perfiles fila
pf <- 100*prop.table(x = tabla, margin = 1)
# perfiles columna
pc <-100*prop.table(x = tabla, margin = 2)
# diagrama de barras perfiles fila
barplot(height = t(pf), ylim = c(0,120), legend.text = TRUE,
args.legend = list(x = "top", bty = "n", ncol = 3),
main = "Perfil fila", xlab = "Sexo", ylab = "Porcentaje (%)")
# diagrama de barras perfiles columna
barplot(height = pc, beside = FALSE, las = 1, ylim = c(0, 120),
legend.text = TRUE, args.legend = list(x = "top", bty = "n", ncol = 2),
main = "Perfil columna", xlab = "Nivel educativo", ylab = "Porcentaje (%)")Cuando buscamos relacionar dos variables cualitativas, y buscamos determinar la magnitud de dicha asociación, podemos calcular medidas de asociación.
Las medidas de asociación utilizadas con mayor frecuencia corresponden a cocientes entre algunos de los perfiles, dependiendo del tipo de estudio.
Para los estudios transversales se utiliza como medida de asociación la razón de prevalencias \(RP\). Siendo \(X\) el estado de la exposición (“Si”, “No”), y \(Y\) el desenlace (“Si”, “No”), la tabla de frecuencias estaría dada por:
| \(X / Y\) | Desc Si | Desc No | Total |
|---|---|---|---|
| Si | \(n_{11}\) | \(n_{12}\) | \(n_{1\bullet}\) |
| No | \(n_{21}\) | \(n_{22}\) | \(n_{2\bullet}\) |
| Total | \(n_{\bullet1}\) | \(n_{\bullet2}\) | Total |
De tal manera que:
\[RP=\frac{\text{Prev en los expuestos}}{\text{Prev en los no exp}}=\frac{h_{11|1\bullet}}{h_{21|2\bullet}}\] ### Estudios longitudinales
Una de las medidas de frecuencia en los estudios longitudinales es el riesgo, definido como la proporción de casos que cambian de estado (saludable-enfermedad, enfermedad-muerte,etc…), es decir que el riesgo se define a partir de frecuencias relativas.
En estos casos la tabla luce igual a la anterior, la diferencia está en lo que significan las frecuencias condicionales a las filas:
\(h_{11|1\bullet}\) es el riesgo de desarrollar el desenlace en los expuestos.
\(h_{21|2\bullet}\) es el riesgo de desarrollar el desenlace en los no expuestos.
De tal forma que la medida de asociación relacionada es el riesgo relativo (“RR”):
\[RR=\frac{\text{Riesgo en los expuestos}}{\text{Riesgo en los no exp}}=\frac{h_{11|1\bullet}}{h_{21|2\bullet}}\] # Variables cuantitativas
Cuando se trabaja con dos variables cuantitativas, es costumbre denominar a la variable \(X\) representada en el eje \(x\) variable independiente y a la variable \(Y\) representada en el eje \(y\) variable dependiente.
Es costumbre mostrar las observaciones de una muestra correspondiente a un conjunto de datos bivariado como sigue.
| \(X\) | \(Y\) |
|---|---|
| \(x_1\) | \(y_1\) |
| \(x_1\) | \(y_1\) |
| \(\vdots\) | \(\vdots\) |
| \(x_n\) | \(y_n\) |
En una muestra de \(n=31\) estudiantes de grado séptimo se miden el peso (en kilogramos) y la la edad (en años), obteniéndose los resultados que se presentan a continuación. Elaborar un dispersograma o nube de puntos de la temperatura (\(Y\)) frente al peso (\(X\)).
Edad: 12.3, 13.2, 12.5, 13.1, 12.9, 13.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12.5, 12.6, 12.8, 12.9, 12.5, 13.1, 13.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6
Peso: 39.5, 41.0, 39.7, 40.8, 40.7, 41.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39.7, 39.8, 40.0, 40.3, 39.6, 41.1, 41.3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2
En la siguiente figura se muestra el diagrama de dispersión del peso frente a la temperatura de los materiales. Se observa que la relación entre las variables es directa y aparentemente fuerte.
# datos
edad <- c(12.3, 13.2, 12.5, 13.1, 12.9, 13.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12.5,
12.6, 12.8, 12.9, 12.5, 13.1, 13.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6)
peso <- c(39.5, 41.0, 39.7, 40.8, 40.7, 41.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39.7,
39.8, 40.0, 40.3, 39.6, 41.1, 41.3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2)
# dispersograma
plot(x = edad, y = peso)La covarianza muestral del conjunto de datos bivariado \((x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n)\), denotada con \(COV(x,y)\) o \(s_{xy}\), se calcula como: \[ COV(x,y)=\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \] - Si \(COV(x,y) > 0\), entonces \(y\) tiende a aumentar cuando lo hace \(x\) (relación directa). - Si \(COV(x,y) < 0\), entonces \(y\) tiende a disminuir cuando lo hace \(x\) (relación inversa). - Si \(COV(x,y) \approx 0\), entonces los puntos se reparten “equitativamente” alrededor de \((\bar{x},\bar{y})\).
Calcular e interpretar la covarianza entre el peso y la edad con el conjunto de datos bivariado del ejemplo anterior.
Para obtener la covarianza entre la edad y el peso, primero se deben calcular los promedios de estas variables. En este caso se tiene que \(\bar{x} = 12.728\) y \(\bar{y} = 40.180\). Luego de calcular los respectivos promedios, se procede a calcular las diferencias y los productos, de tal forma que la covarianza entre la temperatura y el peso es
\[\begin{align*} COV(x,y) &= \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \\ &= \frac{1}{25-1} \left((12.3-12.728)(39.5-40.180)+\ldots+(12.6-12.728)(40.2-40.180) \right) \\ &= 0.226. \end{align*}\]
Dado que la covarianza entre la edad y el peso es positiva, entonces la relación entre las dos variables es directa, como se aprecia en la Figura. Las unidades de la covarianza son unidades mixtas que en este caso corresponden a años \(\times\) kilogramo.
# datos
edad <- c(12.3, 13.2, 12.5, 13.1, 12.9, 13.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12.5,
12.6, 12.8, 12.9, 12.5, 13.1, 13.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6)
peso <- c(39.5, 41.0, 39.7, 40.8, 40.7, 41.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39.7,
39.8, 40.0, 40.3, 39.6, 41.1, 41.3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2)
# promedios
mean(edad)## [1] 12.728
mean(peso)## [1] 40.18
# covarianza
cov(edad, peso)## [1] 0.2264167
# otra manera
n <- length(edad)
sum((edad - mean(edad))*(peso-mean(peso)))/(n-1)## [1] 0.2264167
Si \((X,Y)\) es una variable bidimensional y \(a\), \(b\), \(c\) y \(d\) constantes, entonces se tiene que:
Una covarianza “grande” indica que hay una relación de tipo lineal entre las dos variables. Pero, ¿qué significa que la covarianza sea “grande”?
La covarianza está dada en unidades mixtas de medición, lo que motiva definir una medida de la relación entre dos variables cuantitativas, que no se vea “afectada” por los cambios de unidad de medida, es decir, que sea adimensional.
El coeficiente de correlación de Pearson del conjunto de datos \((x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n)\), denotado con \(r\)$, se calcula como: \[ r = \frac{COV(x,y)}{s_x*\,s_y}\,. \] El coeficiente de correlación está ligado directamente con el grado de la asociación lineal de las variables. De hecho, el coeficiente de correlación únicamente caracteriza la fortaleza de la relación lineal entre dos variables cuantitativas.
La siguiente figura presenta varios coeficientes de correlación asociados con diferentes nubes de puntos.
El coeficiente de correlación siempre toma valores entre \(-1\) y 1:
Calcular el coeficiente de correlación con los datos del ejemplo de la edad y el peso.
Para calcular el coeficiente de correlación entre la edad y el peso se necesita obtener previamente las desviaciones estándar correspondientes. En este caso se tiene que \(s_x= 0.339\) y \(s_y= 0.724\). Así, el coeficiente de correlación es \[ r = \frac{COV(x,y)}{s_x * s_y} = \frac{(0.226)}{(0.339)(0.724)} = 0.920. \] Este coeficiente indica que la relación lineal entre la temperatura y el peso de los materiales es directa y además fuerte.
# datos
edad <- c(12.3, 13.2, 12.5, 13.1, 12.9, 13.1, 12.4, 12.9, 13.2, 12.3, 12.4, 13.0, 12.5,
12.6, 12.8, 12.9, 12.5, 13.1, 13.0, 12.7, 12.2, 13.3, 12.4, 12.3, 12.6)
peso <- c(39.5, 41.0, 39.7, 40.8, 40.7, 41.3, 39.2, 40.4, 41.2, 38.8, 39.4, 40.2, 39.7,
39.8, 40.0, 40.3, 39.6, 41.1, 41.3, 40.3, 39.4, 41.1, 39.9, 39.6, 40.2)
# desviaciones estandar
sd(edad)## [1] 0.3397548
sd(peso)## [1] 0.7239936
# coeficiente de correlacion
cor(edad, peso)## [1] 0.9204667
# otra forma
cov(edad, peso)/(sd(edad)*sd(peso))## [1] 0.9204667