Medidas de Asociación

Entre las medidas de asociación con variables cuantitativas, se encuentran 3 principales, que son: la covarianza, el coeficiente de correlación de Pearson y el coeficiente de determinación.

Breve Repaso de las medidas estadísticas

Se procede a nombrar por lo menos, las medidas que se involucran en las medidas de dependencia o de asociación como son la media, la varianza y la desviación estándar.

Suponga que se tiene un conjunto de datos pareados, correspondiente a una muestra aleatoria bivariada. Obtener las medias, las varianzas, las desviaciones estándar, la covarianza, la correlación de Pearson y el coeficiente de determinación.

x=seq(from=5, to=15, by=0.5)
y=19.2+42.4/16.3*(x-9.4)
x1=cbind(x=c(5,7,8,12,15),y=c(9,14,13,25,35))
x1
##       x  y
## [1,]  5  9
## [2,]  7 14
## [3,]  8 13
## [4,] 12 25
## [5,] 15 35
mu=colMeans(x1)
sigma=cov(x1)
r=cor(x1)
mu
##    x    y 
##  9.4 19.2
sigma
##      x     y
## x 16.3  42.4
## y 42.4 113.2
r
##          x        y
## x 1.000000 0.987072
## y 0.987072 1.000000
plot(x1[,1],x1[,2],xlab="Variable x", ylab="Variable y", main="Diagrama de dispersión", col="black")
lines(x,y, col="red")

Las funciones colMeans, cov y cor permiten calcular la media de las variables; es fácil verificar que la media de la primera columna es 9.4 y la de la segunda columna es 19.2 (se deben sumar los 5 valores y dividir el resultado por 5).

La media de la variable x, puede representar la primera columna; su cómputo es \(\overline{x}=\frac{x_1+x_2+\cdots +x_n}{n}\)

La varianza muestral es \(S^2=\left(\frac{x_1^2+x_2^2+\cdots +x_n^2}{n}-\overline{x}^2\right)\frac{n}{n-1}\) y la desviación es \(S=\sqrt{S^2}\), la raíz cuadrada de la varianza.

Por ejemplo, la varianza de la variable x es 16.3 y la varianza de la variable y es 113.2. La covarianza estimada de las variables x e y es 42.4 y el coeficiente de correlación de Pearson es 0.987072, un valor de correlación mayor que 0.8 como en este caso indica una correlación fuerte entre las variables pareadas x e y, lo cual, implica que entre estas variables existe una relación lineal.

La covarianza entre x e y, puede ser definida así \(S_{xy}^2=\left(\frac{x_1y_1+x_2y_2+\cdots +x_ny_n}{n}-\overline{x}.\overline{y}\right)\frac{n}{n-1}\)

La correlación muestral de Pearson será, entonces \(r=\frac{S_{xy}}{\sqrt{S_x^2S_y^2}}\), donde \(S_x^2\) y \(S_y^2\) son las varianzas muestrales de las variables.

Ejercicio: Use las fórmulas dadas y compruebe los valores de las medidas: medias, varianzas, desviaciones estándares, covarianza y coeficiente de correlación.

Probabilidades Condicionales

Se define la probabilidad condicional simple como la probabilidad de ocurrencia de un evento, digamos A, dado que ha ocurrido previamente otro evento, digamos B. Se escribe asi

\[P(A/B)=\frac{P(A\bigcap B)}{P(B)}\] donde \(P(B)>0\).

La probabilidad de “A dado B” no es lo mismo que la probabilidad de “B dado A”, pero guardan la relación de impacto proporcional.

Suponga que hay dos eventos, que resultan de elegir un estudiante de 9° a 11°, al azar.

A:“Ganar Matemáticas en el primer periodo” B:“Ganar Lenguaje en el primer periodo” Se dan las siguientes probabilidades: \(P_A= P(A)\), \(P_B=P(B)\) y \(P_{AB}=P(A\bigcap B)\).

Determine sus probabilidades: \(P_1\), probabilidad de A dado B; \(P_2\), probabilidad de B dado A. Haga su interpretación.

P_A=0.7
P_B=0.8
P_AB=0.6
P_1=P_AB/P_B
P_2=P_AB/P_A
P_1
## [1] 0.75
P_2
## [1] 0.8571429

Al elegir un estudiante que haya ganado Lenguaje en el primer periodo, la probabilidad de que este tambien haya ganado Matemáticas aumenta de 0.7 a 0.75.

Al elegir un estudiante que haya ganado Matemáticas en el primer periodo, la probabilidad de que este tambien haya ganado Lenguje aumenta de 0.8 a 0.8571.

Determine sus probabilidades: \(P_3\), probabilidad de \(\overline{A}\) dado B; \(P_4\), probabilidad de B dado \(\overline{A}\). Haga su interpretación.

P_A=0.7
P_B=0.8
P_AB=0.6
P_3=(P_B-P_AB)/P_B
P_4=(P_B-P_AB)/(1-P_A)
P_3
## [1] 0.25
P_4
## [1] 0.6666667

Al elegir un estudiante que haya ganado Lenguaje en el primer periodo, la probabilidad de que este no haya ganado Matemáticas disminuye de 0.3 a 0.25.

Al elegir un estudiante que no haya ganado Matemáticas en el primer periodo, la probabilidad de que este haya ganado Lenguje disminuye de 0.8 a 0.6667.