Previamente definimos la varianza es una medida de la diferencias entre cada punto y la media, de tal forma que si pensamos en los datos como una nube de puntos, la varianza nos daría un indicio del tamaño de esa nube de puntos. Se define como:
\[V(x)=S^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\]
Ahora suponga que desea estimar la medida de variabilidad ya no de una variable frente a ella misma, sino frente a otra, es decir el grado de variación lineal conjunta. Es una estadística básica para determinar si existe una asociación entre ambas variables y además es el dato necesario para estimar otros parámetros básicos, como el coeficiente de correlación lineal o la recta de regresión.
Covarian Positivamente
Covarian Positivamente
Si para la varianza definimos el grado de variabilidad de las distancias a la media al cuadrado, para la covarianza lo hacemos frente al producto de las desviaciones de cada variable a su media
\[\displaystyle s_{xy}={1 \over n}\sum _{i=1}^{n}{(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}={1 \over n}\sum _{i=1}^{n}{x_{i}y_{i}}-{\overline {x}}\cdot {\overline {y}}\]
Las relaciones más simples entre variables numéricas son las lineales. Estas relaciones describen la proporcionalidad en los cambios de la variable dependiente con respecto a los de la independiente.
Dos variables están asociadas en forma directa si los cambios que se observan en una de ellas se presentan en la misma dirección que en la otra: o las dos crecen simultáneamente o las dos decrecen simultáneamente. Si los cambios van en sentidos contrarios, las variables están asociadas en forma inversa: una de ellas crece mientras la otra decrece
Si \(\displaystyle s_{xy}>{0}\) hay asociación directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y. Si \(\displaystyle s_{xy}={0}\) Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas. Si \(\displaystyle s_{xy}<{0}\) hay asociación inversa o negativa, es decir, a grandes valores de x corresponden pequeños valores de y. Iguales interpretaciones se aplican al parámetro {(x,y)} {(x,y)}
Si X, Y, W, y V son variables aleatorias y a, b, c, d son constantes (“constante” en este contexto significa no aleatorio), se cumple que:
Estas propiedades se deducen de manera casi directa de la definición de la covarianza. La covarianza trata de explicar qué tan relacionadas se encuentran dos variables entre sí, qué tanto se mueve una cuando la otra se mueve otro tanto. Ejemplo, si la variable X se mueve 1, supongamos que la variable Y se mueve 2, entonces podemos decir que la variable Y se mueve positivamente el doble de lo que se movería la variable X.
La propiedad 4 tiene una implicación importante. Si x es la estatura en metros y y el peso en kilogramos de personas, cambiar a centímetros la unidad de medida de la estatura implica un cambio en la covarianza en un factor 100 y si se cambia el peso a gramos, la covarianza se multiplica por 1000. Siendo las mismas variables y los mismos elementos, que la covarianza dependa de las unidades de medida dificulta mucho la interpretación de sus valores. El problema se puede solucionar utilizando variables adimensionales.
cuando se aplica a una población se representa comúnmente con la letra griega \(\rho\) (rho) y puede denominarse coeficiente de correlación o coeficiente de correlación de Pearson de la población .
\[\displaystyle \rho_{X, Y} = {\frac{\operatorname {cov} (X, Y)} {S_{X} S_{Y}}}\]
dónde:
\(\operatorname {cov}\) es la covarianza \(\displaystyle S_{X}\) es la desviación estándar de \(\displaystyle X\) \(\displaystyle S_{Y}\) es la desviación estándar de \(\displaystyle Y\)
So if we have one dataset {x1,…,xn} containing n values and another dataset {y1,…,yn} containing n values then that formula for r is:
\(\displaystyle r={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}}\)
donde: \(\displaystyle n\) is the sample size \(\displaystyle x_{i},y_{i}\) Son los valores observados en el individuo i. \(\displaystyle \bar{x}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}\) (media muestral);anàlogo para \(\displaystyle \bar{y}\)
https://upload.wikimedia.org/wikipedia/commons/d/d4/Correlation_examples2.svg
par(mfrow=c(3,2))
x=seq(1,100)
y=x
plot(x,y, main=paste(" correlación :", round(cor(x,y),2)), sub=paste(" covarianza :", round(cov(x,y),1)))
y10<- x +rnorm(100,10,8)
plot(x,y10, main=paste(" correlación :", round(cor(x,y10),2)), sub=paste(" covarianza :", round(cov(x,y10),1)))
y10<- x +rnorm(100,10,20)
plot(x,y10, main=paste(" correlación :", round(cor(x,y10),2)), sub=paste(" covarianza :", round(cov(x,y10),1)))
y10<- x +rnorm(100,10,40)
plot(x,y10, main=paste(" correlación :", round(cor(x,y10),2)), sub=paste(" covarianza :", round(cov(x,y10),1)))
y5<- -x +rnorm(100,10,20)
plot(x,y5, main=paste(" correlación :", round(cor(x,y5),2)), sub=paste(" covarianza :", round(cov(x,y5),1)))
n1<-rnorm(100)
n2<-rnorm(100)
plot(n1,n2, main=paste(" correlación :", round(cor(n1,n2),2)), sub=paste(" covarianza :", round(cov(n1,n2),1)))
Covarian las siguientes variables, la correlación será positiva, negativa o cercana a cero
x=seq(-1,1,0.01)
y=(1-x**2)**(1/2)+rnorm(length(x),0,0.005)
plot(x,y)
cor(x,y)
## [1] -0.000473657
Hay dependencia entre las dos variables aunque la covarianza en nula
Correlación no es causalidad
En general, la falacia reside en que dados dos eventos, A y B, al descubrir una correlación estadística entre ambos, es un error inferir que A causa B porque podría ser que B cause A, o también podría ser que un tercer evento cause tanto A como B, explicando así la correlación. Existen al menos otras cuatro posibilidades:
Considérese el siguiente argumento:
Muchos consumidores de cannabis tienen problemas psiquiátricos, y mucha gente con problemas psiquiátricos consume cannabis. Por lo tanto, el consumo de cannabis causa problemas psiquiátricos.
Aunque la conclusión pudiera ser verdadera, el argumento es falaz porque la mera correlación entre el consumo de cannabis y problemas psiquiátricos no puede garantizar una relación de causa y efecto. Podría ser que el consumo de cannabis causara problemas psiquiátricos, pero también podría ser que los problemas psiquiátricos causaran el consumo de cannabis, o que ambos factores fueran causados por un tercero, por ejemplo la televisión. Asumir que tal cosa causa tal otra puede ser tentador, pero se necesita más información, además de la correlación estadística, para inferir correctamente que hay una relación causal entre un evento y otro.
La frase “correlación no implica causalidad” debe entenderse como “correlación no implica necesariamente causalidad”. Aunque no se debe concluir prematuramente que dos eventos correlacionados están ligados causalmente, una correlación puede ser un buen indicador de una relación causal.
x=seq(1,100)
y=2000+x**2
plot(x,y)
#muestral
sum(((x-mean(x))*(y-mean(y))))/(length(x))
## [1] 84158.25
(cov(x,y)*(length(x)-1))/length(x)
## [1] 84158.25
#poblacional
sum(((x-mean(x))*(y-mean(y))))/(length(x)-1)
## [1] 85008.33
cov(x,y)
## [1] 85008.33