TEMA 5: ANALISIS DE LA RELACION ENTRE DOS VARIABLES CUANTITATIVAS

Indice

  1. Relacion entre dos variables cuantitativas. Representacion grafica.
  2. Relacion lineal: Covarianza i Correlacion.
  3. Ajuste lineal entre dos variables.
  4. Interpretacion grafica y bondad de ajuste lineal

Bibliografía: Tema 5 y 6 del libro

Relacion entre dos variables cuantitativas. Representacion grafica.




Renta.anual Gasto.total.del.viaje
27952.00 130.80
23697.00 110.73
20449.00 81.68
20022.00 110.89
26645.00 90.31
15635.00 111.28
40327.00 139.02
55112.00 209.83
38207.00 130.37
31762.00 119.11
32250.00 151.50
36679.00 144.89
25545.00 104.89
42373.00 146.69
38965.00 132.60
31892.00 146.43
30778.00 124.96
32177.00 122.92
45137.00 199.55
49834.00 160.15




plot of chunk unnamed-chunk-2

¿Estan relacionadas estas variables? ¿Como es esta relacion?

Relacion entre dos variables cuantitativas. Representacion grafica.

Se analizan ahora las mismas variables esta vez en dos destinos turisticos distintos para 100 turistas en cada uno de ellos. Se presentan los siguientes graficos de dispersion


plot of chunk unnamed-chunk-3

¿En que se parece y en que se diferencia ahora la relacion entre estas dos variables para los destinos turisticos analizados?

¿Sigue habiendo una relacion entre gasto diario y destino turistico? Analizando los dos destinos ¿En que se parece y en que se diferencia esta relacion?

Relacion entre dos variables cuantitativas. Representacion grafica.

Ahora comparamos el destino 1 y otro destino: el destino 3

plot of chunk unnamed-chunk-4

Relacion entre dos variables cuantitativas. Representacion grafica.

Relación lineal: relacion entre dos variables que puede representarse aproximadamente como una línea recta.

  • La asociacion no implica causalidad.
  • Dos tipos de asociación lineal: positiva y negativa.

plot of chunk unnamed-chunk-5

Relacion entre dos variables cuantitativas. Representacion grafica.

Relaciones no lineales

plot of chunk unnamed-chunk-6

Relacion lineal: Covarianza i Correlacion

Estadistico de covarianza

Si tenemos dos variables cuantitativas \( x \) e \( y \), el estadistico de covarianza viene dado por

\[ S_XY = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n} = \frac{\sum_{i=1}^{n}x_iy_i}{n} - \bar{x}\bar{y} \]


  • Covarianza positiva (\( S_XY>0 \)) Asociacion lineal positiva.
  • Covarianza negativa (\( S_XY<0 \)) Asociacion lineal negativa.
  • Covarianza nula (\( S_XY = 0 \)) Asociacion lineal inexistente.

Relacion lineal: Covarianza i Correlacion


En la relacion del gasto y salario para el destino turistico 1 tendriamos una covarianza positiva

plot of chunk unnamed-chunk-7

Relacion lineal: Covarianza i Correlacion

Representacion grafica de un estadistico de covarianza nulo


plot of chunk unnamed-chunk-8

Relacion lineal: Covarianza i Correlacion

Ejemplo

\[ S_XY = \frac{\sum_{i=1}^{n}x_iy_i}{n} - \bar{x}\bar{y} \]

Relacion lineal: Covarianza i Correlacion

\[ S_XY = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n} = \frac{\sum_{i=1}^{n}x_iy_i}{n} - \bar{x}\bar{y} = \frac{2415,10}{10} - 13,7 \cdot 16,783 = 11,6 \]

Hay una asociacion positiva entre las variables

Relacion lineal: Covarianza i Correlacion

Ejercicio

Calcula la covarianza entre las variables X e Y

X Y
9.00 -5.00
9.00 -2.00
12.00 -7.00
8.00 -3.00
14.00 -7.00
10.00 -6.00
10.00 -9.00

Relacion lineal: Covarianza i Correlacion

Problemas del estadístico de covarianza como medida de asociacion


  • No tiene un limite superior, con respecto al cual considerar si el grado de asociacion es importante.

  • La covarianzadepende de las unidades en que se estan medidas las variables.

Relacion lineal: Covarianza i Correlacion

Propiedades de la varianza


  • Si se suma a la variable X una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas sera igual a la covarianza original.

  • Si se multiplica la variable X por una constante b y la variable Y por una constante c, la covarianza entre las dos nuevas variables transformadas sera igual a la covarianza original multiplicada por las constantes bc.

Relacion lineal: Covarianza i Correlacion

Coeficiente de correlacion lineal simple (Coeficiente de correlacion de Pearson)

\[ r_{xy} = \frac{S_{xy}}{S_xS_y} \]

Esto es, el coeficiente de correlacion es el cociente de la covarianza de las variables \( x \) e \( y \) entre el producto de sus desviaciones estandar.

Haciendo unos cuantos calculos tambien podemos escribirlo como

\[ r_{xy} = \frac{S_{xy}}{S_xS_y} = \frac{\sum_{i=1}{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}{n}(x_i - \bar{x})^2} \sqrt{(\sum_{i=1}{n}y_i - \bar{y})^2}} = \frac{\sum_{i=1}x_iy_i n\bar{x}\bar{y}}{\sqrt{x_i^2 n\bar{x}^2} \sqrt{y_i^2 n\bar{y}^2}} \]

Relacion lineal: Covarianza i Correlacion

\[ r_{xy} = \frac{S_{xy}}{S_xS_y}} \]

¿ Que resultados podemos obtener de este estadistico? ¿Como los interpretamos?


  • Asociacion lineal positiva \( Sxy>0 \) \( rxy>0 \)
  • Asociacion lineal negativa \( Sxy<0 \) \( rxy<0 \)
  • Ausencia de asociacion lineal \( Sxy<0 \) \( rxy<0 \)
  • El coeficiente de correlacion toma valores entre -1 y 1.
  • \( rxy<0 \) = 1 Asociacion lineal exacta de tipo positivo.
  • \( rxy<0 \) = -1 Asociacion lineal exacta de tipo negativo.
  • \( rxy<0 \) = 0 Ausencia de asociacion lineal.

Relacion lineal: Covarianza i Correlacion

Propiedades del coeficiente de correlacion


  • El valor del coeficiente de correlacion entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante.
  • El coeficiente de correlacion toma valores en el intervalo -1 y 1. Los valores maximo y minimo se alcanzan cuando se da una relacion lineal exacta entre las dos variables, de tipo positivo o de tipo negativo, respectivamente.
  • Valores del coeficiente proximos a 1 indican la existencia de una asociacion positiva fuerte entre las variables; valores cercanos a -1 indican la existencia de una asociacion negativa fuerte entre las variables; valores cercanos a cero señalan la ausencia de una asociacion lineal.

Relacion lineal: Covarianza i Correlacion

Ejemplo

Calcularemos el coeficiente de correlacion a partir de los datos del ejemplo de la covarianza

\[ S_xy = 11,67 \]

\[ S_x = \sqrt{\frac(\sum_{i=1}{n}x_i^2{n} - \bar{x}^2} = \sqrt{\frac{1981}{10} - 13,7^7} = 3,23 \]

\[ r_xy = \frac{S_xy}{S_xS_y} = \frac{11,67}{3,23 \cdot 3,79} = 0,95 \]

Relacion lineal: Covarianza i Correlacion

Ejemplo practico: utilidad de medir el grado de asociacion

En una discusion sobre la importancia de las vacaciones en las familias europeas, se defiende que los determinantes del consumo turistico no son solo economicos sino culturales. Para justificar este argumento se calcula la correlacion entre un indicador de la riqueza del pais (el consumo per capita anual) y la proporcion de la poblacion que hace vacaciones. En el cuadro siguiente se muestra la informacion utilizada (datos de 1990)

Relacion lineal: Covarianza i Correlacion

Ejercicio

Calcula el coeficiente de correlacion de las variables del ejercicio del calculo de la varianza

X Y
9.00 -5.00
9.00 -2.00
12.00 -7.00
8.00 -3.00
14.00 -7.00
10.00 -6.00
10.00 -9.00

Ajuste lineal entre dos variables

Ajuste lineal de dos variables

Ahora, analizaremos la relacion entre dos variables cuantitativas, pero interpretaremos que una variable \( x \) es causa de una variable Y \( y \):

Podemos escribir la relacion como

\[ y_i = a + bx_i \]

  • y: variable endogena, varinde dependiente o variable a explicar

  • x: variable exogena, variable independiente o variable explicativa

  • A la recta \( y_i = a + bx_i \) se la conoce como recta de regresion simple

  • a: es el valor que tomaria la variable Y cuando el valor de X es cero. Se conoce como termino independiente de la regresion.

  • b: mide el impacto que una variacion en una unidad de la variable X tiene sobre la variable Y. Se conoce como la pendiente de la recta.

  • Explicaremos como obtener esta recta y como interpretarla a partir de un ejemplo

Ajuste lineal entre dos variables




Renta.anual Gasto.total.del.viaje
27952.00 130.80
23697.00 110.73
20449.00 81.68
20022.00 110.89
26645.00 90.31
15635.00 111.28
40327.00 139.02
55112.00 209.83
38207.00 130.37
31762.00 119.11
32250.00 151.50
36679.00 144.89
25545.00 104.89
42373.00 146.69
38965.00 132.60
31892.00 146.43
30778.00 124.96
32177.00 122.92
45137.00 199.55
49834.00 160.15




plot of chunk unnamed-chunk-12

Ajuste lineal entre dos variables

Renta anual es la variable dependiente

Gasto diario en destino es la variable dependiente (estamos suponiendo que depende del salario)

Objetivos

  • Averiguar en que medida la variable independiente influye sobre la dependiente

  • Hacer predicciones sobre la variable dependiente a partir de valores de la independiente




plot of chunk unnamed-chunk-13

Ajuste lineal entre dos variables

Herramienta de analisis: recta de regresion. Ajustamos una recta a la nube de puntos del grafico. Tendremos asi una prediccion de gasto para posible salario

plot of chunk unnamed-chunk-14

Ajuste lineal entre dos variables

Recordemos como se representa una recta matemáticamente

\[ y = a + bx \]

(En nuestro ejemplo, renta anual es y y gasto diario es x)

a es el punto de corte de la recta con el eje vertical. b es la pendiente de la recta. Para el punto de corte, 1 y pendiente 1,5, tenemos una recta determinada. Si damos valores a x podemos calcular valores de y, y obtener puntos sobre esta recta

Por ejemplo

\[ y = 1 + 1,5x \]

x y
1 0.00 1.00
2 2.00 4.00
3 4.00 7.00
4 6.00 10.00

plot of chunk unnamed-chunk-15

Ajuste lineal entre dos variables

Error in salario3[1] <- 28000 : objeto 'salario3' no encontrado