Bibliografía: Tema 5 y 6 del libro
Renta.anual | Gasto.total.del.viaje |
---|---|
27952.00 | 130.80 |
23697.00 | 110.73 |
20449.00 | 81.68 |
20022.00 | 110.89 |
26645.00 | 90.31 |
15635.00 | 111.28 |
40327.00 | 139.02 |
55112.00 | 209.83 |
38207.00 | 130.37 |
31762.00 | 119.11 |
32250.00 | 151.50 |
36679.00 | 144.89 |
25545.00 | 104.89 |
42373.00 | 146.69 |
38965.00 | 132.60 |
31892.00 | 146.43 |
30778.00 | 124.96 |
32177.00 | 122.92 |
45137.00 | 199.55 |
49834.00 | 160.15 |
¿Estan relacionadas estas variables? ¿Como es esta relacion?
Se analizan ahora las mismas variables esta vez en dos destinos turisticos distintos para 100 turistas en cada uno de ellos. Se presentan los siguientes graficos de dispersion
¿En que se parece y en que se diferencia ahora la relacion entre estas dos variables para los destinos turisticos analizados?
¿Sigue habiendo una relacion entre gasto diario y destino turistico? Analizando los dos destinos ¿En que se parece y en que se diferencia esta relacion?
Ahora comparamos el destino 1 y otro destino: el destino 3
Relación lineal: relacion entre dos variables que puede representarse aproximadamente como una línea recta.
Relaciones no lineales
Estadistico de covarianza
Si tenemos dos variables cuantitativas \( x \) e \( y \), el estadistico de covarianza viene dado por
\[ S_XY = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n} = \frac{\sum_{i=1}^{n}x_iy_i}{n} - \bar{x}\bar{y} \]
En la relacion del gasto y salario para el destino turistico 1 tendriamos una covarianza positiva
Representacion grafica de un estadistico de covarianza nulo
Ejemplo
\[ S_XY = \frac{\sum_{i=1}^{n}x_iy_i}{n} - \bar{x}\bar{y} \]
\[ S_XY = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n} = \frac{\sum_{i=1}^{n}x_iy_i}{n} - \bar{x}\bar{y} = \frac{2415,10}{10} - 13,7 \cdot 16,783 = 11,6 \]
Hay una asociacion positiva entre las variables
Ejercicio
Calcula la covarianza entre las variables X e Y
X | Y |
---|---|
9.00 | -5.00 |
9.00 | -2.00 |
12.00 | -7.00 |
8.00 | -3.00 |
14.00 | -7.00 |
10.00 | -6.00 |
10.00 | -9.00 |
Problemas del estadístico de covarianza como medida de asociacion
No tiene un limite superior, con respecto al cual considerar si el grado de asociacion es importante.
La covarianzadepende de las unidades en que se estan medidas las variables.
Propiedades de la varianza
Si se suma a la variable X una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas sera igual a la covarianza original.
Si se multiplica la variable X por una constante b y la variable Y por una constante c, la covarianza entre las dos nuevas variables transformadas sera igual a la covarianza original multiplicada por las constantes bc.
Coeficiente de correlacion lineal simple (Coeficiente de correlacion de Pearson)
\[ r_{xy} = \frac{S_{xy}}{S_xS_y} \]
Esto es, el coeficiente de correlacion es el cociente de la covarianza de las variables \( x \) e \( y \) entre el producto de sus desviaciones estandar.
Haciendo unos cuantos calculos tambien podemos escribirlo como
\[ r_{xy} = \frac{S_{xy}}{S_xS_y} = \frac{\sum_{i=1}{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}{n}(x_i - \bar{x})^2} \sqrt{(\sum_{i=1}{n}y_i - \bar{y})^2}} = \frac{\sum_{i=1}x_iy_i n\bar{x}\bar{y}}{\sqrt{x_i^2 n\bar{x}^2} \sqrt{y_i^2 n\bar{y}^2}} \]
\[ r_{xy} = \frac{S_{xy}}{S_xS_y}} \]
¿ Que resultados podemos obtener de este estadistico? ¿Como los interpretamos?
Propiedades del coeficiente de correlacion
Ejemplo
Calcularemos el coeficiente de correlacion a partir de los datos del ejemplo de la covarianza
\[ S_xy = 11,67 \]
\[ S_x = \sqrt{\frac(\sum_{i=1}{n}x_i^2{n} - \bar{x}^2} = \sqrt{\frac{1981}{10} - 13,7^7} = 3,23 \]
\[ r_xy = \frac{S_xy}{S_xS_y} = \frac{11,67}{3,23 \cdot 3,79} = 0,95 \]
Ejemplo practico: utilidad de medir el grado de asociacion
En una discusion sobre la importancia de las vacaciones en las familias europeas, se defiende que los determinantes del consumo turistico no son solo economicos sino culturales. Para justificar este argumento se calcula la correlacion entre un indicador de la riqueza del pais (el consumo per capita anual) y la proporcion de la poblacion que hace vacaciones. En el cuadro siguiente se muestra la informacion utilizada (datos de 1990)
Ejercicio
Calcula el coeficiente de correlacion de las variables del ejercicio del calculo de la varianza
X | Y |
---|---|
9.00 | -5.00 |
9.00 | -2.00 |
12.00 | -7.00 |
8.00 | -3.00 |
14.00 | -7.00 |
10.00 | -6.00 |
10.00 | -9.00 |
Ajuste lineal de dos variables
Ahora, analizaremos la relacion entre dos variables cuantitativas, pero interpretaremos que una variable \( x \) es causa de una variable Y \( y \):
Podemos escribir la relacion como
\[ y_i = a + bx_i \]
y: variable endogena, varinde dependiente o variable a explicar
x: variable exogena, variable independiente o variable explicativa
A la recta \( y_i = a + bx_i \) se la conoce como recta de regresion simple
a: es el valor que tomaria la variable Y cuando el valor de X es cero. Se conoce como termino independiente de la regresion.
b: mide el impacto que una variacion en una unidad de la variable X tiene sobre la variable Y. Se conoce como la pendiente de la recta.
Explicaremos como obtener esta recta y como interpretarla a partir de un ejemplo
Renta.anual | Gasto.total.del.viaje |
---|---|
27952.00 | 130.80 |
23697.00 | 110.73 |
20449.00 | 81.68 |
20022.00 | 110.89 |
26645.00 | 90.31 |
15635.00 | 111.28 |
40327.00 | 139.02 |
55112.00 | 209.83 |
38207.00 | 130.37 |
31762.00 | 119.11 |
32250.00 | 151.50 |
36679.00 | 144.89 |
25545.00 | 104.89 |
42373.00 | 146.69 |
38965.00 | 132.60 |
31892.00 | 146.43 |
30778.00 | 124.96 |
32177.00 | 122.92 |
45137.00 | 199.55 |
49834.00 | 160.15 |
Renta anual es la variable dependiente
Gasto diario en destino es la variable dependiente (estamos suponiendo que depende del salario)
Objetivos
Averiguar en que medida la variable independiente influye sobre la dependiente
Hacer predicciones sobre la variable dependiente a partir de valores de la independiente
Herramienta de analisis: recta de regresion. Ajustamos una recta a la nube de puntos del grafico. Tendremos asi una prediccion de gasto para posible salario
Recordemos como se representa una recta matemáticamente
\[ y = a + bx \]
(En nuestro ejemplo, renta anual es y y gasto diario es x)
a es el punto de corte de la recta con el eje vertical. b es la pendiente de la recta. Para el punto de corte, 1 y pendiente 1,5, tenemos una recta determinada. Si damos valores a x podemos calcular valores de y, y obtener puntos sobre esta recta
Por ejemplo
\[ y = 1 + 1,5x \]
x | y | |
---|---|---|
1 | 0.00 | 1.00 |
2 | 2.00 | 4.00 |
3 | 4.00 | 7.00 |
4 | 6.00 | 10.00 |
Error in salario3[1] <- 28000 : objeto 'salario3' no encontrado