Supongamos que tenemos un conjunto de datos con 5 variables en el espacio \(\mathcal{X}\): \(X_1=GPA, \ X_2=IQ, \ X_3=Genero, \ X_4=Interacción \ X_1*X_2, \ X_5=Interacción \ X_1*X_3\).
La variable dependiente es el primer salario después de graduarse.
Sopongamos que ajustamos un modelo de regresión lineal y obtenemos:
\(\beta_0=50\)
\(\beta_1=20\)
\(\beta_2=0.07\)
\(\beta_3=35\)
\(\beta_4=0.01\)
\(\beta_5=-10\)
¿Cuál de las siguientes es correcta y por qué?
1.1 Para valores fijos de IQ y GPA, los hombres ganan, en promedio, más que las mujeres.
1.2 Para valores fijos de IQ y GPA, las mujeres ganan, en promedio, más que los hombres.
1.3 Para valores fijos de IQ y GPA, los hombres ganan, en promedio, más que las mujeres siempre que el GPA sea suficientemente alto.
1.4 Para valores fijos de IQ y GPA, las mujeres ganan, en promedio, más que los hombres siempre que el GPA sea suficientemente alto.
Respuesta El inciso correcto es el 1.3. Para llegar a esta conclusión analizamos la ecuación con las betas dadas, la cual es la siguiente:
\(y = 50 + 20x_1 + 0.07x_2 + 35x_3 + 0.01(x_1x_2) - 10(x_1x_3)\) donde \(y\) es el salario primer salario despues de graduarse.
Entonces, podemos observar que si \(x_3\) toma el valor de cero, es decir es un hombre, la ecuación queda de la sigiente manera
\(y = 50 + 20x_1 + 0.07x_2 + 0.01(x_1x_2)\)
Lo que siempre será positivo. Ahora bien, si consideramos que \(x_3\) es mujer, entonces toma el valor de 1, dejando la ecuación de la siguiente manera
\(y = 50 + 20x_1 + 0.07x_2 + 35 + 0.01(x_1x_2) - 10(x_1)\)
\(\Rightarrow y = 85 + 10x_1 + 0.07x_2 + 0.01(x_1x_2)\)
Entonces, considerando que \(x_1\) y \(x_2\) son fijjos, y comparando las ecuaciones de \(y\) si \(x_3\) es hombre o mujer tenemos que la única manera de que en caso de ser mujer sea más grande que si es hombre sería que \(x_1\) tomara valores mayores que 3.5.
Entonces podemos concluir que la afimación correcta es la 1.3, pues los hombre ganan más en promedio pero sólo si los valores de GPA (\(x_1\)) son suficientemente grandes, donde consideramos grandes como mayores a 3.5
La ecuación queda de la siguiente manera
\(y = 50 + 20(4) + 0.07(110) + 35 + 0.01(4*110) - 10(4)\)
Lo que es igual a \(137.1\)
Falso, la beta no tiene nada que ver con la significancia, lo único que podria decir es que el evento no tiene gran impacto sobre el evento a estudiar. Pero no tiene nada que ver con su significancia, eso puede verse con lo p_values.
Considere una regresión lineal sin intercepto, es decir \[y_i=x_i\beta\] con \[\beta=\sum_{i=1}^nx_iy_i/(\sum_{i'=1}^nx_{i'}^2)\] Muestres que podemos escribir: \[y_i = \sum_{i'=1}^na_{i'}y_{i'}\] ¿Quién es \(a_{i'}\)
Respuesta Sabemos que \(y_i=x_i\beta\) , para efectos del ejercicio lo reescribiremos como \(y_j=x_j\beta\) pues el subindice i de \(x_i\) y \(y_i\) no depende de la suma dentro de \(\beta\)
Sin perdida de generalidad, odemos reescribir a \(\beta\) como \(\beta=\sum_{i=1}^n[\dfrac{x_i}{(\sum_{i'=1}^nx_{i'}^2)}y_i]\)
Entonces tenemos \(y_j=x_j\sum_{i=1}^n[\dfrac{x_i}{(\sum_{i'=1}^nx_{i'}^2)}y_i]\)
\(\rightarrow\) \(y_j=\sum_{i=1}^nx_j[\dfrac{x_i}{(\sum_{i'=1}^nx_{i'}^2)}y_i]\)
\(\rightarrow\) \(y_j=\sum_{i=1}^n[\dfrac{x_jx_i}{(\sum_{i'=1}^nx_{i'}^2)}y_i]\)
\(\therefore\) \(a_{i'} = \dfrac{x_jx_i}{(\sum_{i'=1}^nx_{i'}^2)}\)
Pruebe que en el caso de regresión lineal simple, la \(R^2\) es igual al cuadrado de la correlación entre \(x\) y \(y\)
Para demostrar esto, recordemos que:
\(\widehat{y} = \widehat{\beta_0} + \widehat{\beta_1} {x_i}\) , \(\widehat{\beta_1} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})y_i}{\sum_{i=1}^{n}(x_i - \bar{x})^2}\) y \(\widehat{\beta_0} = \bar{y}-\widehat{\beta_1}\bar{x}\)
Ahora bien, tenemos que:
\[\rho_{(x,y)} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 * \sum_{i=1}^{n}(y_i - \bar{y})^2}}\]
\[\Rightarrow \rho_{(x,y)}^2 = \frac{(\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}))^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2 * \sum_{i=1}^{n}(y_i - \bar{y})^2}\]
\[ = \frac{(\sum_{i=1}^{n}(x_i - \bar{x})y_i - (x_i - \bar{x})\bar{y}))^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2 * \sum_{i=1}^{n}(y_i - \bar{y})^2}\] Pero veamos que sucede con el segundo sumando del numerador
\(\sum_{i=1}^{n}(x_i - \bar{x})\bar{y} = \bar{y}\sum_{i=1}^{n}(x_i - \bar{x}) = \bar{y}(\sum_{i=1}^{n}x_i-n\bar{x}) = 0\)
\[ \Rightarrow \rho_{(x,y)}^2 = \frac{(\sum_{i=1}^{n}(x_i - \bar{x})y_i)^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2 * \sum_{i=1}^{n}(y_i - \bar{y})^2}\]
\[= (\frac{\sum_{i=1}^{n}(x_i - \bar{x})y_i}{\sum_{i=1}^{n}(x_i - \bar{x})^2})^2 * \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\]
\[=\widehat{\beta_1} \frac{ \sum_{i=1}^{n}(x_i - \bar{x})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\]
\[=\frac{ \sum_{i=1}^{n}(\widehat{\beta_1} x_i - \widehat{\beta_1} \bar{x})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\] Sumando un cero tenemos \[\rho_{(x,y)}^2 =\frac{ \sum_{i=1}^{n}(\bar{y} - \widehat{\beta_1} \bar{x} + \widehat{\beta_1} x_i- \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\] \[ =\frac{ \sum_{i=1}^{n}(\hat{\beta_0} + \widehat{\beta_1} x_i - \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\] \[ =\frac{ \sum_{i=1}^{n}(\hat{y_i} - \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2} = R^2\] ### 4
La siguiente tabla corresponde a la salida de un modelo de regresión con el cual se busca explicar ventas con inversiones en marketing en TV, radio y periódicos.
| Coefficient | Std. error | t-statistic | p-value | |
|---|---|---|---|---|
| Intercept | 2.939 | 0.3119 | 9.42 | < 0.0001 |
| TV | 0.046 | 0.0014 | 32.81 | < 0.0001 |
| radio | 0.189 | 0.0086 | 21.89 | < 0.0001 |
| newspaper | −0.001 | 0.0059 | −0.18 | 0.8599 |
Describa la hipótesis nula que se realiza. Explique que conclusiones puede obtener basado en la tabla (la explicación no debe ser técnica).
Respuesta La hipótesis nula nos dice que no hay relación lineal entre las variables explicativas “X” y la variable dependiente “Y”, en otras palabras, ninguna de las variables explicativas influye en la variable respuesta.
Esto es \(H_0: \beta_0=\beta_1=\beta_2=\beta_3=0\)
En cambio la hipotesis alternativa es \(H_a: \exists \beta_j \neq 0\)
Siendo \(\beta_0=2.939\) correspondiente al Intercepto, \(\beta_1=0.046\) correspondiente a TV, \(\beta_2=0.189\) correspondiente a radio y \(\beta_3=-0.001\) correspondiente a newspaper.
Por lo que el modelo queda como \(y=2.993+0.046x_1+0.189x_2-0.001x_3\)
Si analizamos los \(p-value\) de las pruebas, podemos ver que estos son \(<0.05\) para Intercept, TV y Radio lo cual nos dice que rechazan la hipotesis nula, a demas de indicar que son variables significativas. Por otro lado, el \(p-value\) de newspaper el muy alto lo cual nos indica que no se puede rechazar la hipotesis nula y si observamos el valor de su coefficiente podemos notar que es negativo a demas de muy cercano a cero, el que sea negativo nos indica que si se invierte en anuncios en newspaper, las ventas no van a incrementar si no disminuir, por lo que lo ideal seria no invertir en periodico, obteniendo el siguiente modelo \[y=2.993+0.046x_1+0.189x_2\] Con X_1 perteneciendo a TV y X_2 perteneciendo a radio.
Para el modelo de regresión logística pruebe que si: \[p(X)=\frac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}\] entonces: \[\frac{p(X)}{1-p(X)}=e^{\beta_0+\beta_1X}\]
Respuesta
\(1-p(X)=1-\dfrac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}\)
\(\rightarrow\)\(1-p(X)=\dfrac{1+e^{\beta_0+\beta_1X}-e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}\)
\(\rightarrow\)\(1-p(X)=\dfrac{1}{1+e^{\beta_0+\beta_1X}}\)
\(\rightarrow\)\(\dfrac{p(X)}{1-p(X)}=\dfrac{\dfrac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}}{\dfrac{1}{1+e^{\beta_0+\beta_1X}}}\)
\(\therefore\)\(\dfrac{p(X)}{1-p(X)}=e^{\beta_0+\beta_1X}\)
Suponga que recolectamos datos para un grupo de estudiantes de una clase del seminario de estadística y medimos \(X_1=horas \ de\ estudio, \ X_2=promedio, \ Y = sacará \ 10\). Ajustamos un modelo de regresión logística y obtenemos:
\(\beta_0=-6\)
\(\beta_1=0.05\)
\(\beta_2=1\)
Tenemos que \(p(X)=\frac{e^{-6+0.05(40)+9}}{1+e^{-6+0.05(40)+9}}\)
Lo que es igual a \(.9933071\)
Consideremos que una buena probabilidad es 0.95
\(\Rightarrow 0.95=\frac{e^{-6+0.05(x)+9}}{1+e^{-6+0.05(x)+9}}\)
\(\Rightarrow 0.95 + 0.95e^{3+0.05(x)} = e^{3+0.05(x)}\)
\(\Rightarrow 0.95 = 0.05e^{3+0.05(x)}\)
\(\Rightarrow \frac{0.95}{0.05} = e^{3+0.05(x)}\)
\(\Rightarrow ln(\frac{0.95}{0.05}) = 3+0.05(x)\)
\(\Rightarrow \frac{ln(\frac{0.95}{0.05})-3}{0.05} = x\)
\(\Rightarrow x = -1.11122\)
Lo que nos dice que realmente no vale la pena estudiar.
Este ejercicio debe hacerse con los datos Weekly del paquete ISLR.
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
summary(datos)
## Year Lag1 Lag2 Lag3
## Min. :1990 Min. :-18.1950 Min. :-18.1950 Min. :-18.1950
## 1st Qu.:1995 1st Qu.: -1.1540 1st Qu.: -1.1540 1st Qu.: -1.1580
## Median :2000 Median : 0.2410 Median : 0.2410 Median : 0.2410
## Mean :2000 Mean : 0.1506 Mean : 0.1511 Mean : 0.1472
## 3rd Qu.:2005 3rd Qu.: 1.4050 3rd Qu.: 1.4090 3rd Qu.: 1.4090
## Max. :2010 Max. : 12.0260 Max. : 12.0260 Max. : 12.0260
## Lag4 Lag5 Volume
## Min. :-18.1950 Min. :-18.1950 Min. :0.08747
## 1st Qu.: -1.1580 1st Qu.: -1.1660 1st Qu.:0.33202
## Median : 0.2380 Median : 0.2340 Median :1.00268
## Mean : 0.1458 Mean : 0.1399 Mean :1.57462
## 3rd Qu.: 1.4090 3rd Qu.: 1.4050 3rd Qu.:2.05373
## Max. : 12.0260 Max. : 12.0260 Max. :9.32821
## Today Direction
## Min. :-18.1950 Down:484
## 1st Qu.: -1.1540 Up :605
## Median : 0.2410
## Mean : 0.1499
## 3rd Qu.: 1.4050
## Max. : 12.0260
En este caso tenemos un total de 9 variables las cuales son:
Year: Año en el cual se tomo la observación
Lag(i): Porcentaje de retorno de las i semanas anteriores
Volume: Volumen de las acciones negociadas
Today: Porcentaje de retorno para esa semana
Direction: Indica si el mercado fue a la alza o baja dependiendo la semana
La variable respuesta que utilizaremos para esta regresion sera la de Direction (dirección), pues esta es la que nos muestra si el mercado fue a la alza o a la baja a comparacion de la semana anterior.
par(mfrow=c(2,2))
for(i in 1:8) {
hist(datos[,i], main=names(datos)[i])
}
Podemos ver de los histogramas para Lag, podemos ver que todos se comportan de la misma manera y son similares entre si, a demas podemos notar un gran parecido entre todos los Lag y Today, por lo que se podria decir que siguen una distribucion similar.
Veamos si existe correlacion entre las variables
par(mfrow=c(1,1))
library(corrplot)
## corrplot 0.84 loaded
correlations <- cor(datos[,1:8])
corrplot(correlations, method="circle")
Si analizamos la matriz, podemos ver que la diagonal tiene una correlacion positiva lo cual es lo ideal pues es correlacion de una variable consigo misma, tambien podemos ver que existe una alta correlacion entre Year y Volume, lo cual es algo normal, pues Volume se refiere al Volumen de acciones negociadas en dicho año.
mod<-glm(Direction ~ Lag1+Lag2+Lag3+Lag4+Lag5+Volume, data = datos, family = binomial)
summary(mod)
##
## Call:
## glm(formula = Direction ~ Lag1 + Lag2 + Lag3 + Lag4 + Lag5 +
## Volume, family = binomial, data = datos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.6949 -1.2565 0.9913 1.0849 1.4579
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.26686 0.08593 3.106 0.0019 **
## Lag1 -0.04127 0.02641 -1.563 0.1181
## Lag2 0.05844 0.02686 2.175 0.0296 *
## Lag3 -0.01606 0.02666 -0.602 0.5469
## Lag4 -0.02779 0.02646 -1.050 0.2937
## Lag5 -0.01447 0.02638 -0.549 0.5833
## Volume -0.02274 0.03690 -0.616 0.5377
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1496.2 on 1088 degrees of freedom
## Residual deviance: 1486.4 on 1082 degrees of freedom
## AIC: 1500.4
##
## Number of Fisher Scoring iterations: 4
Si observamos el summary, basandonos en los \(P-value\), podemos ver que solo el intercepto y el Lag2 on nuestras “variables” significativas.
Esto quiere decir que, basandonos en el intercpto, el mercado tiene una tendencia a la alza comenzando una nueva semana, y basandonos en Lag2, que la informacion obtenida dos semanas previas es la que mejor decir como le ira al mercado en la semana actual.
Tambien podemos notar que los valores en Null deviance y Residual deviance estan muy cercanos y a la vez elevado, lo cual nos dice que no es un buen modelo, pues lo que se busca es que estos valores seran cercanos a \(0\)
Primero dividamos los datos en dos grupos, el grupo 1 que contenga los datos del peíodo 1990-2008 y el grupo 2 de los datos para el período 2010
Ahora sí, trabajando unicamente con el grupo 1 hagamos la regresión logistica
##
## Call:
## glm(formula = Direction ~ Lag2, family = binomial, data = datos,
## subset = train)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.536 -1.264 1.021 1.091 1.368
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.20326 0.06428 3.162 0.00157 **
## Lag2 0.05810 0.02870 2.024 0.04298 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1354.7 on 984 degrees of freedom
## Residual deviance: 1350.5 on 983 degrees of freedom
## AIC: 1354.5
##
## Number of Fisher Scoring iterations: 4
Podemos observar que nuestra Devianza residual difiere muy poco de la devianza nula, lo que nos indica que el modelo con sólo la variable Direction es ligeramente menos comveniente que el modelo que incluye la variable Lag2 también. Es decir, con esta información podriamos elegir el modelo con ambas variables. Esto porque la devianza nula es mayor que la residual, y se busca que la devianza tienda a cero.
Ahora, analicemos la siguiente grafica para ver como se comportan las predicciones conforme los datos observados
Entonces, como podemos notar que en la grafica anterior no existe un punto de corte (un punto a partir del cual convenga tomar up o down), es más podemos concluir que elmodelo que estamos utilizando para predecir Direction es mala, pues convendría escoger un punto de corte como 0.5 para que sea equtativo.
Así que tomando el punto de corte igual a 0.5 realizaremos las predicciones con estos datos y después con los datos de prueba.
Entonces, tenemos que para los datos de entrenamiento, los datos son iguales el 55.53% de las veces
## Direction.2008
## glm.pred Down Up
## Down 23 20
## Up 418 524
## [1] 0.5553299
Ahora veamos que pasa con los datos de predicción (Grupo 2)
## Direction.2009
## glm.pred Down Up
## Down 9 5
## Up 34 56
## [1] 0.625
Notemos que se tiene que el 62.5% de los datos se ajusta, que es cercano a el valor anterior, y al ser incluso mayor podemos concluir que el modelo, considerando un valor de corte de 0.5 es bastante bueno. Pues predice más de la mitad de los datos.