Ejercicios de regresión

1

Supongamos que tenemos un conjunto de datos con 5 variables en el espacio \(\mathcal{X}\): \(X_1=GPA, \ X_2=IQ, \ X_3=Genero, \ X_4=Interacción \ X_1*X_2, \ X_5=Interacción \ X_1*X_3\).

La variable dependiente es el primer salario después de graduarse.

Sopongamos que ajustamos un modelo de regresión lineal y obtenemos:

\(\beta_0=50\)
\(\beta_1=20\)
\(\beta_2=0.07\)
\(\beta_3=35\)
\(\beta_4=0.01\)
\(\beta_5=-10\)

¿Cuál de las siguientes es correcta y por qué?

1.1 Para valores fijos de IQ y GPA, los hombres ganan, en promedio, más que las mujeres.

1.2 Para valores fijos de IQ y GPA, las mujeres ganan, en promedio, más que los hombres.

1.3 Para valores fijos de IQ y GPA, los hombres ganan, en promedio, más que las mujeres siempre que el GPA sea suficientemente alto.

1.4 Para valores fijos de IQ y GPA, las mujeres ganan, en promedio, más que los hombres siempre que el GPA sea suficientemente alto.

Respuesta El inciso correcto es el 1.3. Para llegar a esta conclusión analizamos la ecuación con las betas dadas, la cual es la siguiente:

\(y = 50 + 20x_1 + 0.07x_2 + 35x_3 + 0.01(x_1x_2) - 10(x_1x_3)\) donde \(y\) es el salario primer salario despues de graduarse.

Entonces, podemos observar que si \(x_3\) toma el valor de cero, es decir es un hombre, la ecuación queda de la sigiente manera

\(y = 50 + 20x_1 + 0.07x_2 + 0.01(x_1x_2)\)

Lo que siempre será positivo. Ahora bien, si consideramos que \(x_3\) es mujer, entonces toma el valor de 1, dejando la ecuación de la siguiente manera

\(y = 50 + 20x_1 + 0.07x_2 + 35 + 0.01(x_1x_2) - 10(x_1)\)

\(\Rightarrow y = 85 + 10x_1 + 0.07x_2 + 0.01(x_1x_2)\)

Entonces, considerando que \(x_1\) y \(x_2\) son fijjos, y comparando las ecuaciones de \(y\) si \(x_3\) es hombre o mujer tenemos que la única manera de que en caso de ser mujer sea más grande que si es hombre sería que \(x_1\) tomara valores mayores que 3.5.

Entonces podemos concluir que la afimación correcta es la 1.3, pues los hombre ganan más en promedio pero sólo si los valores de GPA (\(x_1\)) son suficientemente grandes, donde consideramos grandes como mayores a 3.5

Prediga el salario de una mujer con IQ de 110 y GPA de 4.0

La ecuación queda de la siguiente manera

\(y = 50 + 20(4) + 0.07(110) + 35 + 0.01(4*110) - 10(4)\)

Lo que es igual a \(137.1\)

Dado que la beta de la interacción GPA/IQ es muy pequeña, no hay evidencia que sostenga que la interacción existe (Cierto/Falso) y por qué.

Falso, la beta no tiene nada que ver con la significancia, lo único que podria decir es que el evento no tiene gran impacto sobre el evento a estudiar. Pero no tiene nada que ver con su significancia, eso puede verse con lo p_values.

2

Considere una regresión lineal sin intercepto, es decir \[y_i=x_i\beta\] con \[\beta=\sum_{i=1}^nx_iy_i/(\sum_{i'=1}^nx_{i'}^2)\] Muestres que podemos escribir: \[y_i = \sum_{i'=1}^na_{i'}y_{i'}\] ¿Quién es \(a_{i'}\)

Respuesta Sabemos que \(y_i=x_i\beta\) , para efectos del ejercicio lo reescribiremos como \(y_j=x_j\beta\) pues el subindice i de \(x_i\) y \(y_i\) no depende de la suma dentro de \(\beta\)
Sin perdida de generalidad, odemos reescribir a \(\beta\) como \(\beta=\sum_{i=1}^n[\dfrac{x_i}{(\sum_{i'=1}^nx_{i'}^2)}y_i]\)

Entonces tenemos \(y_j=x_j\sum_{i=1}^n[\dfrac{x_i}{(\sum_{i'=1}^nx_{i'}^2)}y_i]\)

\(\rightarrow\) \(y_j=\sum_{i=1}^nx_j[\dfrac{x_i}{(\sum_{i'=1}^nx_{i'}^2)}y_i]\)

\(\rightarrow\) \(y_j=\sum_{i=1}^n[\dfrac{x_jx_i}{(\sum_{i'=1}^nx_{i'}^2)}y_i]\)

\(\therefore\) \(a_{i'} = \dfrac{x_jx_i}{(\sum_{i'=1}^nx_{i'}^2)}\)

3

Pruebe que en el caso de regresión lineal simple, la \(R^2\) es igual al cuadrado de la correlación entre \(x\) y \(y\)

Para demostrar esto, recordemos que:

\(\widehat{y} = \widehat{\beta_0} + \widehat{\beta_1} {x_i}\) , \(\widehat{\beta_1} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})y_i}{\sum_{i=1}^{n}(x_i - \bar{x})^2}\) y \(\widehat{\beta_0} = \bar{y}-\widehat{\beta_1}\bar{x}\)

Ahora bien, tenemos que:

\[\rho_{(x,y)} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 * \sum_{i=1}^{n}(y_i - \bar{y})^2}}\]

\[\Rightarrow \rho_{(x,y)}^2 = \frac{(\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}))^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2 * \sum_{i=1}^{n}(y_i - \bar{y})^2}\]

\[ = \frac{(\sum_{i=1}^{n}(x_i - \bar{x})y_i - (x_i - \bar{x})\bar{y}))^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2 * \sum_{i=1}^{n}(y_i - \bar{y})^2}\] Pero veamos que sucede con el segundo sumando del numerador

\(\sum_{i=1}^{n}(x_i - \bar{x})\bar{y} = \bar{y}\sum_{i=1}^{n}(x_i - \bar{x}) = \bar{y}(\sum_{i=1}^{n}x_i-n\bar{x}) = 0\)

\[ \Rightarrow \rho_{(x,y)}^2 = \frac{(\sum_{i=1}^{n}(x_i - \bar{x})y_i)^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2 * \sum_{i=1}^{n}(y_i - \bar{y})^2}\]

\[= (\frac{\sum_{i=1}^{n}(x_i - \bar{x})y_i}{\sum_{i=1}^{n}(x_i - \bar{x})^2})^2 * \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\]

\[=\widehat{\beta_1} \frac{ \sum_{i=1}^{n}(x_i - \bar{x})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\]

\[=\frac{ \sum_{i=1}^{n}(\widehat{\beta_1} x_i - \widehat{\beta_1} \bar{x})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\] Sumando un cero tenemos \[\rho_{(x,y)}^2 =\frac{ \sum_{i=1}^{n}(\bar{y} - \widehat{\beta_1} \bar{x} + \widehat{\beta_1} x_i- \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\] \[ =\frac{ \sum_{i=1}^{n}(\hat{\beta_0} + \widehat{\beta_1} x_i - \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}\] \[ =\frac{ \sum_{i=1}^{n}(\hat{y_i} - \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2} = R^2\] ### 4

La siguiente tabla corresponde a la salida de un modelo de regresión con el cual se busca explicar ventas con inversiones en marketing en TV, radio y periódicos.

	Coefficient	Std. error	t-statistic	p-value
Intercept	2.939	0.3119	9.42	< 0.0001
TV	0.046	0.0014	32.81	< 0.0001
radio	0.189	0.0086	21.89	< 0.0001
newspaper	−0.001	0.0059	−0.18	0.8599

Describa la hipótesis nula que se realiza. Explique que conclusiones puede obtener basado en la tabla (la explicación no debe ser técnica).

Respuesta La hipótesis nula nos dice que no hay relación lineal entre las variables explicativas “X” y la variable dependiente “Y”, en otras palabras, ninguna de las variables explicativas influye en la variable respuesta.
Esto es \(H_0: \beta_0=\beta_1=\beta_2=\beta_3=0\)
En cambio la hipotesis alternativa es \(H_a: \exists \beta_j \neq 0\)
Siendo \(\beta_0=2.939\) correspondiente al Intercepto, \(\beta_1=0.046\) correspondiente a TV, \(\beta_2=0.189\) correspondiente a radio y \(\beta_3=-0.001\) correspondiente a newspaper.
Por lo que el modelo queda como \(y=2.993+0.046x_1+0.189x_2-0.001x_3\)
Si analizamos los \(p-value\) de las pruebas, podemos ver que estos son \(<0.05\) para Intercept, TV y Radio lo cual nos dice que rechazan la hipotesis nula, a demas de indicar que son variables significativas. Por otro lado, el \(p-value\) de newspaper el muy alto lo cual nos indica que no se puede rechazar la hipotesis nula y si observamos el valor de su coefficiente podemos notar que es negativo a demas de muy cercano a cero, el que sea negativo nos indica que si se invierte en anuncios en newspaper, las ventas no van a incrementar si no disminuir, por lo que lo ideal seria no invertir en periodico, obteniendo el siguiente modelo \[y=2.993+0.046x_1+0.189x_2\] Con X_1 perteneciendo a TV y X_2 perteneciendo a radio.

5

Para el modelo de regresión logística pruebe que si: \[p(X)=\frac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}\] entonces: \[\frac{p(X)}{1-p(X)}=e^{\beta_0+\beta_1X}\]

Respuesta
\(1-p(X)=1-\dfrac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}\)

\(\rightarrow\)\(1-p(X)=\dfrac{1+e^{\beta_0+\beta_1X}-e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}\)

\(\rightarrow\)\(1-p(X)=\dfrac{1}{1+e^{\beta_0+\beta_1X}}\)

\(\rightarrow\)\(\dfrac{p(X)}{1-p(X)}=\dfrac{\dfrac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}}{\dfrac{1}{1+e^{\beta_0+\beta_1X}}}\)

\(\therefore\)\(\dfrac{p(X)}{1-p(X)}=e^{\beta_0+\beta_1X}\)

6

Suponga que recolectamos datos para un grupo de estudiantes de una clase del seminario de estadística y medimos \(X_1=horas \ de\ estudio, \ X_2=promedio, \ Y = sacará \ 10\). Ajustamos un modelo de regresión logística y obtenemos:

\(\beta_0=-6\)
\(\beta_1=0.05\)
\(\beta_2=1\)

Estime la probabilidad de que un estudiante que estudia 40horas y tiene promedio de 9 obtenga 10 en la clase

Tenemos que \(p(X)=\frac{e^{-6+0.05(40)+9}}{1+e^{-6+0.05(40)+9}}\)

Lo que es igual a \(.9933071\)

¿Cuántas horas necesita estudiar el alumno anterior para tener buena probabilidad de sacar 10 en la clase?

Consideremos que una buena probabilidad es 0.95

\(\Rightarrow 0.95=\frac{e^{-6+0.05(x)+9}}{1+e^{-6+0.05(x)+9}}\)

\(\Rightarrow 0.95 + 0.95e^{3+0.05(x)} = e^{3+0.05(x)}\)

\(\Rightarrow 0.95 = 0.05e^{3+0.05(x)}\)

\(\Rightarrow \frac{0.95}{0.05} = e^{3+0.05(x)}\)

\(\Rightarrow ln(\frac{0.95}{0.05}) = 3+0.05(x)\)

\(\Rightarrow \frac{ln(\frac{0.95}{0.05})-3}{0.05} = x\)

\(\Rightarrow x = -1.11122\)

Lo que nos dice que realmente no vale la pena estudiar.

7

Este ejercicio debe hacerse con los datos Weekly del paquete ISLR.

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Haga descriptivos, comente.

summary(datos)

##       Year           Lag1               Lag2               Lag3         
##  Min.   :1990   Min.   :-18.1950   Min.   :-18.1950   Min.   :-18.1950  
##  1st Qu.:1995   1st Qu.: -1.1540   1st Qu.: -1.1540   1st Qu.: -1.1580  
##  Median :2000   Median :  0.2410   Median :  0.2410   Median :  0.2410  
##  Mean   :2000   Mean   :  0.1506   Mean   :  0.1511   Mean   :  0.1472  
##  3rd Qu.:2005   3rd Qu.:  1.4050   3rd Qu.:  1.4090   3rd Qu.:  1.4090  
##  Max.   :2010   Max.   : 12.0260   Max.   : 12.0260   Max.   : 12.0260  
##       Lag4               Lag5              Volume       
##  Min.   :-18.1950   Min.   :-18.1950   Min.   :0.08747  
##  1st Qu.: -1.1580   1st Qu.: -1.1660   1st Qu.:0.33202  
##  Median :  0.2380   Median :  0.2340   Median :1.00268  
##  Mean   :  0.1458   Mean   :  0.1399   Mean   :1.57462  
##  3rd Qu.:  1.4090   3rd Qu.:  1.4050   3rd Qu.:2.05373  
##  Max.   : 12.0260   Max.   : 12.0260   Max.   :9.32821  
##      Today          Direction 
##  Min.   :-18.1950   Down:484  
##  1st Qu.: -1.1540   Up  :605  
##  Median :  0.2410             
##  Mean   :  0.1499             
##  3rd Qu.:  1.4050             
##  Max.   : 12.0260

En este caso tenemos un total de 9 variables las cuales son:
Year: Año en el cual se tomo la observación
Lag(i): Porcentaje de retorno de las i semanas anteriores
Volume: Volumen de las acciones negociadas
Today: Porcentaje de retorno para esa semana
Direction: Indica si el mercado fue a la alza o baja dependiendo la semana

La variable respuesta que utilizaremos para esta regresion sera la de Direction (dirección), pues esta es la que nos muestra si el mercado fue a la alza o a la baja a comparacion de la semana anterior.

par(mfrow=c(2,2))
for(i in 1:8) {
    hist(datos[,i], main=names(datos)[i])
}

Podemos ver de los histogramas para Lag, podemos ver que todos se comportan de la misma manera y son similares entre si, a demas podemos notar un gran parecido entre todos los Lag y Today, por lo que se podria decir que siguen una distribucion similar.

Veamos si existe correlacion entre las variables

par(mfrow=c(1,1))
library(corrplot)

## corrplot 0.84 loaded

correlations <- cor(datos[,1:8])
corrplot(correlations, method="circle")

Si analizamos la matriz, podemos ver que la diagonal tiene una correlacion positiva lo cual es lo ideal pues es correlacion de una variable consigo misma, tambien podemos ver que existe una alta correlacion entre Year y Volume, lo cual es algo normal, pues Volume se refiere al Volumen de acciones negociadas en dicho año.

Ajuste una regresión logística con \(y=Direction\) y las 5 variables lag + Volume como el espacio \(\mathcal{X}\), comente

mod<-glm(Direction ~ Lag1+Lag2+Lag3+Lag4+Lag5+Volume, data = datos, family = binomial)
summary(mod)

## 
## Call:
## glm(formula = Direction ~ Lag1 + Lag2 + Lag3 + Lag4 + Lag5 + 
##     Volume, family = binomial, data = datos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.6949  -1.2565   0.9913   1.0849   1.4579  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  0.26686    0.08593   3.106   0.0019 **
## Lag1        -0.04127    0.02641  -1.563   0.1181   
## Lag2         0.05844    0.02686   2.175   0.0296 * 
## Lag3        -0.01606    0.02666  -0.602   0.5469   
## Lag4        -0.02779    0.02646  -1.050   0.2937   
## Lag5        -0.01447    0.02638  -0.549   0.5833   
## Volume      -0.02274    0.03690  -0.616   0.5377   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1496.2  on 1088  degrees of freedom
## Residual deviance: 1486.4  on 1082  degrees of freedom
## AIC: 1500.4
## 
## Number of Fisher Scoring iterations: 4

Si observamos el summary, basandonos en los \(P-value\), podemos ver que solo el intercepto y el Lag2 on nuestras “variables” significativas.
Esto quiere decir que, basandonos en el intercpto, el mercado tiene una tendencia a la alza comenzando una nueva semana, y basandonos en Lag2, que la informacion obtenida dos semanas previas es la que mejor decir como le ira al mercado en la semana actual.
Tambien podemos notar que los valores en Null deviance y Residual deviance estan muy cercanos y a la vez elevado, lo cual nos dice que no es un buen modelo, pues lo que se busca es que estos valores seran cercanos a \(0\)

Ajuste un modelo de regresión logística usando el periodo 1990-2008 como conjunto de entrenamiento y usando Lag2 como la única variable del espacio \(\mathcal{X}\), prediga y evalue los resultados para el periodo 2009-2010, comente

Primero dividamos los datos en dos grupos, el grupo 1 que contenga los datos del peíodo 1990-2008 y el grupo 2 de los datos para el período 2010

Ahora sí, trabajando unicamente con el grupo 1 hagamos la regresión logistica

## 
## Call:
## glm(formula = Direction ~ Lag2, family = binomial, data = datos, 
##     subset = train)
## 
## Deviance Residuals: 
##    Min      1Q  Median      3Q     Max  
## -1.536  -1.264   1.021   1.091   1.368  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  0.20326    0.06428   3.162  0.00157 **
## Lag2         0.05810    0.02870   2.024  0.04298 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1354.7  on 984  degrees of freedom
## Residual deviance: 1350.5  on 983  degrees of freedom
## AIC: 1354.5
## 
## Number of Fisher Scoring iterations: 4

Podemos observar que nuestra Devianza residual difiere muy poco de la devianza nula, lo que nos indica que el modelo con sólo la variable Direction es ligeramente menos comveniente que el modelo que incluye la variable Lag2 también. Es decir, con esta información podriamos elegir el modelo con ambas variables. Esto porque la devianza nula es mayor que la residual, y se busca que la devianza tienda a cero.

Ahora, analicemos la siguiente grafica para ver como se comportan las predicciones conforme los datos observados

Entonces, como podemos notar que en la grafica anterior no existe un punto de corte (un punto a partir del cual convenga tomar up o down), es más podemos concluir que elmodelo que estamos utilizando para predecir Direction es mala, pues convendría escoger un punto de corte como 0.5 para que sea equtativo.

Así que tomando el punto de corte igual a 0.5 realizaremos las predicciones con estos datos y después con los datos de prueba.

Entonces, tenemos que para los datos de entrenamiento, los datos son iguales el 55.53% de las veces

##         Direction.2008
## glm.pred Down  Up
##     Down   23  20
##     Up    418 524

## [1] 0.5553299

Ahora veamos que pasa con los datos de predicción (Grupo 2)

##         Direction.2009
## glm.pred Down Up
##     Down    9  5
##     Up     34 56

## [1] 0.625

Notemos que se tiene que el 62.5% de los datos se ajusta, que es cercano a el valor anterior, y al ser incluso mayor podemos concluir que el modelo, considerando un valor de corte de 0.5 es bastante bueno. Pues predice más de la mitad de los datos.

Ejercicios de regresión

Tapia Huerta Beatriz, Villegas Moctezuma Angel Alejandro

1

2

3

5

6

7