Supongamos que tenemos un conjunto de datos con 5 variables en el espacio \(\mathcal{X}\): \(X_1=GPA, \ X_2=IQ, \ X_3=Genero, \ X_4=Interacción \ X_1*X_2, \ X_5=Interacción \ X_1*X_3\).
La variable dependiente es el primer salario después de graduarse.
Supongamos que ajustamos un modelo de regresión lineal y obtenemos:
\(\beta_0=50\)
\(\beta_1=20\)
\(\beta_2=0.07\)
\(\beta_3=35\)
\(\beta_4=0.01\)
\(\beta_5=-10\)
1. ¿Cuál de las siguientes es correcta y por qué?
1.1 Para valores fijos de IQ y GPA, los hombres ganan, en promedio, más que las mujeres.
1.2 Para valores fijos de IQ y GPA, las mujeres ganan, en promedio, más que los hombres.
1.3 Para valores fijos de IQ y GPA, los hombres ganan, en promedio, más que las mujeres siempre que el GPA sea suficientemente alto.
1.4 Para valores fijos de IQ y GPA, las mujeres ganan, en promedio, más que los hombres siempre que el GPA sea suficientemente alto.
Se tendría entonces que el modelo queda como: \[Y= 50 + 20 X_1+ 0.07 X_2+ 35 X_3+ 0.01 X_4 - 10 X_5\] Sustituyendo las variables \(X_4\) y \(X_5\) con las interacciones queda como \[Y= 50 + 20 X_1+ 0.07 X_2+ 35 X_3+ 0.01 X_1*X_2 - 10 X_1*X_3\] Si se quitaran las betas 3 y 5 tendríamos un salario que no depende del género, ahora
\(35X_3-10X_5=35X_3-10X_1X_3=(35-10X_1)X_3\)
Para valores de GPA menores a 3.5 las mujeres ganan más que los hombres, para GPA=3.5 ganan lo mismo hombres y mujeres y para GPA>3.5 las mujeres ganan menos qeu los hombres por lo que la afirmación correcta es la 1.3.
2. Prediga el salario de una mujer con IQ de 110 y GPA de 4.0
\(Y=50+20(4)+0.07(110)+35(1)+0.01(4)(110)-10(4)(1)=50+80+7.7+35+4.4-40=137.1\) Por lo que el salario de esa persona sería de 137.1.
3. Dado que la beta de la interacción GPA/IQ es muy pequeña, no hay evidencia que sostenga que la interacción existe (Cierto/Falso) y por qué.
Falso, ya que son los p-values los que dicen que tan válida es esa interacción. Aunque la \(\beta_4=0.01\) sigue siendo importante en el modelo si su p-value fue suficientemente chico. Esa p-value es referente a la prueba de hipótesis donde \(H_0: \beta=0\) vs \(H_1: \beta \neq 0\).
Considere una regresión lineal sin intercepto, es decir \[y_i=x_i\beta\] con \[\beta=\sum_{i=1}^nx_iy_i/(\sum_{i'=1}^nx_{i'}^2)\] Muestres que podemos escribir: \[y_i = \sum_{i'=1}^na_{i'}y_{i'}\] ¿Quién es \(a_{i'}\)?
Dem:
Si reescribimos \(\beta=\frac{\sum_{i=1}^n x_iy_i}{\sum_{i=1}^n x_i^2}\) y \(\hat{y}_i=x_{i´}\beta\) \[\Rightarrow\hat{y}_i=x_{i´}\left(\frac{\sum_{i=1}^n x_iy_i}{\sum_{i=1}^n x_i^2}\right)=\left(\frac{x_{i´}}{\sum_{i=1}^nx_i^2}\right)\sum_{i=1}^n x_iy_i = \sum_{i=1}^n\left(\frac{x_{i´}}{\sum_{i=1}^n x_i^2}\right)x_iy_i\] luego si \[a_{i´}= x_{i´}\left(\frac{x_i}{\sum_{i=1}^n x_i^2}\right) \Rightarrow {\hat{y}_i=\sum_{i´=1}^n a_{i´}y_{i´}}_\blacksquare\]
Pruebe que en el caso de regresión lineal simple, la \(R^2\) es igual al cuadrado de la correlación entre \(x\) y \(y\)
\[R^2=\frac{\sum_{i=1}^n(\hat{y}_i-\bar{y})^2}{\sum_{i=1}^n(y_i-\bar{y})^2}=\frac{\sum_{i=1}^n\hat{y}_i^2}{\sum_{i=1}^n y_i^2}=\frac{\sum_{i=1}^n(x_i\beta)^2}{\sum_{i=1}^n y_i^2}=\frac{\beta^2\sum_{i=1}^nx_i^2}{\sum_{i=1}^ny_i^2}=\left(\frac{(\sum_{i=1}^nx_iy_i)^2}{(\sum_{i=1}^nxi^2)^2}\right)\left(\frac{\sum_{i=1}^nx_i^2}{\sum_{i=1}^ny_i^2}\right)=\frac{(\sum_{i=1}^nx_iy_i)^2}{(\sum_{i=1}^nx_i^2)(\sum_{i=1}^ny_i^2)}={Corr^2(X,Y)}_{\blacksquare}\]
La primera y última igualdad son debido a que en el caso de regresión lineal simple sin intercepto \(\bar{x}=\bar{y}=0\).
La siguiente tabla corresponde a la salida de un modelo de regresión con el cual se busca explicar ventas con inversiones en marketing en TV, radio y periódicos.
Coefficient | Std. error | t-statistic | p-value | |
---|---|---|---|---|
Intercept | 2.939 | 0.3119 | 9.42 | < 0.0001 |
TV | 0.046 | 0.0014 | 32.81 | < 0.0001 |
radio | 0.189 | 0.0086 | 21.89 | < 0.0001 |
newspaper | −0.001 | 0.0059 | −0.18 | 0.8599 |
Describa la hipótesis nula que se realiza. Explique que conclusiones puede obtener basado en la tabla (la explicación no debe ser técnica).
La hipótesis nula es que el coeficiente de la variable explicativa sea cero.
En este caso los p-values deben ser cercanos a 0 para decir que explican las ventas sus respectivas inversiones.
En el caso de la inversión en newspaper se ve un p-value cercano a 1 por lo que para vender no se necesita invertir en publicidad de newspaper y por el coeficiente, al contrario, habría una pérdida.
Las inversiones en publicidad en TV y radio representan mejor las ventas además de tener un impacto positivo.Ya si las ventas son en unidades monetarias o unidades de venta o millares de unidades de venta, etcétera, se puede decidir si con esos coeficientes vale la pena o no invertir en publicidad.
Por ejemplo, si las ventas fueran en unidades monetarias por cada unidad monetaria invertida se reflejaría en una venta de menos de 5 centavos, pero si las ventas fueran en unidades de venta se podría decir que por cada 1000 u.m. invertidas se venden 46 piezas de mercancía.
Por último el intercepto nos dice que si no se invirtiera en marketing tendríamos 2.939 en ventas, ya sean unidades monetarias o piezas según sea el caso.
Para el modelo de regresión logística pruebe que si: \[p(X)=\frac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}\] entonces: \[\frac{p(X)}{1-p(X)}=e^{\beta_0+\beta_1X}\]
Dem: \[p(X)=\frac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}=\left(\frac{e^{\beta_0+\beta_1X}}{e^{\beta_0+\beta_1X}}\right)\left(\frac{\frac{1}{e^{\beta_0+\beta_1X}}}{\frac{1}{e^{\beta_0+\beta_1X}}}\right)=\frac{1}{\frac{1}{e^{\beta_0+\beta_1X}}+1}\] \[\Rightarrow\left(\frac{1}{e^{\beta_0+\beta_1X}}\right)+1=\frac{1}{p(X)}\Rightarrow\frac{1}{e^{\beta_0+\beta_1X}}=\frac{1}{p(X)}-\frac{p(X)}{p(X)}=\frac{1-p(X)}{p(X)}\] \[\Rightarrow{\frac{p(X)}{1-p(X)}=e^{\beta_0+\beta_1X}}_{\blacksquare}\]
Suponga que recolectamos datos para un grupo de estudiantes de una clase del seminario de estadística y medimos \(X_1=horas \ de\ estudio, \ X_2=promedio, \ Y = sacará \ 10\). Ajustamos un modelo de regresión logística y obtenemos:
\(\beta_0=-6\)
\(\beta_1=0.05\)
\(\beta_2=1\)
El modelo queda como
\(P[Y]=-6+0.05X_1+X_2\)
1. Estime la probabilidad de que un estudiante que estudia 40horas y tiene promedio de 9 obtenga 10 en la clase.
\(P[Y]=-6+0.05(40)+9=5>1\)
por lo que es “seguro” que saque 10
2. ¿Cuántas horas necesita estudiar el alumno anterior para tener buena probabilidad de sacar 10 en la clase?
No necesita ni estudiar para sacar 10 ya que
\(P[Y]=-6+0.05(0)+9=3>1\)