La ecuación de regresión estimada es:
\[ \hat{\text{colGPA}} = 1.263520 + 0.157309 \cdot \text{PC} + 0.447242 \cdot \text{hsGPA} + 0.008659 \cdot \text{ACT} \]
Donde:
β₀ (Intercepto)::Este muestra el promedio universitario esperado, cuando todas las variables explicativas es cero, es decir que ante un estudiante sin PC, que tenga un promedio de calificaciones en la secundaria de 0 y a su vez un puntaje de 0 en el examen ACT, se esperaría que su promedio en la universidad fuera de 1.263520 en promedio. Sin embargo, dado que algunas variables como hsGPA y ACT son difíciles que sean cero en la práctica, hace que la interpretación de este intercepto no sea tan relevante.
δ₀ (Coeficiente de PC):Este mide el efecto de poseer una computadora en el promedio de la universidad del estudiante, es decir que en promedio un estudiante que posee computadora tiende a tener un promedio en la universidad de 0.157309 puntos mayor en comparación a uno que no posee computadora.
β₁ (Coeficiente de hsGPA): Indica que, por cada punto adicional en el promedio de calificaciones en la secundaria, el promedio universitario aumenta en 0.447242 puntos.
β₂ (Coeficiente de ACT): Indica que, ante un aumento de 1 punto en el puntaje del examen ACT, el promedio universitario aumenta en 0.008659 puntos.
Interpretación del R²adj
El R² en esta regresión es de 0.2023, lo cual indica que aproximadamente el 20.23% de la variabilidad en el promedio universitario (ColGPA) es explicada por las vaiables que incluye el modelo (PC, hsGPA y ACT).
Hipótesis nula (H₀): Todos los coeficientes son cero (excepto el intercepto).
\[ H_0: \beta_1 = \beta_2 = \beta_3 = 0 \]
Hipótesis alternativa (H₁): Al menos uno de los coeficientes es distinto de cero.
\[ H_1: \text{Algún } \beta_i \neq 0 \]
Al tener que \(p\text{-value} < \alpha\), entonces se rechaza la hipótesis nula al 5% de significancia.
Esto indica que el modelo en su conjunto es estadísticamente significativo, es decir, que al menos una de las variables explicativas tiene un efecto significativo sobre la variable dependiente ColGPA.
Identifique en el modelo donde se prueba la hipótesis de que los estudiantes que poseen computadora obtienen el mismo efecto sobre el puntaje final, que aquellos que no poseen computadora. Muestre el procedimiento.
\[ H_0: \delta_0 = 0 \quad \text{(PC no tiene efecto sobre colGPA)} \] \[ H_1: \delta_0 \neq 0 \quad \text{(PC tiene un efecto significativo sobre colGPA)} \]
Dado que el p-valor (0.006844) es menor que 0.05, se rechaza la hipótesis nula al 5% de significancia, lo que indica que poseer una computadora tiene un efecto significativo sobre el promedio universitario (colGPA). En particular, los estudiantes que poseen una computadora tienden a obtener un promedio universitario mayor en comparación con aquellos que no la tienen, manteniendo constantes las demás variables del modelo.
Cree la variable noPC igual a uno si el estudiante no posee una PC e igual a cero en caso contrario. Reestime el modelo e interprete los resultados. Qué concluye.
##Interpretación
\[ \hat{colGPA} = 1.420829 - 0.157309 \cdot noPC + 0.447242 \cdot hsGPA + 0.008659 \cdot ACT \]
β₀ (Intercepto): Representa el promedio universitario esperado cuando todas las variables explicativas son cero. Es decir, un estudiante con PC, con un promedio de secundaria de 0 y un puntaje ACT de 0, se espera que tenga un promedio universitario de 1.420829 en promedio.
δ₀: Este coeficiente cambia respecto a la regresión anterior debido a que se transformó la variable PC en noPC, por lo que mantiene la misma magnitud, pero con signo contrario.
β₁ (Efecto de hsGPA): Indica que por cada punto adicional en el promedio de secundaria (hsGPA), el promedio universitario aumenta en 0.447242 puntos, manteniendo constantes las demás variables.
Interpretación del R²adj
El R² en esta regresión es de 0.2023, lo cual indica que aproximadamente el 20.23% de la variabilidad en el promedio universitario (ColGPA) es explicada por las vaiables que incluye el modelo (PC, hsGPA y ACT).
Agregue las variables mothcoll y fathcoll y estime nuevamente. Interprete la variable PC, qué concluye.
Se han agregado las siguientes variables al modelo:
\[ \hat{colGPA} = 1.255554 + 0.151854PC + 0.450220 + 0.007724ACT - 0.003758mothcoll + 0.041800fathcoll \]
Si se compara el coeficiente de PC antes y después de la inclusión de las variables mothcoll y fathcoll, se observa lo siguiente:
Es posible que parte del impacto de tener una computadora estuviera correlacionado con el nivel educativo de los padres.
Por ejemplo, los padres con mayor nivel educativo pueden tener más acceso a recursos como computadoras para sus hijos, lo que influye en su desempeño académico.
Aunque el coeficiente de PC disminuyó ligeramente, su impacto sigue siendo positivo y estadísticamente significativo, incluso después de incluir las variables mothcoll y fathcoll.
Esto indica que tener una computadora sigue estando asociado con un mejor desempeño académico.
1.5 Pruebe la significancia conjunta de mothcoll y fathcoll en la ecuación del inciso i.
F_critico <- 3.00
if (F_calculado > F_critico) { conclusion <- “Se rechaza la hipótesis nula: Al menos una de las variables mothcoll o fathcoll tiene un efecto significativo sobre colGPA.” } else { conclusion <- “No se rechaza la hipótesis nula: No hay suficiente evidencia estadística para concluir que mothcoll y fathcoll tienen un efecto conjunto significativo sobre colGPA.” }
cat(“Estadístico F calculado:”, F_calculado, “”) cat(“Valor crítico F:”, F_critico, “”) cat(“Conclusión:”, conclusion, “”)
La ecuación de regresión estimada es:
\[ \hat{\text{hrsemp}} = 31.79426 + 34.36002 \cdot \text{grant} - 1.16576 \cdot \text{log(sales)} - 0.05828 \cdot \text{employ} \] Donde:
β₀ (Intercepto): Cuando grant = 0, log(sales) = 0 y employ = 0, las horas promedio de capacitación por empleado serían 31.79 (aunque este valor no tiene una interpretación práctica clara, ya que log(sales) = 0 no es realista).
β₁ (Grant): Las empresas que reciben subvención para capacitación (grant = 1) tienen en promedio 34.36 horas más de capacitación por empleado que las que no reciben la subvención, manteniendo constantes las demás variables. Este coeficiente es altamente significativo (𝑝<0.001).
β₂ (Log(sales)): Por un aumento del 1% en las ventas, se da un incremento de aproximadamente 0.16 horas en la capacitación de empleados. También es altamente significativo.
β₃ (employ): Cada empleado adicional se asocia con una reducción de 0.058 horas de capacitación en promedio, aunque este efecto no es estadísticamente significativo (𝑝=0.0839).
El R2 ajustado en este modelo es 0.223, lo que significa que aproximadamente 22.3% de la variabilidad en las horas de capacitación de los empleados (hrsemp) es explicada por las variables grant (subvenciones), log(sales) (ventas en logaritmo) y employ (número de empleados).
El R2 ajustado es bajo, lo que indica que el modelo tiene un poder explicativo limitado sobre la variable dependiente (hrsemp).
Aunque el R2 ajustado es relativamente bajo, la significancia del coeficiente de grant (p-valor < 2.2e-16) sugiere que la subvención tiene un efecto significativo en la cantidad de horas de capacitación.
Identifique en el modelo donde se prueba la hipótesis de que las empresas que recibieron subvenciones para capacitación tienen el mismo efecto sobre las horas de capacitación, que aquellas que no lo recibieron. Muestre el procedimiento.
\[ H_0: \beta_1 = 0 \quad \text{(la subvención no tiene efecto sobre la capacitación)} \] \[ H_1: \beta_1 \neq 0 \quad \text{(la subvención tiene un efecto significativo sobre la capacitación)} \]
De la librería Wooldridge en el software R use la base de datos TWOYEAR para estimar el siguiente modelo: La ecuación estimada es:
\[\log(wage) = \beta_0 + \beta_1female + \beta_2totcoll + \beta_3(female \cdot totcoll) + u\]
Interpretación de los resultados:
\[ \log(wage) = 0.807881 - 0.174943 \cdot female + 0.021008 \cdot totcoll + 0.017855 \cdot (female \cdot totcoll) \]
Interpretación
β₀ (Intercepto):Cuándo las demás variables explicativas del modelo, en promedio el logaritmo del salario es 0.807881.
β₁ : una mujer sin educación universitaria gana en promedio un 16.04% menos que un hombre en la misma condición.
β₂ : Cada año adicional de educación universitaria se asocia con un incremento promedio del 2.12% en el salario para los hombres.
β₃ :Cada año adicional de educación universitaria reduce la brecha salarial de género, ya que el efecto positivo de la educación es mayor para las mujeres en 1.8% en comparación con los hombres.
3.2 Con base en el resultado anterior ¿es realmente posible que las mujeres logren suficientes años de universidad de manera que sus ingresos estén al nivel de los de los hombres? Explique.
En este modelo si es posible que las mujeres logren sufucientes años de universidad de manera que sus ingresos estén al nivel de los hombres, esto se puede ver, puesto que si calculamos cuánto de educación adicional, necesita una mujer para igualar a el salario de un hombre, es decir con cuánto se compensa el -16.04% en su salario, se obtiene un resultado paroximado de 9.8 años, si las demás variables se mantienen constantes.
##3.3 Realice una gráfica de log(wage) (eje y) y totcoll (eje x), tanto para hombre como para mujeres.
Interpretación En general se observa una tendencia positiva entre los años de educación universitaria y el logaritmo del salario, lo que indica que a mayor educación, mayores ingresos en promedio. Sin embargo, la pendiente de esta relación es baja, lo que sugiere que el incremento en salario asociado a más educación no es muy pronunciado, sobretodo cuándo sobrepasa cierto nivel de educación.
Diferencia entre hombres y mujeres
Los hombres tienden a tener salarios más altos que las mujeres para un mismo nivel de educación, a pesar de que la pendiente de la línea de tendencia para mujeres es positiva, sigue estando por debajo de la de los hombres, lo que indica que las mujeres requieren más años de educación para alcanzar niveles salariales similares a los de los hombres.
La dispersión de los puntos sugiere que hay una variabilidad significativa en los salarios dentro de cada grupo de género, lo que podría deberse a otros factores no controlados en esta gráfica, como experiencia laboral, ocupación o sector de empleo.
Interpretación
Hombres con aspecto superior al promedio: 0.2900485 (29.00%) Mujeres con aspecto superior al promedio: 0.3302752 (33.03%)
En cuanto a la comparación entre el número total de personas con aspecto físico superior e inferior al promedio:
Número de personas con aspecto superior al promedio: 383 Número de personas con aspecto inferior al promedio: 155
Dado que el número de personas con aspecto superior al promedio (383) es mayor que aquellas con aspecto inferior (155), podemos concluir que hay más personas clasificadas con aspecto físico superior al promedio.
\[ \log(wage) = \beta_0 + \beta_1 \cdot belavg + \beta_2 \cdot abvavg + u \] i. Encuentre las proporciones de hombres y de mujeres clasificados por separado, como con un aspecto físico superior al promedio. ¿Hay más personas clasificadas con aspecto físico superior al promedio o con aspecto físico inferior al promedio?
ii
Belavg Un hombre con una apariencia por debajo del
promedio (belavg = 1) tiene un salario menor en comparación
con un hombre de apariencia promedio (belavg = 0), ya que
se observa una relación negativa.
El coeficiente representa el cambio en el logaritmo del salario, y un coeficiente de -0.19874 implica una disminución en promedio de 18,02% en el salario cuando la belleza está por debajo del promedio.
Belavg
Una mujer con una apariencia por debajo del promedio
(belavg = 1) tiene un salario menor en comparación con una
de apariencia promedio (belavg = 0), ya que se observa una
relación negativa.
El coeficiente representa el cambio en el logaritmo del salario, y un coeficiente de -0.13763 implica una disminución en promedio de 12,85% en el salario cuando la belleza está por debajo del promedio.
– H₀ : β₁ = 0
– H₁ : β₁ < 0
H₀ : β₁ = 0
Esta hipótesis plantea que la variable belavg no tiene un
efecto significativo sobre el logaritmo del salario. Es decir, si β₁ es
igual a cero, significa que no hay diferencia en el salario entre
individuos con belleza por debajo del promedio y aquellos con belleza
promedio.
belavg tiene un
efecto negativo sobre el logaritmo del salario. En otras palabras, si β₁
es menor que cero, implica que las personas con belleza por debajo del
promedio tienden a recibir un salario más bajo en comparación con
aquellas con belleza promedio.• Determine los valores-p para hombres y mujeres.
belavg y abvavg) no tienen efecto sobre el
logaritmo del salario.iii. ¿Hay alguna evidencia convincente de que las mujeres con una apariencia superior al promedio ganen más que las mujeres con una apariencia promedio? Explique.
\[ H_0: \beta_2 = 0 \quad \text{(No hay efecto significativo de una apariencia superior en el salario)} \] \[ H_1: \beta_2 \neq 0 \quad \text{(Sí hay un efecto significativo)} \]
Como el p-valor es mayor que 0.05, no se rechaza la hipótesis nula, lo que significa que no hay suficiente evidencia estadística para afirmar que una apariencia superior al promedio tiene un impacto significativo en los salarios de las mujeres.
iv. Para ambos géneros (hombres y mujeres), extienda el modelo agregando las siguientes variables explicativas: educ, exper, exper2, union, goodhlth, black, married, south, bigcity, smalcity y service. ¿Cambian de manera importante los efectos de las variables de apariencia (belavg, abvavg) al incluir estos controles?
| Variable | Coef. sin controles | p-valor sin controles | Coef. con controles | p-valor con controles |
|---|---|---|---|---|
| belavg (belleza baja) | -0.1987 | 0.000961 (significativo) | -0.1434 | 0.005183 (significativo) |
| abvavg (belleza alta) | -0.0440 | 0.2997 (no significativo) | 0.0312 | 0.3685 (no significativo) |
El efecto de las dos variables disminuye un poco al añadir los demás controles, es decir que ahora, otras variables están explicando parte de su efecto en el salario, probablemente porque se tenía cierta correlación de estas con las variables nuevas.
En el caso de belavg, Sin controles, los hombres menos atractivos tenían un 19.87% menos de salario en términos logarítmicos y eran significativos a un nivel de 0.05, Con controles, el coeficiente se reduce a 14.34% en términos logaritmicos, es decir, su efecto es menor, aunque sigue siendo significativo a un nivel de significancia del 5%.
En el caso abvavg, de Sin controles, el coeficiente es -0.0440,en términos logaritmicos y no es significativo a un nivel de significancia del 5%, Con controles, el coeficiente cambia a 0.0312, pero sigue sin ser significativo.
| Variable | Coef. sin controles | p-valor sin controles | Coef. con controles | p-valor con controles |
|---|---|---|---|---|
| belavg (belleza baja) | -0.1376 | 0.0716 (no significativo) | -0.1152 | 0.0817 (no significativo) |
| abvavg (belleza alta) | 0.0336 | 0.5442 (no significativo) | 0.0575 | 0.2376 (no significativo) |
belavg: En el modelo sin controles, las mujeres menos atractivas tenían un coeficiente de -0.1376 en términos logarítmicos, pero no era estadísticamente significativo al 5%. Al añadir controles, el coeficiente disminuye levemente a -0.1152 y sigue sin ser significativo.
abvavg: En el modelo sin controles, el coeficiente era 0.036 en términos logarítmicos y no era significativo. Con controles, aumenta a 0.057, pero sigue sin ser significativo.