Desarrollo Taller 5

Punto 1

  1. Interprete los resultados de la regresión.

Modelo Estimado de la Regresión

La ecuación de regresión estimada es:

\[ \hat{\text{colGPA}} = 1.263520 + 0.157309 \cdot \text{PC} + 0.447242 \cdot \text{hsGPA} + 0.008659 \cdot \text{ACT} \]

Donde:

  • colGPA: Promedio en la universidad.
  • PC: Variable dicotómica que toma el valor 1 si el estudiante posee computadora y 0 si no la posee.
  • hsGPA: Promedio de calificaciones en la secundaria.
  • ACT: Puntaje en el examen ACT.

Interpretación de los coeficientes

  • β₀ (Intercepto)::Este muestra el promedio universitario esperado, cuando todas las variables explicativas es cero, es decir que ante un estudiante sin PC, que tenga un promedio de calificaciones en la secundaria de 0 y a su vez un puntaje de 0 en el examen ACT, se esperaría que su promedio en la universidad fuera de 1.263520 en promedio. Sin embargo, dado que algunas variables como hsGPA y ACT son difíciles que sean cero en la práctica, hace que la interpretación de este intercepto no sea tan relevante.

  • δ₀ (Coeficiente de PC):Este mide el efecto de poseer una computadora en el promedio de la universidad del estudiante, es decir que en promedio un estudiante que posee computadora tiende a tener un promedio en la universidad de 0.157309 puntos mayor en comparación a uno que no posee computadora.

  • β₁ (Coeficiente de hsGPA): Indica que, por cada punto adicional en el promedio de calificaciones en la secundaria, el promedio universitario aumenta en 0.447242 puntos.

  • β₂ (Coeficiente de ACT): Indica que, ante un aumento de 1 punto en el puntaje del examen ACT, el promedio universitario aumenta en 0.008659 puntos.

Interpretación del R²adj

El R² en esta regresión es de 0.2023, lo cual indica que aproximadamente el 20.23% de la variabilidad en el promedio universitario (ColGPA) es explicada por las vaiables que incluye el modelo (PC, hsGPA y ACT).

Prueba de significancia global

Hipótesis nula (H₀): Todos los coeficientes son cero (excepto el intercepto).

\[ H_0: \beta_1 = \beta_2 = \beta_3 = 0 \]

Hipótesis alternativa (H₁): Al menos uno de los coeficientes es distinto de cero.

\[ H_1: \text{Algún } \beta_i \neq 0 \]

Datos de la salida de la regresión

  • F-statistic = 12.83
  • Grados de libertad = 137
  • p-value = 1.932e-07
  • Nivel de significancia: 0.05

Regla de decisión

Al tener que \(p\text{-value} < \alpha\), entonces se rechaza la hipótesis nula al 5% de significancia.

Esto indica que el modelo en su conjunto es estadísticamente significativo, es decir, que al menos una de las variables explicativas tiene un efecto significativo sobre la variable dependiente ColGPA.

Punto 1.2

Identifique en el modelo donde se prueba la hipótesis de que los estudiantes que poseen computadora obtienen el mismo efecto sobre el puntaje final, que aquellos que no poseen computadora. Muestre el procedimiento.

\[ H_0: \delta_0 = 0 \quad \text{(PC no tiene efecto sobre colGPA)} \] \[ H_1: \delta_0 \neq 0 \quad \text{(PC tiene un efecto significativo sobre colGPA)} \]

Dado que el p-valor (0.006844) es menor que 0.05, se rechaza la hipótesis nula al 5% de significancia, lo que indica que poseer una computadora tiene un efecto significativo sobre el promedio universitario (colGPA). En particular, los estudiantes que poseen una computadora tienden a obtener un promedio universitario mayor en comparación con aquellos que no la tienen, manteniendo constantes las demás variables del modelo.

punto 1.3

Cree la variable noPC igual a uno si el estudiante no posee una PC e igual a cero en caso contrario. Reestime el modelo e interprete los resultados. Qué concluye.

##Interpretación

Modelo estimado

\[ \hat{colGPA} = 1.420829 - 0.157309 \cdot noPC + 0.447242 \cdot hsGPA + 0.008659 \cdot ACT \]

Definición de variables:

  • colGPA: Promedio en la universidad.
  • noPC: Variable indicadora que vale 1 si el estudiante no tiene PC y 0 si sí tiene. (Variable dicotómica)
  • hsGPA: Promedio de calificaciones en la secundaria.
  • ACT: Puntaje en el examen ACT.

Interpretación de los coeficientes:

  • β₀ (Intercepto): Representa el promedio universitario esperado cuando todas las variables explicativas son cero. Es decir, un estudiante con PC, con un promedio de secundaria de 0 y un puntaje ACT de 0, se espera que tenga un promedio universitario de 1.420829 en promedio.

  • δ₀: Este coeficiente cambia respecto a la regresión anterior debido a que se transformó la variable PC en noPC, por lo que mantiene la misma magnitud, pero con signo contrario.

    • Su interpretación indica que los estudiantes que no tienen PC tienen un promedio universitario de 0.157309 puntos menor en comparación con los que sí tienen PC, manteniendo constantes hsGPA y ACT.
    • Esto sugiere que tener una PC está asociado con un mejor rendimiento académico en la universidad.
  • β₁ (Efecto de hsGPA): Indica que por cada punto adicional en el promedio de secundaria (hsGPA), el promedio universitario aumenta en 0.447242 puntos, manteniendo constantes las demás variables.

Interpretación del R²adj

El R² en esta regresión es de 0.2023, lo cual indica que aproximadamente el 20.23% de la variabilidad en el promedio universitario (ColGPA) es explicada por las vaiables que incluye el modelo (PC, hsGPA y ACT).

1.4

Agregue las variables mothcoll y fathcoll y estime nuevamente. Interprete la variable PC, qué concluye.

Conclusión

Inclusión de nuevas variables

Se han agregado las siguientes variables al modelo:

  • mothcoll: Indica si la madre asistió a la universidad (Variable Dicotómica).
  • fathcoll: Indica si el padre asistió a la universidad (Variable Dicotómica).

Modelo de regresión estimado

\[ \hat{colGPA} = 1.255554 + 0.151854PC + 0.450220 + 0.007724ACT - 0.003758mothcoll + 0.041800fathcoll \]

Interpretación del coeficiente de PC

Si se compara el coeficiente de PC antes y después de la inclusión de las variables mothcoll y fathcoll, se observa lo siguiente:

  • En la regresión inicial, tener una computadora estaba asociado con un aumento de 0.157309 puntos en el GPA universitario (colGPA).
  • Tras incluir el nivel educativo de los padres (mothcoll y fathcoll), el efecto de PC se redujo a 0.151824.

Posible explicación de la reducción

Es posible que parte del impacto de tener una computadora estuviera correlacionado con el nivel educativo de los padres.

Por ejemplo, los padres con mayor nivel educativo pueden tener más acceso a recursos como computadoras para sus hijos, lo que influye en su desempeño académico.

Conclusión

Aunque el coeficiente de PC disminuyó ligeramente, su impacto sigue siendo positivo y estadísticamente significativo, incluso después de incluir las variables mothcoll y fathcoll.

Esto indica que tener una computadora sigue estando asociado con un mejor desempeño académico.

1.5 Pruebe la significancia conjunta de mothcoll y fathcoll en la ecuación del inciso i.

Valor crítico de F para q=2 y n-k=135 (según tabla F)

F_critico <- 3.00

Comparación entre F calculado y F crítico

if (F_calculado > F_critico) { conclusion <- “Se rechaza la hipótesis nula: Al menos una de las variables mothcoll o fathcoll tiene un efecto significativo sobre colGPA.” } else { conclusion <- “No se rechaza la hipótesis nula: No hay suficiente evidencia estadística para concluir que mothcoll y fathcoll tienen un efecto conjunto significativo sobre colGPA.” }

Mostrar resultados

cat(“Estadístico F calculado:”, F_calculado, “”) cat(“Valor crítico F:”, F_critico, “”) cat(“Conclusión:”, conclusion, “”)

Punto 2

  1. Interprete los resultados de la regresión.
Modelo Estimado de la Regresión

La ecuación de regresión estimada es:

\[ \hat{\text{hrsemp}} = 31.79426 + 34.36002 \cdot \text{grant} - 1.16576 \cdot \text{log(sales)} - 0.05828 \cdot \text{employ} \] Donde:

  • hrsemp: Horas de capacitación por empleado en la empresa. (Variable dependiente, lo que queremos explicar).
  • grant: Variable dicotómica (dummy) que toma el valor de 1 si la empresa recibió una subvención para capacitación y 0 si no la recibió.
  • log(sales): Logaritmo del total de ventas de la empresa. Se usa el logaritmo para reducir la dispersión de los datos y facilitar la interpretación en términos de elasticidades.
  • employ: Número total de empleados en la empresa.
  • u: Término de error, que captura todas las variables no incluidas en el modelo que afectan hrsemp.

Interpretación de los coeficientes

  • β₀ (Intercepto): Cuando grant = 0, log(sales) = 0 y employ = 0, las horas promedio de capacitación por empleado serían 31.79 (aunque este valor no tiene una interpretación práctica clara, ya que log(sales) = 0 no es realista).

  • β₁ (Grant): Las empresas que reciben subvención para capacitación (grant = 1) tienen en promedio 34.36 horas más de capacitación por empleado que las que no reciben la subvención, manteniendo constantes las demás variables. Este coeficiente es altamente significativo (𝑝<0.001).

  • β₂ (Log(sales)): Por un aumento del 1% en las ventas, se da un incremento de aproximadamente 0.16 horas en la capacitación de empleados. También es altamente significativo.

  • β₃ (employ): Cada empleado adicional se asocia con una reducción de 0.058 horas de capacitación en promedio, aunque este efecto no es estadísticamente significativo (𝑝=0.0839).

Interpretación R2 ajustado

El R2 ajustado en este modelo es 0.223, lo que significa que aproximadamente 22.3% de la variabilidad en las horas de capacitación de los empleados (hrsemp) es explicada por las variables grant (subvenciones), log(sales) (ventas en logaritmo) y employ (número de empleados).

El R2 ajustado es bajo, lo que indica que el modelo tiene un poder explicativo limitado sobre la variable dependiente (hrsemp).

Aunque el R2 ajustado es relativamente bajo, la significancia del coeficiente de grant (p-valor < 2.2e-16) sugiere que la subvención tiene un efecto significativo en la cantidad de horas de capacitación.

Significancia global del modelo

Punto 2.2

Identifique en el modelo donde se prueba la hipótesis de que las empresas que recibieron subvenciones para capacitación tienen el mismo efecto sobre las horas de capacitación, que aquellas que no lo recibieron. Muestre el procedimiento.

\[ H_0: \beta_1 = 0 \quad \text{(la subvención no tiene efecto sobre la capacitación)} \] \[ H_1: \beta_1 \neq 0 \quad \text{(la subvención tiene un efecto significativo sobre la capacitación)} \]

Punto 3

De la librería Wooldridge en el software R use la base de datos TWOYEAR para estimar el siguiente modelo: La ecuación estimada es:

\[\log(wage) = \beta_0 + \beta_1female + \beta_2totcoll + \beta_3(female \cdot totcoll) + u\]

Interpretación de los resultados:

\[ \log(wage) = 0.807881 - 0.174943 \cdot female + 0.021008 \cdot totcoll + 0.017855 \cdot (female \cdot totcoll) \]

Interpretación

  • β₀ (Intercepto):Cuándo las demás variables explicativas del modelo, en promedio el logaritmo del salario es 0.807881.

  • β₁ : una mujer sin educación universitaria gana en promedio un 16.04% menos que un hombre en la misma condición.

  • β₂ : Cada año adicional de educación universitaria se asocia con un incremento promedio del 2.12% en el salario para los hombres.

  • β₃ :Cada año adicional de educación universitaria reduce la brecha salarial de género, ya que el efecto positivo de la educación es mayor para las mujeres en 1.8% en comparación con los hombres.

3.2 Con base en el resultado anterior ¿es realmente posible que las mujeres logren suficientes años de universidad de manera que sus ingresos estén al nivel de los de los hombres? Explique.

En este modelo si es posible que las mujeres logren sufucientes años de universidad de manera que sus ingresos estén al nivel de los hombres, esto se puede ver, puesto que si calculamos cuánto de educación adicional, necesita una mujer para igualar a el salario de un hombre, es decir con cuánto se compensa el -16.04% en su salario, se obtiene un resultado paroximado de 9.8 años, si las demás variables se mantienen constantes.

##3.3 Realice una gráfica de log(wage) (eje y) y totcoll (eje x), tanto para hombre como para mujeres.

Interpretación En general se observa una tendencia positiva entre los años de educación universitaria y el logaritmo del salario, lo que indica que a mayor educación, mayores ingresos en promedio. Sin embargo, la pendiente de esta relación es baja, lo que sugiere que el incremento en salario asociado a más educación no es muy pronunciado, sobretodo cuándo sobrepasa cierto nivel de educación.

Diferencia entre hombres y mujeres

Los hombres tienden a tener salarios más altos que las mujeres para un mismo nivel de educación, a pesar de que la pendiente de la línea de tendencia para mujeres es positiva, sigue estando por debajo de la de los hombres, lo que indica que las mujeres requieren más años de educación para alcanzar niveles salariales similares a los de los hombres.

La dispersión de los puntos sugiere que hay una variabilidad significativa en los salarios dentro de cada grupo de género, lo que podría deberse a otros factores no controlados en esta gráfica, como experiencia laboral, ocupación o sector de empleo.

PUNTO 4

Punto 4

Interpretación

Hombres con aspecto superior al promedio: 0.2900485 (29.00%) Mujeres con aspecto superior al promedio: 0.3302752 (33.03%)

En cuanto a la comparación entre el número total de personas con aspecto físico superior e inferior al promedio:

Número de personas con aspecto superior al promedio: 383 Número de personas con aspecto inferior al promedio: 155

Dado que el número de personas con aspecto superior al promedio (383) es mayor que aquellas con aspecto inferior (155), podemos concluir que hay más personas clasificadas con aspecto físico superior al promedio.

\[ \log(wage) = \beta_0 + \beta_1 \cdot belavg + \beta_2 \cdot abvavg + u \] i. Encuentre las proporciones de hombres y de mujeres clasificados por separado, como con un aspecto físico superior al promedio. ¿Hay más personas clasificadas con aspecto físico superior al promedio o con aspecto físico inferior al promedio?

ii

Belavg Un hombre con una apariencia por debajo del promedio (belavg = 1) tiene un salario menor en comparación con un hombre de apariencia promedio (belavg = 0), ya que se observa una relación negativa.

El coeficiente representa el cambio en el logaritmo del salario, y un coeficiente de -0.19874 implica una disminución en promedio de 18,02% en el salario cuando la belleza está por debajo del promedio.

Belavg

Una mujer con una apariencia por debajo del promedio (belavg = 1) tiene un salario menor en comparación con una de apariencia promedio (belavg = 0), ya que se observa una relación negativa.

El coeficiente representa el cambio en el logaritmo del salario, y un coeficiente de -0.13763 implica una disminución en promedio de 12,85% en el salario cuando la belleza está por debajo del promedio.

• Explique en palabras lo que significan las hipótesis:

– H₀ : β₁ = 0
– H₁ : β₁ < 0

Explicación de las hipótesis

H₀ : β₁ = 0
Esta hipótesis plantea que la variable belavg no tiene un efecto significativo sobre el logaritmo del salario. Es decir, si β₁ es igual a cero, significa que no hay diferencia en el salario entre individuos con belleza por debajo del promedio y aquellos con belleza promedio.

  • H₁ : β₁ < 0
    Esta hipótesis sugiere que la variable belavg tiene un efecto negativo sobre el logaritmo del salario. En otras palabras, si β₁ es menor que cero, implica que las personas con belleza por debajo del promedio tienden a recibir un salario más bajo en comparación con aquellas con belleza promedio.

• Determine los valores-p para hombres y mujeres.

Interpretación de los p-valores

Interpretación de los p-valores globales del modelo

P-valor global para Hombres (0.0041)

  • Como el p-valor es menor a 0.05, rechazamos la hipótesis nula de que todas las variables explicativas (belavg y abvavg) no tienen efecto sobre el logaritmo del salario.
  • Esto significa que al menos una de las variables tiene un efecto significativo en los salarios de los hombres.
  • En consecuencia, el modelo es útil para explicar la relación entre la belleza y los salarios en los hombres.

P-valor global para Mujeres (0.1017)

  • Como el p-valor es mayor a 0.05, no rechazamos la hipótesis nula, lo que indica que no hay suficiente evidencia para afirmar que la belleza afecta significativamente los salarios de las mujeres.
  • Esto sugiere que la relación entre belleza y salario no es tan fuerte en el caso de las mujeres, o que hay otros factores relevantes no incluidos en el modelo.

iii. ¿Hay alguna evidencia convincente de que las mujeres con una apariencia superior al promedio ganen más que las mujeres con una apariencia promedio? Explique.

\[ H_0: \beta_2 = 0 \quad \text{(No hay efecto significativo de una apariencia superior en el salario)} \] \[ H_1: \beta_2 \neq 0 \quad \text{(Sí hay un efecto significativo)} \]

Como el p-valor es mayor que 0.05, no se rechaza la hipótesis nula, lo que significa que no hay suficiente evidencia estadística para afirmar que una apariencia superior al promedio tiene un impacto significativo en los salarios de las mujeres.

iv. Para ambos géneros (hombres y mujeres), extienda el modelo agregando las siguientes variables explicativas: educ, exper, exper2, union, goodhlth, black, married, south, bigcity, smalcity y service. ¿Cambian de manera importante los efectos de las variables de apariencia (belavg, abvavg) al incluir estos controles?

Modelo para hombres con variables adicionales

Comparación antes y después de incluir los controles

Variable Coef. sin controles p-valor sin controles Coef. con controles p-valor con controles
belavg (belleza baja) -0.1987 0.000961 (significativo) -0.1434 0.005183 (significativo)
abvavg (belleza alta) -0.0440 0.2997 (no significativo) 0.0312 0.3685 (no significativo)

El efecto de las dos variables disminuye un poco al añadir los demás controles, es decir que ahora, otras variables están explicando parte de su efecto en el salario, probablemente porque se tenía cierta correlación de estas con las variables nuevas.

En el caso de belavg, Sin controles, los hombres menos atractivos tenían un 19.87% menos de salario en términos logarítmicos y eran significativos a un nivel de 0.05, Con controles, el coeficiente se reduce a 14.34% en términos logaritmicos, es decir, su efecto es menor, aunque sigue siendo significativo a un nivel de significancia del 5%.

En el caso abvavg, de Sin controles, el coeficiente es -0.0440,en términos logaritmicos y no es significativo a un nivel de significancia del 5%, Con controles, el coeficiente cambia a 0.0312, pero sigue sin ser significativo.

Modelo para mujeres con variables adicionales

Comparación antes y después de incluir los controles

Variable Coef. sin controles p-valor sin controles Coef. con controles p-valor con controles
belavg (belleza baja) -0.1376 0.0716 (no significativo) -0.1152 0.0817 (no significativo)
abvavg (belleza alta) 0.0336 0.5442 (no significativo) 0.0575 0.2376 (no significativo)

belavg: En el modelo sin controles, las mujeres menos atractivas tenían un coeficiente de -0.1376 en términos logarítmicos, pero no era estadísticamente significativo al 5%. Al añadir controles, el coeficiente disminuye levemente a -0.1152 y sigue sin ser significativo.

abvavg: En el modelo sin controles, el coeficiente era 0.036 en términos logarítmicos y no era significativo. Con controles, aumenta a 0.057, pero sigue sin ser significativo.