colGPA = β0 +δ0PC +β1hsGPA+β2ACT +u
options(repos = c(CRAN = "https://cran.r-project.org"))
contrib.url("https://cran.r-project.org", "source")
## [1] "https://cran.r-project.org/src/contrib"
rsconnect::setAccountInfo(name = 'gdaza18',
token = 'EA85AD7E918C3903E00ACC9E87569927',
secret = 'aIcIVdtNKMSzFbaWHO2RHDnGTnKix4rpvhPD0gs2',
server = 'posit.cloud')
install.packages("wooldridge")
## Installing package into 'C:/Users/guill/AppData/Local/R/win-library/4.4'
## (as 'lib' is unspecified)
## package 'wooldridge' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\guill\AppData\Local\Temp\RtmpoxliyZ\downloaded_packages
library(wooldridge)
## Warning: package 'wooldridge' was built under R version 4.4.3
data("gpa1")
##
## Call:
## lm(formula = colGPA ~ PC + hsGPA + ACT, data = gpa1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.7901 -0.2622 -0.0107 0.2334 0.7570
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.263520 0.333125 3.793 0.000223 ***
## PC 0.157309 0.057287 2.746 0.006844 **
## hsGPA 0.447242 0.093647 4.776 4.54e-06 ***
## ACT 0.008659 0.010534 0.822 0.412513
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3325 on 137 degrees of freedom
## Multiple R-squared: 0.2194, Adjusted R-squared: 0.2023
## F-statistic: 12.83 on 3 and 137 DF, p-value: 1.932e-07
Teniendo en cuenta la salida del modelo, se puede concluír lo siguiente:
R-squared (0.2194): Esto significa que el modelo explica aproximadamente el 21.94% de la variabilidad en colGPA. Esto sugiere que hay otros factores no incluidos en el modelo que también afectan el promedio de calificaciones universitarias.
Adjusted R-squared (0.2023): Es una versión ajustada de R-cuadrado que tiene en cuenta el número de variables en el modelo. Como es ligeramente más bajo que R-cuadrado, sugiere que el modelo tiene una cantidad moderada de poder explicativo.
F-statistic (12.83): Esta estadística se utiliza para probar la hipótesis de que al menos uno de los coeficientes es significativamente diferente de cero. Un valor alto indica que el modelo tiene un buen ajuste general.
p-value (1.932e-07): Este es el valor p global para la prueba F, que es extremadamente pequeño y nos indica que el modelo es estadísticamente significativo en su conjunto.
Intercepto (1.263520): Este es el valor esperado de colGPA cuando todas las variables independientes son cero. En este caso, el valor de 1.263520 es el promedio de calificaciones universitarias para un estudiante que no tiene PC (porque PC = 0 en este caso), manteniendo constantes las otras variables (hsGPA y ACT).
PC (0.157309): Este es el efecto de tener una PC en el promedio de calificaciones universitarias. Si un estudiante tiene una PC (PC = 1) en lugar de no tenerla (PC = 0), su promedio de calificaciones universitarias (colGPA) aumenta en 0.1573 unidades en promedio, manteniendo constantes las demás variables (hsGPA y ACT). El valor p asociado a este coeficiente es 0.00684, que es menor que 0.05, lo que significa que tener una PC es estadísticamente significativo en el modelo.
hsGPA (0.447242): Este coeficiente indica que por cada incremento de 1 punto en el promedio de calificaciones en secundaria (hsGPA), el promedio de calificaciones universitarias (colGPA) aumenta en 0.4472 unidades, manteniendo constantes las demás variables. El valor p asociado es 4.54e-06, lo que indica que hsGPA es altamente significativo.
ACT (0.008649): Por cada incremento de 1 punto en la puntuación del examen ACT, el promedio de calificaciones universitarias (colGPA) aumenta en 0.0086 unidades, manteniendo constantes las demás variables. El valor p asociado es 0.412513, que es mayor que 0.05, lo que indica que ACT no es estadísticamente significativo en este modelo.
La hipótesis nula que queremos probar es si los estudiantes que poseen una computadora tienen el mismo efecto sobre el puntaje final que aquellos que no poseen computadora. Esto se traduce en probar si el coeficiente de la variable PC es igual a cero.
Hipótesis nula (H₀): 𝛿= 0
Hipótesis alternativa (H₁): 𝛿≠ 0
En este caso, el valor P de la variable Pc (0.006844) es menor al alpha con el que estamos trabajando (0,05), lo que quiere decir que rechazamos la hipótesis nula, por ende, sí existe una variación en los resultados finales entre los estudiantes que poseen y los que no poseen computadores.
##
## Call:
## lm(formula = colGPA ~ PC + hsGPA + ACT + noPC, data = gpa1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.7901 -0.2622 -0.0107 0.2334 0.7570
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.263520 0.333125 3.793 0.000223 ***
## PC 0.157309 0.057287 2.746 0.006844 **
## hsGPA 0.447242 0.093647 4.776 4.54e-06 ***
## ACT 0.008659 0.010534 0.822 0.412513
## noPC NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3325 on 137 degrees of freedom
## Multiple R-squared: 0.2194, Adjusted R-squared: 0.2023
## F-statistic: 12.83 on 3 and 137 DF, p-value: 1.932e-07
Teniendo en cuenta la creación de la variable dicotomica noPC y la reestimación del modelo, se puede concluír lo siguiente:
Al crear la variable noPC (igual a 1 si el estudiante no posee una PC y 0 si posee una PC), esta es perfectamente colineal con la variable PC, ya que ambas variables están directamente relacionadas (si PC = 1, entonces noPC = 0, y viceversa). Esto crea un problema de colinealidad perfecta en el modelo, lo que significa que no se puede estimar ambos coeficientes (PC y noPC) al mismo tiempo, ya que son redundantes.
En conclusión, no se debe incluir ambas variables (PC y noPC) en el mismo modelo, ya que son linealmente dependientes, por tal motivo se reestima el modelo incluyendo la variable noPC y eliminando la variable PC:
##
## Call:
## lm(formula = colGPA ~ hsGPA + ACT + noPC, data = gpa1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.7901 -0.2622 -0.0107 0.2334 0.7570
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.420829 0.336605 4.221 4.40e-05 ***
## hsGPA 0.447242 0.093647 4.776 4.54e-06 ***
## ACT 0.008659 0.010534 0.822 0.41251
## noPC -0.157309 0.057287 -2.746 0.00684 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3325 on 137 degrees of freedom
## Multiple R-squared: 0.2194, Adjusted R-squared: 0.2023
## F-statistic: 12.83 on 3 and 137 DF, p-value: 1.932e-07
En este caso el estimador es el opuesto al 0.15 de cuando sí se tiene, esto se deriva en una disminución del intercepto de -0.157309, lo que resultaría en una curva paralela que empieza desde un punto inferior al de el caso donde la variable noPC=0 en el que ocurriría una variación nula en el intercepto, siendo consecuente con el análisis anterior de noPC=1.
##
## Call:
## lm(formula = colGPA ~ PC + hsGPA + ACT + mothcoll + fathcoll,
## data = gpa1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78149 -0.25726 -0.02121 0.24691 0.74432
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.255554 0.335392 3.744 0.000268 ***
## PC 0.151854 0.058716 2.586 0.010762 *
## hsGPA 0.450220 0.094280 4.775 4.61e-06 ***
## ACT 0.007724 0.010678 0.723 0.470688
## mothcoll -0.003758 0.060270 -0.062 0.950376
## fathcoll 0.041800 0.061270 0.682 0.496265
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3344 on 135 degrees of freedom
## Multiple R-squared: 0.2222, Adjusted R-squared: 0.1934
## F-statistic: 7.713 on 5 and 135 DF, p-value: 2.083e-06
La inclusión de las variables mothcoll y fathcoll en el modelo reduce la significancia estadística de la variable PC. En el modelo sin estas variables, PC tiene un coeficiente significativo (valor p < 0.05), mientras que con las variables adicionales, la significancia disminuye (valor p de 0.01076), sugiriendo que el efecto de tener una computadora sobre el GPA es parcialmente explicado por las características de los padres. Esto implica que, aunque el efecto de PC sigue siendo positivo, su impacto se ve atenuado al incluir otras variables relacionadas con el contexto familiar.
Para evaluar la significancia conjunta de las variables mothcoll y fathcoll, se estima primero el modelo completo, que incluye estas dos variables, y luego se estima un modelo restringido, en el que se eliminan mothcoll y fathcoll. Posteriormente, utilizando la función anova(), se compara ambos modelos para obtener el valor calculado de F y el valor p asociado al F. Este procedimiento permite determinar la significancia estadística conjunta de las dos variables en el modelo.
Modelo Completo
##
## Call:
## lm(formula = colGPA ~ PC + hsGPA + ACT + mothcoll + fathcoll,
## data = gpa1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78149 -0.25726 -0.02121 0.24691 0.74432
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.255554 0.335392 3.744 0.000268 ***
## PC 0.151854 0.058716 2.586 0.010762 *
## hsGPA 0.450220 0.094280 4.775 4.61e-06 ***
## ACT 0.007724 0.010678 0.723 0.470688
## mothcoll -0.003758 0.060270 -0.062 0.950376
## fathcoll 0.041800 0.061270 0.682 0.496265
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3344 on 135 degrees of freedom
## Multiple R-squared: 0.2222, Adjusted R-squared: 0.1934
## F-statistic: 7.713 on 5 and 135 DF, p-value: 2.083e-06
Modelo Restringido
##
## Call:
## lm(formula = colGPA ~ PC + hsGPA + ACT, data = gpa1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.7901 -0.2622 -0.0107 0.2334 0.7570
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.263520 0.333125 3.793 0.000223 ***
## PC 0.157309 0.057287 2.746 0.006844 **
## hsGPA 0.447242 0.093647 4.776 4.54e-06 ***
## ACT 0.008659 0.010534 0.822 0.412513
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3325 on 137 degrees of freedom
## Multiple R-squared: 0.2194, Adjusted R-squared: 0.2023
## F-statistic: 12.83 on 3 and 137 DF, p-value: 1.932e-07
Al realizar la prueba F para evaluar la significancia conjunta de las
variables mothcoll y fathcoll, comparamos el
modelo restringido (sin estas variables) con el modelo completo.
Los resultados de la prueba ANOVA son los siguientes:
## Analysis of Variance Table
##
## Model 1: colGPA ~ PC + hsGPA + ACT
## Model 2: colGPA ~ PC + hsGPA + ACT + mothcoll + fathcoll
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 137 15.149
## 2 135 15.094 2 0.054685 0.2446 0.7834
El valor p de la prueba F es 0.7834, lo que es considerablemente mayor que el nivel de significancia comúnmente usado de 0.05. Esto sugiere que no podemos rechazar la hipótesis nula. En otras palabras, no hay evidencia suficiente para afirmar que las variables mothcoll y fathcoll tienen un efecto conjunto significativo sobre el GPA universitario (colGPA).
##
## Call:
## lm(formula = hrsemp ~ grant + log(sales) + employ, data = jtrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -42.869 -12.330 -6.405 4.281 136.646
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 31.79426 25.74429 1.235 0.2177
## grant 34.36002 3.76500 9.126 <2e-16 ***
## log(sales) -1.16576 1.79838 -0.648 0.5173
## employ -0.05828 0.03361 -1.734 0.0839 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 23.35 on 316 degrees of freedom
## (151 observations deleted due to missingness)
## Multiple R-squared: 0.2303, Adjusted R-squared: 0.223
## F-statistic: 31.51 on 3 and 316 DF, p-value: < 2.2e-16
Intercepto (31.79426): Este es el valor estimado de las horas de capacitación por empleado (hrsemp) cuando las variables grant, log(sales) y employ son cero. Sin embargo, este valor no tiene sentido práctico.
grant (34.36002): Este coeficiente indica que, si una empresa recibe una subvención (grant = 1), las horas de capacitación por empleado (hrsemp) aumentan en 34.36 horas en promedio, manteniendo constantes las demás variables del modelo. El valor p asociado (< 2e-16) es bajo, lo que sugiere que la variable grant es altamente significativa.
log(sales) (-1.16576): Este coeficiente indica que un aumento del 1% en las ventas (sales) está asociado con una disminución de 1.17 horas de capacitación por empleado (hrsemp), manteniendo constantes las demás variables. El valor p de 0.5173 es alto, lo que indica que log(sales) no es estadísticamente significativo.
employ (-0.05828): Este coeficiente indica que por cada incremento de una unidad en el número de empleados (employ), las horas de capacitación por empleado (hrsemp) disminuyen en 0.058 horas, manteniendo constantes las otras variables. El valor p asociado (0.0839) sugiere significancia estadística a un nivel del 100%, por ende se puede concluír que no tiene signifiancia estadística aceptable dentro del modelo.
R² ajustado (0.223): Aproximadamente el 22.3% de la variabilidad en las horas de capacitación por empleado (hrsemp) es explicada por el modelo, lo cual es relativamente bajo, indicando que otras variables no incluidas en el modelo pueden estar influyendo.
Estadístico F (31.51): Este valor es significativo con un valor p extremadamente bajo (< 2.2e-16), lo que indica que el modelo como conjunto es estadísticamente significativo.
Para probar la hipótesis de que las empresas que recibieron subvenciones para capacitación tienen el mismo efecto sobre las horas de capacitación que aquellas que no las recibieron, debemos centrarnos en la variable grant. La hipótesis que queremos probar es:
Hipótesis nula (H₀): Las empresas que recibieron subvenciones para capacitación tienen el mismo efecto sobre las horas de capacitación que aquellas que no recibieron subvenciones. Es decir, β1=0
Hipótesis alternativa (H1): Las empresas que recibieron subvenciones para capacitación tienen un efecto diferente sobre las horas de capacitación en comparación con aquellas que no las recibieron. Es decir, β1≠0
El modelo ya está estimado, y el coeficiente de la variable grant es 34.36002, con un valor p muy bajo (< 2e-16), lo que sugiere que grant es estadísticamente significativo. El valor p asociado con el coeficiente de grant es < 2e-16, lo que quiere decir que la variable grant es estadísticamente significativa hasta para un nivel de confianza de 0,1%. Debido a que el valor p es extremadamente pequeño, rechazamos la hipótesis nula de que el coeficiente de grant es igual a cero.
## starting httpd help server ... done
##
## Call:
## lm(formula = lwage ~ female + totcoll + female * totcoll, data = twoyear)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.01699 -0.27386 0.01441 0.29689 1.63272
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.288767 0.010942 209.179 < 2e-16 ***
## female -0.357265 0.014847 -24.064 < 2e-16 ***
## totcoll 0.049661 0.003187 15.581 < 2e-16 ***
## female:totcoll 0.029910 0.004565 6.552 6.1e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4359 on 6759 degrees of freedom
## Multiple R-squared: 0.2015, Adjusted R-squared: 0.2011
## F-statistic: 568.5 on 3 and 6759 DF, p-value: < 2.2e-16
Intercepto (2.288767): Este es el valor esperado de log(wage) para un hombre (ya que female = 0) que no ha completado ningún tipo de estidudio universitario (totcoll = 0). En otras palabras, el salario logarítmico esperado para un hombre sin estudios universitarios se espera sea 2.288767.
female (-0.357265): En este caso se realiza la transformación del estimador de la variable female para poder realizar su interpretación:
## [1] -30.04129
Este coeficiente indica que, en promedio, las mujeres tienen un salario 30.041291% más bajo que los hombres, manteniendo constantes los créditos universitarios (totcoll) y la interacción entre female y totcoll. Este coeficiente es significativamente negativo, lo que sugiere que las mujeres ganan menos que los hombres, en promedio, en este modelo.
totcoll (0.049661): Este coeficiente indica que, por cada unidad adicional de totcoll, el salario aumenta en 4.9661%, manteniendo constantes el género y la interacción entre female y totcoll. Este coeficiente es positivo y significativo, lo que sugiere que mayores créditos universitarios están asociados con un salario más alto, independientemente del género.
female:totcoll (0.029910): Este coeficiente es la interacción entre ser mujer y totcoll. Indica que el efecto de una unidad adicional en totcoll aumenta en un 2,9910% más el salario de las mujeres en comparación con los hombres. En otras palabras, aunque las mujeres ganan menos que los hombres en promedio (como lo indica el coeficiente de female), el efecto de totcoll sobre el salario es ligeramente mayor para las mujeres.
R-cuadrado ajustado (0.2011): El modelo explica aproximadamente el 20.11% de la variabilidad en el salario, lo que sugiere que hay otros factores no incluidos en el modelo que podrían estar influyendo en el salario.
F-estadístico (568.5): El valor F es significativo (p-valor < 2.2e-16), lo que indica que el modelo en su conjunto es estadísticamente significativo.
Valor p de los coeficientes: Todos los coeficientes son altamente significativos (con valores p menores a 0.001), lo que indica que las variables female, totcoll y female:totcoll tienen un impacto estadísticamente significativo sobre lwage.
Con base en el resultado anterior, se podría argumentar que es posible que las mujeres logren niveles de ingresos similares a los de los hombres, siempre que adquieran suficientes créditos universitarios. Aunque el intercepto del salario logarítmico (lwage) para los hombres es mayor que para las mujeres, la relación entre lwage y totcoll indica que la pendiente de la recta para las mujeres es más pronunciada. Esto sugiere que, a medida que las mujeres adquieren más créditos universitarios, su salario aumenta a un ritmo más rápido que el de los hombres. Como resultado, existe la posibilidad de que en algún momento la recta correspondiente a las mujeres cruce a la de los hombres, alcanzando un nivel de ingresos similar.
## Warning: package 'ggplot2' was built under R version 4.4.2
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Esta gráfica permite ver el comportamiento del salario en función de los créditos académicos según el género. Como se puede observar y se menciono en el apartado anteriro, aunque en promedio las mujeres ganan menos que los hombres en este modelo, el efecto de los créditos universitarios (totcoll) sobre el salario es ligeramente mayor para las mujeres (como lo indica female:totcoll). Esto implica que, con suficientes años de universidad, las mujeres pueden superar a los hombres en términos de ingresos, alcanzando o incluso superando su nivel salarial en algún punto a medida que aumentan sus créditos académicos.
## [1] 0.3759791
## [1] 0.6240209
De acuerdo con los resultados, el 37.6% de las mujeres y el 62.4% de los hombres tienen un aspecto físico superior al promedio (es decir, belavg = 1). Esto sugiere que más hombres son clasificados con un aspecto físico superior al promedio en comparación con las mujeres.
log(wage) = β0 +β1belavg +β2abvavg +u
Modelo Completo:
##
## Call:
## lm(formula = (lwage) ~ belavg + abvavg, data = beauty)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.67849 -0.37516 0.01673 0.38115 2.70025
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.69830 0.02200 77.183 < 2e-16 ***
## belavg -0.20879 0.05234 -3.989 7.01e-05 ***
## abvavg -0.04544 0.03737 -1.216 0.224
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5912 on 1257 degrees of freedom
## Multiple R-squared: 0.01254, Adjusted R-squared: 0.01097
## F-statistic: 7.985 on 2 and 1257 DF, p-value: 0.0003583
Modelo Mujeres:
##
## Call:
## lm(formula = (lwage) ~ belavg + abvavg, data = beauty, subset = female ==
## 1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.28901 -0.37834 0.01294 0.33792 3.01066
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.30882 0.03425 38.212 <2e-16 ***
## belavg -0.13763 0.07620 -1.806 0.0716 .
## abvavg 0.03364 0.05542 0.607 0.5442
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5228 on 433 degrees of freedom
## Multiple R-squared: 0.0105, Adjusted R-squared: 0.005929
## F-statistic: 2.297 on 2 and 433 DF, p-value: 0.1018
Interpretación coeficiente de belavg mujeres: -0.13763
En este caso se realiza la transformación del estimador de la variable belavg para poder realizar su interpretación:
## [1] -12.85789
Para las mujeres, si el promedio de belleza (belavg = 1, es decir, looks ≤ 2), el salario disminuye en un 12.85789%. Sin embargo, el valor p (0.0716) indica que este efecto no es estadísticamente significativo ni al 5%.
Modelo Hombres:
##
## Call:
## lm(formula = (lwage) ~ belavg + abvavg, data = beauty, subset = female ==
## 0)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.83509 -0.33419 0.01726 0.31308 1.88990
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.88388 0.02430 77.541 < 2e-16 ***
## belavg -0.19874 0.05997 -3.314 0.000961 ***
## abvavg -0.04400 0.04240 -1.038 0.299744
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5372 on 821 degrees of freedom
## Multiple R-squared: 0.01329, Adjusted R-squared: 0.01089
## F-statistic: 5.529 on 2 and 821 DF, p-value: 0.004121
Interpretación coeficiente de belavg hombres: -0.19874
En este caso se realiza la transformación del estimador de la variable belavg para poder realizar su interpretación:
## [1] -18.0237
Para los hombres, si el promedio de belleza (belavg = 1, es decir, looks ≤ 2), el salario disminuye en un 18.0237%. Este coeficiente es estadísticamente significativo con un valor p de 0.000961, lo que indica que el bajo promedio de belleza tiene un impacto negativo y significativo en el salario de los hombres.
H0 :β1=0
Implica que no hay relación significativa entre el aspecto físico
inferior al promedio (belavg) y el logaritmo del salario (log(wage)). En
otras palabras, el hecho de que una persona tenga un aspecto físico
inferior al promedio (según la variable belavg) no tiene un efecto
estadísticamente significativo en su salario.
H1 :β1<0
Quiere decir que un aspecto físico inferior al promedio (belavg = 1)
está asociado con un salario más bajo. En otras palabras, un aspecto
físico inferior al promedio tiene un impacto negativo y significativo en
los salarios, haciendo que las personas con un aspecto físico inferior
al promedio ganen menos en comparación con las que tienen un aspecto
superior al promedio.
## Valores p para hombres:
## (Intercept) belavg abvavg
## 0.0000000000 0.0009608895 0.2997435474
##
## Valores p para mujeres:
## (Intercept) belavg abvavg
## 8.446387e-141 7.158439e-02 5.441554e-01
El valor p para belavg en el modelo de hombres es 0.0009608895, lo que indica que el coeficiente de belavg es estadísticamente significativo al nivel del 5%. Esto sugiere que, para los hombres, el aspecto físico inferior al promedio (belavg = 1) tiene un efecto negativo y significativo sobre el salario logarítmico (log(wage)).
Por otro lado, el valor p para belavg en el modelo de mujeres es 7.158439e-02, lo que es mayor que 0.05, indicando que el coeficiente de belavg no es estadísticamente significativo para las mujeres. Esto sugiere que, para las mujeres, el aspecto físico inferior al promedio no tiene un efecto significativo sobre su salario logarítmico.
Como se puede evidenciar en el modelo de las mujeres, el estimador de la variable abvavg es 0.03364, sin embargo, en este caso se realiza la transformación del estimador de la variable para poder realizar su interpretación:
## [1] 3.421222
Para las mujeres, si el promedio de belleza (abvavg = 1, es decir, looks >= 4), el salario aumenta en un 3.421222%. Sin embargo, el valor p (0.5442) indica que este efecto no es estadísticamente significativo ni al 5%.
En conclusión, no hay ninguna evidencia convincente de que las mujeres con una apariencia superior al promedio ganen más que las mujeres con una apariencia promedio.
Modelo Extendido Hombres
##
## Call:
## lm(formula = lwage ~ belavg + abvavg + educ + exper + I(exper^2) +
## union + goodhlth + black + married + south + bigcity + smllcity +
## service, data = beauty, subset = female == 0)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.45428 -0.27437 -0.00459 0.24240 1.78362
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.3580113 0.1186755 3.017 0.002635 **
## belavg -0.1433863 0.0511537 -2.803 0.005183 **
## abvavg -0.0010065 0.0366042 -0.027 0.978070
## educ 0.0603151 0.0067508 8.934 < 2e-16 ***
## exper 0.0494652 0.0056001 8.833 < 2e-16 ***
## I(exper^2) -0.0007947 0.0001195 -6.652 5.33e-11 ***
## union 0.1091750 0.0353588 3.088 0.002086 **
## goodhlth 0.0012040 0.0677443 0.018 0.985825
## black -0.2771892 0.0732513 -3.784 0.000166 ***
## married 0.0824294 0.0428054 1.926 0.054494 .
## south 0.1037158 0.0416670 2.489 0.013004 *
## bigcity 0.2734916 0.0452305 6.047 2.26e-09 ***
## smllcity 0.1346177 0.0374577 3.594 0.000346 ***
## service -0.2089609 0.0428775 -4.873 1.32e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4528 on 810 degrees of freedom
## Multiple R-squared: 0.3084, Adjusted R-squared: 0.2973
## F-statistic: 27.79 on 13 and 810 DF, p-value: < 2.2e-16
belavg: disminuye de -0.1987 a -0.1439, pero sigue siendo estadísticamente significativo. Esto sugiere que parte del efecto observado inicialmente de la apariencia inferior podría ser explicado por otras características no incluidas en el modelo original.
abvavg: disminuye aún más y pierde significancia. Esto indica que no hay evidencia sólida de que tener una apariencia superior tenga un impacto directo y claro en los salarios una vez que se controlan otras variables, como la educación, experiencia, entre otras.
Modelo Extendido Mujeres
##
## Call:
## lm(formula = lwage ~ belavg + abvavg + educ + exper + I(exper^2) +
## union + goodhlth + black + married + south + bigcity + smllcity +
## service, data = beauty, subset = female == 1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.27677 -0.24954 0.02958 0.27802 2.62433
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.1027681 0.1468322 -0.700 0.48437
## belavg -0.1151564 0.0659892 -1.745 0.08170 .
## abvavg 0.0575209 0.0486396 1.183 0.23764
## educ 0.0769358 0.0096002 8.014 1.10e-14 ***
## exper 0.0300475 0.0071111 4.225 2.92e-05 ***
## I(exper^2) -0.0005099 0.0001738 -2.933 0.00354 **
## union 0.2843611 0.0533803 5.327 1.63e-07 ***
## goodhlth 0.1279672 0.0812891 1.574 0.11619
## black 0.1058475 0.0699387 1.513 0.13092
## married -0.0549752 0.0440234 -1.249 0.21244
## south -0.0044875 0.0596276 -0.075 0.94004
## bigcity 0.1722930 0.0637217 2.704 0.00713 **
## smllcity 0.0130385 0.0501571 0.260 0.79503
## service -0.0907494 0.0466802 -1.944 0.05255 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4453 on 422 degrees of freedom
## Multiple R-squared: 0.3003, Adjusted R-squared: 0.2787
## F-statistic: 13.93 on 13 and 422 DF, p-value: < 2.2e-16
belavg: disminuye de -0.1376 a -0.1152, y aunque el valor p cambia de 0.0716 a 0.0817, sigue sin ser significativo. Esto quiere decir que la relación entre una apariencia inferior al promedio y los salarios se mantiene, pero con un efecto un poco menor cuando se consideran otros factores.
abvavg: aumenta de 0.0336 a 0.0575, pero sigue siendo no significativo. En resumen, aunque los efectos de la apariencia cambian algo al incluir los controles, no hay evidencia concluyente de que la belleza tenga un impacto significativo sobre los salarios de las mujeres.