La población de interés del estudio está conformada por los estudiantes universitarios que asisten a instituciones públicas en el estado de Texas. En consecuencia, los resultados del análisis no pueden generalizarse a una población más amplia, ya que el desempeño académico y los hábitos de estudio pueden variar significativamente según el nivel educativo, el estado y el tipo de institución (pública o privada). Por esta razón, no es válido extrapolar los resultados a todos los estudiantes de Texas ni, mucho menos, al conjunto de estudiantes de Estados Unidos. La inferencia es válida únicamente para esta población específica, y solo en la medida en que el método de muestreo utilizado haya sido adecuado para garantizar representatividad, es decir, que haya sido probabilístico y con un tamaño de muestra suficientemente grande.
Tomando en cuenta el objetivo principal de la investigación, lo que le interesa principalmente al gobierno de Texas es el parámetro que mide cómo cambia la calificación de los estudiantes ante una hora de estudio adicional, esto ya considerando otros factores adicionales concernientes al tipo de hábitos y estilo de vida.
3.a Para aproximar la garantía del supuesto de independencia entre observaciones, el esquema más adecuado sería el muestreo aleatorio geoespacial. Esto se debe a que la selección de las unidades muestrales es la más aleatoria entre las opciones consideradas. El esquema de snowball sampling no es probabilístico y, además, el proceso de referenciar a otros estudiantes induce dependencia directa entre las observaciones. Por su parte, aunque el muestreo por clusters selecciona aleatoriamente las escuelas, al analizar el desempeño a nivel individual es probable que exista dependencia entre estudiantes de una misma institución, debido a factores compartidos como la cultura académica, el nivel de exigencia, las políticas escolares o las actividades extracurriculares. En comparación, el muestreo geoespacial reduce la probabilidad de correlación no observada entre individuos, haciendo más defendible el supuesto de independencia.
3.b Si el método de análisis es OLS, el esquema más adecuado es el muestreo por clusters. Aunque el muestreo geoespacial se aproxima más al supuesto de independencia entre observaciones, puede generar una pérdida de eficiencia al incluir hogares sin estudiantes, reduciendo el tamaño efectivo de la muestra de interés. Además, factores geográficos o socioeconómicos pueden hacer que ciertas zonas concentren más estudiantes que otras, afectando la representatividad. En el muestreo por clusters, si bien la independencia no se cumple estrictamente entre estudiantes de una misma escuela, este problema puede abordarse de manera estándar mediante el uso de errores estándar robustos agrupados a nivel escuela, lo que permite realizar inferencia válida bajo OLS.
| Statistic | N | Mean | St. Dev. | Min | Max |
| exam_score | 1,000 | 69.60 | 16.89 | 18.40 | 100.00 |
| study_hours_per_day | 1,000 | 3.55 | 1.47 | 0.00 | 8.30 |
| sleep_hours | 1,000 | 6.47 | 1.23 | 3.20 | 10.00 |
| attendance_percentage | 1,000 | 84.13 | 9.40 | 56.00 | 100.00 |
| social_media_hours | 1,000 | 2.51 | 1.17 | 0.00 | 7.20 |
| gender_mujer | 1,000 | 0.48 | 0.50 | 0 | 1 |
| gender_hombre | 1,000 | 0.48 | 0.50 | 0 | 1 |
| gender_other | 1,000 | 0.04 | 0.20 | 0 | 1 |
| exercise_frequency | 1,000 | 3.04 | 2.03 | 0 | 6 |
| mental_health_rating | 1,000 | 5.44 | 2.85 | 1 | 10 |
En la gráfica se aprecia una relacion positiva entre las horas de estudioy las calificaciones del examen. Los valores se concentran principalmente en un rango de estudio menor a seis horas, donde se observa una mayor dispersión en las calificaciones. A partir de una calificación de 100, la relación deja de aumentar y se mantiene constante, lo cual corresponde al puntaje máximo permitido. Asimismo, se observa que los estudiantes que reportan más de seis horas de estudio presentan calificaciones elevadas, sin registrarse valores inferiores a 75 en ese grupo.
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 15 rows containing missing values or values outside the scale range
## (`geom_line()`).
| Kernel | h_0.1 | h_0.4 | h_1.0 | OLS_R2 |
| uniform | 0.6943 | 0.6856 | 0.6747 | |
| triangular_manual | 0.7065 | 0.6912 | 0.6842 | |
| gaussian | 0.6946 | 0.6845 | 0.6194 | |
| OLS | 0.6813 | |||
| Kernel | h_0.1 | h_0.4 | h_1.0 | OLS_R2 |
| uniform | 0.7026 | 0.6873 | 0.6859 | |
| triangular_manual | 0.6629 | 0.6854 | 0.6858 | |
| gaussian | 0.6948 | 0.6878 | 0.6856 | |
| OLS | 0.6813 | |||
Sí puede ser un insumo, pero no es suficiente (ni lo más válido) para elegir “el mejor” kernel. El \(R^2\) mide ajuste dentro de la muestra, y en regresión kernel el ajuste depende fuertemente del bandwidth (h): al cambiar \(h\), cambia el sesgo–varianza y puedes “ganar” \(R^2\) por sobreajuste sin mejorar capacidad predictiva. Además, las diferencias entre kernels suelen ser pequeñas frente al efecto de (h); por eso, seleccionar kernel por \(R^2\) puede terminar eligiendo ruido o una combinación kernel–bandwidth circunstancial.
En la especificacion 5, se transformaron las horas de estudio y las horas en redes sociales en logaritmos porque se espera que su efecto sobre la calificación sea no lineal, con posibles rendimientos decrecientes a medida que aumentan las horas dedicadas a cada actividad. Además, al utilizar una especificación log–log, los coeficientes pueden interpretarse como elasticidades, lo que permite analizar cambios porcentuales en la calificación ante variaciones proporcionales en estas variables.
| Dependent variable: | |||||
| exam_score | Z_score | log(exam_score) | |||
| (1) | (2) | (3) | (4) | (5) | |
| log(Horas de estudio por día + 1) | 0.573*** | ||||
| (0.012) | |||||
| Horas de estudio por día | 9.511*** | 9.512*** | 9.478*** | 0.561*** | |
| (0.193) | (0.193) | (0.221) | (0.013) | ||
| log(Horas en redes sociales + 1) | -0.127*** | ||||
| (0.012) | |||||
| Horas en redes sociales | -2.688*** | -2.689*** | -2.759*** | -0.163*** | |
| (0.241) | (0.242) | (0.277) | (0.016) | ||
| Asistencia (%) | 0.136*** | 0.135*** | 0.121*** | 0.007*** | 0.002*** |
| (0.030) | (0.030) | (0.035) | (0.002) | (0.001) | |
| Edad | -0.087 | 0.075 | 0.004 | -0.002 | |
| (0.123) | (0.143) | (0.008) | (0.002) | ||
| Mujer | -0.250 | -0.015 | -0.003 | ||
| (0.657) | (0.039) | (0.009) | |||
| Horas de sueño | 2.097*** | 0.124*** | |||
| (0.275) | (0.016) | ||||
| Educación parental: High School (vs None) | 1.004 | 0.059 | |||
| (0.979) | (0.058) | ||||
| Educación parental: Master (vs None) | -0.718 | -0.043 | |||
| (1.097) | (0.065) | ||||
| Constant | 31.133*** | 32.971*** | 16.894*** | -3.121*** | 3.385*** |
| (2.666) | (3.711) | (4.734) | (0.280) | (0.065) | |
| Observations | 1,000 | 1,000 | 650 | 650 | 1,000 |
| R2 | 0.721 | 0.721 | 0.753 | 0.753 | 0.690 |
| Adjusted R2 | 0.720 | 0.720 | 0.750 | 0.750 | 0.688 |
| Residual Std. Error | 8.939 (df = 996) | 8.941 (df = 995) | 8.338 (df = 641) | 0.494 (df = 641) | 0.150 (df = 994) |
| F Statistic | 856.703*** (df = 3; 996) | 642.336*** (df = 4; 995) | 244.239*** (df = 8; 641) | 244.239*** (df = 8; 641) | 441.511*** (df = 5; 994) |
| Note: | Asteriscos indican significancia estadística al 10 %, 5 % y 1 %. Errores heterocedásticos entre paréntesis bajo los coeficientes. | ||||
El estimador obtenido es de 9.511 puntos en la calificación del examen. Esto se interpreta como que, al aumentar una hora adicional de estudio por día, y manteniendo constantes las horas dedicadas a redes sociales y el porcentaje de asistencia a clases, la calificación promedio del estudiante aumenta en aproximadamente 9.51 puntos.
Dado que en esta especificación la variable dependiente se encuentra estandarizada (Z-score), el coeficiente estimado de 0.008 indica que un aumento de un punto porcentual en la asistencia a clases se asocia con un incremento de 0.008 desviaciones estándar en la calificación del examen, manteniendo constantes las demás variables.
El intercepto estimado de 32.97 representa la calificación esperada de un estudiante cuando las variables explicativas incluidas en el modelo (edad, asistencia y horas en redes sociales) toman el valor de cero. Si bien este valor no tiene una interpretación económica directa, sirve como punto de referencia para la estimación de los efectos marginales de las variables explicativas.
En esta especificación, donde la variable dependiente está estandarizada, el coeficiente estimado de 0.561 indica que una hora adicional de estudio por día se asocia con un aumento de 0.561 desviaciones estándar en la calificación promedio del examen, manteniendo constantes las demás covariables.
Dado que la variable dependiente se encuentra en logaritmos, el coeficiente estimado de 0.002 implica que un aumento de un punto porcentual en la asistencia a clases se asocia con un incremento aproximado de 0.2% en la calificación del examen, manteniendo constantes las demás variables del modelo.
El coeficiente asociado a la variable dicotómica female indica que, manteniendo constantes las demás covariables, ser mujer se asocia con una calificación aproximadamente 0.7% menor en comparación con los hombres, categoría de referencia del modelo.
El estimador obtenido sugiere que, manteniendo constantes las demás variables explicativas, una hora adicional de sueño por día se asocia con un aumento promedio de aproximadamente 2.10 puntos en la calificación del examen.
En la especificación (4), el impacto de la asistencia es marginal. Un incremento de una unidad en la asistencia se traduce en apenas \(0.007\) desviaciones estándar en el puntaje, lo que sugiere que esta variable tiene un valor contributivo prácticamente nulo sobre el desempeño relativo una vez controladas las demás variables.
Para la variable sleep_hours n la especificación (3), se observa un efecto positivo y moderado. Dormir una hora adicional se asocia con un aumento de \(2.097\) puntos en la calificación. No obstante, al poner este valor en perspectiva, representa solo un \(3\%\) respecto a la media (0.030) y 0.124 desviaciones estándar de la muestra, lo que indica un beneficio real pero acotado.
Para evaluar el impacto de la escolaridad parental, se realizó una prueba F de significancia parcial bajo la hipótesis nula de que los coeficientes asociados (High School y Master) son conjuntamente iguales a cero. El resultado (\(p = 0.0732\)) indica que esta variable es significativa únicamente al nivel del 10%, fallando en alcanzar el umbral estándar del 5%. Esto sugiere que la evidencia estadística para considerar el nivel educativo de los padres como un determinante clave es débil en presencia de los otros controles.
[1] 650 [1] 1000 [1] 650
| Res.Df | RSS | Df | Sum of Sq | F | Pr(> F) | |
| 1 | 643 | 44,929.2900 | ||||
| 2 | 641 | 44,564.2600 | 2 | 365.0296 | 2.6252 | 0.0732 |
| El Modelo 1 es el modelo restringido; el Modelo 2 incluye la escolaridad parental. | ||||||
Se estimó un modelo con interacción entre horas de estudio y género
para evaluar (i) si el retorno a estudiar presenta heterogeneidad por
género y (ii) si existe un efecto independiente de ser mujer sobre el
desempeño. En particular, se incluyó el término
study_hours_per_day × gender_mujer, de modo que el efecto
marginal de una hora adicional de estudio para hombres es \(\hat\beta_1\) y para mujeres es \(\hat\beta_1+\hat\beta_3\). La estimación
(columna nueva en la Tabla 2) arroja un coeficiente de interacción \(\hat\beta_3=-0.332\) con \(p\)-value = 0.370, por lo que no se rechaza
al 10% la hipótesis nula \(H_0:\beta_3=0\); es decir, no hay evidencia
estadística de que el efecto de estudiar difiera entre hombres y
mujeres. Con base en esta estimación, un incremento de 1.5 horas de
estudio se asocia con un aumento de 14.61 puntos para
hombres (IC 90%: [13.98, 15.25]) y de
14.11 puntos para mujeres (IC 90%: [13.48,
14.75]). La diferencia en el cambio (mujeres − hombres) ante
+1.5 horas es −0.50 puntos, y dado el \(p\)-value del término de interacción, dicha
diferencia no es significativa al 10%. En conjunto, los resultados
sugieren que el desempeño aumenta de manera importante con más horas de
estudio, pero sin evidencia de heterogeneidad por género en ese retorno
dentro de esta especificación.
| Dependent variable: | ||||||
| exam_score | Z_score | log(exam_score) | ||||
| (1) | (2) | (3) | (4) | (5) | (6) | |
| log(Horas de estudio por día + 1) | 0.573*** | |||||
| (0.012) | ||||||
| Horas de estudio por día | 9.511*** | 9.512*** | 9.478*** | 9.565*** | 0.561*** | |
| (0.193) | (0.193) | (0.221) | (0.298) | (0.013) | ||
| log(Horas en redes sociales + 1) | -0.192 | |||||
| (0.444) | ||||||
| Horas en redes sociales | -0.127*** | |||||
| (0.012) | ||||||
| Asistencia (%) | -2.688*** | -2.689*** | -2.759*** | -2.763*** | -0.163*** | |
| (0.241) | (0.242) | (0.277) | (0.278) | (0.016) | ||
| Edad | 0.136*** | 0.135*** | 0.121*** | 0.121*** | 0.007*** | 0.002*** |
| (0.030) | (0.030) | (0.035) | (0.035) | (0.002) | (0.001) | |
| Mujer | -0.087 | 0.075 | 0.072 | 0.004 | -0.002 | |
| (0.123) | (0.143) | (0.143) | (0.008) | (0.002) | ||
| Horas de sueño | -0.250 | 0.438 | -0.015 | -0.003 | ||
| (0.657) | (1.722) | (0.039) | (0.009) | |||
| Educación parental: High School (vs None) | 2.097*** | 2.090*** | 0.124*** | |||
| (0.275) | (0.276) | (0.016) | ||||
| Educación parental: Master (vs None) | 1.004 | 1.027 | 0.059 | |||
| (0.979) | (0.981) | (0.058) | ||||
| parental_education_levelMaster | -0.718 | -0.700 | -0.043 | |||
| (1.097) | (1.099) | (0.065) | ||||
| Observations | 1,000 | 1,000 | 650 | 650 | 650 | 1,000 |
| R2 | 0.721 | 0.721 | 0.753 | 0.753 | 0.753 | 0.690 |
| Adjusted R2 | 0.720 | 0.720 | 0.750 | 0.750 | 0.750 | 0.688 |
| Residual Std. Error | 8.939 (df = 996) | 8.941 (df = 995) | 8.338 (df = 641) | 8.343 (df = 640) | 0.494 (df = 641) | 0.150 (df = 994) |
| F Statistic | 856.703*** (df = 3; 996) | 642.336*** (df = 4; 995) | 244.239*** (df = 8; 641) | 216.846*** (df = 9; 640) | 244.239*** (df = 8; 641) | 441.511*** (df = 5; 994) |
| Note: | Asteriscos indican significancia estadística al 10 %, 5 % y 1 %. Errores heterocedásticos entre paréntesis bajo los coeficientes. | |||||
## Grupo Efecto_1_5_horas IC90_inf IC90_sup
## 1 Hombres 14.34754 13.6075 15.08757
## 2 Mujeres 14.05920 13.2806 14.83780
## Coeficiente Estimate Std_Error t_value
## Estimate study_hours_per_day:gender_mujer -0.1922248 0.4442116 -0.4327325
## p_value
## Estimate 0.6653549
## coef_m3.study_hours_per_day coef_partial_out.rx
## 9.478152 9.478152
| Dependent variable: | |||
| exam_score | |||
| OLS (SE robustos HC1) | OLS (SE homoced.) | FGLS | |
| (1) | (2) | (3) | |
| study_hours_per_day | 9.478*** | 9.478*** | 9.499*** |
| (0.216) | (0.221) | (0.218) | |
| social_media_hours | -2.759*** | -2.759*** | -2.787*** |
| (0.265) | (0.277) | (0.275) | |
| attendance_percentage | 0.121*** | 0.121*** | 0.120*** |
| (0.035) | (0.035) | (0.035) | |
| age | 0.075 | 0.075 | 0.075 |
| (0.145) | (0.143) | (0.141) | |
| gender_mujer | -0.250 | -0.250 | -0.195 |
| (0.655) | (0.657) | (0.648) | |
| sleep_hours | 2.097*** | 2.097*** | 2.097*** |
| (0.273) | (0.275) | (0.272) | |
| parental_education_levelHigh School | 1.004 | 1.004 | 1.098 |
| (0.901) | (0.979) | (0.898) | |
| parental_education_levelMaster | -0.718 | -0.718 | -0.635 |
| (1.015) | (1.097) | (1.025) | |
| Constant | 16.894*** | 16.894*** | 16.829*** |
| (4.876) | (4.734) | (4.661) | |
| Observations | 650 | 650 | 650 |
| R2 | 0.753 | 0.753 | 0.758 |
| Adjusted R2 | 0.750 | 0.750 | 0.755 |
| Note: | p<0.1; p<0.05; p<0.01 | ||
En la estimación por FGLS, el coeficiente asociado a
study_hours_per_day, denotado como \(\hat{\beta}_{\text{study}}\), se interpreta
de la misma manera que en el modelo OLS en términos económicos.
Específicamente, manteniendo constantes las horas en redes sociales,
el porcentaje de asistencia, la edad, el género, las horas de sueño y la
escolaridad parental, una hora adicional de estudio por día se asocia
con un cambio promedio de \(\hat{\beta}_{\text{study}}\) puntos en la
calificación (exam_score).
La diferencia entre OLS y FGLS no radica en la interpretación del coeficiente, sino en el procedimiento de estimación. En FGLS se permite que la varianza del error no sea constante, modelando explícitamente la heterocedasticidad. Posteriormente, se ponderan las observaciones asignando mayor peso a aquellas con menor varianza estimada del error (es decir, observaciones más precisas) y menor peso a las observaciones más ruidosas.
Si el modelo de varianza está correctamente especificado, FGLS produce estimadores más eficientes que OLS.
Para decidir cual error estandar es mas aedcuado, hay que evaluar si el supuesto de se cumple y qué muestran tus diagnósticos gráficos y pruebas formales
##
## studentized Breusch-Pagan test
##
## data: m3_ols
## BP = 15.924, df = 8, p-value = 0.04348
Dado que la prueba de Breusch–Pagan arroja un p-value de 0.02, se rechaza la hipótesis nula de homocedasticidad a un nivel de significancia del 5%. Esto implica que los errores estándar homocedásticos de OLS no son apropiados para inferencia. Por lo tanto, es más adecuado utilizar errores estándar robustos a heterocedasticidad (HC1), que permanecen válidos bajo heterocedasticidad de forma desconocida. Aunque FGLS puede mejorar eficiencia si la estructura de varianza está correctamente modelada, su validez depende de la especificación del modelo de ponderación; por ello, para una inferencia conservadora y robusta, se prefieren los errores estándar HC1.
## 1
## 92.33965
## 1
## 92.33965
## 2.5% 96.5%
## 91.06827 93.58705
Es posible que el número de trabajos asignados constituya una variable omitida relevante en la estimación. Esto se debe a que cumple las dos condiciones necesarias para generar sesgo por omisión: (i) puede afectar directamente la calificación del examen y (ii) probablemente esté correlacionado con las horas de estudio reportadas.
En primer lugar, el número de trabajos podría influir en la calificación del examen porque realizar más tareas incrementa la práctica y el dominio del contenido, lo cual sugiere un efecto positivo sobre el desempeño académico. Sin embargo, también podría generar un efecto indirecto negativo si el tiempo dedicado a las tareas desplaza tiempo que de otro modo se habría destinado al estudio específico para el examen.
En segundo lugar, es razonable suponer que el número de trabajos está correlacionado con las horas de estudio. Si las horas reportadas corresponden únicamente al estudio para el examen y no incluyen el tiempo dedicado a tareas, entonces un mayor número de trabajos podría reducir las horas de estudio puro, generando una correlación negativa entre ambas variables. Por el contrario, si las horas reportadas corresponden a horas dedicadas a actividades academicas en general, entonces estaria correlacionado de manera positiva, ya que seria aumentar mas tiempo.
En cuanto a la dirección del sesgo, esta dependerá del signo del efecto del número de trabajos sobre la calificación y del signo de su correlación con las horas de estudio. Si los trabajos tienen un efecto positivo sobre la calificación y están negativamente correlacionados con las horas de estudio, entonces el sesgo en el coeficiente estimado de horas de estudio sería negativo. Es decir, el efecto de estudiar podría estar subestimado. El efecto estaria sobreestimado si la correlacion con las horas de estudio y el efecto sobre la calificacion son o ambas positivas o ambas negativas.
Por lo tanto, la omisión de esta variable podría sesgar la estimación del efecto de las horas de estudio sobre la calificación, y la dirección exacta del sesgo dependerá del mecanismo dominante entre el efecto de práctica y el efecto de sustitución de tiempo.
Se utilizaron modelos de inteligencia artificial (como ChatGPT y Claude) como herramientas de apoyo para la redacción y mejora de texto, la corrección y revisión de código, así como para la consulta de conceptos teóricos básicos relacionados con R y con los modelos econométricos empleados en el análisis.