Poblacion y muestra

Pregunta 1

La población de interés del estudio está conformada por los estudiantes universitarios que asisten a instituciones públicas en el estado de Texas. En consecuencia, los resultados del análisis no pueden generalizarse a una población más amplia, ya que el desempeño académico y los hábitos de estudio pueden variar significativamente según el nivel educativo, el estado y el tipo de institución (pública o privada). Por esta razón, no es válido extrapolar los resultados a todos los estudiantes de Texas ni, mucho menos, al conjunto de estudiantes de Estados Unidos. La inferencia es válida únicamente para esta población específica, y solo en la medida en que el método de muestreo utilizado haya sido adecuado para garantizar representatividad, es decir, que haya sido probabilístico y con un tamaño de muestra suficientemente grande.

Pregunta 2

Tomando en cuenta el objetivo principal de la investigación, lo que le interesa principalmente al gobierno de Texas es el parámetro que mide cómo cambia la calificación de los estudiantes ante una hora de estudio adicional, esto ya considerando otros factores adicionales concernientes al tipo de hábitos y estilo de vida.

Pregunta 3

3.a Para aproximar la garantía del supuesto de independencia entre observaciones, el esquema más adecuado sería el muestreo aleatorio geoespacial. Esto se debe a que la selección de las unidades muestrales es la más aleatoria entre las opciones consideradas. El esquema de snowball sampling no es probabilístico y, además, el proceso de referenciar a otros estudiantes induce dependencia directa entre las observaciones. Por su parte, aunque el muestreo por clusters selecciona aleatoriamente las escuelas, al analizar el desempeño a nivel individual es probable que exista dependencia entre estudiantes de una misma institución, debido a factores compartidos como la cultura académica, el nivel de exigencia, las políticas escolares o las actividades extracurriculares. En comparación, el muestreo geoespacial reduce la probabilidad de correlación no observada entre individuos, haciendo más defendible el supuesto de independencia.

3.b Si el método de análisis es OLS, el esquema más adecuado es el muestreo por clusters. Aunque el muestreo geoespacial se aproxima más al supuesto de independencia entre observaciones, puede generar una pérdida de eficiencia al incluir hogares sin estudiantes, reduciendo el tamaño efectivo de la muestra de interés. Además, factores geográficos o socioeconómicos pueden hacer que ciertas zonas concentren más estudiantes que otras, afectando la representatividad. En el muestreo por clusters, si bien la independencia no se cumple estrictamente entre estudiantes de una misma escuela, este problema puede abordarse de manera estándar mediante el uso de errores estándar robustos agrupados a nivel escuela, lo que permite realizar inferencia válida bajo OLS.

Estadística descriptiva, gráficas y pruebas de hipótesis

Pregunta 4

Estadísticas descriptivas
Statistic N Mean St. Dev. Min Max
exam_score 1,000 69.60 16.89 18.40 100.00
study_hours_per_day 1,000 3.55 1.47 0.00 8.30
sleep_hours 1,000 6.47 1.23 3.20 10.00
attendance_percentage 1,000 84.13 9.40 56.00 100.00
social_media_hours 1,000 2.51 1.17 0.00 7.20
gender_mujer 1,000 0.48 0.50 0 1
gender_hombre 1,000 0.48 0.50 0 1
gender_other 1,000 0.04 0.20 0 1
exercise_frequency 1,000 3.04 2.03 0 6
mental_health_rating 1,000 5.44 2.85 1 10

Pregunta 5

Pregunta 6

En la gráfica se aprecia una relacion positiva entre las horas de estudioy las calificaciones del examen. Los valores se concentran principalmente en un rango de estudio menor a seis horas, donde se observa una mayor dispersión en las calificaciones. A partir de una calificación de 100, la relación deja de aumentar y se mantiene constante, lo cual corresponde al puntaje máximo permitido. Asimismo, se observa que los estudiantes que reportan más de seis horas de estudio presentan calificaciones elevadas, sin registrarse valores inferiores a 75 en ese grupo.

Kernel

Pregunta 7

## `geom_smooth()` using formula = 'y ~ x'

Pregunta 8

## `geom_smooth()` using formula = 'y ~ x'

Pregunta 9

NW

LL

Pregunta 10

NW

LL

## Warning: Removed 15 rows containing missing values or values outside the scale range
## (`geom_line()`).

PREGUNTA 11

R² por Kernel y Bandwidth (Nadaraya-Watson)
Kernel h_0.1 h_0.4 h_1.0 OLS_R2
uniform 0.6943 0.6856 0.6747
triangular_manual 0.7065 0.6912 0.6842
gaussian 0.6946 0.6845 0.6194
OLS 0.6813
R² por Kernel y Bandwidth (Local Linear)
Kernel h_0.1 h_0.4 h_1.0 OLS_R2
uniform 0.7026 0.6873 0.6859
triangular_manual 0.6629 0.6854 0.6858
gaussian 0.6948 0.6878 0.6856
OLS 0.6813

¿Podría ser válido emplear esta tabla para elegir la “mejor” estimación kernel?

Sí puede ser un insumo, pero no es suficiente (ni lo más válido) para elegir “el mejor” kernel. El \(R^2\) mide ajuste dentro de la muestra, y en regresión kernel el ajuste depende fuertemente del bandwidth (h): al cambiar \(h\), cambia el sesgo–varianza y puedes “ganar” \(R^2\) por sobreajuste sin mejorar capacidad predictiva. Además, las diferencias entre kernels suelen ser pequeñas frente al efecto de (h); por eso, seleccionar kernel por \(R^2\) puede terminar eligiendo ruido o una combinación kernel–bandwidth circunstancial.

Regresión, interpretación de coeficientes y análisis del impacto

Pregunta 12

En la especificacion 5, se transformaron las horas de estudio y las horas en redes sociales en logaritmos porque se espera que su efecto sobre la calificación sea no lineal, con posibles rendimientos decrecientes a medida que aumentan las horas dedicadas a cada actividad. Además, al utilizar una especificación log–log, los coeficientes pueden interpretarse como elasticidades, lo que permite analizar cambios porcentuales en la calificación ante variaciones proporcionales en estas variables.

Estimaciones de MCO
Dependent variable:
exam_score Z_score log(exam_score)
(1) (2) (3) (4) (5)
log(Horas de estudio por día + 1) 0.573***
(0.012)
Horas de estudio por día 9.511*** 9.512*** 9.478*** 0.561***
(0.193) (0.193) (0.221) (0.013)
log(Horas en redes sociales + 1) -0.127***
(0.012)
Horas en redes sociales -2.688*** -2.689*** -2.759*** -0.163***
(0.241) (0.242) (0.277) (0.016)
Asistencia (%) 0.136*** 0.135*** 0.121*** 0.007*** 0.002***
(0.030) (0.030) (0.035) (0.002) (0.001)
Edad -0.087 0.075 0.004 -0.002
(0.123) (0.143) (0.008) (0.002)
Mujer -0.250 -0.015 -0.003
(0.657) (0.039) (0.009)
Horas de sueño 2.097*** 0.124***
(0.275) (0.016)
Educación parental: High School (vs None) 1.004 0.059
(0.979) (0.058)
Educación parental: Master (vs None) -0.718 -0.043
(1.097) (0.065)
Constant 31.133*** 32.971*** 16.894*** -3.121*** 3.385***
(2.666) (3.711) (4.734) (0.280) (0.065)
Observations 1,000 1,000 650 650 1,000
R2 0.721 0.721 0.753 0.753 0.690
Adjusted R2 0.720 0.720 0.750 0.750 0.688
Residual Std. Error 8.939 (df = 996) 8.941 (df = 995) 8.338 (df = 641) 0.494 (df = 641) 0.150 (df = 994)
F Statistic 856.703*** (df = 3; 996) 642.336*** (df = 4; 995) 244.239*** (df = 8; 641) 244.239*** (df = 8; 641) 441.511*** (df = 5; 994)
Note: Asteriscos indican significancia estadística al 10 %, 5 % y 1 %. Errores heterocedásticos entre paréntesis bajo los coeficientes.

Pregunta 13

a. study_hours_per_day (especificación 1)

El estimador obtenido es de 9.511 puntos en la calificación del examen. Esto se interpreta como que, al aumentar una hora adicional de estudio por día, y manteniendo constantes las horas dedicadas a redes sociales y el porcentaje de asistencia a clases, la calificación promedio del estudiante aumenta en aproximadamente 9.51 puntos.

b. attendance_percentage (especificación 4)

Dado que en esta especificación la variable dependiente se encuentra estandarizada (Z-score), el coeficiente estimado de 0.008 indica que un aumento de un punto porcentual en la asistencia a clases se asocia con un incremento de 0.008 desviaciones estándar en la calificación del examen, manteniendo constantes las demás variables.

c. Intercepto (especificación 2)

El intercepto estimado de 32.97 representa la calificación esperada de un estudiante cuando las variables explicativas incluidas en el modelo (edad, asistencia y horas en redes sociales) toman el valor de cero. Si bien este valor no tiene una interpretación económica directa, sirve como punto de referencia para la estimación de los efectos marginales de las variables explicativas.

d. social_media_hours (especificación 3)

El coeficiente estimado sugiere que, manteniendo constantes las horas de sueño, la educación parental, la edad, el porcentaje de asistencia y las horas de estudio, un aumento de una hora diaria en el uso de redes sociales se asocia, en promedio, con una disminución de aproximadamente 2.76 puntos en la calificación del examen.

e. study_hours_per_day (especificación 4)

En esta especificación, donde la variable dependiente está estandarizada, el coeficiente estimado de 0.561 indica que una hora adicional de estudio por día se asocia con un aumento de 0.561 desviaciones estándar en la calificación promedio del examen, manteniendo constantes las demás covariables.

f. attendance_percentage (especificación 5)

Dado que la variable dependiente se encuentra en logaritmos, el coeficiente estimado de 0.002 implica que un aumento de un punto porcentual en la asistencia a clases se asocia con un incremento aproximado de 0.2% en la calificación del examen, manteniendo constantes las demás variables del modelo.

g. female (especificación 5)

El coeficiente asociado a la variable dicotómica female indica que, manteniendo constantes las demás covariables, ser mujer se asocia con una calificación aproximadamente 0.7% menor en comparación con los hombres, categoría de referencia del modelo.

h. sleep_hours (especificación 3)

El estimador obtenido sugiere que, manteniendo constantes las demás variables explicativas, una hora adicional de sueño por día se asocia con un aumento promedio de aproximadamente 2.10 puntos en la calificación del examen.

Pregunta 14

En la especificación (4), el impacto de la asistencia es marginal. Un incremento de una unidad en la asistencia se traduce en apenas \(0.007\) desviaciones estándar en el puntaje, lo que sugiere que esta variable tiene un valor contributivo prácticamente nulo sobre el desempeño relativo una vez controladas las demás variables.

Para la variable sleep_hours n la especificación (3), se observa un efecto positivo y moderado. Dormir una hora adicional se asocia con un aumento de \(2.097\) puntos en la calificación. No obstante, al poner este valor en perspectiva, representa solo un \(3\%\) respecto a la media (0.030) y 0.124 desviaciones estándar de la muestra, lo que indica un beneficio real pero acotado.

Pregunta 15

Para evaluar el impacto de la escolaridad parental, se realizó una prueba F de significancia parcial bajo la hipótesis nula de que los coeficientes asociados (High School y Master) son conjuntamente iguales a cero. El resultado (\(p = 0.0732\)) indica que esta variable es significativa únicamente al nivel del 10%, fallando en alcanzar el umbral estándar del 5%. Esto sugiere que la evidencia estadística para considerar el nivel educativo de los padres como un determinante clave es débil en presencia de los otros controles.

[1] 650 [1] 1000 [1] 650

Tabla: Análisis de Varianza (ANOVA)
Res.Df RSS Df Sum of Sq F Pr(> F)
1 643 44,929.2900
2 641 44,564.2600 2 365.0296 2.6252 0.0732
El Modelo 1 es el modelo restringido; el Modelo 2 incluye la escolaridad parental.

Pregunta 16

Se estimó un modelo con interacción entre horas de estudio y género para evaluar (i) si el retorno a estudiar presenta heterogeneidad por género y (ii) si existe un efecto independiente de ser mujer sobre el desempeño. En particular, se incluyó el término study_hours_per_day × gender_mujer, de modo que el efecto marginal de una hora adicional de estudio para hombres es \(\hat\beta_1\) y para mujeres es \(\hat\beta_1+\hat\beta_3\). La estimación (columna nueva en la Tabla 2) arroja un coeficiente de interacción \(\hat\beta_3=-0.332\) con \(p\)-value = 0.370, por lo que no se rechaza al 10% la hipótesis nula \(H_0:\beta_3=0\); es decir, no hay evidencia estadística de que el efecto de estudiar difiera entre hombres y mujeres. Con base en esta estimación, un incremento de 1.5 horas de estudio se asocia con un aumento de 14.61 puntos para hombres (IC 90%: [13.98, 15.25]) y de 14.11 puntos para mujeres (IC 90%: [13.48, 14.75]). La diferencia en el cambio (mujeres − hombres) ante +1.5 horas es −0.50 puntos, y dado el \(p\)-value del término de interacción, dicha diferencia no es significativa al 10%. En conjunto, los resultados sugieren que el desempeño aumenta de manera importante con más horas de estudio, pero sin evidencia de heterogeneidad por género en ese retorno dentro de esta especificación.

Estimaciones de MCO
Dependent variable:
exam_score Z_score log(exam_score)
(1) (2) (3) (4) (5) (6)
log(Horas de estudio por día + 1) 0.573***
(0.012)
Horas de estudio por día 9.511*** 9.512*** 9.478*** 9.565*** 0.561***
(0.193) (0.193) (0.221) (0.298) (0.013)
log(Horas en redes sociales + 1) -0.192
(0.444)
Horas en redes sociales -0.127***
(0.012)
Asistencia (%) -2.688*** -2.689*** -2.759*** -2.763*** -0.163***
(0.241) (0.242) (0.277) (0.278) (0.016)
Edad 0.136*** 0.135*** 0.121*** 0.121*** 0.007*** 0.002***
(0.030) (0.030) (0.035) (0.035) (0.002) (0.001)
Mujer -0.087 0.075 0.072 0.004 -0.002
(0.123) (0.143) (0.143) (0.008) (0.002)
Horas de sueño -0.250 0.438 -0.015 -0.003
(0.657) (1.722) (0.039) (0.009)
Educación parental: High School (vs None) 2.097*** 2.090*** 0.124***
(0.275) (0.276) (0.016)
Educación parental: Master (vs None) 1.004 1.027 0.059
(0.979) (0.981) (0.058)
parental_education_levelMaster -0.718 -0.700 -0.043
(1.097) (1.099) (0.065)
Observations 1,000 1,000 650 650 650 1,000
R2 0.721 0.721 0.753 0.753 0.753 0.690
Adjusted R2 0.720 0.720 0.750 0.750 0.750 0.688
Residual Std. Error 8.939 (df = 996) 8.941 (df = 995) 8.338 (df = 641) 8.343 (df = 640) 0.494 (df = 641) 0.150 (df = 994)
F Statistic 856.703*** (df = 3; 996) 642.336*** (df = 4; 995) 244.239*** (df = 8; 641) 216.846*** (df = 9; 640) 244.239*** (df = 8; 641) 441.511*** (df = 5; 994)
Note: Asteriscos indican significancia estadística al 10 %, 5 % y 1 %. Errores heterocedásticos entre paréntesis bajo los coeficientes.
##     Grupo Efecto_1_5_horas IC90_inf IC90_sup
## 1 Hombres         14.34754  13.6075 15.08757
## 2 Mujeres         14.05920  13.2806 14.83780
##                               Coeficiente   Estimate Std_Error    t_value
## Estimate study_hours_per_day:gender_mujer -0.1922248 0.4442116 -0.4327325
##            p_value
## Estimate 0.6653549

Pregunta 17

## coef_m3.study_hours_per_day         coef_partial_out.rx 
##                    9.478152                    9.478152

Pregunta 18

Comparación: OLS (robusto vs homocedástico) vs FGLS
Dependent variable:
exam_score
OLS (SE robustos HC1) OLS (SE homoced.) FGLS
(1) (2) (3)
study_hours_per_day 9.478*** 9.478*** 9.499***
(0.216) (0.221) (0.218)
social_media_hours -2.759*** -2.759*** -2.787***
(0.265) (0.277) (0.275)
attendance_percentage 0.121*** 0.121*** 0.120***
(0.035) (0.035) (0.035)
age 0.075 0.075 0.075
(0.145) (0.143) (0.141)
gender_mujer -0.250 -0.250 -0.195
(0.655) (0.657) (0.648)
sleep_hours 2.097*** 2.097*** 2.097***
(0.273) (0.275) (0.272)
parental_education_levelHigh School 1.004 1.004 1.098
(0.901) (0.979) (0.898)
parental_education_levelMaster -0.718 -0.718 -0.635
(1.015) (1.097) (1.025)
Constant 16.894*** 16.894*** 16.829***
(4.876) (4.734) (4.661)
Observations 650 650 650
R2 0.753 0.753 0.758
Adjusted R2 0.750 0.750 0.755
Note: p<0.1; p<0.05; p<0.01

En la estimación por FGLS, el coeficiente asociado a study_hours_per_day, denotado como \(\hat{\beta}_{\text{study}}\), se interpreta de la misma manera que en el modelo OLS en términos económicos.

Específicamente, manteniendo constantes las horas en redes sociales, el porcentaje de asistencia, la edad, el género, las horas de sueño y la escolaridad parental, una hora adicional de estudio por día se asocia con un cambio promedio de \(\hat{\beta}_{\text{study}}\) puntos en la calificación (exam_score).

La diferencia entre OLS y FGLS no radica en la interpretación del coeficiente, sino en el procedimiento de estimación. En FGLS se permite que la varianza del error no sea constante, modelando explícitamente la heterocedasticidad. Posteriormente, se ponderan las observaciones asignando mayor peso a aquellas con menor varianza estimada del error (es decir, observaciones más precisas) y menor peso a las observaciones más ruidosas.

Si el modelo de varianza está correctamente especificado, FGLS produce estimadores más eficientes que OLS.

Para decidir cual error estandar es mas aedcuado, hay que evaluar si el supuesto de se cumple y qué muestran tus diagnósticos gráficos y pruebas formales

## 
##  studentized Breusch-Pagan test
## 
## data:  m3_ols
## BP = 15.924, df = 8, p-value = 0.04348

Dado que la prueba de Breusch–Pagan arroja un p-value de 0.02, se rechaza la hipótesis nula de homocedasticidad a un nivel de significancia del 5%. Esto implica que los errores estándar homocedásticos de OLS no son apropiados para inferencia. Por lo tanto, es más adecuado utilizar errores estándar robustos a heterocedasticidad (HC1), que permanecen válidos bajo heterocedasticidad de forma desconocida. Aunque FGLS puede mejorar eficiencia si la estructura de varianza está correctamente modelada, su validez depende de la especificación del modelo de ponderación; por ello, para una inferencia conservadora y robusta, se prefieren los errores estándar HC1.

Pregunta 19

##        1 
## 92.33965

##        1 
## 92.33965
##     2.5%    96.5% 
## 91.06827 93.58705

Pregunta 20

Es posible que el número de trabajos asignados constituya una variable omitida relevante en la estimación. Esto se debe a que cumple las dos condiciones necesarias para generar sesgo por omisión: (i) puede afectar directamente la calificación del examen y (ii) probablemente esté correlacionado con las horas de estudio reportadas.

En primer lugar, el número de trabajos podría influir en la calificación del examen porque realizar más tareas incrementa la práctica y el dominio del contenido, lo cual sugiere un efecto positivo sobre el desempeño académico. Sin embargo, también podría generar un efecto indirecto negativo si el tiempo dedicado a las tareas desplaza tiempo que de otro modo se habría destinado al estudio específico para el examen.

En segundo lugar, es razonable suponer que el número de trabajos está correlacionado con las horas de estudio. Si las horas reportadas corresponden únicamente al estudio para el examen y no incluyen el tiempo dedicado a tareas, entonces un mayor número de trabajos podría reducir las horas de estudio puro, generando una correlación negativa entre ambas variables. Por el contrario, si las horas reportadas corresponden a horas dedicadas a actividades academicas en general, entonces estaria correlacionado de manera positiva, ya que seria aumentar mas tiempo.

En cuanto a la dirección del sesgo, esta dependerá del signo del efecto del número de trabajos sobre la calificación y del signo de su correlación con las horas de estudio. Si los trabajos tienen un efecto positivo sobre la calificación y están negativamente correlacionados con las horas de estudio, entonces el sesgo en el coeficiente estimado de horas de estudio sería negativo. Es decir, el efecto de estudiar podría estar subestimado. El efecto estaria sobreestimado si la correlacion con las horas de estudio y el efecto sobre la calificacion son o ambas positivas o ambas negativas.

Por lo tanto, la omisión de esta variable podría sesgar la estimación del efecto de las horas de estudio sobre la calificación, y la dirección exacta del sesgo dependerá del mecanismo dominante entre el efecto de práctica y el efecto de sustitución de tiempo.

Declaracion de IA

Se utilizaron modelos de inteligencia artificial (como ChatGPT y Claude) como herramientas de apoyo para la redacción y mejora de texto, la corrección y revisión de código, así como para la consulta de conceptos teóricos básicos relacionados con R y con los modelos econométricos empleados en el análisis.