Viernes 03/10/2025

Duración: 80 minutos

Pregunta 1

Un investigador realiza un experimento controlado aleatorizado (RCT) para verificar la efectividad de un nuevo tratamiento. Divide a sus voluntarios en dos grupos: tratamiento (T) y control (C). Al grupo T les da el tratamiento y al grupo C un placebo. Para ver la diferencia entre ambos grupos, propone el siguiente modelo econométrico:

\[Y_i = \beta_0 + \beta_1T_i + u_i\] donde Y es la variable que mide el resultado del tratamiento y T es una variable dummy que indica si el voluntario i está en el grupo de tratamiento o de control:

\[T_i = \left\{ \begin{matrix} 1 & si\ voluntario\ i\ está\ en\ grupo\ T \\ 0 & si\ voluntario\ i\ está\ en\ grupo\ C \end{matrix} \right.\]

Demuestre que el coeficiente pendiente de la regresión, \(\hat \beta_1\), es igual a la diferencia entre los resultados medios de ambos grupos:

\[\hat \beta_1 = \bar y_T - \bar y_C\]

donde \(\bar y_T\) es el promedio de los \(y_i\) del grupo T y \(\bar y_C\) es el promedio de los \(y_i\) del grupo C.

Respuesta

Para simplificar, sea n la cantidad total de voluntarios, y sea p la proporción de voluntarios en el grupo T. Entonces el grupo T tiene np voluntarios y el grupo C n(1-p) voluntarios.

Por definición de \(\hat \beta_1\):

\[\hat \beta_1 = \frac{cov(Y,T)}{var(T)}\]

donde cov() y var() son la covariaza y varianza *muestral” respectivamente.

\[\therefore \hat \beta_1 = \frac{\sum_{i=1}^n(t_i-\bar t)(y_i-\bar y)}{\sum_{i=1}^n(t_i-\bar t)^2}\] Y la definición de \(\bar t\) es:

\[\bar t := \frac{1}{n} \sum_{i=1}^nt_i\]

La sumatoria se divide en la parte en que \(t_i=1\) y la parte en que \(t_i=0\):

\[\bar t := \frac{1}{n} \sum_{i=1}^nt_i = \frac{1}{n} \left[ \sum_{i=1}^{np}1 + \sum_{i=1}^{n(1-p)}0 \right] = \frac{np}{n} = p\]

\[\therefore \hat \beta_1 = \frac{\sum_{i=1}^n(t_i-p)(y_i-\bar y)}{\sum_{i=1}^n(t_i-p)^2}\] Nuevamente, cada sumatoria se divide en la parte en que \(t_i=1\) y la parte en que \(t_i=0\):

\[\hat \beta_1 = \frac{\sum_{i=1}^{np}(1-p)(y_i-\bar y) + \sum_{i=1}^{n(1-p)}(0-p)(y_i-\bar y)}{\sum_{i=1}^{np}(1-p)^2 + \sum_{i=1}^{n(1-p)}(0-p)^2}\] \[\therefore \hat \beta_1 = \frac{(1-p)\sum_{i=1}^{np}y_i - (1-p)\sum_{i=1}^{np}\bar y - p\sum_{i=1}^{n(1-p)}y_i + p\sum_{i=1}^{n(1-p)}\bar y}{\sum_{i=1}^{np}(1-p)^2 + \sum_{i=1}^{n(1-p)}(0-p)^2}\] \[\therefore \hat \beta_1 = \frac{np(1-p) \bar y_T - np(1-p)\bar y - np(1-p)\bar y_C + np(1-p)\bar y}{np(1-p)^2 + n(1-p)p^2}\] \[\therefore \hat \beta_1 = \frac{np(1-p) \bar y_T - np(1-p)\bar y_C }{np(1-p)[(1-p) + p]}\] \[\therefore \hat \beta_1 = \frac{np(1-p) \bar y_T - np(1-p)\bar y_C }{np(1-p)}\] \[\therefore \hat \beta_1 = \bar y_T - \bar y_C\] \[Q.E.D.\]

Pregunta 2

Descargue del aula virtual el archivo de datos con su nombre. Esta pregunta tiene que ser realizada con el conjunto de datos de su nombre. Si lo hace con el de otro estudiante, tendrá la nota mínima. El archivo consiste en un conjunto de terrenos agrícolas, con tres variables: Precio (UF) Hectáreas Lluvia (mm/año) Latitud (grados de latitud sur) Realice una regresión y encuentre el mejor modelo, esto es, incluya todas las variables que deben estar en el modelo y excluya las que no.

2.1 Escriba la especificación (la ecuación) del modelo que eligió.

2.2 Explique por qué eligió este modelo. ¿Por qué incluyó estas variables y por qué excluyó otras?

2.3 Con su modelo, prediga el precio de un terreno de 10.000 hectáreas, con lluvia 500 mm y latitud 40°.

Respuesta

Para esta retroalimentación, se usa el archivo de datos del último estudiante de la lista.

2.1
Primero se realiza una regresión con todas las variables:

path.data = "../Evaluaciones/E2/Datos/"
file.student = "VÍCTOR ALFONSO CARIÑE CASTRO.csv"
df_data = read.table(paste0(path.data, file.student), header = T, sep = "|")
mod1 = lm(data = df_data, formula = Precio ~ Hectareas + Lluvia + Latitud)
summary(mod1)
## 
## Call:
## lm(formula = Precio ~ Hectareas + Lluvia + Latitud, data = df_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -14473.2  -3248.1   -183.3   3279.0  19972.5 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -809.46621  934.03141  -0.867    0.386    
## Hectareas      1.55431    0.05599  27.760  < 2e-16 ***
## Lluvia         2.80216    0.58123   4.821 1.65e-06 ***
## Latitud       20.62081   22.20692   0.929    0.353    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5047 on 996 degrees of freedom
## Multiple R-squared:  0.4407, Adjusted R-squared:  0.439 
## F-statistic: 261.6 on 3 and 996 DF,  p-value: < 2.2e-16

Se observa que la variable Longitud no es significativa, pues su valor p es muy alto (0.868). Por lo tanto, esta variable no pertenece al modelo, y entonces la ecuación del modelo es:

\[Precio = \beta_0 + \beta_1Hectareas + \beta_2Lluvia + u\] 2.2
Se observa que la variable Longitud no es significativa, pues su valor p es muy alto (0.868). Por lo tanto, la variable Latitud no pertenece al modelo. En cambio, las variables Hectareas y Lluvia son altamente significativas pues sus valores p son muy pequeños (menor que 0.001), y por ende, estas dos variables sí pertenecen al modelo.

Para verificar, ahora hay que hacer una regresión con el modelo especificado:

path.data = "../Evaluaciones/E2/Datos/"
file.student = "VÍCTOR ALFONSO CARIÑE CASTRO.csv"
df_data = read.table(paste0(path.data, file.student), header = T, sep = "|")
mod2 = lm(data = df_data, formula = Precio ~ Hectareas + Lluvia)
summary(mod2)
## 
## Call:
## lm(formula = Precio ~ Hectareas + Lluvia, data = df_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -14722.1  -3223.9   -177.1   3272.0  19713.2 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -46.36446  443.88643  -0.104    0.917    
## Hectareas     1.55435    0.05599  27.763  < 2e-16 ***
## Lluvia        2.81790    0.58094   4.851 1.43e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5046 on 997 degrees of freedom
## Multiple R-squared:  0.4403, Adjusted R-squared:  0.4391 
## F-statistic: 392.1 on 2 and 997 DF,  p-value: < 2.2e-16

Se observa que la estadística F es mucho más grande en el modelo sin Latitud, lo cual es evidencia adicional a favor de este modelo.

2.3

Con nuestro modelo escogido, podemos predecir el precio de un terreno usando sus características de hectáreas y lluvia, pero no su latitud porque nuestro análisis econométrico ha demostrado que la latitud es irrelevante para el precio.

Su usa el siguiente código R:

df = data.frame(Hectareas = 10000, Lluvia = 500, Latitud = 40)
predict.lm(mod1, newdata = df)
##        1 
## 16959.52
df = data.frame(Hectareas = 10000, Lluvia = 500)
predict.lm(mod2, newdata = df)
##        1 
## 16906.11

El modelo predice que un terreno agrícola de 10.000 hectáreas y con 500 mm de lluvia al año, tiene un precio comercial de 29.101 UF.

\[...\]