Un investigador realiza un experimento controlado aleatorizado (RCT) para verificar la efectividad de un nuevo tratamiento. Divide a sus voluntarios en dos grupos: tratamiento (T) y control (C). Al grupo T les da el tratamiento y al grupo C un placebo. Para ver la diferencia entre ambos grupos, propone el siguiente modelo econométrico:
\[Y_i = \beta_0 + \beta_1T_i + u_i\] donde Y es la variable que mide el resultado del tratamiento y T es una variable dummy que indica si el voluntario i está en el grupo de tratamiento o de control:
\[T_i = \left\{ \begin{matrix} 1 & si\ voluntario\ i\ está\ en\ grupo\ T \\ 0 & si\ voluntario\ i\ está\ en\ grupo\ C \end{matrix} \right.\]
Demuestre que el coeficiente pendiente de la regresión, \(\hat \beta_1\), es igual a la diferencia entre los resultados medios de ambos grupos:
\[\hat \beta_1 = \bar y_T - \bar y_C\]
donde \(\bar y_T\) es el promedio de los \(y_i\) del grupo T y \(\bar y_C\) es el promedio de los \(y_i\) del grupo C.
Para simplificar, sea n la cantidad total de voluntarios, y sea p la proporción de voluntarios en el grupo T. Entonces el grupo T tiene np voluntarios y el grupo C n(1-p) voluntarios.
Por definición de \(\hat \beta_1\):
\[\hat \beta_1 = \frac{cov(Y,T)}{var(T)}\]
donde cov() y var() son la covariaza y varianza *muestral” respectivamente.
\[\therefore \hat \beta_1 = \frac{\sum_{i=1}^n(t_i-\bar t)(y_i-\bar y)}{\sum_{i=1}^n(t_i-\bar t)^2}\] Y la definición de \(\bar t\) es:
\[\bar t := \frac{1}{n} \sum_{i=1}^nt_i\]
La sumatoria se divide en la parte en que \(t_i=1\) y la parte en que \(t_i=0\):
\[\bar t := \frac{1}{n} \sum_{i=1}^nt_i = \frac{1}{n} \left[ \sum_{i=1}^{np}1 + \sum_{i=1}^{n(1-p)}0 \right] = \frac{np}{n} = p\]
\[\therefore \hat \beta_1 = \frac{\sum_{i=1}^n(t_i-p)(y_i-\bar y)}{\sum_{i=1}^n(t_i-p)^2}\] Nuevamente, cada sumatoria se divide en la parte en que \(t_i=1\) y la parte en que \(t_i=0\):
\[\hat \beta_1 = \frac{\sum_{i=1}^{np}(1-p)(y_i-\bar y) + \sum_{i=1}^{n(1-p)}(0-p)(y_i-\bar y)}{\sum_{i=1}^{np}(1-p)^2 + \sum_{i=1}^{n(1-p)}(0-p)^2}\] \[\therefore \hat \beta_1 = \frac{(1-p)\sum_{i=1}^{np}y_i - (1-p)\sum_{i=1}^{np}\bar y - p\sum_{i=1}^{n(1-p)}y_i + p\sum_{i=1}^{n(1-p)}\bar y}{\sum_{i=1}^{np}(1-p)^2 + \sum_{i=1}^{n(1-p)}(0-p)^2}\] \[\therefore \hat \beta_1 = \frac{np(1-p) \bar y_T - np(1-p)\bar y - np(1-p)\bar y_C + np(1-p)\bar y}{np(1-p)^2 + n(1-p)p^2}\] \[\therefore \hat \beta_1 = \frac{np(1-p) \bar y_T - np(1-p)\bar y_C }{np(1-p)[(1-p) + p]}\] \[\therefore \hat \beta_1 = \frac{np(1-p) \bar y_T - np(1-p)\bar y_C }{np(1-p)}\] \[\therefore \hat \beta_1 = \bar y_T - \bar y_C\] \[Q.E.D.\]
Descargue del aula virtual el archivo de datos con su nombre. Esta pregunta tiene que ser realizada con el conjunto de datos de su nombre. Si lo hace con el de otro estudiante, tendrá la nota mínima. El archivo consiste en un conjunto de terrenos agrícolas, con tres variables: Precio (UF) Hectáreas Lluvia (mm/año) Latitud (grados de latitud sur) Realice una regresión y encuentre el mejor modelo, esto es, incluya todas las variables que deben estar en el modelo y excluya las que no.
2.1 Escriba la especificación (la ecuación) del modelo que eligió.
2.2 Explique por qué eligió este modelo. ¿Por qué incluyó estas variables y por qué excluyó otras?
2.3 Con su modelo, prediga el precio de un terreno de 10.000 hectáreas, con lluvia 500 mm y latitud 40°.
Para esta retroalimentación, se usa el archivo de datos del último estudiante de la lista.
2.1
Primero se realiza una regresión con todas las variables:
path.data = "../Evaluaciones/E2/Datos/"
file.student = "VÍCTOR ALFONSO CARIÑE CASTRO.csv"
df_data = read.table(paste0(path.data, file.student), header = T, sep = "|")
mod1 = lm(data = df_data, formula = Precio ~ Hectareas + Lluvia + Latitud)
summary(mod1)
##
## Call:
## lm(formula = Precio ~ Hectareas + Lluvia + Latitud, data = df_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14473.2 -3248.1 -183.3 3279.0 19972.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -809.46621 934.03141 -0.867 0.386
## Hectareas 1.55431 0.05599 27.760 < 2e-16 ***
## Lluvia 2.80216 0.58123 4.821 1.65e-06 ***
## Latitud 20.62081 22.20692 0.929 0.353
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5047 on 996 degrees of freedom
## Multiple R-squared: 0.4407, Adjusted R-squared: 0.439
## F-statistic: 261.6 on 3 and 996 DF, p-value: < 2.2e-16
Se observa que la variable Longitud no es significativa, pues su valor p es muy alto (0.868). Por lo tanto, esta variable no pertenece al modelo, y entonces la ecuación del modelo es:
\[Precio = \beta_0 + \beta_1Hectareas +
\beta_2Lluvia + u\] 2.2
Se observa que la variable Longitud no es significativa, pues
su valor p es muy alto (0.868). Por lo tanto, la variable
Latitud no pertenece al modelo. En cambio, las variables
Hectareas y Lluvia son altamente significativas pues
sus valores p son muy pequeños (menor que 0.001), y por ende, estas dos
variables sí pertenecen al modelo.
Para verificar, ahora hay que hacer una regresión con el modelo especificado:
path.data = "../Evaluaciones/E2/Datos/"
file.student = "VÍCTOR ALFONSO CARIÑE CASTRO.csv"
df_data = read.table(paste0(path.data, file.student), header = T, sep = "|")
mod2 = lm(data = df_data, formula = Precio ~ Hectareas + Lluvia)
summary(mod2)
##
## Call:
## lm(formula = Precio ~ Hectareas + Lluvia, data = df_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14722.1 -3223.9 -177.1 3272.0 19713.2
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -46.36446 443.88643 -0.104 0.917
## Hectareas 1.55435 0.05599 27.763 < 2e-16 ***
## Lluvia 2.81790 0.58094 4.851 1.43e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5046 on 997 degrees of freedom
## Multiple R-squared: 0.4403, Adjusted R-squared: 0.4391
## F-statistic: 392.1 on 2 and 997 DF, p-value: < 2.2e-16
Se observa que la estadística F es mucho más grande en el modelo sin Latitud, lo cual es evidencia adicional a favor de este modelo.
2.3
Con nuestro modelo escogido, podemos predecir el precio de un terreno usando sus características de hectáreas y lluvia, pero no su latitud porque nuestro análisis econométrico ha demostrado que la latitud es irrelevante para el precio.
Su usa el siguiente código R:
df = data.frame(Hectareas = 10000, Lluvia = 500, Latitud = 40)
predict.lm(mod1, newdata = df)
## 1
## 16959.52
df = data.frame(Hectareas = 10000, Lluvia = 500)
predict.lm(mod2, newdata = df)
## 1
## 16906.11
El modelo predice que un terreno agrícola de 10.000 hectáreas y con 500 mm de lluvia al año, tiene un precio comercial de 29.101 UF.
\[...\]