Rúbrica de Evaluación

Pregunta 1: 16 puntos
Pregunta 2: 16 puntos
Items i - viii: 2 puntos cada item Script R: Se descuentan 4 puntos por no entregar el script R

Para una pregunta de desarrollo se usa el siguiente criterio:
* Todo correcto: 100%
* Casi correcto con errores menores: 75%
* Parcialmente correcto: 50%
* Incorrecto pero se intentó: 25%
* Sin responder: 0%

Pregunta 1 (16 puntos)

Sea un modelo de regresión lineal de una variable explicativa: \[y_i = \beta_0 + \beta_1x_i + u_i…(1)\] donde \(u_i\) es el término de error de la observación i. Demuestre que la varianza del coeficiente pendiente, \(\hat{\beta}_1\), está dada por:

\[var(\hat{\beta}_1) = \frac{\sigma^2_u}{\sum_{i=1}^n(x_i-\bar{x})^2}...(2)\]

Sugerencia: Use la descomposición del coeficiente \(\hat{\beta}_1\) en sus componentes determinista y estocástica:

\[\hat{\beta}_1 = \beta_1 + \frac{\sum_{i=1}^n(x_i-\bar{x})(u_i-\bar{u})}{\sum_{i=1}^n(x_i-\bar{x})^2}...(3)\]

y los supuestos Gauss-Markov.

Solución

Usar la ecuación (3), y simplificar el numerador:

\[\sum_{i=1}^n(x_i-\bar{x})(u_i-\bar{u}) = \sum_{i=1}^n[(x_i-\bar{x})u_i - (x_i-\bar{x}) \bar{u}]\] \[= \sum_{i=1}^n(x_i-\bar{x})u_i - \sum_{i=1}^n(x_i-\bar{x}) \bar{u}\] \[= \sum_{i=1}^n(x_i-\bar{x})u_i - \bar{u}\sum_{i=1}^n(x_i-\bar{x})\] \[= \sum_{i=1}^n(x_i-\bar{x})u_i - \bar{u}(n\bar{x}-n\bar{x})\] \[\therefore \sum_{i=1}^n(x_i-\bar{x})(u_i-\bar{u}) = \sum_{i=1}^n(x_i-\bar{x})u_i\] Sustituir en (3):

\[\hat{\beta}_1 = \beta_1 + \frac{\sum_{i=1}^n(x_i-\bar{x})u_i}{\sum_{i=1}^n(x_i-\bar{x})^2}...(4)\] Asumimos que necesitamos la varianza de \(\hat{\beta}_1\) condicional en una muestra de X: \({x_1, x_2, ..., x_n}\). Entonces podemos tratar a los \(x_i\) como constantes al tomar la varianza de la ecuación (4):

\[var(\hat{\beta}_1) = \frac{1}{\left[\sum_{i=1}^n(x_i-\bar{x})^2\right]^2} var \left(\sum_{i=1}^n(x_i-\bar{x})u_i \right)\] Ocupar la fórmula:

\[var(X+Y) = var(X) + var(Y) + 2cov(X,Y)\] Y su corolario: \[var \left( \sum_{i=1}^nx_i \right) = \sum_{n=1}^nvar(x_i) + 2\sum_{i \ne j}cov(x_i, x_j)\]

\[var(\hat{\beta}_1) = \frac{\sum_{i=1}^n(x_i-\bar{x})^2var(u_i) + 2\sum_{i \ne j}cov(x_i-\bar{x}, u_j)}{\left[\sum_{i=1}^n(x_i-\bar{x})^2\right]^2}\] Pero \(cov(x_i-\bar{x}, u_j) = 0\) para \(x_i\) dados.
Además, usamos el supuesto (5) Gauss-Markov de homoscedasticidad:

\[var(u_i) = \sigma_u^2 \ \forall i\] \[\therefore var(\hat{\beta}_1) = \frac{\sigma_u^2\sum_{i=1}^n(x_i-\bar{x})^2 }{\left[\sum_{i=1}^n(x_i-\bar{x})^2\right]^2}\] \[\therefore var(\hat{\beta}_1) = \frac{\sigma_u^2 }{\sum_{i=1}^n(x_i-\bar{x})^2}\] \[Q.E.D.\]

Pregunta 2 (16 puntos)

Use el archivo Encuesta Casen.csv en la carpeta Datos del aula virtual. Va a estudiar la relación entre los ingresos y el nivel educacional de las personas. Las variables en el archivo de datos son:

Ingreso – Ingreso medido en CLP$ mensuales.
Educacion – Nivel educacional en una escala de 1-15.

El nivel de educación no está medido en años como en la encuesta de EEUU del curso, sino que es una escala definida por el Ministerio de Educación, que va desde el mínimo nivel (“Nunca asistió”) hasta el máximo (“Doctorado”). En general, cada número representa un nivel educacional de menor a mayor nivel en la trayectoria educativa de una persona, y por ende se puede usar como una variable numérica y no categórica. (Distinto sería si el código de educación no guardara relación con la progresión de niveles en una trayectoria educativa).

La tabla a continuación indica el significado de los niveles de educación:

Educación
01. Nunca asistió
02. Sala cuna
03. Jardín Infantil (Medio menor y Medio mayor)
04. Prekínder / Kínder (Transición menor y Transición Mayor)
05. Educación Especial (Diferencial)
06. Primaria o Preparatoria (Sistema antiguo)
07. Educación Básica
08. Humanidades (Sistema Antiguo)
09. Educación Media Científico-Humanista
10. Técnica, Comercial, Industrial o Normalista (Sistema Antiguo)
11. Educación Media Técnica Profesional
12. Técnico Nivel Superior (Carreras 1 a 3 años)
13. Profesional (Carreras 4 o más años)
14. Magíster o maestría
15. Doctorado

  1. Genere un gráfico de dispersión de Ingreso versus Educacion (Ingreso en el eje-y y Educacion en el eje-x). Incluya una recta del modelo ajustado en el gráfico. Pegue su gráfico en su documento Word de la tarea.

  2. ¿Se nota una relación entre nivel de educación e ingresos?

  3. Usando R, realice una regresión lineal de Ingreso como variable dependiente y Educacion como variable explicativa, y pegue los resultados de la regresión en su documento Word.

  4. ¿Cuál es el valor del coeficiente de Educacion? ¿Cuál es su interpretación?

  5. ¿Cuál es el intervalo de confianza del coeficiente de Educacion? ¿Cuál es su interpretación?

  6. ¿Cuál es el valor p del coeficiente de Educacion? ¿Cuál es su interpretación?

  7. ¿Cuál es el coeficiente de determinación, R^2, del modelo? ¿Cuál es su interpretación?

  8. ¿El modelo de regresión es útil? Argumente su respuesta.

Solución

Primero hay que abrir el archivo de datos Encuesta Casen.csv con el Notepad++ para identificar el caracter separador de columnas. Al hacerlo, se ve que el delimitador es la pipa (“|”). Hay que informar este caracter en el parámetro sep del comando read.table.

El script R para realizar todas las acciones requeridas de la pregunta 2 es el siguiente:

# Paquetes
library(ggplot2)

# Cargar datos
df_datos = read.table("Encuesta Casen.csv", header = T, sep = "|")

# Gráfico de dispersión
ggplot(data = df_datos, mapping = aes(y=Ingreso, x=Educacion)) + 
  geom_point() +
  geom_smooth(method = "lm")
# Regresión
mod.lm = lm(data = df_datos, formula = Ingreso ~ Educacion)
summary(mod.lm)
confint(mod.lm)

i. Gráfico de dispersión: Ingreso vs Educación

#### ii.

Aunque se observa una gran dispersión del ingreso, el valor promedio del ingreso aumenta con el nivel de educación.

iii. Resultados de la regresión lineal

## 
## Call:
## lm(formula = Ingreso ~ Educacion, data = df_datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1137305  -306315   -90864   124588 14078234 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -478666      36985  -12.94   <2e-16 ***
## Educacion     107726       3445   31.27   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 617200 on 6195 degrees of freedom
##   (14026 observations deleted due to missingness)
## Multiple R-squared:  0.1363, Adjusted R-squared:  0.1362 
## F-statistic: 977.7 on 1 and 6195 DF,  p-value: < 2.2e-16

iv.

Se observa en los resultados de la regresión que el valor del coeficiente de Educación es 107726. Su interpretación es que, para cada nivel de educación adicional, el ingreso medio mensual de un residente de Chile aumenta en $107.726.

v.

El intervalo de confianza del coeficiente de educación es [100972, 114479]. Significa que hay un 95% de probabilidad que el valor real de \(\beta_1\) está entre 100972 y 114479.

vi.

El valor p del coeficiente de Educación es \(< 2 \times 10^{-16}\). En términos precisos estadísticos, esto significa que, bajo la hipótesis nula que el verdadero valor de \(\beta_1\) es cero, hay una probabilidad de \(< 2 \times 10^{-16}\) de haber obtenido el valor de 107726 o más para el coeficiente. En términos prácticos, significa que tenemos un alto grado de confianza que \(\beta_1\) no es cero y por ende existe una relación signficativa entre el nivel de educación y los ingresos de una persona.

vii.

El coeficiente de determinación del modelo es: \(R^2 =\) 0.14. Esto significa que el modelo solamente explica el 14% de la varianza del ingreso. Esto es bajo, lo cual implica que el nivel de educación solamente explica una pequeña parte del ingreso de las personas en Chile, y hay otras variables que influyen en forma importante.

viii.

Por cierto, el modelo es útil, a pesar de su bajo valor de \(R^2\). Indica que la educación está relacionada con el ingreso y podría tener un efecto causal importante. Un ingreso promedio adicional de $107.726 por cada nivel adicional de educación es significativo en la calidad de vida de las personas y en el bienestar social.

La relación entre educación e ingreso no implica necesariamente que haya un efecto causal del primero sobre el segundo, pero admite la posibilidad que exista. Más adelante en el curso veremos como obtener evidencia para un efecto causal.

\[-----------------------------------\]