Unidad 3: Estadística inferencial y análisis de problemas públicos

Ruta de la clase

En esta última clase de la unidad trabajaremos el contenido pendiente para completar la evaluación:

regresión lineal simple
interpretación de coeficientes
gráfico de dispersión con línea de tendencia
conclusión final del trabajo.

¿Dónde estamos en la evaluación?

Ya trabajamos:

pregunta inferencial
intervalo de confianza
prueba de hipótesis
p-value
errores tipo I y tipo II.

Hoy veremos las dos partes que faltan:

regresión lineal simple
conclusión final del informe.

¿Qué pide la sección de regresión?

La evaluación pide estimar un modelo sencillo:

[ Y = B_0 + B_1 * X ]

Deben incluir:

qué variable es Y
qué variable es X
por qué tiene sentido analizarlas juntas
los coeficientes B0 y B1
interpretación del signo y magnitud de B1
gráfico de dispersión con línea de tendencia.

¿Qué es una regresión lineal simple?

La regresión lineal simple permite analizar la relación entre dos variables cuantitativas.
Busca responder preguntas como:
- ¿Aumenta el ingreso cuando aumentan los años de escolaridad?
- ¿Aumenta el gasto del hogar cuando aumenta el número de integrantes?
- ¿Cambia una variable social cuando cambia otra variable numérica?
La clave es mirar cómo se comporta una variable Y cuando cambia una variable X.

Variable dependiente e independiente

En una regresión siempre debemos distinguir entre:
Variable dependiente Y: aquello que queremos analizar o explicar.
Variable independiente X: aquello que usamos para observar si existe una relación con Y.
Ejemplo: ¿Aumenta el ingreso a medida que aumentan los años de escolaridad?
Y: ingreso.
X: años de escolaridad.

El modelo de regresión

El modelo se expresa así:

[ Y = B_0 + B_1X ]

Donde:
- B0 es el intercepto
- B1 es la pendiente
- B1 indica cuánto cambia Y cuando X aumenta en una unidad.
En la práctica, el coeficiente más importante para interpretar es B1.

¿Cómo interpretar B0 y B1?

B0 Intercepto: Es el valor esperado de Y cuando X vale 0.
B1 Pendiente: Es el cambio esperado en Y por cada unidad adicional de X.
Ejemplo:

[ Ingreso = 180.000 + 90.500 * Escolaridad ]

Interpretación:

Por cada año adicional de escolaridad, el ingreso mensual esperado aumenta en promedio en $90.500 pesos.

Signo, magnitud y significancia

Para interpretar B1, debemos mirar tres cosas:
- Signo: si la relación es positiva o negativa.
- Magnitud: cuánto cambia Y cuando X aumenta en una unidad.
- Significancia: si el p-value permite sostener que existe evidencia estadística de relación.
Una buena interpretación no se queda solo en el p-value.

Cuidado: regresión no es causalidad automática

Con una regresión lineal simple no debemos decir: “X causa Y”.
Es mejor decir: “X se asocia con Y”.
Por ejemplo:
- No diremos: “La escolaridad causa mayor ingreso”.
- Diremos: “Mayores años de escolaridad se asocian con mayores ingresos esperados”.
Para hablar de causalidad se necesitaría un diseño más exigente.

Estimar una regresión en R

Primero cargamos paquetes y base:

library(dplyr)
library(ggplot2)
library(broom)

base <- readRDS("base_araucania.rds")

Estimar una regresión en R

Luego estimamos el modelo:

modelo <- lm(ytrabajocor ~ esc, data = base)

summary(modelo)


Call:
lm(formula = ytrabajocor ~ esc, data = base)

Residuals:
     Min       1Q   Median       3Q      Max 
-1189013  -282543   -94829   162457 10442851 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -246865      22774  -10.84   <2e-16 ***
esc            72294       1824   39.63   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 564500 on 5931 degrees of freedom
  (8524 observations deleted due to missingness)
Multiple R-squared:  0.2093,    Adjusted R-squared:  0.2092 
F-statistic:  1570 on 1 and 5931 DF,  p-value: < 2.2e-16

Esto estima el ingreso del trabajo como función de los años de escolaridad.

¿Cómo leer la salida de R?

La salida del modelo fue la siguiente:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -246865      22774  -10.84   <2e-16 ***
esc            72294       1824   39.63   <2e-16 ***

Multiple R-squared:  0.2093
Adjusted R-squared:  0.2092
F-statistic: 1570 on 1 and 5931 DF, p-value: < 2.2e-16

Debemos fijarnos en:

Estimate del intercepto y de la variable esc
p-value de esc
dirección y magnitud del coeficiente.

Resultado principal del modelo

El modelo estimado fue:

[ Ingreso = -246.865 + 72.294 Escolaridad ]

Esto significa que:
- el intercepto es -246.865
- el coeficiente de escolaridad es 72.294
- el coeficiente es positivo
- el p-value es menor a 0,001
- el modelo explica aproximadamente 20,9% de la variabilidad del ingreso.

Interpretación de la pendiente

El coeficiente de esc es 72.294.
Esto se interpreta así: Por cada año adicional de escolaridad, el ingreso del trabajo esperado aumenta, en promedio, en aproximadamente $72.294 pesos.
La relación es positiva: A mayor escolaridad, mayor ingreso esperado.
Además, el p-value es < 2e-16 (0,0000000000000002), por lo que existe evidencia estadísticamente significativa de asociación entre escolaridad e ingreso.
Al ser menor a 0.05, es posible rechazar la hipótesis nula de igualdad.

Signo, magnitud y significancia

Signo: El coeficiente es positivo.

[ B_1 = 72.294 ]

Esto indica una relación directa entre escolaridad e ingreso.
Magnitud: Cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso del trabajo.
Significancia: El p-value es menor a 0,05, por lo que el resultado es estadísticamente significativo.

Interpretación del intercepto

El intercepto del modelo es:

[ B_0 = -246.865 ]

En términos formales, esto indica el ingreso esperado cuando la escolaridad es igual a cero.
Sin embargo, en este caso el intercepto debe interpretarse con cautela.
No conviene decir que una persona sin escolaridad “tendría ingresos negativos”.
Más bien, el intercepto cumple una función matemática dentro de la recta de regresión.
El foco sustantivo del análisis debe estar en el coeficiente de escolaridad.

El R-cuadrado del modelo

El modelo presenta un R-cuadrado de:

[ R^2 = 0,2093 ]

Esto significa que la escolaridad explica aproximadamente el 20,9% de la variabilidad observada en el ingreso del trabajo.
En otras palabras:
- La escolaridad es una variable relevante para entender diferencias de ingreso, pero no explica por sí sola todo el fenómeno.
El ingreso también puede depender de otros factores, como edad, género, territorio, tipo de empleo, experiencia laboral o informalidad.

Observaciones eliminadas por datos perdidos

La salida de R indica:

(8524 observations deleted due to missingness)

Esto significa que 8.524 observaciones fueron eliminadas automáticamente porque tenían datos perdidos en alguna de las variables del modelo.
El modelo se estimó solo con los casos que tenían información válida en:
- ytrabajocor
- esc.
Este punto debe mencionarse como una limitación del análisis.

Interpretación completa del modelo

Una redacción adecuada sería:

Se estimó una regresión lineal simple para analizar la relación entre años de escolaridad e ingreso del trabajo. El coeficiente de escolaridad fue positivo y estadísticamente significativo. En particular, por cada año adicional de escolaridad, el ingreso del trabajo esperado aumenta en promedio en $72.294 pesos. El resultado sugiere que mayores niveles de escolaridad se asocian con mayores ingresos esperados. Además, el modelo presenta un R-cuadrado de 0,2093, por lo que la escolaridad explica aproximadamente el 20,9% de la variabilidad del ingreso. Sin embargo, este resultado debe interpretarse con cautela, ya que el modelo es bivariado y no incorpora otros factores que también pueden influir en el ingreso.

Gráfico obligatorio

La evaluación pide un gráfico de dispersión con línea de tendencia.
En este caso:
- eje X: años de escolaridad
- eje Y: ingreso del trabajo
- puntos: personas observadas
- línea: tendencia estimada por el modelo.

Gráfico obligatorio

ggplot(base, aes(x = esc, y = ytrabajocor)) +
  geom_point(alpha = 0.25) +
  geom_smooth(method = "lm", se = TRUE) +
  labs(
    title = "Relación entre escolaridad e ingreso del trabajo",
    subtitle = "CASEN Araucanía",
    x = "Años de escolaridad",
    y = "Ingreso del trabajo corregido"
  )

Gráfico obligatorio

Cómo comentar este gráfico

Una interpretación adecuada sería:
El gráfico de dispersión muestra una relación positiva entre los años de escolaridad y el ingreso del trabajo. Aunque los datos presentan una alta dispersión, la línea de tendencia indica que, en promedio, las personas con más años de escolaridad tienden a presentar mayores ingresos. Esto es coherente con el coeficiente positivo estimado en la regresión, donde cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso del trabajo.

Una precaución con el ingreso

La variable de ingreso suele presentar alta dispersión.
En la salida del modelo se observan residuos con valores extremos:

Min       1Q   Median       3Q      Max 
-1189013  -282543   -94829   162457 10442851

Esto indica que existen casos donde el ingreso observado se aleja bastante del ingreso estimado por el modelo.
Por eso, la regresión debe leerse como una tendencia promedio, no como una predicción exacta para cada persona.

Qué no debemos concluir

A partir de este modelo, no deberíamos decir: “La escolaridad causa directamente el ingreso”.
Tampoco deberíamos decir: “El modelo explica completamente las diferencias de ingreso”.
Una interpretación más correcta sería: “Los años de escolaridad se asocian positiva y significativamente con el ingreso del trabajo. Sin embargo, el ingreso también puede depender de otros factores no incluidos en este modelo”.

Cómo redactar la sección de regresión

La sección puede organizarse así:

Modelo y variables: se explica que ytrabajocor es la variable dependiente y esc la variable independiente.
Resultados principales: se reporta el intercepto, el coeficiente de escolaridad, el p-value y el R-cuadrado.
Interpretación: se explica que cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso.
Gráfico: se presenta el gráfico de dispersión con línea de tendencia.
Limitación: se menciona que el modelo es bivariado y que se eliminaron observaciones por datos perdidos.

Ejemplo de redacción para el informe

“Para analizar la relación entre escolaridad e ingreso del trabajo, se estimó una regresión lineal simple. La variable dependiente fue el ingreso del trabajo corregido (ytrabajocor) y la variable independiente fueron los años de escolaridad (esc). El coeficiente de escolaridad fue positivo y estadísticamente significativo. En concreto, cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso del trabajo. El modelo presenta un R-cuadrado de 0,2093, lo que indica que la escolaridad explica aproximadamente el 20,9% de la variabilidad del ingreso. Este resultado sugiere que la educación es una dimensión relevante para comprender diferencias económicas en la población analizada. No obstante, el modelo no permite afirmar causalidad y debe interpretarse con cautela, ya que no incorpora otros factores como género, edad, territorio o tipo de empleo.”

Errores frecuentes con esta salida

Eviten escribir:
- “La escolaridad causa un aumento de $72.294 pesos”.
- “El modelo explica todo el ingreso”.
- “El intercepto negativo significa que hay ingresos negativos”.
- “Como el p-value es muy bajo, no hay limitaciones”.
- “El gráfico prueba causalidad”.
- “Las observaciones eliminadas no importan”.
Una mejor interpretación reconoce el resultado y sus límites.

La conclusión final del trabajo

La conclusión debe cerrar la respuesta a la pregunta inicial.
Puede incluir:
- hallazgo principal
- evidencia más sólida
- implicancia para decisiones públicas
- limitaciones del análisis.
No debe ser un resumen mecánico.
Debe explicar qué aprendimos a partir del análisis.

Conclusión final ajustada al modelo

Una conclusión posible sería:

“En conjunto, los resultados muestran que la escolaridad se relaciona positivamente con el ingreso del trabajo en la muestra analizada. La regresión lineal simple indica que cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso, con evidencia estadísticamente significativa. Además, el modelo explica aproximadamente el 20,9% de la variabilidad del ingreso, lo que sugiere que la educación es una variable importante, aunque no suficiente, para comprender las desigualdades económicas. Como limitación, el análisis es bivariado, no incorpora otros factores explicativos y excluyó observaciones con datos perdidos en las variables del modelo.”

Checklist actualizado para la regresión

Antes de entregar la sección de regresión, revisen:
- ¿Identificaron correctamente Y y X?, ¿Escribieron el modelo estimado?
- ¿Reportaron el coeficiente de escolaridad?
- ¿Interpretaron que cada año adicional se asocia con $72.294 pesos más de ingreso?
- ¿Mencionaron que el resultado es estadísticamente significativo?, ¿Interpretaron el R-cuadrado de 0,2093?
- ¿Incluyeron el gráfico de dispersión con línea de tendencia?, ¿Comentaron el gráfico?
- ¿Mencionaron que hubo observaciones eliminadas por datos perdidos?
- ¿Evitaron afirmar causalidad?

Checklist del trabajo completo

Antes de entregar, revisen:
- ¿La pregunta es clara y verificable?
- ¿El intervalo de confianza está interpretado?
- ¿La prueba de hipótesis incluye H₀, H₁, α, p-value y decisión?
- ¿Los errores tipo I y II están aplicados al caso?
- ¿La regresión identifica claramente Y y X?
- ¿Se interpreta B1 en signo, magnitud y significancia?
- ¿El gráfico tiene título, ejes claros y comentario?
- ¿La conclusión menciona hallazgos, implicancias y limitaciones?

Cierre de la unidad

La inferencia estadística permite pasar de una muestra a afirmaciones razonables sobre una población.
Pero esas afirmaciones siempre tienen límites.
Por eso, durante la unidad trabajamos tres ideas:
- estimar con incertidumbre
- decidir con evidencia
- comunicar resultados con prudencia.
La clave no es solo usar R.
La clave es transformar resultados estadísticos en interpretaciones claras para analizar problemas públicos.