Clase 3: Regresión lineal simple y cierre del trabajo final
2026-04-28
En esta última clase de la unidad trabajaremos el contenido pendiente para completar la evaluación:
Ya trabajamos:
Hoy veremos las dos partes que faltan:
La evaluación pide estimar un modelo sencillo:
[ Y = B_0 + B_1 * X ]
Deben incluir:
YXB0 y B1B1La regresión lineal simple permite analizar la relación entre dos variables cuantitativas.
Busca responder preguntas como:
La clave es mirar cómo se comporta una variable Y cuando cambia una variable X.
En una regresión siempre debemos distinguir entre:
Variable dependiente Y: aquello que queremos analizar o explicar.
Variable independiente X: aquello que usamos para observar si existe una relación con Y.
Ejemplo: ¿Aumenta el ingreso a medida que aumentan los años de escolaridad?
Y: ingreso.
X: años de escolaridad.
[ Y = B_0 + B_1X ]
Donde:
B0 es el interceptoB1 es la pendienteB1 indica cuánto cambia Y cuando X aumenta en una unidad.En la práctica, el coeficiente más importante para interpretar es B1.
B0 Intercepto: Es el valor esperado de Y cuando X vale 0.
B1 Pendiente: Es el cambio esperado en Y por cada unidad adicional de X.
Ejemplo:
[ Ingreso = 180.000 + 90.500 * Escolaridad ]
Por cada año adicional de escolaridad, el ingreso mensual esperado aumenta en promedio en $90.500 pesos.
Para interpretar B1, debemos mirar tres cosas:
Signo: si la relación es positiva o negativa.
Magnitud: cuánto cambia Y cuando X aumenta en una unidad.
Significancia: si el p-value permite sostener que existe evidencia estadística de relación.
Una buena interpretación no se queda solo en el p-value.
Con una regresión lineal simple no debemos decir: “X causa Y”.
Es mejor decir: “X se asocia con Y”.
Por ejemplo:
No diremos: “La escolaridad causa mayor ingreso”.
Diremos: “Mayores años de escolaridad se asocian con mayores ingresos esperados”.
Para hablar de causalidad se necesitaría un diseño más exigente.
Primero cargamos paquetes y base:
Luego estimamos el modelo:
Call:
lm(formula = ytrabajocor ~ esc, data = base)
Residuals:
Min 1Q Median 3Q Max
-1189013 -282543 -94829 162457 10442851
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -246865 22774 -10.84 <2e-16 ***
esc 72294 1824 39.63 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 564500 on 5931 degrees of freedom
(8524 observations deleted due to missingness)
Multiple R-squared: 0.2093, Adjusted R-squared: 0.2092
F-statistic: 1570 on 1 and 5931 DF, p-value: < 2.2e-16
Esto estima el ingreso del trabajo como función de los años de escolaridad.
La salida del modelo fue la siguiente:
Debemos fijarnos en:
Estimate del intercepto y de la variable escesc[ Ingreso = -246.865 + 72.294 Escolaridad ]
Esto significa que:
El coeficiente de esc es 72.294.
Esto se interpreta así: Por cada año adicional de escolaridad, el ingreso del trabajo esperado aumenta, en promedio, en aproximadamente $72.294 pesos.
La relación es positiva: A mayor escolaridad, mayor ingreso esperado.
Además, el p-value es < 2e-16 (0,0000000000000002), por lo que existe evidencia estadísticamente significativa de asociación entre escolaridad e ingreso.
Al ser menor a 0.05, es posible rechazar la hipótesis nula de igualdad.
[ B_1 = 72.294 ]
Esto indica una relación directa entre escolaridad e ingreso.
Magnitud: Cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso del trabajo.
Significancia: El p-value es menor a 0,05, por lo que el resultado es estadísticamente significativo.
[ B_0 = -246.865 ]
En términos formales, esto indica el ingreso esperado cuando la escolaridad es igual a cero.
Sin embargo, en este caso el intercepto debe interpretarse con cautela.
No conviene decir que una persona sin escolaridad “tendría ingresos negativos”.
Más bien, el intercepto cumple una función matemática dentro de la recta de regresión.
El foco sustantivo del análisis debe estar en el coeficiente de escolaridad.
[ R^2 = 0,2093 ]
Esto significa que la escolaridad explica aproximadamente el 20,9% de la variabilidad observada en el ingreso del trabajo.
En otras palabras:
El ingreso también puede depender de otros factores, como edad, género, territorio, tipo de empleo, experiencia laboral o informalidad.
Esto significa que 8.524 observaciones fueron eliminadas automáticamente porque tenían datos perdidos en alguna de las variables del modelo.
El modelo se estimó solo con los casos que tenían información válida en:
ytrabajocoresc.Este punto debe mencionarse como una limitación del análisis.
Una redacción adecuada sería:
Se estimó una regresión lineal simple para analizar la relación entre años de escolaridad e ingreso del trabajo. El coeficiente de escolaridad fue positivo y estadísticamente significativo. En particular, por cada año adicional de escolaridad, el ingreso del trabajo esperado aumenta en promedio en $72.294 pesos. El resultado sugiere que mayores niveles de escolaridad se asocian con mayores ingresos esperados. Además, el modelo presenta un R-cuadrado de 0,2093, por lo que la escolaridad explica aproximadamente el 20,9% de la variabilidad del ingreso. Sin embargo, este resultado debe interpretarse con cautela, ya que el modelo es bivariado y no incorpora otros factores que también pueden influir en el ingreso.
La evaluación pide un gráfico de dispersión con línea de tendencia.
En este caso:
Una interpretación adecuada sería:
El gráfico de dispersión muestra una relación positiva entre los años de escolaridad y el ingreso del trabajo. Aunque los datos presentan una alta dispersión, la línea de tendencia indica que, en promedio, las personas con más años de escolaridad tienden a presentar mayores ingresos. Esto es coherente con el coeficiente positivo estimado en la regresión, donde cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso del trabajo.
La variable de ingreso suele presentar alta dispersión.
En la salida del modelo se observan residuos con valores extremos:
Esto indica que existen casos donde el ingreso observado se aleja bastante del ingreso estimado por el modelo.
Por eso, la regresión debe leerse como una tendencia promedio, no como una predicción exacta para cada persona.
A partir de este modelo, no deberíamos decir: “La escolaridad causa directamente el ingreso”.
Tampoco deberíamos decir: “El modelo explica completamente las diferencias de ingreso”.
Una interpretación más correcta sería: “Los años de escolaridad se asocian positiva y significativamente con el ingreso del trabajo. Sin embargo, el ingreso también puede depender de otros factores no incluidos en este modelo”.
Modelo y variables: se explica que ytrabajocor es la variable dependiente y esc la variable independiente.
Resultados principales: se reporta el intercepto, el coeficiente de escolaridad, el p-value y el R-cuadrado.
Interpretación: se explica que cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso.
Gráfico: se presenta el gráfico de dispersión con línea de tendencia.
Limitación: se menciona que el modelo es bivariado y que se eliminaron observaciones por datos perdidos.
“Para analizar la relación entre escolaridad e ingreso del trabajo, se estimó una regresión lineal simple. La variable dependiente fue el ingreso del trabajo corregido (ytrabajocor) y la variable independiente fueron los años de escolaridad (esc). El coeficiente de escolaridad fue positivo y estadísticamente significativo. En concreto, cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso del trabajo. El modelo presenta un R-cuadrado de 0,2093, lo que indica que la escolaridad explica aproximadamente el 20,9% de la variabilidad del ingreso. Este resultado sugiere que la educación es una dimensión relevante para comprender diferencias económicas en la población analizada. No obstante, el modelo no permite afirmar causalidad y debe interpretarse con cautela, ya que no incorpora otros factores como género, edad, territorio o tipo de empleo.”
Eviten escribir:
Una mejor interpretación reconoce el resultado y sus límites.
La conclusión debe cerrar la respuesta a la pregunta inicial.
Puede incluir:
No debe ser un resumen mecánico.
Debe explicar qué aprendimos a partir del análisis.
“En conjunto, los resultados muestran que la escolaridad se relaciona positivamente con el ingreso del trabajo en la muestra analizada. La regresión lineal simple indica que cada año adicional de escolaridad se asocia con un aumento promedio de $72.294 pesos en el ingreso, con evidencia estadísticamente significativa. Además, el modelo explica aproximadamente el 20,9% de la variabilidad del ingreso, lo que sugiere que la educación es una variable importante, aunque no suficiente, para comprender las desigualdades económicas. Como limitación, el análisis es bivariado, no incorpora otros factores explicativos y excluyó observaciones con datos perdidos en las variables del modelo.”
Antes de entregar la sección de regresión, revisen:
Y y X?, ¿Escribieron el modelo estimado?Antes de entregar, revisen:
Y y X?B1 en signo, magnitud y significancia?La inferencia estadística permite pasar de una muestra a afirmaciones razonables sobre una población.
Pero esas afirmaciones siempre tienen límites.
Por eso, durante la unidad trabajamos tres ideas:
La clave no es solo usar R.
La clave es transformar resultados estadísticos en interpretaciones claras para analizar problemas públicos.
Métodos y técnicas de investigación cuantitativa | Unidad 3