El Modelo de Regresión Lineal Simple (MRLS) es el modelo estadístico más sencillo de los modelos estadísticos, y se usa para explicar la variabilidad de una variable respuesta cuantitativa (usualmente continua), denotada por y usando una variable explicativa (cuantitativa, o en algunos casos dicotómica o dummy), denotada por x, donde la relación entre las variables se da a través de una línea recta.
En este ejemplo, no se profundizará en aspectos teóricos, ya que estos están muy bién presentados en algunos textos, como por ejemplo el de Kleinbaum, Kupper, Nizam y Rosenberg (2014) o el de Montgomery, Peck y Vining (2012), si lo que se quiere obtener una introducción, se recomienda consultar el excelente libro de Urdan (2022), y si se quiere revisar un libro donde se quiere ver aspectos de modelos de regresión usando R, se recomienda consultar el libro de Faraway (2015).
Un proceso de modelamiento estadístico incluye una serie de pasos, los cuales pueden llevarse a cabo a través de los siguientes pasos:
Exploración de la relación funcional entre la variable y y la variable x, que para el MRLS se hace a través del gráfico de dispersión, en el cual la nube de puntos debería sugerir una forma cercana a una linea recta.
Formulación del Modelo, que consiste en la identificación del modelo y cada una de sus componentes, y el establecimiento de los supuestos del modelo.
Ajuste del modelo, que consiste en la estimación de los parámetros del modelo.
Verificación de la significación del modelo, que se hace utilizando la tabla de Análisis de Varianza, que es construida a partir de la descomposición de la suma de cuadrados totales en dos fuentes de de variabilidad, la del modelo y la del error.
Inferencia acerca de los parámetros.
Verificación de los supuestos del modelo, efectuada a través de métodos gráficos conocidos como Análisis de Residuos.
Corrección de los supuestos violados en el modelo (solo cuando es requerida).
Interpretación.
Consideremos los siguientes datos:
Ind <- c(1:8)
Estat <- c(174, 160, 155, 175, 160, 180, 165, 175)
Pesos <- c(78, 49, 56, 75, 54, 92, 70, 80)
Tabla <- as.data.frame(cbind(Ind, Estat, Pesos))
La siguiente tabla muestra el peso (en Kgs.) y la estatura de un grupo de 8 personas:
Individuo | Estatura (cms.) | Peso (kgs.) |
---|---|---|
1 | 174 | 78 |
2 | 160 | 49 |
3 | 155 | 56 |
4 | 175 | 75 |
5 | 160 | 54 |
6 | 180 | 92 |
7 | 165 | 70 |
8 | 175 | 80 |
Antes de ajustar el modelo, debemos explorar la relación entre la variable independiente(X)y la variable dependdiente, lo cual, para el MRLS, se hace a través del gráfico de dispersión.
plot(Estat, Pesos, main = "Gráfico de dispersión de Pesos Vs. Estatura")
Y en este gráfico se puede visualizar que la relación entre el peso y estatura pudiera representarse mendiante una línea recta, y esto justifica el uso de un MRLS.
Mediante la función lm podemos obtener el ajuste de un modelo lineal, que en el caso de un un modelo de regresión lineal simple, consiste en la estimación de el intercepto poblacional de la recta de regresión (Beta0), y la pendiente poblacional de la recta de regresión (Beta1).
En este caso le asignamos el nombre de mrls.
mrls <- lm(Pesos ~ Estat)
plot(Estat, Pesos, main = "Gráfico de dispersión de Pesos Vs. Estatura")
abline(mrls$coefficients[1], mrls$coefficients[2])
Se hace a través de la tabla de Análisis de Varianza (ANOVA o ANAVA), que se genera usando la función anova:
anova(mrls)
## Analysis of Variance Table
##
## Response: Pesos
## Df Sum Sq Mean Sq F value Pr(>F)
## Estat 1 1371.62 1371.62 43.341 0.0005896 ***
## Residuals 6 189.88 31.65
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Y tomamos la decisión:
Como 0,0005896 < 0,05 (nivel de significación prefijado), rechazamos la hipótesis nula (no signficación del modelo), es decir que existe evidencia de que el modelo es significatico, lo cual significa que el Peso puede ser explicado a través de la Estatura, usando una línes recta.
Se hace usando la función summary:
summary(mrls)
##
## Call:
## lm(formula = Pesos ~ Estat)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.9897 -3.4867 -0.2115 4.6066 6.6729
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -188.2158 39.1588 -4.806 0.00298 **
## Estat 1.5325 0.2328 6.583 0.00059 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.626 on 6 degrees of freedom
## Multiple R-squared: 0.8784, Adjusted R-squared: 0.8581
## F-statistic: 43.34 on 1 and 6 DF, p-value: 0.0005896
De donde se puede concluir que:
Como 0,00298 < 0,05, el intercepto de la recta de regresión es significativo.
Como 0,00059 < 0,05, la pendiente de la recta de regresión es significativa (en un MRLS coincide con la significación del modelo).
Adicionalmente se puede tomar decisión del porcentaje de variabilidad de la variable respuesta mediante el MRLS, y para ello utilizamos el R cuadrado. En este caso, el R cuadrado ajustado es 0,8581, que puede ser considerado como alto, e indica que el 85,8% de la variabilidad del Peso de una persona puede ser explicado a través de la Estatura, usando una línea recta.
par(mfrow = c(2,2))
plot(mrls)
Y para el MRLS, interpretamos los primeros dos gráficos:
En el primero se puede observar que la varianza de los Pesos para los distintos valores de Estatura pareciera no diferir. (Lo ideal es observar un patrón de una nube de puntos).
En el segundo de los gráficos, observamos que no pareciara violarse el supuesto de normalidad de los residuos.
Y debido a que no se violan los supuesto básicos del MRLS, puedo proceder al la interpretación de las estimaciones del MRLS.
Usualmente, el intercepto no se interpreta, porque correspondería a al Peso cuando una persona mide 0 cms, y se considera que esta es un valor para obtener una mejor mejor representación de la línea recta. (Solo se interpreta cuando el valor de X = 0, tiene sentido).
El coeficiente estimado de la pendiente de la recta de regresión, nos indica que al aumentar la Estatura en 1 cm., el Peso aumenta en 1,533 kgs.
Faraway, J.J. (2015). Linear Models with R. Segunda edición. Boca Ratón, FL: CRC Press (Taylor & Francis Group).
Kleinbaum, D.G., Kupper,L.L., Nizam, A. y Rosenberg, E.S. (2014). Applied Regression Analysis and Other Multivariable Methods. Quinta edición. Boston, MA: Cengage Learning.
Montgomery, D.C., Peck, E.A. y Vining, G.G. (2012). Introduction to linear regression analysis. Quinta edición.N.Y.: Wiley.
Urdan, T.G. (2022). Statistics in Plain English. Quinta edición.N.Y.: Routledge (Taylor & Francis Group).