<- read.csv("sat_gpa.csv") notas
Asignación 1 - Regresión Lineal Simple
Introducción
Esta asignación requiere usar los códigos que se proveen, ajustándolos a las variables que estarán utilizando. Luego de verificar que los códigos corren correctamente y que pueden producir un documento html, deberán producir un documento Word, que deben bajar a su computadora para edición final. Luego deben producir un archivo PDF, que será el que suban a MOODLE.
El informe debe tener el mismo formato que se ofrece a continuación y debe cumplir con lo que se encuentra resaltado (“bold”). No debe incluir los códigos en el documento final.
Cargar los datos al ambiente R
Utilicen el comando read.csv para cargar los datos del archivo
Metadata
Significado de las variables:
- high_GPA: promedio de la escuela superior; varían de 0 a 4
- math_SAT: puntuación del College Board en matemáticas
- verb_SAT: puntuación del College Board en la parte verbal
- comp_GPA: promedio de la concentración en la universidad
- univ_GPA: promedio general en la universidad
Formular preguntas e hipótesis
Escoger parejas de variables con las que van a hacer preguntas sobre la relación entre ambas, formulando la hipótesis sobre cuál es la variable independiente y cuál es la respuesta. Justifique sus selecciones en un párrafo.
Visualización
Debe construir las dos gráficas de puntos para las variables seleccionadas y de acuerdo a su hipótesis de cuál es la variable predictora y cuál es la respuesta. Las gráficas deben llevar una leyenda (FIGURA #….), escrita en la parte inferior de la gráfica.
library(ggplot2)
<- ggplot(notas, aes(x = math_SAT, y = comp_GPA)) +
figura1 geom_point()
figura1
FIGURA 1. Relación entre el promedio universitario en la concentración (GPA) y el resultado en la parte matemática del College Board (SAT).
Describa en un párrafo lo que observa en las gráficas, en relación a sus preguntas e hipótesis.
Análisis de Regresión
Para cada una de las parejas de variables seleccionadas, realice un análisis de regresión simple, incluyendo la tabla de parámetros estadísticos y la gráfica con intervalo de confianza, la ecuación de la recta de regresión y el R-cuadrado.
<- lm(comp_GPA ~ math_SAT, data = notas)
modelo1 summary(modelo1)
Call:
lm(formula = comp_GPA ~ math_SAT, data = notas)
Residuals:
Min 1Q Median 3Q Max
-0.73842 -0.26146 0.01016 0.24413 1.00182
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.9293955 0.4235782 -2.194 0.0305 *
math_SAT 0.0065119 0.0006773 9.614 5.34e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3713 on 103 degrees of freedom
Multiple R-squared: 0.473, Adjusted R-squared: 0.4678
F-statistic: 92.43 on 1 and 103 DF, p-value: 5.34e-16
Tabla con los parámetros estadísticos de los modelos de regresión
La tabla de parámetros estadísticos debe incluir una leyenda (TABLA #….), escrita en la parte superior de la tabla. A partir de los resultados anteriores (“summary”) obtenga los valores a incluir en la tabla para cada modelo:
- el nombre y los valores de los coeficientes (“estimate”) y su valor de P
- el valor de R-cuadrado ajustado
- el valor de F y su valor de P
NOTA: los resultados (“output”) de “summary”, no deben incluirlos en el informe, solo deben usarlos para extraer los valores que van en la tabla.
Gráfica con resultados del análisis de regresión
Construir una gráfica para cada modelo, que incluya la recta de regresión, el intervalo de confianza del modelo,la ecuación de regresión y el R2 ajustado. Cada gráfica debe llevar su leyenda correspondiente.
# Gráfica con intervalo de confianza, equación de la recta de regresión y R-cuadrado
<- coef(modelo1)[2]
slope <- coef(modelo1)[1]
intercept # Create the scatter plot with a regression line
<- ggplot(notas, aes(x = math_SAT, y = comp_GPA)) +
plot1 geom_point() + # Add points
geom_smooth(method = "lm", se = TRUE) + # Add regression line without confidence interval
annotate("text", x = 550, y = 4,
label = paste("y =", round(slope, 2), "x +", round(intercept, 2)))
# add adjusted R-squared
<- plot1 + annotate("text", x = 600, y = 4.0,
plot1 label = paste("R^2 = ", round(summary(modelo1)$adj.r.squared, 2)))
plot1
FIGURA 3. Relación entre el promedio universitario en la concentración (GPA) y el resultado en la parte matemática del College Board (SAT). La línea representa la regresión lineal simple, con el intervalo de confianza del 95%. La ecuación de la recta de regresión y el R-cuadrado ajustado se presentan en la parte superior de la gráfica.
Evaluación de supuestos de la regresión lineal
Como en todo análisis estadístico paramétrico, la regresión lineal simple posee algunos supuestos:
Las observaciones son independientes, lo cual implica que cada sujeto en una muestra solo se mide una vez: no puede haber pseudoreplicación.
Se asume que la relación entre las dos variables es lineal.
Los residuales (\(e_i\)) alrededor de la línea de regresión tienen una distribución normal estándar (μ=0).
La varianza de los residuales es igual para todos los valores de x de los datos.
Pruebas de supuestos
Linealidad
La linealidad significa que la(s) variable(s) predictora(s) de la regresión tiene(n) una relación lineal con la variable de resultado. Una manera de probar este supuesto es mediante una gráfica de los valores residuales (\(e_i\)) versus los valores predichos por el modelo (\(\hat Y\)). Los puntos deben distribuirse simétricamente alrededor de una línea horizontal Y = 0.
### evaluación del modelo: linealidad
plot(modelo1, 1)
FIGURA 5. Gráfica de residuales versus valores estimados de Y con el modelo.
Distribución normal de residuales
Una prueba de cumplimiento de este supuesto, es que los valores de los residuales estén en una línea de identidad de los valores reales y los valores esperados de una distribución normal, usando una gráfica de cuantiles (Q-Q). Usualmente los valores extremos se desvían algo de la línea de identidad.
# q-q plot de residuales
plot(modelo1, 2)
FIGURA 6. Gráfica Q-Q de los residuales del modelo 1 de regresión lineal.
Homogeneidad de la varianza
La varianza (desviación) de los residuales debe ser homogénea a lo largo de los valores estimados del modelo. Para probar lo anterior, se usa una gráfica de la raíz cuadrada de los residuales estandarizados, los cuales deben tener una distribución simétrica alrededor de una línea horizontal y no ser mayores de 2. Los valores que producen las desviaciones mayores están marcados con el número de su posición en los datos.
# homocedasticidad residuales
plot(modelo1, 3)
FIGURA 7. Gráfica de la varianza de los residuales en función de los valores estimados de Y por el modelo. La línea roja distribuye simétricamente la varianza.
Discusión
Discuta sus resultados considerando las siguientes preguntas:
Según los parámetros estadísticos, ¿cuál resultó ser un mejor modelo y por qué?
¿Cuál modelo cumplió mejor con los supuestos?
En general ¿piensas que el modelo de regresión lineal es satisfactorio para describir la tendencia y variación de los valores de las variables? Explica con los datos de tu análisis.
Busca información sobre alguna alternativa para mejorar un modelo de regresión lineal simple. Descríbela.