Mariana Tascón, Laura Gomez, Laura Dominguez

Gráficos y correlación

Este gráfico nos muestra los histogramas de las dos variables en cuestión, el diagrama de dispersión de los datos y el coeficiente de correlacion que hay entre estas, el cual es bastante alto. Este coeficioente nos indica que las variables están fuertemente correlacionadas y por lo tanto tiene sentido establecer el modelo de regresión lineal simple.

modelo1<-lm(GPA~Absences,data=datos)
summary(modelo1)

## 
## Call:
## lm(formula = GPA ~ Absences, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.00037 -0.25727  0.01052  0.24920  1.21547 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.35101    0.01464   228.9   <2e-16 ***
## Absences    -0.09936    0.00087  -114.2   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3602 on 2390 degrees of freedom
## Multiple R-squared:  0.8451, Adjusted R-squared:  0.8451 
## F-statistic: 1.304e+04 on 1 and 2390 DF,  p-value: < 2.2e-16

Mediante el summary del modelo 1 podemos sacar los datos que nos van a permitir hallar la ecuación del modelo de regresión lineal y el coeficiente de determinación, para así ver la relación de variabilidad entre las variables; que en este caso son el GPA, siendo la variable de respuesta o la dependiente y, las Ausencias, siendo la variable explicativa o independiente. Dentro del modelo se están probando las siguientes pruebas de hipotesis:

Ho: β0 = 0

Ha: β1 ≠ 0

Mediante el intercepto y la pendiente, logramos obtener que la ecuación es:

GPA= 3.351 - 0.099 * Ausencias + ε

Además, con el dato del coeficiente de determinación, que es 0.8451, podemos concluir que los cambios dados en el puntaje de GPA se explican en un 84,51% por el cambio en el número de ausencias que hay en la muestra de estudiantes. Otro dato bastante importante que podemos deducir del modelo es si las variables son significativas. Como el valor P es menor a 2.2e-16 y a su vez eso es menor al nivel de significacia, que es 0.05, podemos decir que rechazamos Ho y que las variables sí son significativas.

modelo<-lm(GPA~.-StudentID-Gender-Ethnicity-ParentalEducation-Tutoring-ParentalSupport-Extracurricular-Sports-Music-Volunteering,data=datos)
summary(modelo)

## 
## Call:
## lm(formula = GPA ~ . - StudentID - Gender - Ethnicity - ParentalEducation - 
##     Tutoring - ParentalSupport - Extracurricular - Sports - Music - 
##     Volunteering, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.10726 -0.19616  0.00959  0.19915  1.53913 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      3.423265   0.090478  37.835   <2e-16 ***
## Age             -0.007183   0.005345  -1.344    0.179    
## StudyTimeWeekly  0.026011   0.001086  23.953   <2e-16 ***
## Absences        -0.084367   0.001049 -80.433   <2e-16 ***
## GradeClass      -0.142823   0.007263 -19.664   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2937 on 2387 degrees of freedom
## Multiple R-squared:  0.8972, Adjusted R-squared:  0.897 
## F-statistic:  5206 on 4 and 2387 DF,  p-value: < 2.2e-16

Mediante el modelo, tratamos de buscar un número mayor del coeficiente de determinación comparado al modelo anterior, mediante el uso de mas variables. Una vez eliminamos las variables cualitativas de la base de datos en el modelo, vemos cómo este coeficiente aumenta en una medida muy baja mediante el uso de las variables nuevas que tomamos en cuenta como edad, tiempo de estudio o el puntaje de la clase. Sin embargo, al aumentar se concluye que las variables sí son significativas y esto se prueba igual que en el modelo anterior con el valor P, el cual sigue siendo menor al nivel de significancia 0.05. Es por esto que se utilizará este modelo para el resto de cálculos, pues la variabilidad del GPA se explica en un 89,72% por la variabilidad de las variables nombradas anteriormente.

Supuestos

Linealidad

mean(modelo$residuals)

## [1] 3.363905e-18

Mediante este supuesto se busca probar si el modelo es lineal. Como se evidencia en el resultado, la media de los residuos es muy cercana a cero, probando asi que el modelo cumple el supuesto de linealidad.

Normalidad

shapiro.test(modelo$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.99779, p-value = 0.001997

Mediante este supuesto se busca probar si el modelo cumple con una distribución normal. Esto puede evidenciarse mediante gráficos o mediante el valor P, como es este caso. Las pruebas de hipotesis que estan bajo este supuesto son:

Ho: la distribución es normal

Ha: la distribución no es normal

Como el valor P es 0.001997, lo cual es menor a 0.05, se rechaza Ho, concluyendo que la distribución no es normal.

En cuanto a la justificación mediante gráficos, hacemos un Q-Q plot de normalidad. La gráfica compara la distribución de los residuos para evaluar si se distribuyen normalmente. Como en la gráfica se evidencia que los puntos caen cerca de la línea diagonal pero aun asi hay unos bastante alejados de los otros, se sugiere que los residuos no siguen una distribución normal.

Homocedasticidad

bptest(modelo)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 86.284, df = 4, p-value < 2.2e-16

Mediante este supuesto se busca probar si las varianzas de los residuos son iguales. Esto puede evidenciarse mediante el valor P. Las pruebas de hipotesis que estan bajo este supuesto son:

Ho: existe homogeneidad de varianzas

Ha: existe homogeneidad de varianzas

Como el valor P es menor a 2.2e-16, lo cual es menor a 0.05, se rechaza Ho, concluyendo que los residuos son homocedasticos.

Independencia de residuos

dwtest(modelo,alternative = "two.sided")

## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 1.9691, p-value = 0.4491
## alternative hypothesis: true autocorrelation is not 0

Mediante este supuesto se busca probar si los residuos son independientes. Esto puede evidenciarse mediante el valor P. Las pruebas de hipotesis que estan bajo este supuesto son:

Ho: los residuos son independientes

Ha: los residuos no son independientes

Como el valor P es 0.4491, lo cual es mayor a 0.05, no se rechaza Ho, concluyendo que los residuos son independientes.Esto quiere decir que hay ausencia de autocorrelación entre las variables o que es igual a cero.

Tercera entrega proyecto estadistica

2024-11-01