Este grÔfico nos muestra los histogramas de las dos variables en cuestión, el diagrama de dispersión de los datos y el coeficiente de correlacion que hay entre estas, el cual es bastante alto. Este coeficioente nos indica que las variables estÔn fuertemente correlacionadas y por lo tanto tiene sentido establecer el modelo de regresión lineal simple.
modelo1<-lm(GPA~Absences,data=datos)
summary(modelo1)
##
## Call:
## lm(formula = GPA ~ Absences, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.00037 -0.25727 0.01052 0.24920 1.21547
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.35101 0.01464 228.9 <2e-16 ***
## Absences -0.09936 0.00087 -114.2 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3602 on 2390 degrees of freedom
## Multiple R-squared: 0.8451, Adjusted R-squared: 0.8451
## F-statistic: 1.304e+04 on 1 and 2390 DF, p-value: < 2.2e-16
Mediante el summary del modelo 1 podemos sacar los datos que nos van a permitir hallar la ecuación del modelo de regresión lineal y el coeficiente de determinación, para asà ver la relación de variabilidad entre las variables; que en este caso son el GPA, siendo la variable de respuesta o la dependiente y, las Ausencias, siendo la variable explicativa o independiente. Dentro del modelo se estÔn probando las siguientes pruebas de hipotesis:
Ho: β0 = 0
Ha: β1 ā 0
Mediante el intercepto y la pendiente, logramos obtener que la ecuación es:
GPA= 3.351 - 0.099 * Ausencias + ε
AdemÔs, con el dato del coeficiente de determinación, que es 0.8451, podemos concluir que los cambios dados en el puntaje de GPA se explican en un 84,51% por el cambio en el número de ausencias que hay en la muestra de estudiantes. Otro dato bastante importante que podemos deducir del modelo es si las variables son significativas. Como el valor P es menor a 2.2e-16 y a su vez eso es menor al nivel de significacia, que es 0.05, podemos decir que rechazamos Ho y que las variables sà son significativas.
modelo<-lm(GPA~.-StudentID-Gender-Ethnicity-ParentalEducation-Tutoring-ParentalSupport-Extracurricular-Sports-Music-Volunteering,data=datos)
summary(modelo)
##
## Call:
## lm(formula = GPA ~ . - StudentID - Gender - Ethnicity - ParentalEducation -
## Tutoring - ParentalSupport - Extracurricular - Sports - Music -
## Volunteering, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.10726 -0.19616 0.00959 0.19915 1.53913
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.423265 0.090478 37.835 <2e-16 ***
## Age -0.007183 0.005345 -1.344 0.179
## StudyTimeWeekly 0.026011 0.001086 23.953 <2e-16 ***
## Absences -0.084367 0.001049 -80.433 <2e-16 ***
## GradeClass -0.142823 0.007263 -19.664 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2937 on 2387 degrees of freedom
## Multiple R-squared: 0.8972, Adjusted R-squared: 0.897
## F-statistic: 5206 on 4 and 2387 DF, p-value: < 2.2e-16
Mediante el modelo, tratamos de buscar un número mayor del coeficiente de determinación comparado al modelo anterior, mediante el uso de mas variables. Una vez eliminamos las variables cualitativas de la base de datos en el modelo, vemos cómo este coeficiente aumenta en una medida muy baja mediante el uso de las variables nuevas que tomamos en cuenta como edad, tiempo de estudio o el puntaje de la clase. Sin embargo, al aumentar se concluye que las variables sà son significativas y esto se prueba igual que en el modelo anterior con el valor P, el cual sigue siendo menor al nivel de significancia 0.05. Es por esto que se utilizarÔ este modelo para el resto de cÔlculos, pues la variabilidad del GPA se explica en un 89,72% por la variabilidad de las variables nombradas anteriormente.
mean(modelo$residuals)
## [1] 3.363905e-18
Mediante este supuesto se busca probar si el modelo es lineal. Como se evidencia en el resultado, la media de los residuos es muy cercana a cero, probando asi que el modelo cumple el supuesto de linealidad.
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.99779, p-value = 0.001997
Mediante este supuesto se busca probar si el modelo cumple con una distribución normal. Esto puede evidenciarse mediante grÔficos o mediante el valor P, como es este caso. Las pruebas de hipotesis que estan bajo este supuesto son:
Ho: la distribución es normal
Ha: la distribución no es normal
Como el valor P es 0.001997, lo cual es menor a 0.05, se rechaza Ho, concluyendo que la distribución no es normal.
En cuanto a la justificación mediante grĆ”ficos, hacemos un Q-Q plot de normalidad. La grĆ”fica compara la distribución de los residuos para evaluar si se distribuyen normalmente. Como en la grĆ”fica se evidencia que los puntos caen cerca de la lĆnea diagonal pero aun asi hay unos bastante alejados de los otros, se sugiere que los residuos no siguen una distribución normal.
bptest(modelo)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 86.284, df = 4, p-value < 2.2e-16
Mediante este supuesto se busca probar si las varianzas de los residuos son iguales. Esto puede evidenciarse mediante el valor P. Las pruebas de hipotesis que estan bajo este supuesto son:
Ho: existe homogeneidad de varianzas
Ha: existe homogeneidad de varianzas
Como el valor P es menor a 2.2e-16, lo cual es menor a 0.05, se rechaza Ho, concluyendo que los residuos son homocedasticos.
dwtest(modelo,alternative = "two.sided")
##
## Durbin-Watson test
##
## data: modelo
## DW = 1.9691, p-value = 0.4491
## alternative hypothesis: true autocorrelation is not 0
Mediante este supuesto se busca probar si los residuos son independientes. Esto puede evidenciarse mediante el valor P. Las pruebas de hipotesis que estan bajo este supuesto son:
Ho: los residuos son independientes
Ha: los residuos no son independientes
Como el valor P es 0.4491, lo cual es mayor a 0.05, no se rechaza Ho, concluyendo que los residuos son independientes.Esto quiere decir que hay ausencia de autocorrelación entre las variables o que es igual a cero.