SOLUCION DEL TALLER UNO Y DOS
1. Objetivo del análisis estadístico del conjunto de datos.
El estudio tiene como objetivo evaluar las causas de los efectos del alcohol en el estudio, teniendo en cuenta el análisis de tipo cuantitativo y descriptivo. La muestra incluyó 395 estudiantes (53% del sexo femenino y 47% del sexo masculino), con edades entre 15 y 22 años. Esta discriminación existe entre los adolescentes antes de tener experiencias significativas con el consumo de alcohol y aumentan con la edad.
2. Descripción del contexto al que pertenecen los datos.
Estos datos abordan el rendimiento de los estudiantes en la educación secundaria de dos escuelas portuguesas (Gabriel PereiraY Mousinho da Silveira). Los atributos de los datos incluyen calificaciones de los estudiantes, características demográficas, sociales y relacionadas con la escuela y se recopilaron mediante el uso de informes y cuestionarios escolares. Se proporcionan dos conjuntos de datos sobre el rendimiento de materia de Matemáticas (MATHS). [Cortez and Silva, 2008].
3. Descripción y escala de medición de las variables consideradas.
3.1.1 Variables de estudio
3.1.2 Estas calificaciones están relacionadas con la materia del curso de Matemáticas
library(readr)
Maths <- read_csv("C:/Users/Admin/Desktop/UNIVERSIDAD/ESPECIALIZACON EN ESTADISTICA/ANALISIS DE REGRESION/TALLERES/Maths.csv")
## Rows: 395 Columns: 33
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (17): school, sex, address, famsize, Pstatus, Mjob, Fjob, reason, guardi...
## dbl (16): age, Medu, Fedu, traveltime, studytime, failures, famrel, freetime...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
##View(Maths)
str(Maths)
## spec_tbl_df [395 × 33] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ school : chr [1:395] "GP" "GP" "GP" "GP" ...
## $ sex : chr [1:395] "F" "F" "F" "F" ...
## $ age : num [1:395] 18 17 15 15 16 16 16 17 15 15 ...
## $ address : chr [1:395] "U" "U" "U" "U" ...
## $ famsize : chr [1:395] "GT3" "GT3" "LE3" "GT3" ...
## $ Pstatus : chr [1:395] "A" "T" "T" "T" ...
## $ Medu : num [1:395] 4 1 1 4 3 4 2 4 3 3 ...
## $ Fedu : num [1:395] 4 1 1 2 3 3 2 4 2 4 ...
## $ Mjob : chr [1:395] "at_home" "at_home" "at_home" "health" ...
## $ Fjob : chr [1:395] "teacher" "other" "other" "services" ...
## $ reason : chr [1:395] "course" "course" "other" "home" ...
## $ guardian : chr [1:395] "mother" "father" "mother" "mother" ...
## $ traveltime: num [1:395] 2 1 1 1 1 1 1 2 1 1 ...
## $ studytime : num [1:395] 2 2 2 3 2 2 2 2 2 2 ...
## $ failures : num [1:395] 0 0 3 0 0 0 0 0 0 0 ...
## $ schoolsup : chr [1:395] "yes" "no" "yes" "no" ...
## $ famsup : chr [1:395] "no" "yes" "no" "yes" ...
## $ paid : chr [1:395] "no" "no" "yes" "yes" ...
## $ activities: chr [1:395] "no" "no" "no" "yes" ...
## $ nursery : chr [1:395] "yes" "no" "yes" "yes" ...
## $ higher : chr [1:395] "yes" "yes" "yes" "yes" ...
## $ internet : chr [1:395] "no" "yes" "yes" "yes" ...
## $ romantic : chr [1:395] "no" "no" "no" "yes" ...
## $ famrel : num [1:395] 4 5 4 3 4 5 4 4 4 5 ...
## $ freetime : num [1:395] 3 3 3 2 3 4 4 1 2 5 ...
## $ goout : num [1:395] 4 3 2 2 2 2 4 4 2 1 ...
## $ Dalc : num [1:395] 1 1 2 1 1 1 1 1 1 1 ...
## $ Walc : num [1:395] 1 1 3 1 2 2 1 1 1 1 ...
## $ health : num [1:395] 3 3 3 5 5 5 3 1 1 5 ...
## $ absences : num [1:395] 6 4 10 2 4 10 0 6 0 0 ...
## $ G1 : num [1:395] 5 5 7 15 6 15 12 6 16 14 ...
## $ G2 : num [1:395] 6 5 8 14 10 15 12 5 18 15 ...
## $ G3 : num [1:395] 6 6 10 15 10 15 11 6 19 15 ...
## - attr(*, "spec")=
## .. cols(
## .. school = col_character(),
## .. sex = col_character(),
## .. age = col_double(),
## .. address = col_character(),
## .. famsize = col_character(),
## .. Pstatus = col_character(),
## .. Medu = col_double(),
## .. Fedu = col_double(),
## .. Mjob = col_character(),
## .. Fjob = col_character(),
## .. reason = col_character(),
## .. guardian = col_character(),
## .. traveltime = col_double(),
## .. studytime = col_double(),
## .. failures = col_double(),
## .. schoolsup = col_character(),
## .. famsup = col_character(),
## .. paid = col_character(),
## .. activities = col_character(),
## .. nursery = col_character(),
## .. higher = col_character(),
## .. internet = col_character(),
## .. romantic = col_character(),
## .. famrel = col_double(),
## .. freetime = col_double(),
## .. goout = col_double(),
## .. Dalc = col_double(),
## .. Walc = col_double(),
## .. health = col_double(),
## .. absences = col_double(),
## .. G1 = col_double(),
## .. G2 = col_double(),
## .. G3 = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
summary(Maths)
## school sex age address
## Length:395 Length:395 Min. :15.0 Length:395
## Class :character Class :character 1st Qu.:16.0 Class :character
## Mode :character Mode :character Median :17.0 Mode :character
## Mean :16.7
## 3rd Qu.:18.0
## Max. :22.0
## famsize Pstatus Medu Fedu
## Length:395 Length:395 Min. :0.000 Min. :0.000
## Class :character Class :character 1st Qu.:2.000 1st Qu.:2.000
## Mode :character Mode :character Median :3.000 Median :2.000
## Mean :2.749 Mean :2.522
## 3rd Qu.:4.000 3rd Qu.:3.000
## Max. :4.000 Max. :4.000
## Mjob Fjob reason guardian
## Length:395 Length:395 Length:395 Length:395
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## traveltime studytime failures schoolsup
## Min. :1.000 Min. :1.000 Min. :0.0000 Length:395
## 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:0.0000 Class :character
## Median :1.000 Median :2.000 Median :0.0000 Mode :character
## Mean :1.448 Mean :2.035 Mean :0.3342
## 3rd Qu.:2.000 3rd Qu.:2.000 3rd Qu.:0.0000
## Max. :4.000 Max. :4.000 Max. :3.0000
## famsup paid activities nursery
## Length:395 Length:395 Length:395 Length:395
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## higher internet romantic famrel
## Length:395 Length:395 Length:395 Min. :1.000
## Class :character Class :character Class :character 1st Qu.:4.000
## Mode :character Mode :character Mode :character Median :4.000
## Mean :3.944
## 3rd Qu.:5.000
## Max. :5.000
## freetime goout Dalc Walc
## Min. :1.000 Min. :1.000 Min. :1.000 Min. :1.000
## 1st Qu.:3.000 1st Qu.:2.000 1st Qu.:1.000 1st Qu.:1.000
## Median :3.000 Median :3.000 Median :1.000 Median :2.000
## Mean :3.235 Mean :3.109 Mean :1.481 Mean :2.291
## 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:2.000 3rd Qu.:3.000
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
## health absences G1 G2
## Min. :1.000 Min. : 0.000 Min. : 3.00 Min. : 0.00
## 1st Qu.:3.000 1st Qu.: 0.000 1st Qu.: 8.00 1st Qu.: 9.00
## Median :4.000 Median : 4.000 Median :11.00 Median :11.00
## Mean :3.554 Mean : 5.709 Mean :10.91 Mean :10.71
## 3rd Qu.:5.000 3rd Qu.: 8.000 3rd Qu.:13.00 3rd Qu.:13.00
## Max. :5.000 Max. :75.000 Max. :19.00 Max. :19.00
## G3
## Min. : 0.00
## 1st Qu.: 8.00
## Median :11.00
## Mean :10.42
## 3rd Qu.:14.00
## Max. :20.00
Maths$school<-as.factor(Maths$school)
Maths$sex<-as.factor(Maths$sex)
Maths$address<-as.factor(Maths$address)
Maths$famsize<-as.factor(Maths$famsize)
Maths$Pstatus<-as.factor(Maths$Pstatus)
Maths$Mjob<-as.factor(Maths$Mjob)
Maths$Fjob<-as.factor(Maths$Fjob)
Maths$reason<-as.factor(Maths$reason)
Maths$guardian<-as.factor(Maths$guardian)
Maths$schoolsup<-as.factor(Maths$schoolsup)
Maths$famsup<-as.factor(Maths$famsup)
Maths$paid<-as.factor(Maths$paid)
Maths$activities<-as.factor(Maths$activities)
Maths$nursery<-as.factor(Maths$nursery)
Maths$higher<-as.factor(Maths$higher)
Maths$internet<-as.factor(Maths$internet)
Maths$romantic<-as.factor(Maths$romantic)
escuela=Maths$school
sexo=Maths$sex
age=Maths$age
Direccion=Maths$address
familia=Maths$famsize
Pstatus=Maths$Pstatus
Medu=Maths$Medu
Federal=Maths$Fedu
Mjob=Maths$Mjob
Fojob=Maths$Fjob
razon=Maths$reason
guardian=Maths$guardian
traveltime=Maths$traveltime
studytime=Maths$studytime
fallas=Maths$failures
escuelas=Maths$schoolsup
famsup=Maths$famsup
pagado=Maths$paid
actividades=Maths$activities
guarderia=Maths$nursery
higher=Maths$higher
Internet=Maths$internet
romantico=Maths$romantic
familia=Maths$famrel
freetime=Maths$freetime
salir=Maths$goout
Dalc=Maths$Dalc
Walc=Maths$Walc
salud=Maths$health
ausencia=Maths$absences
Maths=data.frame(escuela,sexo,age,Direccion,familia,Pstatus,Medu,Federal,Mjob,Fojob,razon, guardian,traveltime,studytime,fallas,escuela,famsup,pagado,actividades,guarderia,higher,Internet,romantico,familia,freetime,salir,Dalc,Walc,salud,ausencia)
3.2.1 Analisis Descriptivo Variables Cuantitativas
summary(age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 15.0 16.0 17.0 16.7 18.0 22.0
summary(Medu)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 2.000 3.000 2.749 4.000 4.000
summary(Federal)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 2.000 2.000 2.522 3.000 4.000
summary(traveltime)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 1.000 1.448 2.000 4.000
summary(studytime)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 2.000 2.035 2.000 4.000
summary(fallas)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0000 0.3342 0.0000 3.0000
summary(familia)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 4.000 4.000 3.944 5.000 5.000
summary(freetime)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 3.000 3.000 3.235 4.000 5.000
summary(salir)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.000 3.000 3.109 4.000 5.000
summary(Dalc)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 1.000 1.481 2.000 5.000
summary(Walc)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 2.000 2.291 3.000 5.000
summary(salud)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 3.000 4.000 3.554 5.000 5.000
summary(ausencia)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 4.000 5.709 8.000 75.000
3.2.2 Analisis Descriptivo Variables Cualitativas
table(escuela)
## escuela
## GP MS
## 349 46
table(sexo)
## sexo
## F M
## 208 187
table(Direccion)
## Direccion
## R U
## 88 307
table(familia)
## familia
## 1 2 3 4 5
## 8 18 68 195 106
table(Pstatus)
## Pstatus
## A T
## 41 354
table(Mjob)
## Mjob
## at_home health other services teacher
## 59 34 141 103 58
table(Fojob)
## Fojob
## at_home health other services teacher
## 20 18 217 111 29
table(razon)
## razon
## course home other reputation
## 145 109 36 105
table(guardian)
## guardian
## father mother other
## 90 273 32
table(escuelas)
## escuelas
## no yes
## 344 51
table(famsup)
## famsup
## no yes
## 153 242
table(pagado)
## pagado
## no yes
## 214 181
table(actividades)
## actividades
## no yes
## 194 201
table(guarderia)
## guarderia
## no yes
## 81 314
table(higher)
## higher
## no yes
## 20 375
table(Internet)
## Internet
## no yes
## 66 329
table(romantico)
## romantico
## no yes
## 263 132
hist(age)
hist(Medu)
hist(Federal)
hist(traveltime)
hist(studytime)
hist(fallas)
hist(familia)
hist(freetime)
hist(salir)
hist(Dalc)
hist(Walc)
hist(salud)
hist(ausencia)
boxplot(age~salud, col = "red", main= "Box-plot para Años VS Condiciones de salud")
boxplot(age~fallas, col = "green", main= "Box-plot para Años VS fallas de clases")
boxplot(age~freetime, col = "purple", main= "Box-plot para Años VS tiempo libre")
boxplot(age~ausencia, col = "purple", main= "Box-plot para Años VS ausencia")
4. Estimación e interpretación de modelos estadísticos de regresión lineal simple para la variable respuesta elegida.
Modelo 0: Para el modelo de regresión lineal simple se tuvo en cuenta como variable de respuesta Y (la Edad de los estudiantes) y la variable Salud. Con un p-value = 0.2175, mayor de 0.05, no podemos rechazar la hipótesis nula. Por lo tanto, podemos concluir que nuestros datos cumplen el supuesto de normalidad. Por ende quiere decir que entre más Edad tienen los estudiantes va a decaer el estado de salud.
mod0=lm(age~salud)
summary(mod0)
##
## Call:
## lm(formula = age ~ salud)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.8420 -0.7849 0.1580 1.2151 5.1580
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.89908 0.17633 95.837 <2e-16 ***
## salud -0.05708 0.04621 -1.235 0.217
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.275 on 393 degrees of freedom
## Multiple R-squared: 0.003867, Adjusted R-squared: 0.001333
## F-statistic: 1.526 on 1 and 393 DF, p-value: 0.2175
mod1=lm(age~.,data = Maths) #summary(mod1) ```