R Markdown

dat = read.table("fev.txt",header=T)
dat$sex = factor(dat$sex,labels=c("Female","Male")) #pongo etiquetas al sexo

Apartado 1

Describe la variable fev. Compara gráfica y numéricamente la diferencia en la capacidad pulmonar (fev) de hombres y mujeres

tapply(dat$fev,dat$sex,mean) #calculo la media en función del sexo
##   Female     Male 
## 2.451170 2.812446
tapply(dat$fev,dat$sex,sd) #calculo la desviación típica en función del sexo
##   Female     Male 
## 0.645736 1.003598
boxplot(dat$fev~dat$sex,horizontal=T,
        col=c("lightpink","lightcyan1"),
        xlab = "FEV",
        ylab = "Sexo") #dibujo el blox plot en función del sexo

par(mfrow = c(2,1))
hom = dat$sex == "Male"
muj = dat$sex == "Female"

hist(dat$fev[hom], col = "turquoise",
     main = "Hombres",
     xlab = "Altura (cm) ")

hist(dat$fev[muj], col = "lightgoldenrod1",
     main = "Mujeres",
     xlab = "Altura (cm) ")

La media de la capacidad pulmonar de los hombres es mayor que la de las mujeres. Esto es debido a que los hombres suelen ser más altos que las mujeres y además su caja torácica también es Mayor.

Al analizar la desviación típica vemos que en las mujeres hay menos variabilidad que en los hombres,

Si realizamos el blox-plot lo podemos ver gráficamente

Apartado 2

Estudia la relación entre las variables ht, age y fev. Explica gráficamente las relaciones entre estas tres variables

cor(dat[,1:3])
##           age      fev        ht
## age 1.0000000 0.756459 0.7919436
## fev 0.7564590 1.000000 0.8681350
## ht  0.7919436 0.868135 1.0000000
pairs(dat[,1:3])

Para ver la relación entre las variables de altura, edad y capacidad pulmonar vamos a utilizar la matriz de correlaciones donde se puede observar que estas variables están bastante relacionadas entre sí, lo cual va a ser importante a la hora de estimar el modelo de regresión en los siguientes apartados.

Las que más están relacionadas son la capacidad pulmonar con la altura con un coeficiente de correlación de casi 0.87 Por otro lado la edad está relacionada con la altura con un coeficiente de correlación del 0.79 y finalmente la edad y la capacidad pulmonar tienen un coeficiente de correlación de casi 0.76

Apartado 3

Compara las tres variables fev, ht y age para fumadores y no fumadores. Utiliza gráficos y valores numéricos. Interpreta los resultados.

dat$smoke = factor(dat$smoke,labels=c("No fumador","Fumador"))
tapply(dat$fev,dat$smoke,mean)
## No fumador    Fumador 
##   2.566143   3.276862
tapply(dat$fev,dat$smoke,sd)
## No fumador    Fumador 
##  0.8505215  0.7499863
boxplot(dat$fev~dat$smoke,horizontal=T,
        col=c("seagreen1","gray47"),
        xlab = "FEV",
        ylab = "")

Al analizar la capacidad pulmonar en función de si se fuma o no, observamos que la capacidad pulmonar es mayor en los fumadores. Sin embargo, este resultado no es correcto porque estamos excluyendo las variables altura y edad, las cuales hemos visto en el apartado anterior que tienen una gran correlación con la capacidad pulmonar.

Pues los niños que empiezan a fumar suelen tener más años y al tener mayor edad tener mayor altura y por tanto su capacidad pulmonar está más desarrollada.

tapply(dat$ht,dat$smoke,mean)
## No fumador    Fumador 
##   60.61273   65.95385
tapply(dat$ht,dat$smoke,sd)
## No fumador    Fumador 
##   5.672432   3.192671
boxplot(dat$ht~dat$smoke,horizontal=T,
        col=c("salmon","snow3"),
        xlab = "Altura en pulgadas",
        ylab = "")

Si realizamos el blox-plot o simplemente comparamos las medias de la edad en función de si se fuma o no, se aprecia perfectamente que los fumadores tienen mayor edad que los no fumadores.

tapply(dat$age,dat$smoke,mean)
## No fumador    Fumador 
##   9.534805  13.523077
tapply(dat$age,dat$smoke,sd)
## No fumador    Fumador 
##   2.740642   2.339255
boxplot(dat$age~dat$smoke,horizontal=T,
        col=c("thistle1","slategray"),
        xlab = "Edad",
        ylab = "")

Igualmente, al hacer el blox-plot entre la altura en función de si se fuma o no, se ve que los fumadores son más altos que los no fumadores.

Por eso no se puede estudiar la capacidad pulmonar únicamente si se fuma o no, es necesario tener en cuenta el resto de variables, lo cual veremos en el apartado 5.

Apartado 4

a)

Estima e interpreta el modelo de regresión simple entre fev (variable respuesta) y ht (altura ) como regresor. Realiza la diagnosis del modelo.

m1 = lm (fev ~ ht, data = dat)
summary(m1)
## 
## Call:
## lm(formula = fev ~ ht, data = dat)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.75167 -0.26619 -0.00401  0.24474  2.11936 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -5.432679   0.181460  -29.94   <2e-16 ***
## ht           0.131976   0.002955   44.66   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4307 on 652 degrees of freedom
## Multiple R-squared:  0.7537, Adjusted R-squared:  0.7533 
## F-statistic:  1995 on 1 and 652 DF,  p-value: < 2.2e-16

El coeficiente que afecta a la altura (ht) vale 0.131976 (0.132 aprox) significa que al aumentar 1 pulgada de altura, la capacidad pulmonar aumenta un 13.2%. El p-valor es muy bajo, así que se puede decir que esta variable (altura) es muy significativa.

La desviación típica residual (residual standard error) es 0.4307 (unidades de fev) que significa que el modelo predice la capacidad pulmonar con un error de 0.4307 (unidades de fev).

El coeficiente de determinación (multiple R-squared) vale R^2=0.7537 y significa que este modelo explica un 75.37% de la variabilidad de la capacidad pulmonar.

dat$pred = predict(m1)
plot(dat$ht,dat$fev)
abline(m1,col="orange",lwd=2) #dibujo la recta de regresión

par(mfrow=c(2,2))
plot(m1) #diagnosis del modelo

par(mfrow=c(1,1))

Al hacer la diagnosis del modelo se puede observar en el gráfico de residuos frente a previstos una ligera falta de linealidad y heterocedasticidad.

En el gráfico Q-Q plot se observa varios puntos que no se ajustan en la recta luego no hay normalidad. Por eso vamos a probar a realizar una transformación logarítmica de la variable dependiente para ver si mejora el modelo.

b)

Estima el modelo otra vez utilizando log(fev) como variable respuesta. Realiza la diagnosis y comenta los resultados de la diagnosis.

m2 = lm (log(fev) ~ ht, data = dat)
summary(m2)
## 
## Call:
## lm(formula = log(fev) ~ ht, data = dat)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.70208 -0.08986  0.01190  0.09337  0.43174 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2.271312   0.063531  -35.75   <2e-16 ***
## ht           0.052119   0.001035   50.38   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1508 on 652 degrees of freedom
## Multiple R-squared:  0.7956, Adjusted R-squared:  0.7953 
## F-statistic:  2538 on 1 and 652 DF,  p-value: < 2.2e-16
plot(dat$ht,log(dat$fev))
abline(m2,col="green",lwd=2) #dibujo la recta de regresión

par(mfrow=c(2,2))
plot(m2) #diagnosis del modelo

par(mfrow=c(1,1))

Efectivamente al hacer la transformación logarítmica el modelo mejora significativamente. Si hacemos la diagnosis se ve claramente en el gráfico de residuos frente a previstos que hay linealidad y homocedasticidad.

Para comprobar la normalidad nos fijamos en el Q-Q plot donde se puede ver que salvo unos valores atípicos, se ajustan a la recta. Por tanto se puede dar como válido este modelo.

c)

Interpreta los coeficientes fundamentales del modelo estimado.

A la hora de interpretar este nuevo modelo se puede ver que el coeficiente que afecta a la altura (ht) vale 0.052119 (0.052 aprox) que significa que al aumentar una pulgada de altura el logaritmo de la capacidad pulmonar aumenta un 5.2%.

El p-valor sigue siendo bajo, por tanto se puede afirmar que la variable altura sigue siendo significativa.

La desviación típica residual es 0.1508 que quiere decir que el modelo precide el logaritmo de la capacidad pulmonar con un error de 0.1508 (unidades de fev).

El coeficiente de determinación vale R^2=0.7956 por tanto este modelo explica un 79.56% la variabilidad de la capacidad pulmonar, mucho más que con el modelo anterior.

Apartado 5

a)

Estima el modelo de regresión múltiple entre log(fev) y el resto de las variables.

Como hemos visto en el apartado 3, todas las variables están altamente relacionadas, por eso vamos a estimar un modelo de regresión múltiple donde se incluyan todas las variables.

dat$smoke = relevel(dat$smoke, ref = "No fumador")
dat$sex = relevel(dat$sex, ref = "Female")
m3 = lm (log(fev) ~ ht + age + sex + smoke, data = dat)
summary(m3)
## 
## Call:
## lm(formula = log(fev) ~ ht + age + sex + smoke, data = dat)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.63278 -0.08657  0.01146  0.09540  0.40701 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -1.943998   0.078639 -24.721  < 2e-16 ***
## ht            0.042796   0.001679  25.489  < 2e-16 ***
## age           0.023387   0.003348   6.984  7.1e-12 ***
## sexMale       0.029319   0.011719   2.502   0.0126 *  
## smokeFumador -0.046068   0.020910  -2.203   0.0279 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1455 on 649 degrees of freedom
## Multiple R-squared:  0.8106, Adjusted R-squared:  0.8095 
## F-statistic: 694.6 on 4 and 649 DF,  p-value: < 2.2e-16

b)

Realiza la diagnosis del modelo.

par(mfrow=c(2,2))
plot(m3) #diagnosis del modelo

par(mfrow=c(1,1))

En la diagnosis del modelo podemos observar que se cumplen las hipótesis de linealidad y de homocedasticidad. El Q-Q plot no muestra grandes desviaciones a la normnalidad. Se aprecian algunas observaciones atípicas, sin embargo, al eliminarlas los resultados no cambian sustancialmente.

c)

Interpreta el modelo obtenido.

Todos los coeficientes son significativamente distintos de cero.

A igualdad del resto de las variables, un aumento de 1 pulgada en la altura produce un incremento del logaritmo de la capacidad pulmonar del 4.2%.

A igualdad del resto de las variables, un aumento de 1 años en la edad produce un incremento del logaritmo de la capacidad pulmonar del 2.3%.

A igualdad del resto de las variables los hombres presentan un 2.9% más de capacidad pulmonar que las mujeres.

A igualdad del resto de las variables los fumadores tienen un 4.6% menos de capacidad pulmonar que los no fumadores.

La desviación típica residual es 0.1455 que significa que el modelo precide el logaritmo de la capacidad pulmonar con un error de 0.1455 (unidades).

El coeficiente de determinación vale R^2=0.8106 por tanto este modelo explica un 81.06% la variabilidad de la capacidad pulmonar, mucho mejor que los modelos anteriores.

Como conclusión, en este modelo donde se estudian todas las variables se puede ver que los fumadores tienen menos capacidad pulmonar. Por eso es necesario estimar el modelo de regresión múltiple y no quedarnos únicamente en el estudio de la media sin tener en cuenta el resto de variables como hacíamos en el apartado 3.