En el 1800s Galton estudió la relación las alturas de entre padres e hijos. En esta primera parte cargamos las librerias necesartias y revisamos los datos a analizar.
suppressMessages(library(UsingR))
suppressMessages(library(sjstats))
data(galton)
head(galton)
## child parent
## 1 61.7 70.5
## 2 61.7 68.5
## 3 61.7 65.5
## 4 61.7 64.5
## 5 61.7 64.0
## 6 62.2 67.5
Revisamos las observaciones y variables de los datos. Podemos utilizar ?galton para obtener una descripción funcional de los datos.
#summary; obtenemos un resumen estadÃstico
summary(galton)
## child parent
## Min. :61.70 Min. :64.00
## 1st Qu.:66.20 1st Qu.:67.50
## Median :68.20 Median :68.50
## Mean :68.09 Mean :68.31
## 3rd Qu.:70.20 3rd Qu.:69.50
## Max. :73.70 Max. :73.00
#para un resumen de la estructura: cantidad de observaciones, variables, y valores de cada variable
str(galton)
## 'data.frame': 928 obs. of 2 variables:
## $ child : num 61.7 61.7 61.7 61.7 61.7 62.2 62.2 62.2 62.2 62.2 ...
## $ parent: num 70.5 68.5 65.5 64.5 64 67.5 67.5 67.5 66.5 66.5 ...
Revisamos la relación mediante un gráfico de la estatura de los hijos respecto a los padres y dibujamos una linea de regresión, que es la que tiene menor distancia de todos los puntos “Least Square Errors”
plot(child ~ parent,galton)
plot(jitter(child,4) ~ parent,galton)
fit<- lm(child ~ parent,galton)
abline(fit, lwd=3, col='red')
Obtenemos los datos del modelo de regresión. ¿Cuál es la intercepción y la pendiente de la recta? ¿Cuál es el intervalo de confianza de la pendiente con un 95% de confianza? Calculamos la media de los valores residuales
#summary aplicado al modelo de la regresión lineal obtenemos los coeficientes, el std. error y R squared del modelo
summary(fit)
##
## Call:
## lm(formula = child ~ parent, data = galton)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.8050 -1.3661 0.0487 1.6339 5.9264
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.94153 2.81088 8.517 <2e-16 ***
## parent 0.64629 0.04114 15.711 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.239 on 926 degrees of freedom
## Multiple R-squared: 0.2105, Adjusted R-squared: 0.2096
## F-statistic: 246.8 on 1 and 926 DF, p-value: < 2.2e-16
#Para obtener los coeficientes y los intervalos de confianza
confint(fit)
## 2.5 % 97.5 %
## (Intercept) 18.4250996 29.4579608
## parent 0.5655602 0.7270209
#La media de los residuos tiende a 0.
mean(fit$residuals)
## [1] -2.359884e-15