Modelos de regresión Galton 1

En el 1800s Galton estudió la relación las alturas de entre padres e hijos. En esta primera parte cargamos las librerias necesartias y revisamos los datos a analizar.

suppressMessages(library(UsingR))
suppressMessages(library(sjstats))
data(galton)
head(galton)
##   child parent
## 1  61.7   70.5
## 2  61.7   68.5
## 3  61.7   65.5
## 4  61.7   64.5
## 5  61.7   64.0
## 6  62.2   67.5

Modelos de regresión Galton 2

Revisamos las observaciones y variables de los datos. Podemos utilizar ?galton para obtener una descripción funcional de los datos.

#summary; obtenemos un resumen estadístico
summary(galton)
##      child           parent     
##  Min.   :61.70   Min.   :64.00  
##  1st Qu.:66.20   1st Qu.:67.50  
##  Median :68.20   Median :68.50  
##  Mean   :68.09   Mean   :68.31  
##  3rd Qu.:70.20   3rd Qu.:69.50  
##  Max.   :73.70   Max.   :73.00
#para un resumen de la estructura: cantidad de observaciones, variables, y valores de cada variable
str(galton)
## 'data.frame':    928 obs. of  2 variables:
##  $ child : num  61.7 61.7 61.7 61.7 61.7 62.2 62.2 62.2 62.2 62.2 ...
##  $ parent: num  70.5 68.5 65.5 64.5 64 67.5 67.5 67.5 66.5 66.5 ...

Modelos de regresión Galton 3

Revisamos la relación mediante un gráfico de la estatura de los hijos respecto a los padres y dibujamos una linea de regresión, que es la que tiene menor distancia de todos los puntos “Least Square Errors”

plot(child ~ parent,galton)

plot(jitter(child,4) ~ parent,galton)
fit<- lm(child ~ parent,galton)
abline(fit, lwd=3, col='red')

Modelos de regresión Galton 4

Obtenemos los datos del modelo de regresión. ¿Cuál es la intercepción y la pendiente de la recta? ¿Cuál es el intervalo de confianza de la pendiente con un 95% de confianza? Calculamos la media de los valores residuales

#summary aplicado al modelo de la regresión lineal obtenemos los coeficientes, el std. error y R squared del modelo
summary(fit)
## 
## Call:
## lm(formula = child ~ parent, data = galton)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.8050 -1.3661  0.0487  1.6339  5.9264 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 23.94153    2.81088   8.517   <2e-16 ***
## parent       0.64629    0.04114  15.711   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.239 on 926 degrees of freedom
## Multiple R-squared:  0.2105, Adjusted R-squared:  0.2096 
## F-statistic: 246.8 on 1 and 926 DF,  p-value: < 2.2e-16
#Para obtener los coeficientes y los intervalos de confianza
confint(fit)
##                  2.5 %     97.5 %
## (Intercept) 18.4250996 29.4579608
## parent       0.5655602  0.7270209
#La media de los residuos tiende a 0.
mean(fit$residuals)
## [1] -2.359884e-15