Francis Galton
Francis Galton(Galton 1886) nació en el Reino Unido el 16 de febrero de 1822. Fue el primero en advertir la regresión a la media en diferentes experimentos. Sus hallazgos han inspirado el trabajo de diversos especialistas(Watson and Galton 1875).
Familia | Padre | Madre | Género | Estatura | Hijo |
---|---|---|---|---|---|
1 | 78.5 | 67.0 | M | 73.2 | 4 |
1 | 78.5 | 67.0 | F | 69.2 | 4 |
1 | 78.5 | 67.0 | F | 69.0 | 4 |
1 | 78.5 | 67.0 | F | 69.0 | 4 |
2 | 75.5 | 66.5 | M | 73.5 | 4 |
2 | 75.5 | 66.5 | M | 72.5 | 4 |
La base de datos contiene 890 observaciones con 6 variables: Familia: número de familia; Padre: estatura del padre en pulgadas; Madre: estatura del padre en pulgadas, Género: Masculino o Femenino, Estatura: estarura de los hijos e Hijos: número de hijos por familia.
Si filtramos las columnas que contienen cifras, vemos que existe un correlación de Pearson de 0.07 entre la estatura del padre y de la madre. La correlación entre la estatura del padre y la del hijo es de 0.28, mientras que la que hay entre la madre y los hijos de 0.20.
La equivalencia en centímetros así como los histogramas corresponidientes aparecen como sigue
Padre | Madre | Estatura de los hijos | |
---|---|---|---|
Min. :157.5 | Min. :147.3 | Min. :142.2 | |
1st Qu.:172.7 | 1st Qu.:160.0 | 1st Qu.:162.6 | |
Median :175.3 | Median :162.6 | Median :168.9 | |
Mean :175.9 | Mean :162.8 | Mean :169.6 | |
3rd Qu.:180.3 | 3rd Qu.:166.4 | 3rd Qu.:177.0 | |
Max. :199.4 | Max. :179.1 | Max. :200.7 |
El promedio de la estatura del padre es de 1.75 cm, de la madre, 1.60 y de los hijos 1.68 cm
##
## Call:
## lm(formula = Estatura ~ Padre, data = Galton)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.2604 -2.6606 -0.2505 2.6397 11.9392
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 39.04584 3.23028 12.087 <2e-16 ***
## Padre 0.40021 0.04662 8.584 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.448 on 888 degrees of freedom
## Multiple R-squared: 0.07662, Adjusted R-squared: 0.07558
## F-statistic: 73.68 on 1 and 888 DF, p-value: < 2.2e-16
Como podemos observar por cada pulgada que la estatura del padre se incremente, la del hijo lo hace en 0.40 puladas. La gráfica muestra la pendiente.
##
## Call:
## lm(formula = Estatura ~ Madre, data = Galton)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.5455 -2.6068 -0.1068 2.8705 11.9545
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 46.7079 3.2634 14.313 < 2e-16 ***
## Madre 0.3129 0.0509 6.147 1.19e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.514 on 888 degrees of freedom
## Multiple R-squared: 0.04082, Adjusted R-squared: 0.03974
## F-statistic: 37.79 on 1 and 888 DF, p-value: 1.189e-09
Para el caso de la madre, la correlación muestra que por cada pulgada que la estatura de la madre se incremente, la del hijo lo hará en promedio en 0.31
e<-lm(Estatura~Padre+Madre,data=Galton)
summary(e)
##
## Call:
## lm(formula = Estatura ~ Padre + Madre, data = Galton)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.1337 -2.6956 -0.1822 2.7731 11.6933
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 22.31647 4.30906 5.179 2.76e-07 ***
## Padre 0.38049 0.04594 8.283 4.40e-16 ***
## Madre 0.28240 0.04920 5.740 1.30e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.388 on 887 degrees of freedom
## Multiple R-squared: 0.1097, Adjusted R-squared: 0.1077
## F-statistic: 54.64 on 2 and 887 DF, p-value: < 2.2e-16
plot(resid(e))
abline(h=0,col="red",lwd=4)
El resultado del modelo de regresión multiple muestra que por cada pulgada que la estatura del padre aumenta, la del hijo se incrementará en promedio en 0.38, mientras que en el caso de la madre, en 0.28 pulgadas. Así mismo, la gráfica de los residuales, acusa una distribución homogenea de los datos en torno a cero, lo cual es indicio de que el modelo es robusto.
## Response variable: numerical, Explanatory variable: categorical (2 levels)
## n_M = 460, y_bar_M = 69.2261, s_M = 2.6408
## n_F = 430, y_bar_F = 64.1144, s_F = 2.3778
## 95% CI (M - F): (4.781 , 5.4424)
## Response variable: numerical, Explanatory variable: categorical (2 levels)
## n_M = 460, y_bar_M = 175.8343, s_M = 6.7075
## n_F = 430, y_bar_F = 162.8506, s_F = 6.0396
## 95% CI (M - F): (12.1437 , 13.8236)
El análisis nos señala que entre la estatura de los hijos varones y la de las mujeres existe una diferencia de entre 4.7 y 5.4 pulgadas, hecho que se evidencia análogamente con la gráfica. En este mismo tenor aparecen los datos y el gráfico en centimentros. Así, la diferencia es de 12.14 cm y 13.8 cm)
## Response variable: numerical, Explanatory variable: categorical (2 levels)
## n_M = 460, y_bar_M = 69.2261, s_M = 2.6408
## n_F = 430, y_bar_F = 64.1144, s_F = 2.3778
## 95% CI (M - F): (4.781 , 5.4424)
## Response variable: numerical
## Explanatory variable: categorical (2 levels)
## n_F = 430, y_bar_F = 64.1144, s_F = 2.3778
## n_M = 460, y_bar_M = 69.2261, s_M = 2.6408
## H0: mu_F = mu_M
## HA: mu_F != mu_M
## t = -30.3811, df = 429
## p_value = < 0.0001
Suponiendo que se formulan dos hipótesis:
Mediante los cálculos, se rechaza la hipótesis nula, ya que la p-value probó tener un valor menor a 0.05. En la gráfica, la linea vertical cae en la región de rechazo.
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
La gráfica muestra que a partir de las 70 pulgadas la estatura de los
padres influye más en la estatura de la hijas vs la de los hijos
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
La gráfica muestra que a partir de las 64 pulgadas, la estatura de la
madre influye más en la estatura de los hijos que de las hijas
El histograma muestra que hijos que miden menos de 65 pulgadas son en su
mayoría mujeres. Ma de 65 son hombres. Aquellos que tiene una estatura
de 66 pulgadas son casi 50% hombres y 50% mujeres.