Francis Galton

Estaturas, mediciones y diferencias

Francis Galton(Galton 1886) nació en el Reino Unido el 16 de febrero de 1822. Fue el primero en advertir la regresión a la media en diferentes experimentos. Sus hallazgos han inspirado el trabajo de diversos especialistas(Watson and Galton 1875).

Resumen
Familia Padre Madre Género Estatura Hijo
1 78.5 67.0 M 73.2 4
1 78.5 67.0 F 69.2 4
1 78.5 67.0 F 69.0 4
1 78.5 67.0 F 69.0 4
2 75.5 66.5 M 73.5 4
2 75.5 66.5 M 72.5 4

La base de datos contiene 890 observaciones con 6 variables: Familia: número de familia; Padre: estatura del padre en pulgadas; Madre: estatura del padre en pulgadas, Género: Masculino o Femenino, Estatura: estarura de los hijos e Hijos: número de hijos por familia.

Si filtramos las columnas que contienen cifras, vemos que existe un correlación de Pearson de 0.07 entre la estatura del padre y de la madre. La correlación entre la estatura del padre y la del hijo es de 0.28, mientras que la que hay entre la madre y los hijos de 0.20.

Equivalencia en centímetros

La equivalencia en centímetros así como los histogramas corresponidientes aparecen como sigue

Equivalencias en cm
Padre Madre Estatura de los hijos
Min. :157.5 Min. :147.3 Min. :142.2
1st Qu.:172.7 1st Qu.:160.0 1st Qu.:162.6
Median :175.3 Median :162.6 Median :168.9
Mean :175.9 Mean :162.8 Mean :169.6
3rd Qu.:180.3 3rd Qu.:166.4 3rd Qu.:177.0
Max. :199.4 Max. :179.1 Max. :200.7

El promedio de la estatura del padre es de 1.75 cm, de la madre, 1.60 y de los hijos 1.68 cm

Correlaciones

## 
## Call:
## lm(formula = Estatura ~ Padre, data = Galton)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10.2604  -2.6606  -0.2505   2.6397  11.9392 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 39.04584    3.23028  12.087   <2e-16 ***
## Padre        0.40021    0.04662   8.584   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.448 on 888 degrees of freedom
## Multiple R-squared:  0.07662,    Adjusted R-squared:  0.07558 
## F-statistic: 73.68 on 1 and 888 DF,  p-value: < 2.2e-16

Como podemos observar por cada pulgada que la estatura del padre se incremente, la del hijo lo hace en 0.40 puladas. La gráfica muestra la pendiente.

## 
## Call:
## lm(formula = Estatura ~ Madre, data = Galton)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.5455 -2.6068 -0.1068  2.8705 11.9545 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  46.7079     3.2634  14.313  < 2e-16 ***
## Madre         0.3129     0.0509   6.147 1.19e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.514 on 888 degrees of freedom
## Multiple R-squared:  0.04082,    Adjusted R-squared:  0.03974 
## F-statistic: 37.79 on 1 and 888 DF,  p-value: 1.189e-09

Para el caso de la madre, la correlación muestra que por cada pulgada que la estatura de la madre se incremente, la del hijo lo hará en promedio en 0.31

Regresión multiple y residuales

e<-lm(Estatura~Padre+Madre,data=Galton)
summary(e)
## 
## Call:
## lm(formula = Estatura ~ Padre + Madre, data = Galton)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.1337 -2.6956 -0.1822  2.7731 11.6933 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 22.31647    4.30906   5.179 2.76e-07 ***
## Padre        0.38049    0.04594   8.283 4.40e-16 ***
## Madre        0.28240    0.04920   5.740 1.30e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.388 on 887 degrees of freedom
## Multiple R-squared:  0.1097, Adjusted R-squared:  0.1077 
## F-statistic: 54.64 on 2 and 887 DF,  p-value: < 2.2e-16
plot(resid(e))
abline(h=0,col="red",lwd=4)

El resultado del modelo de regresión multiple muestra que por cada pulgada que la estatura del padre aumenta, la del hijo se incrementará en promedio en 0.38, mientras que en el caso de la madre, en 0.28 pulgadas. Así mismo, la gráfica de los residuales, acusa una distribución homogenea de los datos en torno a cero, lo cual es indicio de que el modelo es robusto.

Intervalo de confianza

## Response variable: numerical, Explanatory variable: categorical (2 levels)
## n_M = 460, y_bar_M = 69.2261, s_M = 2.6408
## n_F = 430, y_bar_F = 64.1144, s_F = 2.3778
## 95% CI (M - F): (4.781 , 5.4424)

## Response variable: numerical, Explanatory variable: categorical (2 levels)
## n_M = 460, y_bar_M = 175.8343, s_M = 6.7075
## n_F = 430, y_bar_F = 162.8506, s_F = 6.0396
## 95% CI (M - F): (12.1437 , 13.8236)

El análisis nos señala que entre la estatura de los hijos varones y la de las mujeres existe una diferencia de entre 4.7 y 5.4 pulgadas, hecho que se evidencia análogamente con la gráfica. En este mismo tenor aparecen los datos y el gráfico en centimentros. Así, la diferencia es de 12.14 cm y 13.8 cm)

Pruebas de hipótesis

## Response variable: numerical, Explanatory variable: categorical (2 levels)
## n_M = 460, y_bar_M = 69.2261, s_M = 2.6408
## n_F = 430, y_bar_F = 64.1144, s_F = 2.3778
## 95% CI (M - F): (4.781 , 5.4424)

## Response variable: numerical
## Explanatory variable: categorical (2 levels) 
## n_F = 430, y_bar_F = 64.1144, s_F = 2.3778
## n_M = 460, y_bar_M = 69.2261, s_M = 2.6408
## H0: mu_F =  mu_M
## HA: mu_F != mu_M
## t = -30.3811, df = 429
## p_value = < 0.0001

Suponiendo que se formulan dos hipótesis:

  • Ho: La estatura de los hijos hombres = hijas mujeres
  • Ha: La estatura de los hijos hombres != hijas mujeres

Mediante los cálculos, se rechaza la hipótesis nula, ya que la p-value probó tener un valor menor a 0.05. En la gráfica, la linea vertical cae en la región de rechazo.

Influencia de la estatura de los padres en los hijos

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

La gráfica muestra que a partir de las 70 pulgadas la estatura de los padres influye más en la estatura de la hijas vs la de los hijos

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

La gráfica muestra que a partir de las 64 pulgadas, la estatura de la madre influye más en la estatura de los hijos que de las hijas

Histograma

El histograma muestra que hijos que miden menos de 65 pulgadas son en su mayoría mujeres. Ma de 65 son hombres. Aquellos que tiene una estatura de 66 pulgadas son casi 50% hombres y 50% mujeres.

Conclusiones

  • Los padres influyen en general más en la estatura de los hijos que las mamás
  • Existe una diferencia entre la estatura de los hijos varones y mujeres que oscila entre 4.8 y 5.4 pulgadas o de entre 12.14 y 13 cm
  • A partir de las 70 pulgadas, los padres influyen mas en la estatura de las hijas
  • A partir de las 65 pulgadas, las madres influyen más en la estatura de las hijos.

Referencias

Galton, Francis. 1886. “Regression Towards Mediocrity in Hereditary Stature.” The Journal of the Anthropological Institute of Great Britain and Ireland 15: 246. https://doi.org/10.2307/2841583.
Watson, H. W., and Francis Galton. 1875. “On the Probability of the Extinction of Families.” The Journal of the Anthropological Institute of Great Britain and Ireland 4: 138. https://doi.org/10.2307/2841222.