#Análisis de la base de datos de Galton

#Se trabajará con la base de datos que Francis Galton elaboró en 1885 para comparar la estatura de padres e hijos. Las variables son: #Family: la familia a la que el hij@ pertenece y que va de la 1 a la 204 y 136A #Father: Estatura del padre en pulgadas #Mother: Estatura de la madre en pulgadas #Gender: Género del hijo #Height: Estatura del hijo #Kids: Número de hijos en la familia del hijo

1.- ¿Cuál es la característica de la base de datos?

library(dplyr)
## Warning: package 'dplyr' was built under R version 3.6.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.6.3
Galton <- read.delim("C:/Users/Investigador/iCloudDrive/R/Galton.txt")
str(Galton)
## 'data.frame':    898 obs. of  6 variables:
##  $ Family: Factor w/ 197 levels "1","10","100",..: 1 1 1 1 108 108 108 108 123 123 ...
##  $ Father: num  78.5 78.5 78.5 78.5 75.5 75.5 75.5 75.5 75 75 ...
##  $ Mother: num  67 67 67 67 66.5 66.5 66.5 66.5 64 64 ...
##  $ Gender: Factor w/ 2 levels "F","M": 2 1 1 1 2 2 1 1 2 1 ...
##  $ Height: num  73.2 69.2 69 69 73.5 72.5 65.5 65.5 71 68 ...
##  $ Kids  : int  4 4 4 4 4 4 4 4 2 2 ...
#R1.-se trata de una base de datos con seis variables y 898 observaciones. Tres de ellas numéricas.

#2.- ¿Cuál es la equivalencia pulgadas centímetros y cómo se vería en un histograma comparativo?

galtoncm<-mutate(Galton,Padre=Father*2.54,Madre=Mother*2.54,Hijo=Height*2.54)
View(galtoncm)
par(mfrow=c(2,3))
hist(galtoncm$Father)
hist(galtoncm$Mother)
hist(galtoncm$Height)
hist(galtoncm$Padre)
hist(galtoncm$Madre)
hist(galtoncm$Hijo)

#R2.- Como se puede apreciar en la gráfica de histogramas, la estatura más frecuente en los padres es de casi 70 pulgadas equivalente a cerca de un metro 77 centímetros; en la mama es de 65 pulgadas equivalente a un metro 65 centímetros y en los hijo de 65 pulgadas a un metro 65 centímetros

3.- ¿Cuál es el género de los hijos conforme aumenta el número de hijos en las familias?

ggplot(data=Galton)+geom_bar(mapping = aes(x=Kids,fill=Gender),position = "fill")

#R3.-En el gráfico se observa que a partir de 2 hijos y hasta 4, el número de niños supera al número de niñas. A partir de los 5 hijos en adelante, predominan más el nacimiento de niñas que de niños, llegando a su máximo cuando las familias tienen 10 hijos. 

#4.- ¿Cuál es la estatura más frecuente en los hijos por género? #5.-¿Con quién se correlaciona más la estatura del hijo? #6.- ¿Qué podemos decir de la confiabilidad del modelo?

ggplot(Galton,aes(x=Height,fill=Gender))+geom_histogram(bindwidth=1)
## Warning: Ignoring unknown parameters: bindwidth
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

fit<-lm(Hijo~Padre+Madre,data = galtoncm)
summary(fit)
## 
## Call:
## lm(formula = Hijo ~ Padre + Madre, data = galtoncm)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -23.2043  -6.8585  -0.4597   7.0318  29.6890 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 56.66665   10.93952   5.180 2.74e-07 ***
## Padre        0.37990    0.04589   8.278 4.52e-16 ***
## Madre        0.28321    0.04914   5.764 1.13e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.6 on 895 degrees of freedom
## Multiple R-squared:  0.1089, Adjusted R-squared:  0.1069 
## F-statistic: 54.69 on 2 and 895 DF,  p-value: < 2.2e-16
par(mfrow=c(1,1))
plot(resid(fit))
abline(h=0)

#R4.-como se puede observar, la estatura de las hijas oscila entre 1.50 cm y 1.70 cm, aunque se pueden distinguir hijos en ese rango. Entre los hijos, el rango es de 1.65 a 1.85 cm.
#R5.-El modelo advierte que por cada unidad que aumente la estatura del padre, la del hijo se incrementará en promedio en 0.37 unidades, mientras que en el caso de la mama, el incremento promedio será de 0.28 unidades. Es decir, la estatura del hijo se asocia mayormente a la del padre.
#R6.-El modelo es robusto ya que los residuales aparecen esparcidos en torno a cero de manera uniforme.