library(ggplot2)
library(readxl)
library(ggpubr)
DatosTaller1_3 <- read_excel("DatosTaller1_3.xlsx")

Puede preguntarse si las personas de alturas similares tienden a casarse entre sí. Para este propósito, se seleccionó una muestra de parejas recién casadas. Deje que X sea la altura del esposo y que sea Y la altura de la esposa. Las alturas (en centímetros) de esposos y esposas se encuentran en la siguiente tabla.

a) Calcule la covarianza entre las alturas de los esposos y las esposas.

mediaH = mean(DatosTaller1_3$H)
mediaW = mean(DatosTaller1_3$W)
cov = sum((DatosTaller1_3$H - mediaH)*(DatosTaller1_3$W - mediaW))/(length(DatosTaller1_3$H)-1)
print(paste("la covarianza entre la altura de los hombres y mujeres es: ",round(cov,2)))
## [1] "la covarianza entre la altura de los hombres y mujeres es:  68.2"
cov(DatosTaller1_3$H,DatosTaller1_3$W,method="pearson")
## [1] 68.19814

b)¿CuÔl seria la covarianza si las alturas se midieran en pulgadas en lugar de centímetros?

Utilizando la siguiente propiedad de la covarianza:

\[COV(AX,BY)=ABCOV(X,Y) \] Donde A y B son constantes. Tenemos lo siguiente

\[COV(0.3937X,0.3937Y)=(0.3937)^2\times COV(X,Y)\]

\[0.155\times 68.2 = 10.57\]

Si la altura estĆ” en pulgadas, la covarianza serĆ­a 10.57.

c) Calcule el coeficiente de correlación entre las alturas del esposo y la esposa.

correlacion = cov/(sd(DatosTaller1_3$H)*sd(DatosTaller1_3$W))
cor(DatosTaller1_3$H,DatosTaller1_3$W)
## [1] 0.7594428

d) ¿CuÔl seria la correlación si las alturas se midieran en pulgadas en lugar de centímetros ?

\[Cor = \frac{S_{axay}}{S_{ax}S_{ay}}\] \[Cor= \frac{a^2S_{xy}}{a^2S_xS_y}\]

\[Cor= \frac{S_{xy}}{S_xS_y}=0.76\]

Esto se da porque la correlación es adimensional, sin importar si sé cambia el sistema de medida, siempre seguirÔ siendo la misma.

e) ¿CuÔl seria la correlación si cada hombre se casara con una mujer exactamente 5 centímetros mas baja que él?

\[cor=\frac{S_{xx-5}}{S_x\times S_{x-5}}\] Por propiedades \(Cov(X,X+A)=Cov(X,X)=Var(X)\) y \(Sd(X-A)=Sd(X)\) donde \(A\) es una constante, se tiene lo siguiente.

\[Cor = \frac{Var(x)}{Var(x)}=1\] f ) Deseamos ajustar un modelo de regresión que relacione las alturas de esposos y esposas. ¿CuÔl de las dos variables elegirías como variable de respuesta? Justifique su respuesta.

Dependiendo que queremos predecir, es decir si queremos predecir para que altura \(x\) de una mujer, que altura \(y\) tendrĆ­a el hombre con quien se casarĆ­a. En este caso la variable explicativa serĆ­a la altura de la mujer y la variable respuesta altura del hombre. En caso contrario, si queremos predecir para que altura de mujeres se casarĆ­a un hombre con \(x\) altura, la variable explicativa, serĆ­a la altura del hombre y respuesta la altura de la mujer.

g) Estime la recta de regresion estimada.

La ecuación de la línea reacta que relaciona la variable respuesta y explicadora es :

\[y=\beta _0 + \beta_1x\]

donde \(\beta_1\) es:

\[\widehat\beta_1 = \frac{\sum _{i=1}^n(x_1-\bar x)(y_1-\bar y)}{\sum _{i=1}^n(x_1-\bar x)^2}\]

b1 = (sum((DatosTaller1_3$H - mediaH)*(DatosTaller1_3$W - mediaW)))/(sum((DatosTaller1_3$H - mediaH)^2))
print(b1)
## [1] 0.6960123

y \(\widehat\beta_0\) estĆ” dado por:

\[\widehat\beta_0 = \bar y - \bar x\widehat\beta_1 \]

b0 = mediaW- (mediaH*b1)
print(b0)
## [1] 42.6397

Por consigiente, la recta estÔ dada por la siguiente fórmula

\[\widehat y = 42.63 + 0.696 X\]

regresion = lm(W ~ H,data = DatosTaller1_3)
summary(regresion)
## 
## Call:
## lm(formula = W ~ H, data = DatosTaller1_3)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -19.5299  -4.0058   0.7542   3.8642  11.0382 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  42.6397    10.7336   3.973 0.000139 ***
## H             0.6960     0.0615  11.318  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.933 on 94 degrees of freedom
## Multiple R-squared:  0.5768, Adjusted R-squared:  0.5723 
## F-statistic: 128.1 on 1 and 94 DF,  p-value: < 2.2e-16
ggplot(DatosTaller1_3,aes(H,W))+geom_smooth(method = "lm",se = F,)+geom_point()+
  ggtitle("Regresion Lineal")+xlab("Hombres")+ylab("Mujeres") + stat_regline_equation (etiqueta.H = 155, etiqueta.W = 180)
## Warning: Ignoring unknown parameters: etiqueta.H, etiqueta.W
## `geom_smooth()` using formula 'y ~ x'

Ejemplo, Juan tiene una altura de 173.5cm y desea conocer mediante el modelo de regresión lineal la altura de la mujer con quien se casara.

\[y= 43 + 0.7(173.5)\] \[y=164.4\]

De acuerdo a los resultados obtenidos, Juan se casara con una mujer que mida aprox 164.4 cm