library(ggplot2)
library(readxl)
library(ggpubr)
DatosTaller1_3 <- read_excel("DatosTaller1_3.xlsx")
Puede preguntarse si las personas de alturas similares tienden a casarse entre sĆ. Para este propósito, se seleccionó una muestra de parejas reciĆ©n casadas. Deje que X sea la altura del esposo y que sea Y la altura de la esposa. Las alturas (en centĆmetros) de esposos y esposas se encuentran en la siguiente tabla.
a) Calcule la covarianza entre las alturas de los esposos y las esposas.
mediaH = mean(DatosTaller1_3$H)
mediaW = mean(DatosTaller1_3$W)
cov = sum((DatosTaller1_3$H - mediaH)*(DatosTaller1_3$W - mediaW))/(length(DatosTaller1_3$H)-1)
print(paste("la covarianza entre la altura de los hombres y mujeres es: ",round(cov,2)))
## [1] "la covarianza entre la altura de los hombres y mujeres es: 68.2"
cov(DatosTaller1_3$H,DatosTaller1_3$W,method="pearson")
## [1] 68.19814
b)ĀæCuĆ”l seria la covarianza si las alturas se midieran en pulgadas en lugar de centĆmetros?
Utilizando la siguiente propiedad de la covarianza:
\[COV(AX,BY)=ABCOV(X,Y) \] Donde A y B son constantes. Tenemos lo siguiente
\[COV(0.3937X,0.3937Y)=(0.3937)^2\times COV(X,Y)\]
\[0.155\times 68.2 = 10.57\]
Si la altura estĆ” en pulgadas, la covarianza serĆa 10.57.
c) Calcule el coeficiente de correlación entre las alturas del esposo y la esposa.
correlacion = cov/(sd(DatosTaller1_3$H)*sd(DatosTaller1_3$W))
cor(DatosTaller1_3$H,DatosTaller1_3$W)
## [1] 0.7594428
d) ĀæCuĆ”l seria la correlación si las alturas se midieran en pulgadas en lugar de centĆmetros ?
\[Cor = \frac{S_{axay}}{S_{ax}S_{ay}}\] \[Cor= \frac{a^2S_{xy}}{a^2S_xS_y}\]
\[Cor= \frac{S_{xy}}{S_xS_y}=0.76\]
Esto se da porque la correlación es adimensional, sin importar si sé cambia el sistema de medida, siempre seguirÔ siendo la misma.
e) ĀæCuĆ”l seria la correlación si cada hombre se casara con una mujer exactamente 5 centĆmetros mas baja que Ć©l?
\[cor=\frac{S_{xx-5}}{S_x\times S_{x-5}}\] Por propiedades \(Cov(X,X+A)=Cov(X,X)=Var(X)\) y \(Sd(X-A)=Sd(X)\) donde \(A\) es una constante, se tiene lo siguiente.
\[Cor = \frac{Var(x)}{Var(x)}=1\] f ) Deseamos ajustar un modelo de regresión que relacione las alturas de esposos y esposas. ĀæCuĆ”l de las dos variables elegirĆas como variable de respuesta? Justifique su respuesta.
Dependiendo que queremos predecir, es decir si queremos predecir para que altura \(x\) de una mujer, que altura \(y\) tendrĆa el hombre con quien se casarĆa. En este caso la variable explicativa serĆa la altura de la mujer y la variable respuesta altura del hombre. En caso contrario, si queremos predecir para que altura de mujeres se casarĆa un hombre con \(x\) altura, la variable explicativa, serĆa la altura del hombre y respuesta la altura de la mujer.
g) Estime la recta de regresion estimada.
La ecuación de la lĆnea reacta que relaciona la variable respuesta y explicadora es :
\[y=\beta _0 + \beta_1x\]
donde \(\beta_1\) es:
\[\widehat\beta_1 = \frac{\sum _{i=1}^n(x_1-\bar x)(y_1-\bar y)}{\sum _{i=1}^n(x_1-\bar x)^2}\]
b1 = (sum((DatosTaller1_3$H - mediaH)*(DatosTaller1_3$W - mediaW)))/(sum((DatosTaller1_3$H - mediaH)^2))
print(b1)
## [1] 0.6960123
y \(\widehat\beta_0\) estĆ” dado por:
\[\widehat\beta_0 = \bar y - \bar x\widehat\beta_1 \]
b0 = mediaW- (mediaH*b1)
print(b0)
## [1] 42.6397
Por consigiente, la recta estÔ dada por la siguiente fórmula
\[\widehat y = 42.63 + 0.696 X\]
regresion = lm(W ~ H,data = DatosTaller1_3)
summary(regresion)
##
## Call:
## lm(formula = W ~ H, data = DatosTaller1_3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.5299 -4.0058 0.7542 3.8642 11.0382
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 42.6397 10.7336 3.973 0.000139 ***
## H 0.6960 0.0615 11.318 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.933 on 94 degrees of freedom
## Multiple R-squared: 0.5768, Adjusted R-squared: 0.5723
## F-statistic: 128.1 on 1 and 94 DF, p-value: < 2.2e-16
ggplot(DatosTaller1_3,aes(H,W))+geom_smooth(method = "lm",se = F,)+geom_point()+
ggtitle("Regresion Lineal")+xlab("Hombres")+ylab("Mujeres") + stat_regline_equation (etiqueta.H = 155, etiqueta.W = 180)
## Warning: Ignoring unknown parameters: etiqueta.H, etiqueta.W
## `geom_smooth()` using formula 'y ~ x'
Ejemplo, Juan tiene una altura de 173.5cm y desea conocer mediante el modelo de regresión lineal la altura de la mujer con quien se casara.
\[y= 43 + 0.7(173.5)\] \[y=164.4\]
De acuerdo a los resultados obtenidos, Juan se casara con una mujer que mida aprox 164.4 cm