Cree una semilla con los ̇últimos dígitos de las cédulas de los integrantes del grupo, obtenga una muestra de 50 individuos hombres y 50 individuos mujeres con las variables arriba mencionadas.
datos.d <- Medidas_del_cuerpo
muestra1 <- datos.d[datos.d$X25=="1", ]
datos.hombres <- muestra1[sample(nrow(muestra1), size=50),1:8]
muestra2 <- datos.d[datos.d$X25=="0", ]
datos.mujeres <- muestra2[sample(nrow(muestra2), size=50),1:8]
tabla.def <- rbind(datos.hombres, datos.mujeres)
a. Construya intervalos de confianza del 90% para el promedio de las 3 primeras variables. Escriba la interpretación en el contexto de cada caso.
variables <- tabla.def[,1:3]
promedios <- colMeans(variables)
intervalo_confianza <- t.test(promedios, conf.level = 0.90)$conf.int
intervalo_confianza
## [1] 7.145834 21.072166
## attr(,"conf.level")
## [1] 0.9
b. Construya un intervalo de confianza del 99% para la proporción de las mujeres que miden menos de 165 cm. Interprete.
datos.mujeres1 <- subset(tabla.def, X25 == "0" & X24 < 165)
proporcion <- sum(datos.mujeres1$X24 < 165) / nrow(datos.mujeres1)
int.confi <- prop.test(sum(datos.mujeres1$X24 < 165), nrow(datos.mujeres1), conf.level = 0.99)$conf.int
int.confi
## [1] 0.7599728 1.0000000
## attr(,"conf.level")
## [1] 0.99
c. Construya un intervalo del 95% para la diferencia de promedios de la circunferencia abdominal entre hombres y mujeres. Interprete.
circunferencia_hombres <- datos.hombres$X13
circunferencia_mujeres <- datos.mujeres$X13
resultado <- t.test(circunferencia_hombres, circunferencia_mujeres)
intervalo_1 <- resultado$conf.int
intervalo_1
## [1] -0.7376864 6.8736864
## attr(,"conf.level")
## [1] 0.95
A partir del resultado obtenido se puede concluir, con un intervalo del 95 %, que la diferencia de promedios de la circunferencia abdominal de los hombres y mujeres de la muestra de total de los 100 individuos tomados al azar está entre -0,73768 y 6.87368 cm.
d. Construya un intervalo del 95% para la diferencia de promedios de las rodillas entre hombres y mujeres. Interprete.
rodillas_hombres <- datos.hombres$X8
rodillas_mujeres <- datos.mujeres$X8
resultado <- t.test(rodillas_hombres, rodillas_mujeres,
var.equal = TRUE)
intervalo_2 <- resultado$conf.int
intervalo_2
## [1] 0.8854478 1.7065522
## attr(,"conf.level")
## [1] 0.95
A partir del resultado obtenido se puede concluir, con un intervalo del 95 %, que la diferencia de promedios de las rodillas de los hombres y mujeres de la muestra de total de los 100 individuos tomados al azar está entre 0,88544 y 1,70655 cm.
e. Construya intervalos de confianza del 90% para la varianza poblacional de la circunferencia del muslo para las mujeres.
c_muslo_mujeres <- datos.mujeres$X15
grado_libertad <- length(c_muslo_mujeres) - 1
valor_critico_inf <- qchisq(0.05, df = grado_libertad)
valor_critico_sup <- qchisq(0.95, df = grado_libertad)
intervalo_confianza3 <- (grado_libertad * var(c_muslo_mujeres)) / c(valor_critico_sup, valor_critico_inf)
intervalo_confianza3
## [1] 24.02069 46.96392
A partir del resultado obtenido se puede concluir, con un nivel de confianza del 90 %, para la varianza poblacional de la circunferencia del muslo de las mujeres tomando como base la muestra de las 50 mujeres tomadas al azar está entre 24,02069 y 46,96392 cm.
require(car)
a. Elabore una prueba de hipótesis con α= 0:05 para
probar si la media de la variable X6 es diferente de 13 cm.
H0 X == 13
H1. X = 13
Para realizar la prueba de hipótesis
respecto a la variable X6 la cual corresponde al Diámetro del codo, suma
de dos codos en cm, se inició realizando la prueba de normalidad, para
ello se construyó un QQplot con bandas de confianza mediante el cual se
pudo observar que como los puntos del QQplot están dentro de las bandas
es posible aceptar que las medidas tomadas provienen de una población
normal.
qqPlot(tabla.def$X6, pch=20, ylab='Diametro de codo (cm)',
main='QQplot Diametro de codo, suma de codos en cm')
## [1] 89 60
Después de esto se realizó la prueba de hipótesis mediante la
cual se calculo el estadístico y su valor-P, el cual tuvo un valor de
0.9899804 y como es mayor que el nivel de significancia 0.05, no hay
evidencias suficientes para rechazar la hipótesis nula
b. Elabore una prueba de hipótesis con α= 0:01 para
probar si la media de la variable X15 es mayor de 55 cm.
H0 X>55
H1 X<=55
Como en el caso anterior se inició realizando la
prueba de normalidad mediante le diagrama QQplot, en el cual se observó
nuevamente que las medidas tomadas provienen de una población
normal.
require(car)
qqPlot(tabla.def$X15, pch=20, ylab='Circunferencia de muslo (cm)',
main='QQplot de circunferencia de muslo en cm')
## [1] 69 88
xbarra <- mean(tabla.def$X15) # Datos del problema
desvia <- sd(tabla.def$X15) # Datos del problema
n <- 100 # Datos del problema
mu <- 55 # Media de referencia
est <- (xbarra - mu) / (desvia / sqrt(n))
est # Para obtener el valor del estadístico
## [1] 3.118859
pnorm(est) # Para obtener el valor-P
## [1] 0.9990922
Posterior a esto se realizó la prueba de hipótesis la cual dio
como resultado un valor-P de 0.9990922 el cual es mayor que el nivel de
significancia 0.01, lo que indica entonces que no hay evidencias
suficientes para rechazar la hipótesis nula.
c. Elabore una prueba de hipótesis con α= 0:10 para
probar si la los promedios de la variable X7 en hombres y mujeres son
iguales.
H0 : μ1-μ2 =0
H1 : μ1-μ2 =/=0
Para realizar esta
prueba de hipótesis se inició igualmente realizando la prueba de
normalidad haciendo uso de el QQplot, mediante el cual se observa que
los puntos están bastante alineados lo cual permite observar que las
muestras si provienen de una población normal.
q1_c <- qqnorm(datos.hombres$X7, plot.it=FALSE)
q2_c <- qqnorm(datos.mujeres$X7, plot.it=FALSE)
plot(range(q1_c$x, q2_c$x), range(q1_c$y, q2_c$y), type="n", las=1,
xlab='Theoretical Quantiles', ylab='Sample Quantiles')
points(q1_c, pch=19)
points(q2_c, col="red", pch=19)
qqline(datos.hombres$X7, lty='dashed')
qqline(datos.mujeres$X7, col="red", lty="dashed")
legend('topleft', legend=c('Hombres', 'Mujeres'), bty='n',
col=c('black', 'red'), pch=19)
#Se puede observar una distribución normal
#H0: u1-u2 =0
#H1: u1-u2 =/=0
hombresX7 <- mean(datos.hombres$X7)
mujeresX7 <- mean(datos.mujeres$X7)
varianzahombresx7 <- var(datos.hombres$X7)
varianzamujeresx7 <- var(datos.mujeres$X7)
datos <- data.frame(Medidasx7=c(datos.hombres$X7,datos.mujeres$X7),
sexo=rep(c('Hombres', 'Mujeres'), each=10))
En segundo lugar se construyó un boxplot comparativo en el cual es posible observar una similitud en las medidas poblacionales analizadas.
boxplot(Medidasx7 ~ sexo, data=datos, las=1,
xlab='Sexo', ylab='Diámetro de muñeca.')
t.test(x=datos.hombres$X7, y=datos.mujeres$X7, alternative="two.sided", mu=0,
paired=FALSE, var.equal=FALSE, conf.level=0.90)
##
## Welch Two Sample t-test
##
## data: datos.hombres$X7 and datos.mujeres$X7
## t = 10.544, df = 96.823, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 90 percent confidence interval:
## 1.206446 1.657554
## sample estimates:
## mean of x mean of y
## 11.148 9.716
d. Elabore una prueba de hipótesis con α= 0:05 para
probar si el promedio de la variable X13 es mayor en hombres que en
mujeres.
Como en el anterior ejercicio para este se inició
realizando la prueba de normalidad con ayuda del QQplot y se observó que
las muestras provienen de una población normal.
q1 <- qqnorm(datos.hombres$X13, plot.it=FALSE)
q2 <- qqnorm(datos.mujeres$X13, plot.it=FALSE)
plot(range(q1$x, q2$x), range(q1$y, q2$y), type="n", las=1,
xlab='Theoretical Quantiles', ylab='Sample Quantiles')
points(q1, pch=19)
points(q2, col="red", pch=19)
qqline(datos.hombres$X13, lty='dashed')
qqline(datos.mujeres$X13, col="red", lty="dashed")
legend('topleft', legend=c('Hombres', 'Mujeres'), bty='n',
col=c('black', 'red'), pch=19)
hombresX13 <- mean(datos.hombres$X13)
mujeresX13 <- mean(datos.mujeres$X13)
varianzahombres <- var(datos.hombres$X13)
varianzamujeres<- var(datos.mujeres$X13)
datos <- data.frame(Medidasx13=c(datos.hombres$X13,datos.mujeres$X13),
sexo=rep(c('Hombres', 'Mujeres'), each=10))
boxplot(Medidasx13 ~ sexo, data=datos, las=1,
xlab='Zona', ylab='Medidas circunferencia abdominal')
Se realizó en correspondiente boxplot el cual muestra una similitud en las medidas poblacionales analizadas.
t.test(x=datos.hombres$X13, y=datos.mujeres$X13, alternative="greater", mu=0,
paired=FALSE, var.equal=FALSE, conf.level=0.95)
##
## Welch Two Sample t-test
##
## data: datos.hombres$X13 and datos.mujeres$X13
## t = 1.6028, df = 85.32, p-value = 0.05634
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -0.1151001 Inf
## sample estimates:
## mean of x mean of y
## 85.928 82.860
En último lugar se realizó la prueba de hipótesis la cual permitió evidenciar que la hipótesis es correcta y las medidas de circunferencia abdominal son mayores en hombres que en mujeres.
library(stests)
library(nortest)
plot(density(datos.mujeres$X13), lwd=3, col='blue',
xlim=c(30, 110), main='', las=1,
xlab='Circunferencia abdominal (cm)', ylab='Densidad')
mean(datos.mujeres$X13)
## [1] 82.86
require(car)
qqPlot(datos.mujeres$X13, pch=20, ylab='Circunferencia abdominal (cm)',
main='QQplot para peso de hombres')
## [1] 38 8
require(nortest)
shapiro.test(datos.mujeres$X13)
##
## Shapiro-Wilk normality test
##
## data: datos.mujeres$X13
## W = 0.932, p-value = 0.006582
Con las primeras gráficas se comprueba que la variable sigue una distribución normal; pues en el caso de la gráfica de densidad, esta sigue una distribución normal, y en la gráfica de quartiles, y en el gráfico cuantil-cuantil, los puntos se acercan bastante a una línea recta. Por tanto, es posible usar la función var.test.
Al momento de usar dicha función, se concluye que la hipótesis nula no se puede rechazar, pues el valor-P es bastante mayor al nivel de significancia (dicho valor es cercano a su valor máximo de 1). Por tanto, las evidencias no son suficientes para decir que la varianza de X13 en las mujeres es mayor a 80.
Elabore un breve análisis regresión lineal para las variables que usted considere que tienen alta correlación.
library(ggplot2)
modelo <- lm(X23 ~ X13, data = muestra1)
summary(modelo)
##
## Call:
## lm(formula = X23 ~ X13, data = muestra1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.0832 -4.5222 -0.1488 4.4082 21.3962
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.09902 4.45278 -1.594 0.112
## X13 0.97241 0.05056 19.231 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.65 on 245 degrees of freedom
## Multiple R-squared: 0.6015, Adjusted R-squared: 0.5999
## F-statistic: 369.8 on 1 and 245 DF, p-value: < 2.2e-16
ggplot(muestra1, aes(x=X13, y=X23)) +
geom_point() +
geom_smooth(method=lm, se=FALSE, color="red") +
labs(x="Circunferencia abdominal", y="Peso",
title="Relación entre peso y circunferencia abdominal")
La regresión lineal se realizo entre el peso y circunferencia
abdominal, podemos evidenciar que dichos datos de la muestra tienen una
relación directemante proporcional, lo que indica que a medida que
aumenta uno lo hace tambien el otro.