En el presente reporte se presenta el análisis de una base de datos denominada “Medidas del cuerpo” en ella encontramos las siguientes variables:
X6: Diámetro del codo, suma de dos codos en cm
X7: Diámetro de muñeca, suma de dos muñecas en cm.
X8: Diámetro de rodilla, suma de dos rodillas en cm.
X13: Circunferencia abdominal, pasando por el ombligo en cm.
X15: Circunferencia del muslo en cm.
X23: Peso (kg)
X24: Altura (cm)
X25: Género (1:hombre, 0:mujer)
La base de datos Medidas del cuerpo contiene los datos de medidas antropométricas de un grupo de 507 individuos con 8 variables. De esta base de datos se tomo una muestra de 100 individuos conformado por 50 hombres y 50 mujeres. A las cuales se les realizara el análisis estadístico.
La base original contiene 25 variables y la podemos ver en el fichero de datos: body_dat.csv que se encuentra en https://jse.amstat.org/v11n2/datasets.heinz.html)
Acontinuación se presenta la muestra de 50 hombres y 50 mujeres
| X6 | X7 | X8 | X13 | X15 | X23 | X24 | X25 | |
|---|---|---|---|---|---|---|---|---|
| 156 | 14.3 | 11.2 | 18.7 | 78.0 | 52.0 | 68.6 | 167.6 | 1 |
| 96 | 13.9 | 10.1 | 20.0 | 83.8 | 55.2 | 68.4 | 176.5 | 1 |
| 108 | 14.6 | 11.0 | 19.5 | 88.2 | 53.5 | 72.7 | 170.2 | 1 |
| 151 | 14.3 | 12.4 | 19.6 | 86.0 | 52.5 | 76.8 | 172.7 | 1 |
| 8 | 15.1 | 11.9 | 21.0 | 80.5 | 56.0 | 78.4 | 184.5 | 1 |
| 64 | 14.1 | 10.8 | 20.2 | 77.3 | 51.9 | 66.1 | 171.8 | 1 |
| 146 | 13.6 | 10.8 | 18.9 | 90.2 | 55.6 | 80.2 | 176.5 | 1 |
| 1 | 13.1 | 10.4 | 18.8 | 74.5 | 51.5 | 65.6 | 174.0 | 1 |
| 24 | 14.3 | 11.2 | 19.8 | 89.6 | 59.5 | 86.4 | 176.0 | 1 |
| 43 | 14.6 | 10.8 | 19.5 | 78.3 | 60.1 | 73.4 | 172.7 | 1 |
| 192 | 15.6 | 11.2 | 19.6 | 88.9 | 58.8 | 86.4 | 175.3 | 1 |
| 132 | 14.0 | 11.2 | 21.2 | 92.4 | 50.9 | 77.7 | 177.8 | 1 |
| 47 | 15.1 | 10.6 | 20.0 | 84.0 | 60.0 | 84.1 | 188.0 | 1 |
| 38 | 13.4 | 10.8 | 19.0 | 79.2 | 54.9 | 61.3 | 170.0 | 1 |
| 246 | 14.3 | 11.1 | 21.0 | 87.8 | 59.7 | 83.2 | 180.3 | 1 |
| 200 | 15.0 | 11.0 | 18.7 | 93.9 | 53.6 | 77.7 | 180.3 | 1 |
| 171 | 14.0 | 11.0 | 19.7 | 94.7 | 59.0 | 82.7 | 167.6 | 1 |
| 181 | 14.8 | 10.6 | 19.4 | 88.7 | 52.5 | 70.0 | 171.4 | 1 |
| 16 | 13.7 | 11.1 | 20.7 | 84.0 | 56.0 | 79.6 | 184.0 | 1 |
| 126 | 15.2 | 11.8 | 19.6 | 92.9 | 55.5 | 83.6 | 188.0 | 1 |
| 197 | 15.1 | 11.3 | 19.2 | 92.4 | 53.8 | 75.0 | 182.9 | 1 |
| 150 | 15.0 | 11.8 | 20.4 | 83.5 | 59.0 | 84.1 | 172.7 | 1 |
| 99 | 14.3 | 11.0 | 21.1 | 86.8 | 61.0 | 84.5 | 179.8 | 1 |
| 63 | 14.3 | 11.4 | 19.5 | 77.2 | 52.4 | 68.2 | 167.0 | 1 |
| 9 | 14.1 | 11.2 | 18.9 | 69.0 | 50.0 | 62.0 | 175.0 | 1 |
| 185 | 15.4 | 11.0 | 18.8 | 97.5 | 61.0 | 91.4 | 188.0 | 1 |
| 82 | 14.0 | 11.6 | 21.6 | 82.5 | 62.1 | 80.9 | 175.5 | 1 |
| 87 | 14.4 | 12.3 | 20.2 | 77.8 | 57.4 | 72.5 | 177.0 | 1 |
| 175 | 15.8 | 12.9 | 19.3 | 89.4 | 60.9 | 91.8 | 186.7 | 1 |
| 6 | 14.0 | 11.5 | 18.8 | 80.1 | 57.5 | 74.8 | 181.5 | 1 |
| 55 | 12.8 | 10.0 | 17.0 | 77.9 | 46.9 | 55.2 | 164.1 | 1 |
| 109 | 13.8 | 11.0 | 18.9 | 84.9 | 55.8 | 64.1 | 177.8 | 1 |
| 149 | 14.6 | 11.5 | 19.6 | 86.8 | 55.0 | 72.7 | 171.4 | 1 |
| 228 | 13.6 | 11.7 | 18.8 | 88.6 | 53.7 | 77.3 | 170.2 | 1 |
| 166 | 15.8 | 11.3 | 20.5 | 95.1 | 62.7 | 95.9 | 193.0 | 1 |
| 148 | 12.9 | 10.4 | 18.0 | 82.9 | 56.3 | 71.4 | 180.3 | 1 |
| 190 | 15.5 | 11.8 | 19.6 | 94.5 | 53.7 | 80.5 | 188.0 | 1 |
| 162 | 15.2 | 10.8 | 18.6 | 101.1 | 57.2 | 84.1 | 190.5 | 1 |
| 130 | 15.3 | 11.5 | 20.9 | 90.2 | 59.5 | 89.1 | 190.5 | 1 |
| 193 | 13.8 | 10.7 | 18.6 | 89.5 | 51.7 | 67.7 | 170.5 | 1 |
| 244 | 16.0 | 10.7 | 21.0 | 99.0 | 62.3 | 98.2 | 190.5 | 1 |
| 201 | 14.0 | 10.5 | 18.4 | 85.7 | 48.5 | 61.4 | 177.8 | 1 |
| 112 | 15.2 | 11.3 | 19.8 | 93.5 | 59.1 | 86.4 | 186.7 | 1 |
| 141 | 14.6 | 11.7 | 21.4 | 101.9 | 64.6 | 108.6 | 190.5 | 1 |
| 93 | 12.9 | 11.6 | 18.8 | 85.0 | 54.1 | 70.5 | 165.1 | 1 |
| 90 | 14.1 | 11.1 | 19.1 | 82.4 | 54.4 | 73.0 | 176.5 | 1 |
| 210 | 14.5 | 11.7 | 20.4 | 95.5 | 56.6 | 88.6 | 180.3 | 1 |
| 14 | 13.3 | 10.3 | 18.8 | 89.2 | 59.1 | 74.6 | 176.0 | 1 |
| 202 | 15.0 | 11.6 | 18.8 | 104.4 | 56.4 | 94.1 | 185.4 | 1 |
| 76 | 13.5 | 10.4 | 19.3 | 78.0 | 52.4 | 63.9 | 174.5 | 1 |
| 1121 | 14.1 | 12.2 | 24.3 | 105.5 | 70.0 | 105.2 | 172.7 | 0 |
| 1561 | 12.8 | 9.8 | 18.0 | 82.3 | 53.3 | 55.0 | 166.4 | 0 |
| 54 | 11.7 | 9.2 | 16.8 | 66.0 | 50.3 | 46.5 | 152.4 | 0 |
| 84 | 13.6 | 10.4 | 18.5 | 87.5 | 64.8 | 71.6 | 164.1 | 0 |
| 142 | 10.6 | 8.3 | 15.9 | 74.1 | 48.8 | 42.0 | 153.4 | 0 |
| 52 | 12.0 | 8.9 | 17.4 | 97.9 | 62.7 | 69.1 | 160.7 | 0 |
| 72 | 12.0 | 9.3 | 17.7 | 75.5 | 51.6 | 52.3 | 164.5 | 0 |
| 34 | 11.8 | 9.9 | 18.0 | 78.0 | 52.5 | 54.4 | 160.0 | 0 |
| 106 | 12.1 | 9.6 | 18.0 | 75.0 | 53.2 | 56.2 | 171.8 | 0 |
| 117 | 12.9 | 10.0 | 18.1 | 75.9 | 58.5 | 63.0 | 167.6 | 0 |
| 111 | 11.7 | 9.4 | 16.9 | 81.0 | 56.2 | 56.6 | 166.8 | 0 |
| 1661 | 13.2 | 10.3 | 19.0 | 98.9 | 57.8 | 65.9 | 167.6 | 0 |
| 153 | 12.6 | 9.6 | 18.8 | 91.9 | 62.0 | 64.1 | 165.1 | 0 |
| 2441 | 12.6 | 10.2 | 17.7 | 91.7 | 59.1 | 63.6 | 162.6 | 0 |
| 125 | 12.0 | 9.4 | 17.7 | 73.2 | 54.4 | 56.4 | 163.2 | 0 |
| 167 | 12.4 | 9.4 | 18.4 | 92.7 | 57.4 | 58.6 | 156.2 | 0 |
| 254 | 13.1 | 10.4 | 17.6 | 90.2 | 56.3 | 61.4 | 162.6 | 0 |
| 103 | 11.5 | 9.1 | 17.1 | 77.0 | 53.3 | 53.4 | 168.2 | 0 |
| 871 | 11.3 | 9.2 | 16.9 | 77.2 | 53.4 | 49.0 | 154.5 | 0 |
| 3 | 11.3 | 8.9 | 17.0 | 66.5 | 53.0 | 49.2 | 159.5 | 0 |
| 11 | 11.8 | 8.6 | 17.1 | 74.0 | 52.0 | 55.2 | 172.5 | 0 |
| 110 | 12.4 | 10.2 | 18.6 | 82.8 | 59.6 | 65.2 | 168.5 | 0 |
| 4 | 12.3 | 9.5 | 18.6 | 91.0 | 61.5 | 63.0 | 157.0 | 0 |
| 1501 | 13.9 | 10.6 | 18.9 | 91.5 | 55.3 | 63.2 | 162.6 | 0 |
| 50 | 12.4 | 9.8 | 18.0 | 87.3 | 59.2 | 59.8 | 157.5 | 0 |
| 26 | 12.0 | 10.2 | 18.4 | 76.5 | 51.1 | 54.5 | 174.0 | 0 |
| 251 | 14.0 | 11.0 | 18.9 | 86.1 | 56.1 | 67.3 | 169.5 | 0 |
| 2 | 12.1 | 9.9 | 19.3 | 70.5 | 57.7 | 59.0 | 167.5 | 0 |
| 222 | 12.2 | 10.8 | 19.4 | 77.7 | 56.3 | 63.0 | 168.9 | 0 |
| 15 | 11.5 | 8.6 | 16.8 | 69.0 | 54.0 | 50.0 | 160.0 | 0 |
| 60 | 13.0 | 9.4 | 18.6 | 76.5 | 55.7 | 60.3 | 164.5 | 0 |
| 551 | 12.6 | 9.8 | 17.6 | 73.6 | 56.8 | 54.3 | 157.5 | 0 |
| 32 | 11.9 | 9.6 | 18.2 | 78.9 | 57.1 | 55.0 | 162.0 | 0 |
| 139 | 13.0 | 10.9 | 17.5 | 81.2 | 59.8 | 62.2 | 167.1 | 0 |
| 30 | 12.4 | 9.5 | 17.2 | 73.0 | 49.5 | 47.0 | 160.0 | 0 |
| 249 | 13.4 | 10.8 | 17.9 | 90.8 | 63.0 | 64.1 | 160.0 | 0 |
| 120 | 11.6 | 9.8 | 17.9 | 64.2 | 53.3 | 54.0 | 163.2 | 0 |
| 159 | 13.2 | 9.3 | 18.6 | 96.3 | 62.0 | 69.1 | 170.2 | 0 |
| 250 | 12.8 | 10.5 | 18.4 | 85.3 | 55.5 | 63.6 | 175.3 | 0 |
| 176 | 12.4 | 10.0 | 18.6 | 85.3 | 55.1 | 60.0 | 177.8 | 0 |
| 41 | 12.4 | 9.4 | 18.8 | 79.7 | 59.2 | 62.3 | 168.9 | 0 |
| 160 | 14.0 | 10.6 | 21.2 | 111.1 | 67.7 | 84.5 | 162.6 | 0 |
| 216 | 11.6 | 10.5 | 18.7 | 98.3 | 64.5 | 70.5 | 161.3 | 0 |
| 19 | 10.3 | 8.1 | 16.2 | 68.3 | 54.0 | 47.8 | 157.0 | 0 |
| 221 | 12.4 | 10.3 | 17.5 | 94.1 | 54.8 | 67.3 | 152.4 | 0 |
| 231 | 12.4 | 9.8 | 17.6 | 85.7 | 59.2 | 64.5 | 167.6 | 0 |
| 199 | 13.4 | 10.2 | 18.4 | 85.0 | 57.4 | 53.4 | 160.0 | 0 |
| 256 | 12.9 | 10.4 | 19.5 | 90.4 | 60.6 | 71.8 | 176.5 | 0 |
| 137 | 11.6 | 8.9 | 17.9 | 82.0 | 63.0 | 64.4 | 156.0 | 0 |
| 97 | 12.4 | 10.2 | 17.2 | 78.6 | 55.2 | 57.8 | 162.8 | 0 |
Ahora para tener certeza de que la muestra sea considerada buena mostraremos la normalidad de cada una de la variables. Mediante la función ad.test que proporciona R.
Para ello consideraremos como buena si el valor p es mayor al 5% para cada una de las variables que se presentan en nuestra muestra. Por otro lado se excluirá X25 ya que solo se la utiliza para diferenciar entre hombres y mujeres
ad.test(muestraTotal$X6)##
## Anderson-Darling normality test
##
## data: muestraTotal$X6
## A = 0.64307, p-value = 0.09088
ad.test(muestraTotal$X7)##
## Anderson-Darling normality test
##
## data: muestraTotal$X7
## A = 0.2993, p-value = 0.578
ad.test(muestraTotal$X8)##
## Anderson-Darling normality test
##
## data: muestraTotal$X8
## A = 0.70874, p-value = 0.06239
ad.test(muestraTotal$X13)##
## Anderson-Darling normality test
##
## data: muestraTotal$X13
## A = 0.18242, p-value = 0.9097
ad.test(muestraTotal$X15)##
## Anderson-Darling normality test
##
## data: muestraTotal$X15
## A = 0.39852, p-value = 0.3594
ad.test(muestraTotal$X23)##
## Anderson-Darling normality test
##
## data: muestraTotal$X23
## A = 0.69485, p-value = 0.06756
ad.test(muestraTotal$X24)##
## Anderson-Darling normality test
##
## data: muestraTotal$X24
## A = 0.48205, p-value = 0.2261
En esta parte del análisis se realizaran pruebas de hipotesis que fueron planteadas.
Elabore una prueba de hipótesis con \(\\alpha\) =0:05 para probar si la media de la variable X6 es diferente de 13 cm.
Lo primero que debemos realizar es la prueba de normalidad para ello plantearemos las siguientes hipotesis
\(\\H0:\) X6 provien de una población normal
\(\\H1:\) X6 no provien de una población normal
ad.test(muestraTotal$X6)##
## Anderson-Darling normality test
##
## data: muestraTotal$X6
## A = 0.64307, p-value = 0.09088
Utilizando ad.test podemos aceptar que X6 proviene de una distribucion normal ya que el valor p=0.09088 es mayor que \(\\α\) =0:05,
Ahora lo complementaremos con gráficas de qqplot e histograma y grafica de densidad
par(mfrow=c(1, 2))
require(car)
qqPlot(muestraTotal$X6, pch=19,
main='QQplot para diametro del codo ',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 94 55
hist(muestraTotal$X6, freq=TRUE,
main='Histograma diametro del codo ',
xlab='Diametro codo (cm)',
ylab='Frecuencia')Ahora plantearemos las hipotesis para el problema
\(\\H0:\) \(\\μ=13\)
\(\\H1:\) \(\\μ≠13\)
La prueba de hipótesis la podemos realizar usando la función t.test.
solucion <- t.test(muestraTotal$X6,alternative = "two.sided",conf.level = 0.95,
mu=13)
solucion##
## One Sample t-test
##
## data: muestraTotal$X6
## t = 3.0488, df = 99, p-value = 0.002947
## alternative hypothesis: true mean is not equal to 13
## 95 percent confidence interval:
## 13.13758 13.65042
## sample estimates:
## mean of x
## 13.394
Como el valor-P es menor que el nivel de significancia se rechaza la hipotesis nula. Por lo tanto la media de la variable \(\\X6≠13\)
Elabore una prueba de hipótesis con \(\\α= 0.01\) para probar si la media de la variable X15 es mayor de 55 cm.
Lo primero que debemos realizar es la prueba de normalidad para ello plantearemos las siguientes hipotesis
\(\\H0:\) X15 provien de una población normal
\(\\H1:\) X15 no provien de una población normal
ad.test(muestraTotal$X15)##
## Anderson-Darling normality test
##
## data: muestraTotal$X15
## A = 0.39852, p-value = 0.3594
Utilizando ad.test podemos aceptar que X15 proviene de una distribucion normal ya que el valor-p=0.3594 es mayor que \(\\α= 0.01\)
Ahora lo complementaremos con gráficas de qqplot e histograma y grafica de densidad
par(mfrow=c(1, 2))
require(car)
qqPlot(muestraTotal$X15, pch=19,
main='QQplot circunferencia muslo',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 51 92
hist(muestraTotal$X15, freq=TRUE,
main='Histograma circunferencia muslo',
xlab='Circunferencia Muslo (cm)',
ylab='Frecuencia')plot(density(muestraTotal$X15),col="#8B3A3A",main="Densidad para X15")Ahora plantearemos las hipotesis para el problema
\(\\H0:\) \(\\μ<=55\)
\(\\H1:\) \(\\μ>55\)
La prueba de hipótesis la podemos realizar usando la función t.test.
solucion1 <- t.test(muestraTotal$X15,alternative = "greater",
mu=55)
solucion1##
## One Sample t-test
##
## data: muestraTotal$X15
## t = 3.7086, df = 99, p-value = 0.000172
## alternative hypothesis: true mean is greater than 55
## 95 percent confidence interval:
## 55.87592 Inf
## sample estimates:
## mean of x
## 56.586
Como el valor-p=0.000172 es menor que el nivel de significancia, rechazamos la hipotesis nula y aceptamos la hipotesis alternativa por lo tanto la media de X15 es mayor que 55
Elabore una prueba de hipótesis con \(\\α= 0.10\) para probar si los promedios de la variable X7 en hombres y mujeres son iguales.
Primero realizamos un filtro para los hombres y mujeres de la muestra que tomamos de 50 hombres y 50 mujeres
filtroMen <- muestraTotal %>% filter(X25==1)
filtroWoman <- muestraTotal %>% filter(X25==0) Ahora lo que necesitamos analizar los datos filtrados anteriormente tanto para hombres y mujeres tengan una distribucion normal. Plantemos las hipotesis
\(\\H0:\) X7 para hombres y mujeres proviene de una población normal
\(\\H1:\) X7 para hombres y mujeres no proviene de una población normal
PRUEBA NORMALIDAD HOMBRE
ad.test(filtroMen$X7)##
## Anderson-Darling normality test
##
## data: filtroMen$X7
## A = 0.28618, p-value = 0.6102
PRUEBA NORMALIDAD MUJER
ad.test(filtroWoman$X7)##
## Anderson-Darling normality test
##
## data: filtroWoman$X7
## A = 0.25434, p-value = 0.7168
Como los valores de p tanto para hombres y mujeres son muy altos se acepta la hipotesis nula.
También podemos observar la normalidad de X7 (Diametro muñecas) para los hombres y mujeres en las siguientes gráficas
Hombres
par(mfrow=c(1, 2))
require(car)
qqPlot(filtroMen$X7, pch=19,
main='QQplot diametro munecas',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 29 4
hist(filtroMen$X7, freq=TRUE,
main='Histograma diametro muneca ',
xlab='Diametro muneca (cm)',
ylab='Frecuencia')Mujeres
par(mfrow=c(1, 2))
require(car)
qqPlot(filtroWoman$X7, pch=19,
main='QQplot diametro munecas',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 1 44
hist(filtroWoman$X7, freq=TRUE,
main='Histograma diametro muneca ',
xlab='Diametro muneca (cm)',
ylab='Frecuencia')Relacion diametro muñecas hombres y mujeres
q1 <- qqnorm(filtroMen$X7, plot.it=FALSE)
q2 <- qqnorm(filtroWoman$X7, plot.it=FALSE)
plot(range(q1$x, q2$x), range(q1$y, q2$y), type="n", las=1,
xlab='Theoretical Quantiles', ylab='Sample Quantiles')
points(q1, pch=19)
points(q2, col="red", pch=19)
qqline(filtroMen$X7, lty='dashed')
qqline(filtroWoman$X7, col="red", lty="dashed")
legend('topleft', legend=c('Hombres', 'Mujeres'), bty='n',
col=c('black', 'red'), pch=19)Ahora para realizar las hipotesis para la resolución de este problema, la realizaremos planteando la diferencia de medias con varianzas diferentes.
\(\\μ_1:\) promedios hombres \(\\μ_2:\) promedios mujeres
\(\\H0:\) \(\\μ_1-μ_2 =0\)
\(\\H1:\) \(\\μ_1-μ_2 ≠0\)
Aplicaremos t.test
t.test(x=filtroMen$X7, y=filtroWoman$X7, alternative="two.sided", mu=0,
paired=FALSE, var.equal=FALSE, conf.level=0.90)##
## Welch Two Sample t-test
##
## data: filtroMen$X7 and filtroWoman$X7
## t = 9.9979, df = 91.945, p-value = 2.322e-16
## alternative hypothesis: true difference in means is not equal to 0
## 90 percent confidence interval:
## 1.132308 1.583692
## sample estimates:
## mean of x mean of y
## 11.172 9.814
Como el volor-p = 2.322e-16 es mucho menor que el nivel de significancia. Rechazamos la hipotesis nula y podemos afirmar que el diametro de las muñecas son diferentes en hombres y mujeres
Elabore una prueba de hipótesis con \(\\α= 0.05\) para probar si el promedio de la variable X13 es mayor en hombres que en mujeres.
Utilizando los datos que se filtraron en la anterior hipotesis, necesitamos verificar que la variable X13 probanga de una población distribuidad normalmente
\(\\H0:\) X13 para hombres y mujeres proviene de una población normal
\(\\H1:\) X13 para hombres y mujeres no proviene de una población normal
PRUEBA NORMALIDAD HOMBRE
ad.test(filtroMen$X13)##
## Anderson-Darling normality test
##
## data: filtroMen$X13
## A = 0.20504, p-value = 0.8652
PRUEBA NORMALIDAD MUJER
ad.test(filtroWoman$X13)##
## Anderson-Darling normality test
##
## data: filtroWoman$X13
## A = 0.34327, p-value = 0.476
Como los valores de p tanto para hombres y mujeres son altos se acepta la hipotesis nula.
Tambien podemos observar la normalidad de X7 para hombres y mujeres en las siguientes graficas
HOMBRES
require(car)
qqPlot(filtroMen$X13, pch=19,
main='QQplot para circunferencia abdominal ',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 25 49
hist(filtroMen$X13, freq=TRUE,
main='Histograma circunferencia abdominal ',
xlab='circunferencia abdominal ',
ylab='Frecuencia')MUJERES
require(car)
qqPlot(filtroWoman$X13, pch=19,
main='QQplot para circunferencia abdominal ',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 42 1
hist(filtroWoman$X13, freq=TRUE,
main='Histograma circunferencia abdominal ',
xlab='circunferencia abdominal ',
ylab='Frecuencia')RELACION HOMBRES Y MUJERES
q1 <- qqnorm(filtroMen$X13, plot.it=FALSE)
q2 <- qqnorm(filtroWoman$X13, plot.it=FALSE)
plot(range(q1$x, q2$x), range(q1$y, q2$y), type="n", las=1,
xlab='Theoretical Quantiles', ylab='Sample Quantiles')
points(q1, pch=19)
points(q2, col="red", pch=19)
qqline(filtroMen$X13, lty='dashed')
qqline(filtroWoman$X13, col="red", lty="dashed")
legend('topleft', legend=c('Hombres', 'Mujeres'), bty='n',
col=c('black', 'red'), pch=19)Ahora para realizar las hipotesis para la resolución de este problema, nos preguntamos ¿Existe diferencia en los promedios de la varable X13 en hombres y mujeres?. De igual manera analizaremos el valor p y el intervalo de confianza
\(\\μ_1:\) promedios hombres X13 \(\\μ_2:\) promedios mujeres X13
\(\\H0:\) \(\\μ_1-μ_2 =0\)
\(\\H1:\) \(\\μ_1-μ_2 ≠0\)
t.test(x=filtroMen$X13, y=filtroWoman$X13, alternative="two.sided", mu=0,
paired=FALSE, var.equal=FALSE, conf.level=0.95)##
## Welch Two Sample t-test
##
## data: filtroMen$X13 and filtroWoman$X13
## t = 2.3384, df = 89.569, p-value = 0.02159
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.6389859 7.8610141
## sample estimates:
## mean of x mean of y
## 87.104 82.854
como el valor-p 0.02159 es menor que el nivel de significancia rechazamos la hipotesis nula. Es decir existe diferencias en la circunferencia abdominal en hombres y mujeres. Ahora aplicaremos otra vez la función test y definiremos nuevas hipotesis
\(\\H0: μ_1<=μ_2\)
\(\\H1: μ_1>μ_2\)
t.test(x=filtroMen$X13, y=filtroWoman$X13,alternative="greater")##
## Welch Two Sample t-test
##
## data: filtroMen$X13 and filtroWoman$X13
## t = 2.3384, df = 89.569, p-value = 0.0108
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 1.229238 Inf
## sample estimates:
## mean of x mean of y
## 87.104 82.854
Como el valr_p =0.0108 es menor que \(\\α= 0.05\) se resaza la hipotesis nula, y se puede decir que la circunferencia abdominal en los hombres es mayor que el de las mujeres
Es la varianza de la variable X13 en las mujeres mayor que 80?, pruebe con \(\\α= 0.01\)
Lo primero que debemos de anlaizar es su normalidad, para ello planteamos nuestra hipotesis
\(\\H0:\) X13 provien de una población normal
\(\\H1:\) X13 no provien de una población normal
ad.test(muestraTotal$X13)##
## Anderson-Darling normality test
##
## data: muestraTotal$X13
## A = 0.18242, p-value = 0.9097
Como el valor-p es= 0.9097 es mayor que \(\\α= 0.01\) X13 proviene de una poblacion normal. Lo podemos apreciar de igual manera en las siguientes graficas.
## [1] 92 87
##
## ── R CMD build ─────────────────────────────────────────────────────────────────
## * checking for file 'C:\Users\57317\AppData\Local\Temp\Rtmp2ZilJB\remotes4a2856dd20db\fhernanb-stests-ee06c4b/DESCRIPTION' ... OK
## * preparing 'stests':
## * checking DESCRIPTION meta-information ... OK
## * checking for LF line-endings in source and make files and shell scripts
## * checking for empty or unneeded directories
## Omitted 'LazyData' from DESCRIPTION
## * building 'stests_0.1.0.tar.gz'
##
Ahora planteamos las siguientes hipotesis
\(\\H0: σ^2 <= 80\)
\(\\H1: σ^2 > 80\)
require(stests)
stests::var.test(x=filtroWoman$X13, alternative='greater',
null.value=80)##
## X-squared test for variance
##
## data: filtroWoman$X13
## X-squared = 66.101, df = 49, p-value = 0.05206
## alternative hypothesis: true variance is greater than 80
## 95 percent confidence interval:
## 0.0000 155.8508
## sample estimates:
## variance of x
## 107.9197
Como el valor_p = 0.05206 es mayor que \(\\α= 0.01\) no se rechaza la hipotesis nula. Por lo tanto, la varianza de la variable X13 en las mujeres no es mayor que 80
Es la varianza de la variable X8 en las hombres diferente de 1.5?, pruebe con \(\\α= 0.01\)
Analisamos la normalidad de la variable X8
\(\\H0:\) X8 provien de una población normal
\(\\H1:\) X8 no provien de una población normal
ad.test(filtroMen$X8)##
## Anderson-Darling normality test
##
## data: filtroMen$X8
## A = 0.79192, p-value = 0.03736
como el valor-p=0.03736 es mayor que \(\\α= 0.01\) no se rechaza la hipotesis nula. Tambien podemos observarlo en las siguentes graficas
par(mfrow=c(1, 2))
require(car)
qqPlot(muestraTotal$X8, pch=19,
main='QQplot para diametro de rodilla ',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 51 55
hist(muestraTotal$X8, freq=TRUE,
main='Histograma diametro de rodilla ',
xlab='Diametro rodilla (cm)',
ylab='Frecuencia')plot(density(muestraTotal$X8),col="#8B3A3A",main="Densidad para X8")Ahora que ya conocemos esto planteamos las hipotesis para resolver el problema
\(\\H0: σ^2 = 1.5\)
\(\\H1: σ^2 ≠ 1.5\)
require(stests)
stests::var.test(x=filtroMen$X8, alternative="two.sided",
null.value=1.5,conf.level = 0.99)##
## X-squared test for variance
##
## data: filtroMen$X8
## X-squared = 30.253, df = 49, p-value = 0.03238
## alternative hypothesis: true variance is not equal to 1.5
## 99 percent confidence interval:
## 0.5800791 1.6653609
## sample estimates:
## variance of x
## 0.9261224
como el valor-p=0.03238 es mayor que \(\\α= 0.01\) no se rechaza la hipotesis nula. Por lo tanto la varianza de X8 no es diferente de 1.5
En esta parte del análisis se hallaron los intervalos de confianza para los incisos a,b,c,d y e del segundo punto.
Para cada variable se obtuvo el gráfico de cuantiles, el histograma y la gráfica de densidad de probabilidad con el fin de comprobar una distribución normal.
Presenta una tendencia lineal caracteristica de una distribución normal:
qqPlot(muestraTotal$X6, pch=19,
main='QQplot diametro codo (X6)',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 94 55
hist(muestraTotal$X6,col ="#76E0D2",border = "black", lwd = 1, freq=TRUE,
main='Histograma diametro del codo (X6)',
xlab='Medida (cm)',
ylab='Frecuencia')density_X6 <- density(muestraTotal$X6)
plot(density_X6, main = "Densidad de probabilidad X6", xlab = "Diametro codo (cm)", ylab = "Densidad", lwd=2)Este se encontro de dos formas, directa y aplicando las ecuaciones 1 y 2. Obteniendose resultados similares.
\(I_{ci}= \bar{x} − talfamed\cdot \frac{s}{\sqrt{n}}\)
\(I_{cs}= \bar{x} + talfamed\cdot \frac{s}{\sqrt{n}}\)
res1 <- t.test(x=muestraTotal$X6, conf.level=0.90)
res1$conf.int## [1] 13.17943 13.60857
## attr(,"conf.level")
## [1] 0.9
paste("Con una confianza del 90% se estima que el promedio muestral del diametro del codo se encuentra entre: ", res1$conf.int)## [1] "Con una confianza del 90% se estima que el promedio muestral del diametro del codo se encuentra entre: 13.1794260219715"
## [2] "Con una confianza del 90% se estima que el promedio muestral del diametro del codo se encuentra entre: 13.6085739780285"
n <- length(muestraTotal$X6)
xbarra <- mean(muestraTotal$X6)
s <- sd(muestraTotal$X6)
talfamed <- qt(0.05 , n - 1 ,lower.tail = FALSE)
ICi <- round(xbarra - talfamed * s/sqrt(n),3)
ICs <- round(xbarra + talfamed * s/sqrt(n),3)
paste("Con una confianza del 90% se estima que el promedio muestral
del diametro del codo (X6)
se encuentra entre:",ICi, ICs)## [1] "Con una confianza del 90% se estima que el promedio muestral \n del diametro del codo (X6) \n se encuentra entre: 13.179 13.609"
Presenta una tendencia lineal caracteristica de una distribución normal:
qqPlot(muestraTotal$X7, pch=19,
main='QQplot diametro muñeca ',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 29 94
hist(muestraTotal$X7,col ="#2CAF9E",border = "black", lwd = 1,freq=TRUE,
main='Histograma diametro muñeca',
xlab='Medida (cm)',
ylab='Frecuencia')density_X7 <- density(muestraTotal$X7)
plot(density_X7, main = "Densidad de probabilidad X7", xlab = "Diametro muñeca (cm)", ylab = "Densidad", lwd=2)res2 <- t.test(x=muestraTotal$X7, conf.level=0.90)
res2$conf.int## [1] 10.33354 10.65246
## attr(,"conf.level")
## [1] 0.9
paste("Con una confianza del 90% se estima que el promedio muestral del diametro de la muñeca de las personas se encuentra entre: ", res2$conf.int)## [1] "Con una confianza del 90% se estima que el promedio muestral del diametro de la muñeca de las personas se encuentra entre: 10.3335441957307"
## [2] "Con una confianza del 90% se estima que el promedio muestral del diametro de la muñeca de las personas se encuentra entre: 10.6524558042693"
#Intervalos calculados a partir de la fórmula:
n2 <- length(muestraTotal$X7)
xbarra2 <- mean(muestraTotal$X7)
s2 <- sd(muestraTotal$X7)
talfamed2 <- qt(0.05 , n2 - 1 ,lower.tail = FALSE)
ICi2 <- round(xbarra2 - talfamed2 * s2/sqrt(n2),3)
ICs2 <- round(xbarra2 + talfamed2 * s2/sqrt(n2),3)
paste("Con una confianza del 90% se estima que el promedio muestral
de el diametro de la muñeca (X7)
se encuentra entre:",ICi2, ICs2)## [1] "Con una confianza del 90% se estima que el promedio muestral \n de el diametro de la muñeca (X7) \n se encuentra entre: 10.334 10.652"
Presenta una tendencia lineal caracteristica de una distribución normal:
qqPlot(muestraTotal$X8, pch=19,
main='QQplot diametro rodilla',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 51 55
hist(muestraTotal$X8,col ="#007C6B",border = "black", lwd = 1, freq=TRUE,
main='Histograma diametro rodilla',
xlab='Medida (cm)',
ylab='Frecuencia')density_X8 <- density(muestraTotal$X8)
plot(density_X8, main = "Densidad de probabilidad X8", xlab = "Diametro de rodilla (cm)", ylab = "Densidad", lwd=2)res3 <- t.test(x=muestraTotal$X8, conf.level=0.90)
res3$conf.int## [1] 18.64088 19.08512
## attr(,"conf.level")
## [1] 0.9
paste("Con una confianza del 90% se estima que el promedio muestral del diametro de rodilla (X8) se encuentra entre: ", res3$conf.int)## [1] "Con una confianza del 90% se estima que el promedio muestral del diametro de rodilla (X8) se encuentra entre: 18.6408779330079"
## [2] "Con una confianza del 90% se estima que el promedio muestral del diametro de rodilla (X8) se encuentra entre: 19.0851220669921"
#Calculando a partir de la fórmula
n3 <- length(muestraTotal$X8)
xbarra3 <- mean(muestraTotal$X8)
s3 <- sd(muestraTotal$X8)
talfamed3 <- qt(0.05 , n - 1 ,lower.tail = FALSE)
ICi3 <- round(xbarra3 - talfamed3 * s3/sqrt(n3),3)
ICs3 <- round(xbarra3 + talfamed3 * s3/sqrt(n3),3)
paste("Con una confianza del 90% se estima que el promedio muestral
de el diametro de rodilla (X8)
se encuentra entre:",ICi3, ICs3)## [1] "Con una confianza del 90% se estima que el promedio muestral\n de el diametro de rodilla (X8)\n se encuentra entre: 18.641 19.085"
Se creo un filtro que permitiera separar las mujeres menores de 165cm de altura y sobre este se hizo el analisis respectivo.
Mujeres165 <- muestraMujer %>% filter(X24<165)Presenta una tendencia lineal caracteristica de una distribución normal:
qqPlot(Mujeres165$X24, pch=19,
main='QQplot altura mujeres menor a 165cm',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')## [1] 1 26
hist(Mujeres165$X24,col ="#F2CA4B",border = "black", lwd = 1, freq=TRUE,
main='Histograma altura mujeres menor a 165cm',
xlab='Altura (cm)',
ylab='Frecuencia')density_X24 <- density(Mujeres165$X24)
plot(density_X24, main = "Densidad de probabilidad altura mujeres menor a 165cm", xlab = "Altura (cm)", ylab = "Densidad", lwd=2)
Para comprobar que los datos siguieran una distribucion normal se uso un
test para confirmarla, obteniendo un resultado positivo.
result4<-ad.test(Mujeres165$X24)
print(result4) #p-value=0.0564>0.05 por lo que los datos siguen una distribución normal##
## Anderson-Darling normality test
##
## data: Mujeres165$X24
## A = 0.71167, p-value = 0.0564
res4 <- t.test(x=Mujeres165$X24, conf.level=0.99)
res4$conf.int## [1] 157.8035 161.5138
## attr(,"conf.level")
## [1] 0.99
paste("Con una confianza del 99% se estima que el promedio muestral de las mujeres con altura menor a 165cm (X24) se encuentra entre: ", res4$conf.int)## [1] "Con una confianza del 99% se estima que el promedio muestral de las mujeres con altura menor a 165cm (X24) se encuentra entre: 157.803471094569"
## [2] "Con una confianza del 99% se estima que el promedio muestral de las mujeres con altura menor a 165cm (X24) se encuentra entre: 161.513770284741"
#Calculando el intervalo de confianza a partir de las ecuaciones
n4 <- length(Mujeres165$X24)
xbarra4 <- mean(Mujeres165$X24)
s4 <- sd(Mujeres165$X24)
talfamed4 <- qt(0.05 , n4 - 1 ,lower.tail = FALSE)
ICi4 <- round(xbarra4 - talfamed4 * s4/sqrt(n4),3)
ICs4 <- round(xbarra4 + talfamed4 * s4/sqrt(n4),3)
paste("Con una confianza del 99% se estima que el promedio muestral
de las mujeres con altura menor a 165cm (X24)
se encuentra entre:",ICi4, ICs4)## [1] "Con una confianza del 99% se estima que el promedio muestral\n de las mujeres con altura menor a 165cm (X24)\n se encuentra entre: 158.517 160.801"
Se procede a comprobar que los datos de la variable X13 pertenezcan a una distribucion normal tanto para la muestra en mujeres como en hombres.
Presenta una tendencia lineal caracteristica de una distribución normal:
qqPlot(muestraMujer$X13, pch=19, las=1, main='QQplot circunferencia abdominal mujeres',
xlab='Cuantiles teóricos', ylab='Cuantiles muestrales')## [1] 42 1
hist(muestraMujer$X13,col ="#CB5A75",border = "black", lwd = 1, freq=TRUE,
main='Histograma circunferencia abdominal mujeres',
xlab='Medida (cm)',
ylab='Frecuencia')density_MX13 <- density(muestraMujer$X13)
plot(density_MX13, main = "Densidad de probabilidad circunferencia abdominal mujeres", xlab = "Medida (cm)", ylab = "Densidad", lwd=2)
Al aplicar un test, se encuentra que efectivamente los datos siguen una
distribucion normal
result5<-ad.test(muestraMujer$X13)
print(result5) ##
## Anderson-Darling normality test
##
## data: muestraMujer$X13
## A = 0.34327, p-value = 0.476
Presenta una tendencia lineal caracteristica de una distribución normal:
qqPlot(muestraHombre$X13, pch=19, las=1, main='QQplot circunferencia abdominal hombres',
xlab='Cuantiles teóricos', ylab='Cuantiles muestrales')## [1] 25 49
hist(muestraHombre$X13,col ="#D7FC96",border = "black", lwd = 1, freq=TRUE,
main='Histograma circunferencia abdominal Hombres',
xlab='Medida (cm)',
ylab='Frecuencia')density_HX13 <- density(muestraHombre$X13)
plot(density_HX13, main = "Densidad de probabilidad circunferencia abdominal hombres", xlab = "Medida (cm)", ylab = "Densidad", lwd=2)
Al aplicar un test, se encuentra que efectivamente los datos siguen una
distribucion normal
result6<-ad.test(muestraHombre$X13)
print(result6)##
## Anderson-Darling normality test
##
## data: muestraHombre$X13
## A = 0.20504, p-value = 0.8652
Se verifica si la varianza de ambas muestras son iguales
resc <- stests::var.test(x=muestraHombre$X13, y=muestraMujer$X13, conf.level=0.95)
resc$conf.int## [1] 0.3010140 0.9347414
## attr(,"conf.level")
## [1] 0.95
Como el intervalo de confianza del 95% indica que la razón de las varianzas se encuentra entre 0.3010140 a 0.9347414 y este no incluye el 1, entonces las varianzas son distintas.
res5a <- t.test(x=muestraHombre$X13, y=muestraMujer$X13,
paired=FALSE, var.equal=FALSE, conf.level = 0.95) #Si la varianza de las dos poblaciones son diferentes
res5a$conf.int## [1] 0.6389859 7.8610141
## attr(,"conf.level")
## [1] 0.95
paste("Con una confianza del 95% se estima que la diferencia de promedios en la muestra de la circunferencia abdominal entre hombres y mujeres se encuentra entre: ", res5a$conf.int)## [1] "Con una confianza del 95% se estima que la diferencia de promedios en la muestra de la circunferencia abdominal entre hombres y mujeres se encuentra entre: 0.638985874812728"
## [2] "Con una confianza del 95% se estima que la diferencia de promedios en la muestra de la circunferencia abdominal entre hombres y mujeres se encuentra entre: 7.86101412518727"
A partir del intervalo de confianza anterior, se puede concluir con un nivel de confianza del 95% que la circunferencia abdominal promedio en hombres es superior al promedio de las mujeres, ya que el intervalo de confianza no incluye cero, y al ser positivos, se puede afirmar que la media de la circunferencia abdominal en hombres es mayor al de mujeres.
Se procede a comprobar que los datos de la variable X8 pertenezcan a una distribucion normal tanto para la muestra en mujeres como en hombres.
Presenta una tendencia lineal caracteristica de una distribución normal:
qqPlot(muestraMujer$X8, pch=19, las=1, main='QQplot diametro rodilla mujeres',
xlab='Cuantiles teóricos', ylab='Cuantiles muestrales')## [1] 1 42
hist(muestraMujer$X8,col ="#F08214",border = "black", lwd = 1, freq=TRUE,
main='Histograma diametro rodilla mujeres',
xlab='Medida (cm)',
ylab='Frecuencia')density_MX8 <- density(muestraMujer$X8)
plot(density_MX8, main = "Densidad de probabilidad diametro rodilla mujeres", xlab = "Medida (cm)", ylab = "Densidad", lwd=2)Presenta una tendencia lineal caracteristica de una distribución normal:
qqPlot(muestraHombre$X8, pch=19, las=1, main='QQplot diametro rodilla hombres',
xlab='Cuantiles teóricos', ylab='Cuantiles muestrales')## [1] 31 27
hist(muestraHombre$X8,col ="#F3B67D",border = "black", lwd = 1, freq=TRUE,
main='Histograma diametro rodilla Hombres',
xlab='Medida (cm)',
ylab='Frecuencia')density_HX8 <- density(muestraHombre$X8)
plot(density_HX8, main = "Densidad de probabilidad diametro rodilla hombres", xlab = "Medida (cm)", ylab = "Densidad", lwd=2)
Al aplicar un test, se encuentra que efectivamente los datos siguen una
distribucion normal
result8 <- shapiro.test(muestraHombre$X8)
print(result8)##
## Shapiro-Wilk normality test
##
## data: muestraHombre$X8
## W = 0.96146, p-value = 0.1023
Se verifica si la varianza de ambas muestras son iguales
resd <- stests::var.test(x=muestraHombre$X8, y=muestraMujer$X8, conf.level=0.95)
resd$conf.int## [1] 0.3203623 0.9948238
## attr(,"conf.level")
## [1] 0.95
Como el intervalo de confianza del 95% indica que la razón de las varianzas se encuentra entre 0.3203623 a 0.9948238 y este no incluye el 1, entonces las varianzas son distintas.
res6a <- t.test(x=muestraHombre$X8, y=muestraMujer$X8,
paired=FALSE, var.equal=FALSE, conf.level = 0.95) #La varianza de las dos muestras es diferente
res6a$conf.int## [1] 0.9839506 1.8840494
## attr(,"conf.level")
## [1] 0.95
paste("Con una confianza del 95% se estima que la diferencia de promedios del diametro de la rodilla entre hombres y mujeres de la muestra se encuentra entre: ", res6a$conf.int)## [1] "Con una confianza del 95% se estima que la diferencia de promedios del diametro de la rodilla entre hombres y mujeres de la muestra se encuentra entre: 0.983950638234224"
## [2] "Con una confianza del 95% se estima que la diferencia de promedios del diametro de la rodilla entre hombres y mujeres de la muestra se encuentra entre: 1.88404936176577"
A partir del intervalo de confianza anterior, se puede concluir con un nivel de confianza del 95% que la circunferencia abdominal promedio en hombres es superior al promedio de las mujeres, ya que el intervalo de confianza no incluye cero, y al ser positivos, se puede afirmar que la media del diametro de la rodilla en hombres es mayor al de mujeres.
Presenta una tendencia lineal caracteristica de una distribución normal:
qqPlot(muestraMujer$X15, pch=19, las=1, main='QQplot circunferencia muslo mujeres',
xlab='Cuantiles teóricos', ylab='Cuantiles muestrales')## [1] 1 42
hist(muestraMujer$X15,col ="#D7BDE2",border = "black", lwd = 1, freq=TRUE,
main='Histograma circunferencia muslo mujeres',
xlab='Medida (cm)',
ylab='Frecuencia')density_MX15 <- density(muestraMujer$X15)
plot(density_MX15, main = "Densidad de probabilidad circunferencia muslo mujeres", xlab = "Medida (cm)", ylab = "Densidad", lwd=2)Al aplicar un test, se encuentra que efectivamente los datos siguen una distribucion normal
result7<-ad.test(muestraMujer$X15)
print(result7)##
## Anderson-Darling normality test
##
## data: muestraMujer$X15
## A = 0.4033, p-value = 0.344
Se verifica si la varianza de ambas muestras son iguales
res8 <- stests::var.test(x=muestraMujer$X15, conf.level=0.90)
res8$conf.int## [1] 15.5698 30.4412
## attr(,"conf.level")
## [1] 0.9
paste("Con una confianza del 90% se estima que la varianza poblacional
de la circunferencia del muslo para las mujeres.
se encuentra entre: ", res6a$conf.int)## [1] "Con una confianza del 90% se estima que la varianza poblacional\nde la circunferencia del muslo para las mujeres.\n se encuentra entre: 0.983950638234224"
## [2] "Con una confianza del 90% se estima que la varianza poblacional\nde la circunferencia del muslo para las mujeres.\n se encuentra entre: 1.88404936176577"
Para hallar la correlacion entre variables se construyo una matriz de correlacion
matriz_correlacion <- cor(muestraTotal)
print(matriz_correlacion)## X6 X7 X8 X13 X15 X23 X24
## X6 1.0000000 0.8283479 0.7076603 0.5362981 0.2250827 0.8221889 0.7837403
## X7 0.8283479 1.0000000 0.7282451 0.4442858 0.1965109 0.7634769 0.6566541
## X8 0.7076603 0.7282451 1.0000000 0.5000105 0.4569642 0.8057829 0.6186697
## X13 0.5362981 0.4442858 0.5000105 1.0000000 0.5842120 0.7219119 0.3878620
## X15 0.2250827 0.1965109 0.4569642 0.5842120 1.0000000 0.5563555 0.1537447
## X23 0.8221889 0.7634769 0.8057829 0.7219119 0.5563555 1.0000000 0.7574902
## X24 0.7837403 0.6566541 0.6186697 0.3878620 0.1537447 0.7574902 1.0000000
## X25 0.7792620 0.7105952 0.5386669 0.2298857 -0.1198551 0.6369953 0.7182752
## X25
## X6 0.7792620
## X7 0.7105952
## X8 0.5386669
## X13 0.2298857
## X15 -0.1198551
## X23 0.6369953
## X24 0.7182752
## X25 1.0000000
corrplot.mixed(matriz_correlacion, main='Matriz de correlación variables medidas del cuerpo')Se encontraron tres correlaciones fuertes con valor similar, para cada una se hizo la regresion lineal y su respectiva grafica de dispercion y regresion lineal.
X6-X7: 0.8283479, X6-X23: 0.8221889, X8-X23: 0.8057829
datos_X6_x7 <- data.frame(x = muestraTotal$X6, # Variable independiente (x)
y = muestraTotal$X7) # Variable dependiente (y)
modelo_X6_x7 <- lm(y ~ x, data = datos_X6_x7)
summary(modelo_X6_x7)#La ecuación de la recta que se obtiene es ##
## Call:
## lm(formula = y ~ x, data = datos_X6_x7)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.39717 -0.32151 -0.04657 0.30708 1.41109
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.24808 0.56586 3.973 0.000136 ***
## x 0.61557 0.04205 14.638 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5407 on 98 degrees of freedom
## Multiple R-squared: 0.6862, Adjusted R-squared: 0.683
## F-statistic: 214.3 on 1 and 98 DF, p-value: < 2.2e-16
coeficientes_X6_x7 <- coef(modelo_X6_x7)
intercepto_X6_x7 <- coeficientes_X6_x7[1]
pendiente_X6_x7 <- coeficientes_X6_x7[2]
cat("Ecuación de regresión: y =", intercepto_X6_x7, "+", pendiente_X6_x7, "* x\n")## Ecuación de regresión: y = 2.248082 + 0.615568 * x
grafico_X6_x7 <- ggplot(datos_X6_x7, aes(x, y)) +
geom_point(shape = 21, fill = "#FFAF64", color = "black", size = 3) +
geom_smooth(method = "lm", formula = y ~ x, color = "#F57C0A") +
labs(title = "Gráfico de dispersión y regresión lineal X6-X7",
x = "Diametro codo (cm)",
y = "Diametro muñeca (cm)") +
theme(legend.text = element_text(size = 12))
print(grafico_X6_x7)datos_X6_x23 <- data.frame(x = muestraTotal$X6, # Variable independiente (x)
y = muestraTotal$X23) # Variable dependiente (y)
modelo_X6_x23 <- lm(y ~ x, data = datos_X6_x23)
summary(modelo_X6_x23)#La ecuación de la recta que se obtiene es ##
## Call:
## lm(formula = y ~ x, data = datos_X6_x23)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.7817 -5.2671 -0.6538 4.7210 29.9909
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -46.2014 8.1027 -5.702 1.25e-07 ***
## x 8.6107 0.6022 14.299 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.743 on 98 degrees of freedom
## Multiple R-squared: 0.676, Adjusted R-squared: 0.6727
## F-statistic: 204.5 on 1 and 98 DF, p-value: < 2.2e-16
coeficientes_X6_x23 <- coef(modelo_X6_x23)
intercepto_X6_x23 <- coeficientes_X6_x23[1]
pendiente_X6_x23 <- coeficientes_X6_x23[2]
cat("Ecuación de regresión: y =", intercepto_X6_x23, "+", pendiente_X6_x23, "* x\n")## Ecuación de regresión: y = -46.20138 + 8.610675 * x
grafico_X6_x23 <- ggplot(datos_X6_x23, aes(x, y)) +
geom_point(shape = 21, fill = "#E44D99", color = "black", size = 3) +
geom_smooth(method = "lm", formula = y ~ x, color = "#A92768") +
labs(title = "Gráfico de dispersión y regresión lineal X6-X23",
x = "Diametro codo (cm)",
y = "Peso (kg)") +
theme(legend.text = element_text(size = 12))
print(grafico_X6_x23)datos_X8_x23 <- data.frame(x = muestraTotal$X8, # Variable independiente (x)
y = muestraTotal$X23) # Variable dependiente (y)
modelo_X8_x23 <- lm(y ~ x, data = datos_X8_x23)
summary(modelo_X8_x23)#La ecuación de la recta que se obtiene es ##
## Call:
## lm(formula = y ~ x, data = datos_X8_x23)
##
## Residuals:
## Min 1Q Median 3Q Max
## -13.929 -6.150 -1.771 4.476 25.484
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -84.6429 11.4447 -7.396 4.82e-11 ***
## x 8.1521 0.6052 13.470 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.056 on 98 degrees of freedom
## Multiple R-squared: 0.6493, Adjusted R-squared: 0.6457
## F-statistic: 181.4 on 1 and 98 DF, p-value: < 2.2e-16
coeficientes_X8_x23 <- coef(modelo_X8_x23)
intercepto_X8_x23 <- coeficientes_X8_x23[1]
pendiente_X8_x23 <- coeficientes_X8_x23[2]
cat("Ecuación de regresión: y =", intercepto_X8_x23, "+", pendiente_X8_x23, "* x\n")## Ecuación de regresión: y = -84.64287 + 8.15209 * x
grafico_X8_x23 <- ggplot(datos_X8_x23, aes(x, y)) +
geom_point(shape = 21, fill = "#73BAF5", color = "black", size = 3) +
geom_smooth(method = "lm", formula = y ~ x, color = "#4D6FE4") +
labs(title = "Gráfico de dispersión y regresión lineal X8-X23",
x = "Diametro rodilla (cm)",
y = "Peso (kg)") +
theme(legend.text = element_text(size = 12))
print(grafico_X8_x23)