Introducción:

En esta presentación, se mostrarán los pasos seguidos en el procesamiento y análisis de los datos, incluyendo la limpieza, exploración, visualización y modelado estadístico. Además, se presentarán los resultados y conclusiones derivados de este análisis.
En este proyecto, hemos usado una base de datos en formato Excel que contiene medidas antropométricas de un grupo de 507 individuos, abarcando 8 variables relevantes. Las variables representan los datos:

X6 : Diámetro del codo, suma de dos codos en cm.
X7 : Diámetro de muñeca, suma de dos muñecas en cm.
X8 : Diámetro de rodilla, suma de dos rodillas en cm.
X13 : Circunferencia abdominal, pasando por el ombligo en cm.
X15 : Circunferencia del muslo en cm.
X23 : Peso (kg)
X24 : Altura (cm)
X25 : Género (1: hombre, 0: mujer)

Actividad 1

Cree una semilla con los últimos dígitos de las cédulas de los integrantes del grupo, obtenga una muestra de 50 individuos hombres y 50 individuos mujeres con las variables arriba mencionadas.

#Con este comando identificamos donde estan los datos (El excel con los 507 individuos)
excel <- read.xlsx(file.choose(), sheet = 1)
#Poner digito D.I para la semilla
set.seed(04468)
#crear el data frame
datos <- data.frame(excel$X6,excel$X7,excel$X8,excel$X13,excel$X15,excel$X23,excel$X24,excel$X25)
# Filtrar hombres
hombres <- datos[datos$excel.X25 == 1, ]  
# Filtrar mujeres
mujeres <- datos[datos$excel.X25 == 0, ]  
# Muestra de 50 hombres
muestra_hombres <- hombres[sample(nrow(hombres), size = 50), ] 
# Muestra de 50 mujeres
muestra_mujeres <- mujeres[sample(nrow(mujeres), size = 50), ]  
# Combinar las muestras
muestra_total <- rbind(muestra_hombres, muestra_mujeres)  

View(muestra_total$excel.X6)
class(muestra_total$excel.X6)
## [1] "numeric"

Actividad 2

  1. Construya intervalos de confíanza del 90% para el promedio de las 3 primeras variables. Escriba la interpretación en el contexto de cada caso.
## [1] "Lo primero que hacemos es analizar que cada variable (X6,X7,X8) (presente en la muestra), tomada de la base de datos, proviene de una distribución normal, para esto nos vamos ayudar con técnicas gráficas."

## [1] "Como se puede observar, la distibución de la variable X6 parece tener la forma de una distribución normal, por lo tanto, es posible construir intervalos de confianza"
## [1] "Con una confianza del 90% se estima que el promedio de las dimensiones de los codos se encuentra entre:  13.0187094287855"
## [2] "Con una confianza del 90% se estima que el promedio de las dimensiones de los codos se encuentra entre:  13.4952905712145"

## [1] "Como se puede observar en el gráfico de densidad de la variable X7, la forma de la distribución se asemeja a una distribución normal. Esto sugiere que la variable X7 sigue una distribución aproximadamente normal."
## [1] "Con un nivel de confianza del 90%, se estima que el promedio de las dimensiones de las muñecas se encuentra dentro del intervalo de confianza:  10.2865238225282"
## [2] "Con un nivel de confianza del 90%, se estima que el promedio de las dimensiones de las muñecas se encuentra dentro del intervalo de confianza:  10.6234761774718"

## [1] "El análisis del gráfico de densidad de la variable X8 revela que su distribución presenta similitudes con una distribución normal. Estos indicios sugieren que la variable X8 se ajusta a una distribución aproximadamente normal."
## [1] "Con un nivel de confianza del 90%, se estima que el promedio de las dimensiones de las rodillas se encuentra dentro del intervalo de confianza calculado:  18.5531855910539"
## [2] "Con un nivel de confianza del 90%, se estima que el promedio de las dimensiones de las rodillas se encuentra dentro del intervalo de confianza calculado:  19.0488144089461"
  1. Construya un intervalo de confíanza del 99% para la proporción de las mujeres que miden menos de 165 cm. Interprete.
## [1] "Lo que hacemos es indagar cuáles son las mujeres que poseen una altura menor a 165 cm, posteriormente vemos si estos valores poseen una distribución normal o una similar a la mencionada"

## [1] "Como se puede observar, la distibución de la variable que contiene las mujeres con una altura menor a 165 cm  parece tener la forma de una distribución normal, por tanto es posible construir intervalos de confianza"
## [1] "Con una confianza del 99% se estima que el promedio de las alturas de las mujeres con una altura menor a 165 cm se encuentra entre:  159.228129441778"
## [2] "Con una confianza del 99% se estima que el promedio de las alturas de las mujeres con una altura menor a 165 cm se encuentra entre:  161.571870558222"
  1. Construya un intervalo del 95% para la diferencia de promedios de la circunferencia abdominal entre hombres y mujeres. Interprete.
## [1] "Una vez leídos los datos, se procede a analizar la normalidad de la variable circunferencia abdominal tanto para hombres como para mujeres. Esto se realiza mediante dos herramientas gráficas: un QQplot y un histograma."
## [1]  4 37
## [1]  1 25

## [1] "Al observar las anteriores esquemas se puede concluir que las circunferencias abdominales tanto como de hombres y mujeres siguen una distribución normal."
## [1]  4.267137 11.224863
## attr(,"conf.level")
## [1] 0.95
## [1] "A partir del intervalo de confianza anterior, se puede concluir, con un nivel de confianza del 95%, que la circunferencia abdominal promedio de los hombres es mayor que la circunferencia abdominal promedio de las mujeres. Esto se debe a que el intervalo de confianza no incluye el valor cero y los límites del intervalo son positivos. Por lo tanto, se puede afirmar, con un nivel de confianza del 95%, que el promedio de circunferencia abdominal de los hombres es mayor que el de las mujeres."
  1. Construya un intervalo del 95% para la diferencia de promedios de las rodillas entre hombres y mujeres. Interprete.
## [1] "Una vez leídos los datos, se procede a analizar la normalidad de la variable que contiene la medida del diámetro de las rodillas tanto para hombres como para mujeres. Como en el anterior punto, se usan un QQplot y un histograma"
## [1] 26  4
## [1]  1 18

## [1] "Al observar las anteriores figuras se puede concluir que los diámetros de las rodillas tanto como de hombres y mujeres siguen una distribución normal."
## [1] 1.001157 2.026843
## attr(,"conf.level")
## [1] 0.95
## [1] "A partir del intervalo de confianza anterior, se puede concluir, con un nivel de confianza del 95%, que el promedio del di'ametro de las rodillas de los hombres es mayor que  el promedio del diametro de las rodillas de las mujeres. Esto se debe a que el intervalo de confianza no incluye el valor cero y los límites del intervalo son positivos. Por lo tanto, se puede afirmar, con un nivel de confianza del 95%, que el promedio del diametro de las rodillas de los hombres es mayor que el de las mujeres."
  1. Construya intervalos de confíanza del 90% para la varianza poblacional de la circunferencia del muslo para las mujeres.

## [1] "Para empezar, verficamos que la muestra proviene de una población normal a través de una gráfica"

## [1] "Como se puede evidenciar de manera visual, la muestra que se toma proviene de una distribución normal lo que nos permite continuar con el proceso del intervalo de confianza para la varianza"
## 
## ── R CMD build ─────────────────────────────────────────────────────────────────
##   
  
  
   checking for file 'C:\Users\kelli\AppData\Local\Temp\RtmpGAmv3r\remotes4c0444fd2e68\fhernanb-stests-ee06c4b/DESCRIPTION' ...
  
   checking for file 'C:\Users\kelli\AppData\Local\Temp\RtmpGAmv3r\remotes4c0444fd2e68\fhernanb-stests-ee06c4b/DESCRIPTION' ... 
  
✔  checking for file 'C:\Users\kelli\AppData\Local\Temp\RtmpGAmv3r\remotes4c0444fd2e68\fhernanb-stests-ee06c4b/DESCRIPTION'
## 
  
  
  
─  preparing 'stests': (1.1s)
##    checking DESCRIPTION meta-information ...
  
   checking DESCRIPTION meta-information ... 
  
✔  checking DESCRIPTION meta-information
## 
  
  
  
─  checking for LF line-endings in source and make files and shell scripts
## 
  
─  checking for empty or unneeded directories
## 
  
   Omitted 'LazyData' from DESCRIPTION
## 
  
  
  
─  building 'stests_0.1.0.tar.gz'
## 
  
   
## 
## [1] "El intervalo de confianza del 90% indica que la varianza de la estatura de los estudiantes hombres se encuentra entre: 16.0340347328623"
## [2] "El intervalo de confianza del 90% indica que la varianza de la estatura de los estudiantes hombres se encuentra entre: 31.3488540881039"

Actividad 3

  1. Elabore una prueba de hipótesis con α = 0.05 para probar si la media de la variable X6 es diferente de 13 cm.
paste("Para elaborar una prueba de hipótesis con un nivel de significancia α = 0.05 para determinar si la media de la variable X6 es diferente de 13 cm, realizamos los siguientes pasos:")
## [1] "Para elaborar una prueba de hipótesis con un nivel de significancia α = 0.05 para determinar si la media de la variable X6 es diferente de 13 cm, realizamos los siguientes pasos:"
#Hipótesis nula (H0): La media de la variable X15 es mayor a 55 cm.

#Hipótesis alternativa (H1): La media de la variable X15 es menor o igual de 55 cm

#Estadistico y prueba de valor p

paste("Primero debemos tener todos los datos para evaluarlos en la fórmula:")
## [1] "Primero debemos tener todos los datos para evaluarlos en la fórmula:"
xbarra <- mean(muestra_total$excel.X15)  # Datos del problema

desvia <- sd(x=muestra_total$excel.X15)  # Datos del problema

n <- 100         # Datos del problema

mu <- 55      # Media de referencia

est <- (xbarra - mu) / (desvia / sqrt(n))
est  # Para obtener el valor del estadístico
## [1] 4.622672
pnorm(est)  # Para obtener el valor-P
## [1] 0.9999981
paste("Como el valor-P equivale 0.9999981 y es mayor que el nivel de significancia 1%, no se rechaza la hipótesis nula, es decir, las evidencias no son suficientes para afirmar que la media de la variable X15 es menor o igual a 55 cm.")
## [1] "Como el valor-P equivale 0.9999981 y es mayor que el nivel de significancia 1%, no se rechaza la hipótesis nula, es decir, las evidencias no son suficientes para afirmar que la media de la variable X15 es menor o igual a 55 cm."
  1. Elabore una prueba de hipótesis con α = 0.01 para probar si la media de la variable X15 es mayor de 55 cm.
paste("Para elaborar una prueba de hipótesis con un nivel de significancia α = 0.05 para determinar si la media de la variable X6 es diferente de 13 cm, realizamos los siguientes pasos:")
## [1] "Para elaborar una prueba de hipótesis con un nivel de significancia α = 0.05 para determinar si la media de la variable X6 es diferente de 13 cm, realizamos los siguientes pasos:"
#Hipótesis nula (H0): La media de la variable X15 es mayor a 55 cm.

#Hipótesis alternativa (H1): La media de la variable X15 es menor o igual de 55 cm

#Estadistico y prueba de valor p

 # Datos del problema 

u <- 55

n <- 100

xbarra <- mean(muestra_total$excel.X15) 

sd <- sd(x=muestra_total$excel.X15)

alfa <- 0.01

#H0:mu=20000, H1:mu<20000

sol <- tsum.test(mean.x = xbarra , s.x = sd , n.x = n, alternative = "less", mu = u)
## Warning in tsum.test(mean.x = xbarra, s.x = sd, n.x = n, alternative = "less",
## : argument 'var.equal' ignored for one-sample test.
sol
## 
##  One-sample t-Test
## 
## data:  Summarized x
## t = 4.6227, df = 99, p-value = 1
## alternative hypothesis: true mean is less than 55
## 95 percent confidence interval:
##        NA 57.78089
## sample estimates:
## mean of x 
##    57.046
sol <- zsum.test(mean.x = xbarra, sigma.x = sd, n.x = n, alternative = "less", mu = u)

sol
## 
##  One-sample z-Test
## 
## data:  Summarized x
## z = 4.6227, p-value = 1
## alternative hypothesis: true mean is less than 55
## 95 percent confidence interval:
##        NA 57.77401
## sample estimates:
## mean of x 
##    57.046
paste("Primero debemos explorar si la muestra proviene de una ditribución normal, para esto podemos utilizar varias pruebas y analizar su valor p:")
## [1] "Primero debemos explorar si la muestra proviene de una ditribución normal, para esto podemos utilizar varias pruebas y analizar su valor p:"
paste("Como el valor-P es 0.07639 y mayor que el nivel de significancia 5%, no se rechaza la hipótesis nula, es decir, las evidencias no son suficientes para afirmar que la media es diferente de 13 cm.")
## [1] "Como el valor-P es 0.07639 y mayor que el nivel de significancia 5%, no se rechaza la hipótesis nula, es decir, las evidencias no son suficientes para afirmar que la media es diferente de 13 cm."
xbarra <- mean(muestra_total$excel.X15)  # Datos del problema
desvia <- sd(x=muestra_total$excel.X15)  # Datos del problema
n <- 100         # Datos del problema
mu <- 55      # Media de referencia

est <- (xbarra - mu) / (desvia / sqrt(n))
est  # Para obtener el valor del estadístico
## [1] 4.622672
pnorm(est)  # Para obtener el valor-P
## [1] 0.9999981
  1. Elabore una prueba de hipótesis con α = 0:10 para probar si la los promedios de la variable X7 en hombres y mujeres son iguales.
xbarra_hombres <- mean(muestra_hombres$excel.X7)
xbarra_hombres
## [1] 11.198
var(muestra_hombres$excel.X7)
## [1] 0.3834653
xbarra_mujeres <- mean(muestra_mujeres$excel.X7)
xbarra_mujeres
## [1] 9.712
var(muestra_mujeres$excel.X7)
## [1] 0.5700571
datos <- data.frame(X7 = muestra_total$excel.X7, Genero = muestra_total$excel.X25)
boxplot(X7 ~ Genero, data=datos, las=1,
        xlab='Género', ylab='X7', col = "slategray2", lwd = 1.5, main = 'Boxplot de la variable X7 en mujeres (0) y hombres (1)')

#Hipótesis nula (H0): Los promedios de la variable X7 en hombres y mujeres son iguales.

#Hipótesis alternativa (H1): Los promedios de la variable X7 en hombres y mujeres son diferentes.

t.test(x=muestra_hombres$excel.X7, y=muestra_mujeres$excel.X7, alternative="two.sided", mu=0,paired=FALSE, var.equal=FALSE, conf.level=0.90)
## 
##  Welch Two Sample t-test
## 
## data:  muestra_hombres$excel.X7 and muestra_mujeres$excel.X7
## t = 10.761, df = 94.386, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 90 percent confidence interval:
##  1.256601 1.715399
## sample estimates:
## mean of x mean of y 
##    11.198     9.712
paste("Como el valor-P es un valor muy pequeño, podemos concluir que si hay diferencias significativas entre la media de los hombres y la de las mujeres en la variable X7.")
## [1] "Como el valor-P es un valor muy pequeño, podemos concluir que si hay diferencias significativas entre la media de los hombres y la de las mujeres en la variable X7."
  1. Elabore una prueba de hipótesis con α = 0:05 para probar si el promedio de la variable X13 es mayor en hombres que en mujeres.
xbarra_h <- mean(muestra_hombres$excel.X13)
xbarra_h
## [1] 89.658
var(muestra_hombres$excel.X13)
## [1] 58.25636
xbarra_m <- mean(muestra_mujeres$excel.X13)
xbarra_m
## [1] 81.912
var(muestra_mujeres$excel.X13)
## [1] 95.17985
datos <- data.frame(X13 = muestra_total$excel.X13, Género = muestra_total$excel.X25)
boxplot(X13 ~ Género, data=datos, las=1,
        xlab='Género', ylab='X13', col = '#FFB6C1', lwd = 1.5,
        main = 'Boxplot de la variable X13 en mujeres (0) y hombres (1)')

#Hipótesis nula (H0): El promedio de los hombres en la variable X13 es mayor que el de las mujeres

#Hipótesis alternativa (H1): Los promedios de la variable X7 en hombres y mujeres son diferentes.

t.test(x=muestra_hombres$excel.X13, y=muestra_mujeres$excel.X13, alternative="less",paired=FALSE, var.equal=FALSE, conf.level=0.95)
## 
##  Welch Two Sample t-test
## 
## data:  muestra_hombres$excel.X13 and muestra_mujeres$excel.X13
## t = 4.4218, df = 92.636, p-value = 1
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##      -Inf 10.65652
## sample estimates:
## mean of x mean of y 
##    89.658    81.912
paste("Como el valor-P es 1 y es mayor que el nivel de significancia de 5% no se rechaza la hipótesis nula, es decir, el promedio de la variable X13 de los hombres es mayor que el de las mujeres.")
## [1] "Como el valor-P es 1 y es mayor que el nivel de significancia de 5% no se rechaza la hipótesis nula, es decir, el promedio de la variable X13 de los hombres es mayor que el de las mujeres."
  1. ¿Es la varianza de la variable X13 en las mujeres mayor que 80?, pruebe con α = 0:01.
paste("Primero debemos explorar si la muestra proviene de una ditribución normal, para esto podemos utilizar varias pruebas y analizar su valor p:")
## [1] "Primero debemos explorar si la muestra proviene de una ditribución normal, para esto podemos utilizar varias pruebas y analizar su valor p:"
# Prueba Anderson-Darling
ad.test(muestra_mujeres$excel.X13)
## 
##  Anderson-Darling normality test
## 
## data:  muestra_mujeres$excel.X13
## A = 0.29956, p-value = 0.5705
#Prueba de Lilliefors (Kolmogorov-Smirnov)
lillie.test(muestra_mujeres$excel.X13)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  muestra_mujeres$excel.X13
## D = 0.069089, p-value = 0.7974
#Prueba de Cramer-von Mises
cvm.test(muestra_mujeres$excel.X13)
## 
##  Cramer-von Mises normality test
## 
## data:  muestra_mujeres$excel.X13
## W = 0.041931, p-value = 0.6383
#Prueba chi-cuadrado de Pearson
pearson.test(muestra_mujeres$excel.X13)
## 
##  Pearson chi-square normality test
## 
## data:  muestra_mujeres$excel.X13
## P = 3.2, p-value = 0.8659
paste("Como vimos, todas las pruebas nos arrojan un valor de p mayor al nivel de significancia, por lo tanto, la muestra si proviene de una distribución normal.")
## [1] "Como vimos, todas las pruebas nos arrojan un valor de p mayor al nivel de significancia, por lo tanto, la muestra si proviene de una distribución normal."
stests::var.test(x=muestra_mujeres$excel.X13, alternative='less',
                 null.value=80, conf.level=0.99)
## 
##  X-squared test for variance
## 
## data:  muestra_mujeres$excel.X13
## X-squared = 58.298, df = 49, p-value = 0.8295
## alternative hypothesis: true variance is less than 80
## 99 percent confidence interval:
##  62.25101      Inf
## sample estimates:
## variance of x 
##      95.17985
paste("Como el valor-P es 0.8295 y mayor que el nivel de significancia de 1%, no se rechaza la hipótesis nula, es decir, las evidencias no son suficientes para afirmar que la varianza  de la variable X13 en las mujeres es menor o igual que 80")
## [1] "Como el valor-P es 0.8295 y mayor que el nivel de significancia de 1%, no se rechaza la hipótesis nula, es decir, las evidencias no son suficientes para afirmar que la varianza  de la variable X13 en las mujeres es menor o igual que 80"
  1. ¿Es la varianza de la variable X8 en las hombres diferente de 1.5?, pruebe con α = 0:01.
paste("Primero debemos explorar si la muestra proviene de una ditribución normal, para esto podemos utilizar varias pruebas y analizar su valor p:")
## [1] "Primero debemos explorar si la muestra proviene de una ditribución normal, para esto podemos utilizar varias pruebas y analizar su valor p:"
# Prueba Anderson-Darling
ad.test(muestra_hombres$excel.X8)
## 
##  Anderson-Darling normality test
## 
## data:  muestra_hombres$excel.X8
## A = 0.49968, p-value = 0.1999
#Prueba de Lilliefors (Kolmogorov-Smirnov)
lillie.test(muestra_hombres$excel.X8)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  muestra_hombres$excel.X8
## D = 0.094648, p-value = 0.3185
#Prueba de Cramer-von Mises
cvm.test(muestra_hombres$excel.X8)
## 
##  Cramer-von Mises normality test
## 
## data:  muestra_hombres$excel.X8
## W = 0.066992, p-value = 0.3001
#Prueba chi-cuadrado de Pearson
pearson.test(muestra_hombres$excel.X8)
## 
##  Pearson chi-square normality test
## 
## data:  muestra_hombres$excel.X8
## P = 7.2, p-value = 0.4084
paste("Como vimos, todas las pruebas nos arrojan un valor de p mayor al nivel de significancia, por lo tanto, la muestra si proviene de una distribución normal.")
## [1] "Como vimos, todas las pruebas nos arrojan un valor de p mayor al nivel de significancia, por lo tanto, la muestra si proviene de una distribución normal."
stests::var.test(x=muestra_hombres$excel.X8, alternative='two.sided',
                 null.value=1.5, conf.level=0.99)
## 
##  X-squared test for variance
## 
## data:  muestra_hombres$excel.X8
## X-squared = 37.415, df = 49, p-value = 0.2267
## alternative hypothesis: true variance is not equal to 1.5
## 99 percent confidence interval:
##  0.7173884 2.0595648
## sample estimates:
## variance of x 
##      1.145343
paste("Como el valor-P es 0.2267 y mayor que el nivel de significancia de 1%, no se rechaza la hipótesis nula, es decir, las evidencias no son suficientes para afirmar que la varianza  de la variable X8 en los hombre es igual a 1.5")
## [1] "Como el valor-P es 0.2267 y mayor que el nivel de significancia de 1%, no se rechaza la hipótesis nula, es decir, las evidencias no son suficientes para afirmar que la varianza  de la variable X8 en los hombre es igual a 1.5"

Actividad 4

Elabore un breve análisis regresión lineal para las variables que usted considere que tienen alta correlación.

Primero, cargamos los datos

library(readxl)
datos <- read_excel(file.choose(), sheet = 1)
datos <- datos[,-8]

male <- datos[1:50, ]
female <- datos[51:100, ]

1. Correlacion de todos los datos

Primeramente, con este grafico podemos darnos una breve introduccion o idea de las graficas de correlacion:

pairs(datos)

La Tabla 1 mostrada a continuacion presenta las correlaciones entre las variables sin importar el genero.

cor(datos) #Tabla1. Correlaciones Generales
##            X6        X7        X8       X13       X15       X23       X24
## X6  1.0000000 0.8399305 0.7315042 0.4387605 0.2069166 0.8011938 0.7381129
## X7  0.8399305 1.0000000 0.7124844 0.3992720 0.1940200 0.7646054 0.6779616
## X8  0.7315042 0.7124844 1.0000000 0.4712506 0.4315276 0.7660485 0.5880951
## X13 0.4387605 0.3992720 0.4712506 1.0000000 0.6026428 0.7118165 0.3131968
## X15 0.2069166 0.1940200 0.4315276 0.6026428 1.0000000 0.5585626 0.1163097
## X23 0.8011938 0.7646054 0.7660485 0.7118165 0.5585626 1.0000000 0.7173011
## X24 0.7381129 0.6779616 0.5880951 0.3131968 0.1163097 0.7173011 1.0000000

Con esta informacion, encontraremos los coeficientes de correlacion que esten superiores al 0,8.

umbral <- 0.8
correlaciones_altas <- which(abs(cor(datos)) > umbral & cor(datos) != 1, arr.ind = TRUE)
correlaciones_altas
##     row col
## X7    2   1
## X23   6   1
## X6    1   2
## X6    1   6

Segun esto, las variables a graficar seran: X7 - X6; X23 - X6; X6 - X7; X6 - X23.

Grafica 1 - Muñeca vs. Codo

library(ggplot2)
reg.lin <- lm(X7 ~ X6, data = datos)
  ggplot(datos, aes(x = X7, y = X6)) +
  geom_point(color = "#CD5555", size = 3) +
  geom_smooth(method = 'lm', formula = y ~ x, se = FALSE, color = 'slateblue4', size=1.5) +
  theme_minimal() +
  theme(
    axis.title = element_text(size = 14, face = "bold"),
    axis.text = element_text(size = 12),
    panel.grid.major = element_blank(),
    panel.grid.minor = element_blank(),
    panel.background = element_rect(fill = "#FFFFF0"),
    plot.title = element_text(size = 16, face = "bold", hjust = 0.5),

  ) +
  labs(x = "Diametro de Muñeca (cm)", y = "Diametro del Codo (cm)", title = "Grafica 1: Muñeca vs. Codo")
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Grafica 2 - Peso vs. Codo

reg.lin <- lm(X23 ~ X6, data = datos)

ggplot(datos, aes(x=X23, y=X6)) +
  geom_point(color = "#008B45", size = 3) +
  geom_smooth(method = 'lm', formula = y ~ x, se = FALSE, color = 'violetred4', size=1.5) +
  theme_minimal() +
  theme(
    axis.title = element_text(size = 14, face = "bold"),
    axis.text = element_text(size = 12),
    panel.grid.major = element_blank(),
    panel.grid.minor = element_blank(),
    panel.background = element_rect(fill = "#FFFFF0"),
    plot.title = element_text(size = 16, face = "bold", hjust = 0.5),

  ) +
  labs(x = "Peso (kg)", y = "Diametro del Codo (cm)", title = "Grafica 2: Peso vs Codo")

Correlacion de los datos de los hombres

Ahora visualicemos los datos de los hombres

pairs(male)

La Tabla 2 mostrada a continuacion presenta las correlaciones entre las variables de los hombres

cor(male) #Tabla2. Correlaciones hombres
##            X6        X7        X8       X13       X15       X23       X24
## X6  1.0000000 0.7104497 0.6726004 0.2843041 0.4196738 0.6685301 0.4902947
## X7  0.7104497 1.0000000 0.7053514 0.1562241 0.2687867 0.5331424 0.3465709
## X8  0.6726004 0.7053514 1.0000000 0.3687422 0.3844938 0.7040028 0.5892220
## X13 0.2843041 0.1562241 0.3687422 1.0000000 0.6337000 0.6802408 0.2886508
## X15 0.4196738 0.2687867 0.3844938 0.6337000 1.0000000 0.8364939 0.2692526
## X23 0.6685301 0.5331424 0.7040028 0.6802408 0.8364939 1.0000000 0.5976999
## X24 0.4902947 0.3465709 0.5892220 0.2886508 0.2692526 0.5976999 1.0000000

Se busca hallar las variables con mayor correlacion en los hombres (Aun teniendo como un umbral el 0,8)

correlaciones_altas <- which(abs(cor(male)) > umbral & cor(male) != 1, arr.ind = TRUE)
correlaciones_altas
##     row col
## X23   6   5
## X15   5   6

Con esto, encontramos que las variables con más correlacion son la circunferencia del muslo y el peso.

Grafica 3 - Peso vs. Muslo

reg.lin <- lm(X23 ~ X15, data = male)

ggplot(male, aes(x=X23, y=X15)) +
 geom_point(color = "seagreen3", size = 3) +
  geom_smooth(method = 'lm', formula = y ~ x, se = FALSE, color = '#DDA0DD', size=1.5) +
  theme_minimal() +
  theme(
    axis.title = element_text(size = 14, face = "bold"),
    axis.text = element_text(size = 12),
    panel.grid.major = element_blank(),
    panel.grid.minor = element_blank(),
    panel.background = element_rect(fill = "#FFFFF0"),
    plot.title = element_text(size = 16, face = "bold", hjust = 0.5),

  ) +
  labs(x = "Peso (kg)", y = "Circunferencia del Muslo (cm)", title = "Grafica 3. Peso vs. Muslo")

Correlacion de los datos de las mujeres

La ultima visualizacion de variables que tendremos sera la de las mujeres

pairs(female)

En la siguiente tabla, podremos observar los coeficientes de relacion de las diferentes variables en las mujeres

cor(female) #Tabla3. Correlaciones Mujeres
##            X6        X7        X8       X13       X15       X23       X24
## X6  1.0000000 0.6560762 0.5421061 0.4097654 0.4769083 0.5804799 0.4566400
## X7  0.6560762 1.0000000 0.4810072 0.4336853 0.4614515 0.5566156 0.4066961
## X8  0.5421061 0.4810072 1.0000000 0.2110659 0.4358134 0.4172342 0.2083175
## X13 0.4097654 0.4336853 0.2110659 1.0000000 0.8084807 0.8742087 0.5105543
## X15 0.4769083 0.4614515 0.4358134 0.8084807 1.0000000 0.8839149 0.3755234
## X23 0.5804799 0.5566156 0.4172342 0.8742087 0.8839149 1.0000000 0.6600987
## X24 0.4566400 0.4066961 0.2083175 0.5105543 0.3755234 0.6600987 1.0000000

Por ultimo, estas son las variables por encima del umbral de correlacion de las mujeres

correlaciones_altas <- which(abs(cor(male)) > umbral & cor(male) != 1, arr.ind = TRUE)
correlaciones_altas
##     row col
## X23   6   5
## X15   5   6

Sorprendentemente, encontramos las mismas dos variables con mayor correlacion que en el caso de los hombres.

Grafica 4 - Peso vs. Muslo

reg.lin <- lm(X23 ~ X15, data = female)

ggplot(female, aes(x=X23, y=X15)) +

 geom_point(color = "#7D26CD", size = 3) +
  geom_smooth(method = 'lm', formula = y ~ x, se = FALSE, color = '#CD8500', size=1.5) +
  theme_minimal() +
  theme(
    axis.title = element_text(size = 14, face = "bold"),
    axis.text = element_text(size = 12),
    panel.grid.major = element_blank(),
    panel.grid.minor = element_blank(),
    panel.background = element_rect(fill = "#FFFFF0"),
    plot.title = element_text(size = 16, face = "bold", hjust = 0.5),

  ) +
  labs(x = "Peso (kg)", y = "Circunferencia del Muslo (cm)", title = "Grafica 4. Peso vs. Muslo")