Introducción. Estadística Inferencial

En general, la recolección, resumen, reporte y almacenamiento de datos para su posterior análisis ha sido una actividad desarrollada por más de mil años y ha permitido la mejora de procesos de manufactura, el establecimiento de tendencias, etc. No obstante, este proceso de acopio de información en muchos casos es inviable, ya sea, por falta de recursos, poblaciones muy extensas, entre otros. De ahí que se desarrollaran nuevas herramientas, como la estadística inferencial, con el fin de analizar información a pesar de no poseer los n datos poblacionales.

La estadística inferencial y el muestreo, al estar relacionados con los elementos de probabilidad, permiten la obtención de conclusiones acerca de una población. Estas conclusiones corresponden a datos hipotéticos extraídos a partir de características conocidas de la población por lo que para obtener inferencias adecuadas se hace necesario la selección apropiada de una muestra aleatoria, esto es, que sea una buena representación del conjunto total de datos. [1]

Para el presente trabajo se lleva a cabo la selección de una muestra a partir de una base de datos de medidas antropométricas y se realiza la estimación de intervalos de confianza, pruebas de hipótesis y análisis de regresión lineal.

A continuación daremos un breve resumen de los temas abordados en las actividades 2,3 y 4.e

Actividad 2: Intervalos de confianza.

Un intervalo de confianza es un rango estimado de valores que se utiliza para estimar el valor verdadero de un parámetro poblacional desconocido, como la media, la proporción o la diferencia de medias. Generalmente va acompañado de un nivel de confianza asociado. Los intervalos de confianza tienen distintos tipos que operan en determinadas situaciones.

  • Intervalo de confianza para la media poblacional: Se utiliza para la estimación de la media de la variable de una población, puede basarse en la distribución normal, en casos de muestras grandes, y en la distribución t en caso de muestras pequeñas.

  • Intervalo de confianza para la proporción poblacional: Es utilizada para la estimación de una determinada proporción relacionada con una variable con características binomiales.

  • Intervalo de confianza para la diferencia de medias: Se utiliza para establecer diferencias entre las medias de dos poblaciones independientes. Se basa en distribución normal o t, de igual manera que un intervalo de confianza para la media poblacional.

  • Intervalo de confianza para la varianza: Es utilizada para estimar la varianza de una población a través de un muestra, se basa en distribución chi-cuadrado.

Actividad 3: Pruebas de hipótesis:

Las pruebas de hipótesis son procedimientos estadísticos utilizados para tomar decisiones sobre una afirmación o hipótesis acerca de un parámetro poblacional desconocido, basándose en la evidencia proporcionada por una muestra de datos. Se basan en probabilidad y son utilizadas para establecer la existencia o el rechazo de una hipótesis nula.

Al igual que los intervalos de confianza hay distintos tipos:

  • Prueba de hipótesis para la media: Es utilizada para establecer si la media de una población es igual, mayor o menor que determinado valor por medio de una muestra.

  • Prueba de hipótesis para la proporción: Se utiliza para evaluar si la proporción de las variables en una población es igual, mayor o menor que un determinado valor.

  • Prueba de hipótesis para la diferencia de medias: Se utiliza para evaluar si hay una diferencia significativa entre las medias de dos poblaciones independientes o pareadas.

  • Prueba de hipótesis para la varianza: Se utiliza para establecer si la varianza de una población es igual, mayor o menor que un valor determinado. Se basa en la distribución chi-cuadrado.

Actividad 4: Regresión lineal

La manera más simple de describir una regresión lineal es que es un método estadístico para modelar la relación entre variables, una o varias. En esta se busca encontrar la mejor línea recta dentro de los datos estudiados. Esta línea de regresión se utiliza para predecir los valores de las variables dependientes, en función de las variables independientes. Dentro de la actividad podrá encontrar una descripción más detallada de lo que se menciona.

Notas adicionales: Dentro de todo el trabajo se hace gran uso de las pruebas de normalidad, las cuales son de gran importancia a la hora de verificar la normalidad de una muestra, esto con el fin de establecer qué se puede hacer con ella y qué no. Hemos utilizado varias de ellas, por lo que a continuación se da una breve introducción de su modo de operar.

  • Prueba de Normalidad de Anderson-Darling: El estadístico de Anderson-Darling (AD) se realiza para muestras de tamaño moderado a grande y mide el ajuste de los datos a una distribución específica, en este caso, a la distribución normal. En general, un buen ajuste se asocia a un valor pequeño del estadístico AD. Este estadístico a su vez permite calcular el valor-p, el cual ayuda a determinar el modelo de distribución que se debe emplear para un análisis. En términos del valor-p, la distribución con mayor valor-p se ajustará más estrechamente a los datos [2], de ahí que no se rechace la hipótesis nula para valores-p mayores del 10%.

  • Prueba de Shapiro-Wilk: Esta prueba compara los datos de una distribución normal teórica. La prueba calcula un estadístico de prueba (W) que mide la discrepancia entre los valores observados y los valores esperados bajo la hipótesis nula de normalidad. Esta prueba es adecuada para muestras pequeñas que tienen menos de 50 observaciones pues la precisión disminuye en cuanto la muestra sea más grande.

  • Prueba de normalidad de Kolmogorov-Smirnov: La prueba de Kolmogorov-Smirnov calcula un estadístico de prueba (D) que mide la discrepancia máxima entre las dos funciones de distribución acumulativa. Cuanto mayor sea el valor de D, mayor será la discrepancia entre los datos y la distribución normal. La prueba también proporciona un valor-p asociado, que indica la probabilidad de obtener una discrepancia tan grande o mayor entre los datos y la distribución normal bajo la hipótesis nula de normalidad.

Actividad 1. Muestra

Se obtuvo una muestra de 100 individuos de una base de datos de medidas antropométricas con 25 variables y una población de 507 sujetos disponible en el fichero de datos body_dat.csv que se encuentra en https://jse.amstat.org/v11n2/datasets.heinz.html.

Para la muestra se seleccionaron 8 variables (Diámetro del codo, diámetro de la muñeca, diámetro de la rodilla, circunferencia abdominal, circunferencia del muslo, peso, altura y género). Además, de los 100 individuos seleccionados de forma aleatoria, la mitad son mujeres.

Las variables se han renombrado como se muestra a continuación:

-X6: Diámetro del codo (suma de dos codos en cm).

-X7: Diámetro de muñecas (suma de dos muñecas en cm).

-X8: Diámetro de rodilla (suma de dos rodillas en cm).

-X13: Circunferencia abdominal pasando por el ombligo en cm.

-X15: Circunferencia del muslo en cm.

-X23:Peso (kg).

-X24: Altura (cm).

-X25: Género (1: hombre, 0:mujer).

Las características antropométricas y funcionales de un individuo son determinantes de las condiciones ergonómicas y permiten establecer bases de datos normativas para la toma de decisiones adecuadas relacionadas con los parámetros en el diseño de trabajos ergonómicos. Esto a su vez optimiza el desempeño durante la realización de un trabajo, evitando lesiones, fatiga e incrementando la calidad de vida de las personas. [3]

devtools::install_github("kupietz/kableExtra")
library(readxl)
library(dplyr)
library(knitr)
library(magrittr)
library(rmarkdown)
library(kableExtra)
library(tidyverse)
library(flextable)
library(janitor)
library(DescTools)
library(broom)
library(EnvStats)
library(ggplot2)
library(car)
library(nortest)
library(ggpubr)
library(stats)
library(graphics)
library(plotly)
if (!require('devtools')) install.packages('devtools')
devtools::install_github('fhernanb/stests', force=TRUE)
## 
## ── R CMD build ─────────────────────────────────────────────────────────────────
##   
   checking for file ‘/tmp/RtmppHUuqy/remotes7c4489eda8a/fhernanb-stests-ee06c4b/DESCRIPTION’ ...
  
✔  checking for file ‘/tmp/RtmppHUuqy/remotes7c4489eda8a/fhernanb-stests-ee06c4b/DESCRIPTION’
## 
  
─  preparing ‘stests’:
##    checking DESCRIPTION meta-information ...
  
✔  checking DESCRIPTION meta-information
## 
  
─  checking for LF line-endings in source and make files and shell scripts
## 
  
─  checking for empty or unneeded directories
##    Omitted ‘LazyData’ from DESCRIPTION
## 
  
─  building ‘stests_0.1.0.tar.gz’
## 
  
   Warning: invalid uid value replaced by that for user 'nobody'
## 
  
   
## 
set.seed(2761)
Medidas_del_cuerpo <- read_excel("Medidas del cuerpo.xlsx")
datos <- Medidas_del_cuerpo

# muestra de 50 individuos hombres
muestra_hombres <- datos[datos$X25 == "1", ] %>% dplyr::sample_n(50, replace = FALSE)

# muestra de 50 individuos mujeres
muestra_mujeres <- datos[datos$X25 == "0", ] %>% dplyr::sample_n(50, replace = FALSE)

tabla_completa <- bind_rows( #Tabla con los 100 datos
  muestra_hombres,
  muestra_mujeres 
)

tabla_completa <- tabla_completa %>% mutate(No. = row_number()) #Índice

tabla_final <- tabla_completa %>%
  kableExtra::kbl(caption = "Tabla 1. Muestra de 100 individuos de la semilla 2761 de la base de datos de medidas antropométricas") %>%
  kableExtra::kable_classic(full_width = F, html_font = "Cambria") %>%
  kableExtra::row_spec(0, bold = TRUE, color = "black")

tabla_final
Tabla 1. Muestra de 100 individuos de la semilla 2761 de la base de datos de medidas antropométricas
X6 X7 X8 X13 X15 X23 X24 X25 No. 
14.8 12.0 21.2 92.6 59.2 81.8 185.4 1 1
14.4 11.5 20.5 94.7 58.3 83.2 180.3 1 2
15.6 12.2 19.7 90.1 57.7 79.5 177.8 1 3
14.9 11.0 19.1 82.1 56.5 74.8 183.5 1 4
12.9 9.9 18.6 72.0 50.2 56.8 170.5 1 5
15.2 10.8 18.6 101.1 57.2 84.1 190.5 1 6
13.7 11.1 20.7 84.0 56.0 79.6 184.0 1 7
14.8 11.3 20.4 91.0 57.5 82.5 174.0 1 8
14.3 10.1 18.3 80.4 51.0 67.3 175.3 1 9
15.2 11.3 20.0 96.5 57.7 89.1 179.1 1 10
14.4 12.3 20.2 77.8 57.4 72.5 177.0 1 11
12.6 10.4 19.2 78.5 59.0 67.7 167.4 1 12
14.3 11.5 18.0 94.7 60.8 87.9 176.5 1 13
14.9 11.5 18.9 76.7 56.0 68.2 177.0 1 14
16.2 12.0 21.0 78.0 55.0 80.1 184.2 1 15
13.9 10.1 20.0 83.8 55.2 68.4 176.5 1 16
13.6 10.8 18.9 90.2 55.6 80.2 176.5 1 17
13.8 11.5 19.0 82.5 53.3 72.3 167.6 1 18
15.4 10.9 20.7 88.0 59.5 85.9 176.0 1 19
13.3 10.1 18.6 81.0 50.5 60.9 173.0 1 20
14.6 11.0 20.5 101.5 67.4 90.9 172.7 1 21
13.1 10.4 19.0 78.1 52.0 63.2 175.5 1 22
14.1 11.5 19.7 83.0 66.4 84.7 171.4 1 23
14.9 10.8 18.9 106.2 60.5 95.9 172.7 1 24
16.4 13.3 22.2 89.5 59.5 89.6 178.0 1 25
13.6 10.4 17.6 73.4 51.0 63.6 177.8 1 26
13.8 11.7 19.7 83.6 52.6 72.2 174.0 1 27
15.3 11.2 20.4 86.9 57.0 75.5 179.1 1 28
15.0 11.4 20.2 92.3 60.0 84.1 175.3 1 29
14.2 11.2 19.1 96.9 54.9 82.3 176.5 1 30
14.3 10.5 19.8 80.0 54.6 74.5 182.4 1 31
13.5 10.4 19.3 78.0 52.4 63.9 174.5 1 32
15.2 11.0 19.0 93.8 53.1 82.7 188.0 1 33
15.8 12.9 19.3 89.4 60.9 91.8 186.7 1 34
14.2 10.6 17.3 75.4 50.6 59.1 167.0 1 35
12.9 10.6 20.2 80.5 52.0 66.8 167.6 1 36
14.8 11.4 17.6 92.0 52.5 75.0 168.9 1 37
14.6 11.7 21.4 101.9 64.6 108.6 190.5 1 38
15.0 10.8 19.3 90.1 51.7 69.1 170.2 1 39
14.8 10.6 19.4 88.7 52.5 70.0 171.4 1 40
14.2 12.8 20.6 102.9 57.7 102.5 177.8 1 41
15.2 11.3 19.8 93.5 59.1 86.4 186.7 1 42
14.3 11.5 19.6 82.9 57.0 81.8 177.8 1 43
14.3 11.4 17.8 84.1 52.7 71.8 179.1 1 44
13.8 10.4 18.4 90.1 54.8 69.1 167.6 1 45
16.1 11.5 19.3 90.8 55.2 82.7 177.8 1 46
14.4 11.8 20.4 82.0 59.0 75.5 167.6 1 47
13.0 10.6 16.9 67.0 49.5 55.5 168.9 1 48
13.8 10.8 18.2 93.3 58.0 72.2 163.8 1 49
14.2 11.6 20.0 88.3 63.4 83.4 177.1 1 50
12.9 9.6 17.2 83.3 54.4 54.5 162.6 0 51
13.6 10.4 18.5 87.5 64.8 71.6 164.1 0 52
12.0 9.2 18.4 95.2 61.7 63.6 161.3 0 53
12.4 10.1 19.3 86.3 56.4 67.3 179.9 0 54
11.0 8.6 16.4 79.3 53.4 54.5 157.5 0 55
11.8 9.2 17.8 90.1 53.8 67.2 156.5 0 56
10.6 10.4 17.0 77.4 51.0 46.8 149.9 0 57
12.9 9.8 17.9 85.3 56.2 63.6 175.3 0 58
12.9 11.0 18.2 93.4 59.6 70.6 170.0 0 59
12.0 10.2 18.4 76.5 51.1 54.5 174.0 0 60
10.9 9.4 15.7 83.0 58.0 58.4 173.2 0 61
11.3 9.5 16.0 67.2 52.2 44.8 149.5 0 62
12.2 9.1 16.0 73.7 50.2 48.6 157.5 0 63
14.1 12.2 24.3 105.5 70.0 105.2 172.7 0 64
13.0 10.9 17.5 81.2 59.8 62.2 167.1 0 65
11.8 9.8 18.2 80.8 53.4 55.0 168.9 0 66
13.0 10.0 17.6 73.0 54.9 54.8 168.3 0 67
12.4 10.2 18.2 107.4 69.4 80.5 160.0 0 68
11.6 9.6 17.0 86.2 51.7 53.4 171.4 0 69
12.4 9.7 18.5 90.0 63.1 63.4 161.4 0 70
12.0 9.1 17.5 73.0 53.6 52.7 173.4 0 71
12.2 10.8 17.6 86.2 55.6 60.9 165.1 0 72
11.5 9.5 16.1 76.8 56.0 55.2 161.2 0 73
13.4 11.5 20.9 103.5 61.1 75.2 160.2 0 74
12.3 9.5 18.6 91.0 61.5 63.0 157.0 0 75
12.7 10.4 18.9 74.4 53.7 56.6 166.4 0 76
12.4 9.9 18.2 77.2 56.2 59.8 167.0 0 77
11.5 9.9 17.1 80.5 59.5 62.0 163.0 0 78
11.0 8.9 17.8 79.8 57.4 53.6 161.0 0 79
12.4 9.4 18.8 79.7 59.2 62.3 168.9 0 80
11.6 8.9 17.9 82.0 63.0 64.4 156.0 0 81
12.0 9.2 16.8 75.4 54.0 50.2 160.0 0 82
13.1 11.5 18.6 82.7 57.0 58.5 163.8 0 83
12.2 9.6 16.8 86.9 52.9 54.5 167.6 0 84
10.1 9.0 16.3 74.5 53.4 50.0 159.8 0 85
14.0 11.0 18.9 86.1 56.1 67.3 169.5 0 86
12.6 9.2 17.6 75.5 57.4 56.2 165.1 0 87
12.4 10.2 18.6 82.8 59.6 65.2 168.5 0 88
11.8 8.6 17.1 74.0 52.0 55.2 172.5 0 89
11.6 9.9 18.8 87.1 59.2 59.8 164.3 0 90
13.4 10.9 18.2 79.9 59.0 66.8 179.8 0 91
12.4 9.4 19.2 106.3 61.7 72.7 175.3 0 92
13.0 10.6 19.1 84.5 60.8 70.6 178.0 0 93
11.2 9.2 17.9 73.0 55.8 54.5 167.6 0 94
12.4 10.5 17.9 79.7 56.5 59.1 170.2 0 95
12.4 10.0 17.5 78.3 52.5 56.6 168.9 0 96
11.5 9.6 16.6 72.9 54.0 50.2 162.2 0 97
12.9 10.4 19.5 90.4 60.6 71.8 176.5 0 98
10.6 8.3 15.9 74.1 48.8 42.0 153.4 0 99
13.0 9.2 17.3 74.9 54.2 54.8 160.0 0 100

Actividad 2. Intervalos de confianza (IC)

Dado que hallar un parámetro poblacional es complejo, la estadística inferencial permite realizar estimaciones a partir de una muestra. Usualmente se determina un rango que con una probabilidad específica indica la localización del parámetro de la población. Este rango se conoce como intervalo de confianza. [4]

a. IC al 90% para el promedio de:

Inicialmente se debe evaluar si la distribución es normal. Se traza un gráfico de cuantiles-cuantiles que permite evaluar qué tan cerca se encuentran los datos de la idealidad. En la gráfica resultante se observa que todos los puntos correspondientes a datos de la muestra se hallan dentro de la región sombreada lo que permite sugerir que se trata de una distribución normal.

par(mfrow=c(1, 2))
par(cex.main = 0.8)
car::qqPlot(tabla_completa$X6, pch=19,
       main='Figura 1.1. QQplot para X6',
       xlab='Cuantiles teóricos',
       ylab='Cuantiles muestrales')
## [1] 85 25
hist(tabla_completa$X6, freq=TRUE, breaks=30 , col="#77dd77" , xlab="Diámetro del codo" , ylab="Frecuencia" , main="Figura 1.2. Histograma para X6" )

Por el contrario, los resultados del histograma permiten cuestionar la distribución normal, razón por la cual se realiza una prueba de normalidad. Se proponen las hipótesis a continuación:

  • H0: Los datos provienen de una distribución normal.
  • H1: Los datos no provienen de una distribución normal.
library(nortest)
ad.test(tabla_completa$X6)
## 
##  Anderson-Darling normality test
## 
## data:  tabla_completa$X6
## A = 0.50657, p-value = 0.1967

Mediante el desarrollo de la prueba de Anderson-Darling se obtiene un valor-p de 0.1967 (19,67%). El valor-p se encuentra por encima del 10% por lo que no se rechaza la hipótesis nula, es decir, los datos provienen de una distribución normal.

Ahora bien, se procede a hallar el intervalo de confianza al 90% de la media, el cual va de 13.09 a 13.55 cm.

res <- t.test(x=tabla_completa$X6, conf.level=0.90)$conf.int 
res <- round(res,2) 
res
## [1] 13.09 13.55
## attr(,"conf.level")
## [1] 0.9
den <- density(tabla_completa$X6)

valor1 <- 13.09
valor2 <- 13.55

# Índices inferior y superior del eje X
l <- min(which(den$x >= valor1))
h <- max(which(den$x < valor2))

plot(den, main = "Figura 1.3. Intervalo de confianza de X6", ylab = "Densidad")+polygon(c(den$x[c(l, l:h, h)]),
        c(0, den$y[l:h], 0),
        col = "slateblue1")

## integer(0)
Diámetro de muñeca (X7)

A través del histograma se observa una tendencia a la distribución normal que se ve reforzada mediante el gráfico de cuantiles - cuantiles en donde todos los puntos que representan a los datos de la variable X7 se encuentran dentro de la región sombreada y con poca dispersión aparente.

par(mfrow=c(1, 2))
par(cex.main = 0.8)
hist(tabla_completa$X7, freq=TRUE, breaks=30 , col="#fdcae1" , xlab="Diámetro de la muñeca", ylab="Frecuencia" , main="Figura 1.4. Histograma para X7" )

car::qqPlot(tabla_completa$X7, pch=19,
       main='Figura 1.5. QQplot para X7',
       xlab='Cuantiles teóricos',
       ylab='Cuantiles muestrales')

## [1] 25 34

Se realiza una prueba de normalidad mediante la prueba de Anderson-Darling y con las hipótesis a continuación:

  • H0: Los datos provienen de una distribución normal.
  • H1: Los datos no provienen de una distribución normal.
library(nortest)
ad.test(tabla_completa$X7)
## 
##  Anderson-Darling normality test
## 
## data:  tabla_completa$X7
## A = 0.35706, p-value = 0.449

El valor-p obtenido es de 0.449 (44,9%). Al ser muy superior al 10% no se rechaza la hipótesis nula y con seguridad se afirma que los datos provienen de una distribución normal.

res <- t.test(x=tabla_completa$X7, conf.level=0.90)$conf.int 
res <- round(res,2) 
res
## [1] 10.35 10.69
## attr(,"conf.level")
## [1] 0.9

En lo que respecta al intervalo de confianza al 90% del promedio de la variable, se obtiene que la media se encuentra entre 10,35 y 10,69 cm.

den <- density(tabla_completa$X7)

valor1 <- 10.35
valor2 <- 10.69

# Índices inferior y superior del eje X
l <- min(which(den$x >= valor1))
h <- max(which(den$x < valor2))

plot(den, main = "Figura 1.6. Intervalo de confianza para la media de X7", ylab = "Densidad")+polygon(c(den$x[c(l, l:h, h)]),
        c(0, den$y[l:h], 0),
        col = "slateblue1")

## integer(0)
Diámetro de rodilla (X8)

En el caso de la variable del diámetro de la rodilla, se tiene que en el gráfico de cuantiles-cuantiles se halla un punto fuera de la región sombreada y un tanto alejado de la línea de idealidad. Del mismo modo, en el histograma se observa que las frecuencias más altas se encuentran un poco desplazadas a la izquierda, por lo que se debe realizar una prueba de hipótesis para evaluar la normalidad de los datos.

par(mfrow=c(1, 2))
par(cex.main = 0.8)
library(car)
car::qqPlot(tabla_completa$X8, pch=19,
       main='Figura 1.7. QQplot para X8',
       xlab='Cuantiles teóricos',
       ylab='Cuantiles muestrales')
## [1] 64 25
hist(tabla_completa$X8, freq=TRUE, breaks=30 , col="#84b6f4" , xlab="Diámetro de la rodilla" , ylab="Frecuencia" , main="Figura 1.8. Histograma para X8" )

Se plantean las hipótesis nula y alternativa a continuación:

  • H0: Los datos provienen de una distribución normal.
  • H1: Los datos no provienen de una distribución normal.
library(nortest)
ad.test(tabla_completa$X8)
## 
##  Anderson-Darling normality test
## 
## data:  tabla_completa$X8
## A = 0.22587, p-value = 0.8141

La prueba de normalidad de Anderson-Darling arroja un valor-p de 0.814 (81,4%), al ser mucho mayor que 10% no se rechaza la hipótesis mula y se establece que los datos provienen de una distribución normal.

Finalmente, se halla un intervalo de confianza al 90% para la media entre 18.44 y 18.93 cm.

den <- density(tabla_completa$X8)

valor1 <- 18.44
valor2 <- 18.93

# Índices inferior y superior del eje X
l <- min(which(den$x >= valor1))
h <- max(which(den$x < valor2))

plot(den, main = "Figura 1.9. Intervalo de confianza para la media de X8", ylab = "Densidad")+polygon(c(den$x[c(l, l:h, h)]),
        c(0, den$y[l:h], 0),
        col = "slateblue1")

## integer(0)
res <- t.test(x=tabla_completa$X8, conf.level=0.90)$conf.int 
res <- round(res,2) 
res
## [1] 18.44 18.93
## attr(,"conf.level")
## [1] 0.9
Variables <- c("Diámetro del codo, X6", "Diámetro de la muñeca, X7","Diámetro de la rodilla, X8") 
Intervalo_de_Confianza <- c("13.09 - 13.55","10.35 - 10.69","18.44 - 18.93")

tabla <- data.frame(Variables,Intervalo_de_Confianza)
library(magrittr)
tabla %>%
  kableExtra::kbl(caption = "Tabla 2. Intervalo de confianza al 90% de las variables X6, X7 y X8") %>%
  kableExtra::kable_classic(full_width = F, html_font = "Cambria")%>%
  kableExtra::row_spec(0, bold = T, color = "black")
Tabla 2. Intervalo de confianza al 90% de las variables X6, X7 y X8
Variables Intervalo_de_Confianza
Diámetro del codo, X6 13.09 - 13.55
Diámetro de la muñeca, X7 10.35 - 10.69
Diámetro de la rodilla, X8 18.44 - 18.93

b. IC al 99% para la proporción de las mujeres cuyas estatura < 165 cm.

De manera inicial analizaremos si nuestra muestra significativa posee una distribución normal. En este caso, nuestra muestra será las 50 mujeres, y analizaremos la variable X24 que corresponde a la altura (cm). Con ayuda del grafico cuantiles-cuantiles podremos ver la dispersión de los datos. También usaremos el histograma que ayudado con una curva de densidad, que también nos permite ver si hay normalidad.

par(mfrow=c(1, 2))
par(cex.main = 0.8)
car::qqPlot(muestra_mujeres$X24, pch=19,
                    main='Figura 2.1. QQplot para X24',
                    xlab='Cuantiles teóricos',
                    ylab='Cuantiles muestrales')
## [1] 12  7
hist(muestra_mujeres$X24, freq=TRUE, breaks=30 , col="#ff9e8e" , xlab="Altura (cm)" , ylab="Frecuencia" , main="Figura 2.2. Histograma de varibale X24" )

grafico.1 <- ggplot(muestra_mujeres, aes(x = X24)) +
  geom_histogram(bins = 30, aes(y = ..density..), colour = "black", fill = "#FFD700") +
  xlab("Altura (cm)") +
  ylab("Frecuencia") +
  ggtitle("Figura 2.3. Distribución de la variable X24 (Altura)") +
  geom_density(alpha = 0.2, fill = "darkslategray") +
  theme_minimal() +
  theme(plot.title = element_text(size = 11))

grafico.1

Al observar el gráfico de cuantiles-cuantiles, los datos no se van fuera del área sombreada señalándonos normalidad. De similar manera, la curva de densidad en el histograma tiene una forma acampanada, característica de una distribución normal. Además de esto, el tamaño de la muestra, 50, se considera lo suficiente granade (mayor a 30) para señalar, por teorema central del límite que hay normalidad. Sin embargo, podemos asegurarnos de mejor manera que estamos trabajando con una muestra normal por medio de las pruebas de normalidad.

Primero usaremos la prueba de normalidad de Anderson-Darling. Las hipótesis son: - H0: Los datos provienen de una distribución normal. - H1: Los datos no provienen de una distribución normal.

ad.test(muestra_mujeres$X24)
## 
##  Anderson-Darling normality test
## 
## data:  muestra_mujeres$X24
## A = 0.17032, p-value = 0.9282

Ahora, tambien usaremos la prueba de Shapiro-Wilk, teniendo las mismas hipótesis de la prueba anterior.

shapiro.test(muestra_mujeres$X24)
## 
##  Shapiro-Wilk normality test
## 
## data:  muestra_mujeres$X24
## W = 0.98654, p-value = 0.8351
Pruebas <- c("Anderson-Darling", "Shapiro-Wilk") 
Valor_p <- c("0.9282", "0.8351")

tabla <- data.frame(Pruebas,Valor_p)
library(magrittr)
tabla %>%
  kableExtra::kbl(caption = "Tabla 3. Pruebas de Normalidad para la muestra") %>%
  kableExtra::kable_classic(full_width = F, html_font = "Cambria")%>%
  kableExtra::row_spec(0, bold = T, color = "black")
Tabla 3. Pruebas de Normalidad para la muestra
Pruebas Valor_p
Anderson-Darling 0.9282
Shapiro-Wilk 0.8351

La prueba de Anderson-Darling muestra un valor-p de 92.82% superando el 10%, por lo tanto, podemos decir que la hipótesis nula no se rechaza y la distribución es normal. De similar manera, la Prueba de Shapiro-Wilk, arroja un valor-p de 82.51% que supera el 10%, por lo que podemos asegurar que la muestra posee una distribución normal.

Con base en lo anterior, es posible continuar con la construcción del intervalo. Se halla la proporción de las mujeres con altura menor a 165 cm.

muestra_mujeres %>% 
  mutate(menor165=ifelse(X24<165,1,0)) %>% 
  tabyl(menor165) %>% 
  adorn_totals("row")
##  menor165  n percent
##         0 27    0.54
##         1 23    0.46
##     Total 50    1.00
Mujeres_con <- c("Altura mayor a 165cm", "Altura menor a 165cm", "Total") 
Cantidad <- c("27", "23", "50")
Proporcion <- c("0.54", "0.46", "1.00")

tabla <- data.frame(Mujeres_con, Cantidad, Proporcion)
library(magrittr)
tabla %>%
  kableExtra::kbl(caption = "Tabla 4. Proporción de las mujeres con altura menor a 165cm ") %>%
  kableExtra::kable_classic(full_width = F, html_font = "Cambria")%>%
  kableExtra::row_spec(0, bold = T, color = "black")
Tabla 4. Proporción de las mujeres con altura menor a 165cm
Mujeres_con Cantidad Proporcion
Altura mayor a 165cm 27 0.54
Altura menor a 165cm 23 0.46
Total 50 1.00

Ya que se posee la proporción, la cual es de 0.46 o 23/50 utilizando la función BinomCI de la librería DescTools se calcula el intervalo de confianza al 99%.

BinomCI(23,50, conf.level = 0.99)
##       est    lwr.ci    upr.ci
## [1,] 0.46 0.2940328 0.6353394
Intervalo_de_confianza <- c("Limite Inferior", "Limte Superior") 
Valores <- c("0.2940", "0.6353")


tabla <- data.frame(Intervalo_de_confianza, Valores)
library(magrittr)
tabla %>%
  kableExtra::kbl(caption = "Tabla 5. Intervalo de confinza del 99% de la proporción de mujeres con altura menor a 160(cm)  ") %>%
  kableExtra::kable_classic(full_width = F, html_font = "Cambria")%>%
  kableExtra::row_spec(0, bold = T, color = "black")
Tabla 5. Intervalo de confinza del 99% de la proporción de mujeres con altura menor a 160(cm)
Intervalo_de_confianza Valores
Limite Inferior 0.2940
Limte Superior 0.6353

Por lo tanto, podemos asegurar con un 99% de confianza que de las 50 mujeres dentro de la muestra, entre un 29.40% y un 63.53% tienen una altura menor a 165cm.

Apunte adicional

En el siguiente histograma, podemos observar la distribución de la variable X24 (altura) de todas las mujeres con altura menor a 165 cm. La cual está sesgada a la derecha. A simple vista se observa que la mayoría de mujeres posee una altura mayor a 155 cm pero estrictamente menor a 165 cm.

mujeres165 <- subset(muestra_mujeres, X24<165)

grafico.3 <- ggplot(mujeres165, aes(x=X24))+
  geom_histogram(bins=30,aes(y=..density..),colour = "black", fill="grey")+
  xlab("Altura(cm)")+ylab("Frecuencia")+
  ggtitle("Figura 2.4. Distribución de mujeres con altura menor a 165 cm")+
  geom_density(alpha=.2, fill="red")+
  theme_minimal() +
  theme(plot.title = element_text(size = 11))
grafico.3

c. IC al 95% para la diferencia de promedios de la circunferencia abdominal entre hombres y mujeres.

Inicialmente se debe analizar la normalidad de la variable de circunferencia del muslo de los hombres y las mujeres, a partir de un QQplot y un histograma.

par(mfrow=c(1, 2))

par(cex.main = 0.8)

hist(muestra_hombres$X13, freq=TRUE, breaks=30 , col="#fdfd96" , xlab="Circunferencia abdominal en hombres", ylab="Frecuencia" , main="Figura 3.1. Histograma para X13 en hombres" )

library(car)
car::qqPlot(muestra_hombres$X13, pch=19,
       main='Figura 3.2. QQplot para X13',
       xlab='Cuantiles teóricos',
       ylab='Cuantiles muestrales')

## [1] 48 24

De las gráficas de cuantiles-cuantiles e histogramas para cada subconjunto de la población se puede plantear que las circunferencias abdominales de hombres y mujeres siguen una distribución normal.

par(mfrow=c(1, 2))

par(cex.main = 0.8)

hist(muestra_mujeres$X13, freq=TRUE, breaks=30 , col="#bbd5f9" , xlab="Circunferencia abdominal en mujeres", ylab="Frecuencia" , main="Figura 3.3. Histograma para X13 en mujeres" )

library(car)
car::qqPlot(muestra_mujeres$X13, pch=19,
       main='Figura 3.4. QQplot para X13',
       xlab='Cuantiles teóricos',
       ylab='Cuantiles muestrales')

## [1] 18 42

Cabe señalar, que, debido al tamaño grande de la muestra, la idea de normalidad de la variable en ambos grupos se refuerza. Aun así, se plantea lo siguiente: - H0: Los datos provienen de una distribución normal. - H1: Los datos no provienen de una distribución normal.

library(nortest)
a <- lillie.test(muestra_hombres$X13)
b <- lillie.test(muestra_mujeres$X13)
a
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  muestra_hombres$X13
## D = 0.093672, p-value = 0.3341
b
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  muestra_mujeres$X13
## D = 0.11705, p-value = 0.08425

La prueba de normalidad de Kolmogorov-Smirnov arroja un valor-p de 0,334 (33,4%) en hombres y de 0,0842 (8,42%) en mujeres. El hecho de que los valores-p en ambos casos superan el nivel de significancia de 0,05 (5,00%) impide el rechazo de la hipótesis nula y se establece que los datos provienen de una distribución normal.

hombres <- muestra_hombres$X13
mujeres <- muestra_mujeres$X13
res <- t.test(x=hombres, y=mujeres,
              paired=FALSE, var.equal=FALSE, conf.level = 0.95)$conf.int
res <- round(res,3) 
res
## [1] 0.605 7.651
## attr(,"conf.level")
## [1] 0.95

Como se cumple el supuesto de normalidad se construye el intervalo de confianza al 95% y se encuentra un rango entre 0,605 y 0,95. Dado que el intervalo no incluye al cero y cuenta con un límite superior e inferior positivo, se puede concluir con un nivel de confianza del 95% que \(μ_{hombres}> μ_{mujeres}\).

Intervalo_de_confianza <- c("Limite Inferior", "Limte Superior") 
Valores <- c("0,605", "7,651")


tabla <- data.frame(Intervalo_de_confianza, Valores)
library(magrittr)
tabla %>%
  kableExtra::kbl(caption = "Tabla 6. Intervalo de confianza del 95% para la diferencia de medias de la circunferencia abdominal entre hombres y mujeres ") %>%
  kableExtra::kable_classic(full_width = F, html_font = "Cambria")%>%
  kableExtra::row_spec(0, bold = T, color = "black")
Tabla 6. Intervalo de confianza del 95% para la diferencia de medias de la circunferencia abdominal entre hombres y mujeres
Intervalo_de_confianza Valores
Limite Inferior 0,605
Limte Superior 7,651

d. IC al 95% para la diferencia de promedios de las rodillas entre hombres y mujeres.

Tal como se desarrolla anteriormente, en este caso se analiza gráficamente la normalidad de la variable de diámetro de rodilla de los hombres y las mujeres mediante un QQplot y un histograma.

par(mfrow=c(1, 2))
par(cex.main = 0.8)
hist(muestra_hombres$X8, freq=TRUE, breaks=30 , col="#f4c284" , xlab="Diámetro de rodilla en hombres", ylab="Frecuencia" , main="Figura 4.1. Histograma para X8 en hombres" )
car::qqPlot(muestra_hombres$X8, pch=19,
       main='Figura 4.2. QQplot para X8 en hombres',
       xlab='Cuantiles teóricos',
       ylab='Cuantiles muestrales')

## [1] 25 48

Los resultados obtenidos para el grupo de hombres parecen seguir una distribución normal. Contrario al caso de las mujeres, cuyo histograma muestra mayor frecuencia de datos hacia la izquierda del eje y el gráfico de cuantiles-cuantiles presenta un dato muy alejado de la tendencia.

par(mfrow=c(1, 2))
par(cex.main = 0.8)
hist(muestra_mujeres$X8, freq=TRUE, breaks=30 , col="#b0f2e4" , xlab="Diámetro de rodilla en mujeres", ylab="Frecuencia" , main="Figura 4.3. Histograma para X8 en mujeres" )

car::qqPlot(muestra_mujeres$X8, pch=19,
       main='Figura 4.4. QQplot para X8 en mujeres',
       xlab='Cuantiles teóricos',
       ylab='Cuantiles muestrales')

## [1] 14 24

Se procede con la determinación de los valores-p mediante la prueba de Anderson-Darling y se obtiene: para el grupo de hombres un valor de 0,933 (93,3%) y para el grupo de mujeres un valor de 0,0071 (0,71%). Esto indica que efectivamente no se rechaza la hipótesis nula, así, los datos de la variable diámetro de rodilla para el grupo de hombres proceden de una distribución normal. Caso opuesto al de la variable en mujeres, que al tener un valor-p por debajo del 1% se debe rechazar la hipótesis nula de que los datos provienen de una distribución normal.

library(nortest)
a <- ad.test(muestra_hombres$X8)
b <- ad.test(muestra_mujeres$X8)
a
## 
##  Anderson-Darling normality test
## 
## data:  muestra_hombres$X8
## A = 0.1676, p-value = 0.9329
b
## 
##  Anderson-Darling normality test
## 
## data:  muestra_mujeres$X8
## A = 1.0792, p-value = 0.007134

Dado que solo los datos del grupo de hombres provienen de una distribución normal, no es posible determinar el intervalo de confianza para la diferencia de medias de los dos grupos.

e. IC al 90% para la varianza poblacional de la circunferencia de muslo en mujeres.

La evaluación gráfica de la normalidad de los datos se lleva a cabo previamente en el apartado c mediante el gráfico de cuantiles-cuantiles y el trazo de un histograma. Posteriormente, se encuentra un valor-p superior al 10% mediante la prueba de Anderson-Darling comprobando la normalidad.

De esta manera, se procede a la determinación del intervalo de confianza para la varianza de la variable.

require(stests) 
res <- stests::var.test(x=muestra_mujeres$X15, conf.level=0.90)
res$conf.int
## [1] 15.39200 30.09359
## attr(,"conf.level")
## [1] 0.9

El intervalo de confianza del 90% indica que la varianza de la circunferencia de las mujeres se encuentra entre 15,39 y 30,09 cm.

Actividad 3. Prueba de hipótesis

En lo que respecta a las pruebas de hipotesis, en estas se examinan dos hipótesis sobre una población y se acepta o rechaza una con base en la información obtenida a partir de una muestra de datos. [5]

Entre las dos hipótesis existe una denominada nula (H0), que consiste en el enunciado que surge para ser aceptado o rechazado, y una alternativa (H1), que consiste en el enunciado que refuta a la hipótesis nula y que se desea probar.

a. ¿La media del diámetro del codo es diferente de 13 cm? (α=0.05)

Previamente, en el apartado a de la sección correspondiente a la actividad 2, se comprobó mediante la prueba de Kolmogorov-Smirnov que la muestra provenía de una distribución normal por lo que se procede a desarrollar la prueba de hipótesis con un nivel de significancia de 0,05 propuesta a continuación:

  • H0: La media del diámetro del codo es igual a 13 cm.
  • H1: La media del diámetro del codo es diferente de 13 cm.

Lo que se puede reescribir como:

  • H0: μ = 13 cm.
  • H1: μ ≠ 13 cm.

La hipótesis alternativa indica que la prueba involucra una región de rechazo de dos colas.

t.test(tabla_completa$X6, alternative='two.sided', conf.level=0.95, mu=13)
## 
##  One Sample t-test
## 
## data:  tabla_completa$X6
## t = 2.2641, df = 99, p-value = 0.02575
## alternative hypothesis: true mean is not equal to 13
## 95 percent confidence interval:
##  13.03956 13.60044
## sample estimates:
## mean of x 
##     13.32

La prueba arroja un valor-p de 0.026 menor al nivel de significancia (0.026 < 0.050) por lo que se rechaza la hipótesis nula. Esto indica que la media del diámetro del codo es diferente de 13 cm.

b. ¿La media de la circunferencia del muslo es mayor que 55 cm? (α=0.01)

Para iniciar nuestra de prueba de hipótesis debemos comprobar que nuestros datos provienen de una distribución normal. Con ayuda de un gráfico cuantiles-cuantiles y un histograma

par(mfrow=c(1, 2))
par(cex.main = 0.8)
car::qqPlot(tabla_completa$X15, pch=19,
                    main='Figura 5.1. QQplot para X15',
                    xlab='Cuantiles teóricos',
                    ylab='Cuantiles muestrales')
## [1] 64 68
hist(tabla_completa$X15, freq=TRUE, breaks=30 , col="#fffec4" , xlab="circunferncia muslo (cm)" , ylab="Frecuencia" , main="Figura 5.2. Histograma de la varibale X15" )

En las graficas no podemos observar, fácilmente, que se trate de una distribución normal, por lo que haremos uso de una prueba de normalidad.

En este caso haremos uso de la prueba kolmogorov-Smirnov. Las hipóteis para esta prueba son:

  • H0: Los datos provienen de una distribución normal.
  • H1: Los datos no provienen de una distribución normal.
lillie.test(tabla_completa$X15)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  tabla_completa$X15
## D = 0.057251, p-value = 0.5812

La prueba de normalidad nos arroja un valor-p de 0.5812 (58.12%) por lo que es mayor al nivel de significancia del 10%. Por lo tanto la hipótesis nula no se rechaza y se establece que los datos provienen de una distribución normal.

Ahora que se sabe que los datos provienen de una distribución normal, es posible plantear la hipótesis nula e hipótesis alterna:

  • H0: La media de la variable X15 es mayor o igual que 55 cm.
  • H1: La media de la variable X15 es menor que 55 cm.

que puede reescribirse de la siguiente manera:

  • H0: μ ≥ 55 cm
  • H1: μ < 55 cm

La hipótesis alternativa indica que la prueba involucra una región de rechazo de cola izquierda.

t.test(tabla_completa$X15, alternative = "less", conf.level = 0.99, mu=55)
## 
##  One Sample t-test
## 
## data:  tabla_completa$X15
## t = 3.7519, df = 99, p-value = 0.9999
## alternative hypothesis: true mean is less than 55
## 99 percent confidence interval:
##      -Inf 57.66708
## sample estimates:
## mean of x 
##    56.636

la prueba arroja un valor-p igual a 0.9999, mayor al nivel de significancia (0.9999 > 0.01), por lo tanto, la hipótesis nula no se rechaza y podemos establecer que la media de la circunferencia del muslo es mayor que 55 cm.

den <- density(tabla_completa$X15)
value <- 55
plot(den, main = "Figura 5.3. Area de localizacion de la media de X15", ylab="Densidad")+polygon(c(den$x[den$x >= value ], value),
        c(den$y[den$x >= value ], 0),
        col = "slateblue1",
        border = 1)

## integer(0)

c. ¿La media del diámetro de la muñeca es igual en hombres y mujeres? (α=0.10)

Inicialmente se evalúa la normalidad de la variable para cada grupo, el de hombres y mujeres. Gráficamente, se construye el diagrama de caja y bigotes.

plotly::plot_ly(data = tabla_completa, x = ~X25, y = ~X7, type = "box", boxmean = TRUE, fillcolor = "#8ae287",
        marker = list(color = "#2d8f2f"), line = list(color = "#2d8f2f"), height = 400) %>%
  layout(title = "Figura 6. Gráfico de cajas (Boxplot) para X25 y X7") 

En la figura 6 se presentan los diagramas de caja para la variable diámetro de muñeca en cada grupo, esto es, hombres y mujeres. A simple vista se observa que los diagramas no se traslapan, es decir, es probable que las medias poblacionales \(μ_{hombres}\) y \(μ_{mujeres}\) sean distintas. Igualmente, se distingue que el diagrama para los hombres (1) está por encima del de las mujeres (0).

A continuación, se plantean las hipótesis nula y alternativa, respectivamente, de la siguiente manera:

  • H0: La media del diámetro de la muñeca es igual en hombres y mujeres.
  • H1: La media del diámetro de la muñeca es diferente en hombres y mujeres.

Lo que se puede reescribir como:

  • H0: \(μ_{hombres} = μ_{mujeres}\)
  • H1: \(μ_{hombres} ≠ μ_{mujeres}\)

Lo que es:

  • H0: \(μ_{hombres} - μ_{mujeres}=0\)
  • H1: \(μ_{hombres} - μ_{mujeres}≠0\)

La hipótesis alternativa indica que la prueba involucra una región de rechazo de dos colas.

t.test(tabla_completa$X7, alternative='two.sided', conf.level=0.90, mu=0)
## 
##  One Sample t-test
## 
## data:  tabla_completa$X7
## t = 103.15, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
##  10.35459 10.69341
## sample estimates:
## mean of x 
##    10.524

La prueba arroja un valor-p de \(2,2x10^{-10}\) menor al nivel de significancia (\(2,2x10^{-10}\) < 0.10) por lo que se rechaza la hipótesis nula. Esto indica que la media del diámetro de la muñeca en hombres es diferente a la media de la misma variable en mujeres.

d. ¿La media de la circunferencia abdominal es mayor en hombres que en mujeres? (α=0.05)

Para iniciar nuestra prueba de hipótesis debemos determinar si las muestras, tanto hombres como mujeres provienen de un distribución. Esto ya se comprobó en el inciso C de la actividad 2, por lo tanto continuaremos directamente con la comparación de las variables por medio de un diagrama de boxplot.

plotly::plot_ly(data = tabla_completa, x = ~X25, y = ~X13, type = "box", boxmean = TRUE, fillcolor = "#7FFFD4",
        marker = list(color = "#66CDAA"), line = list(color = "#66CDAA"), height = 400) %>%
  layout(title = "Figura 7. Gráfico de cajas (Boxplot) para X25 y X13")

En el grafico anterior, podemos ver la distribución de la variable X13 (Circunferencia abdominal, pasando por el ombligo en cm) respecto a la media y mediana, así como el rango intercuartílico tanto de las mujeres (0) como de los hombres (1). Se puede observar que los cuartiles de los hombres están distribuidos un poco más arriba de las mujeres, lo que nos dice que tienen gran cantidad de datos más elevados.

La prueba contara con las siguientes hipótesis nula y alternativa:

  • H0: El promedio de la variable X13 es mayor o igual en hombres que en mujeres.
  • H1: El promedio de la variable X13 es menor en hombres que en mujeres.

lo que se escribiría:

  • H0: \(μ_{hombres} - μ_{mujeres}≥0\)
  • H1: \(μ_{hombres} - μ_{mujeres}<0\)

La hipótesis alternativa nos dice tenemos una prueba de hipótesis de cola izquierda, por lo tanto usaremos “less” como configuración para nuestra prueba.

t.test(x=muestra_hombres$X13, y=muestra_mujeres$X13, alternative="less", mu=0, 
       paired=FALSE, var.equal=FALSE, conf.level=0.95)
## 
##  Welch Two Sample t-test
## 
## data:  muestra_hombres$X13 and muestra_mujeres$X13
## t = 2.325, df = 97.618, p-value = 0.9889
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##      -Inf 7.076337
## sample estimates:
## mean of x mean of y 
##    87.036    82.908

La prueba de hipótesis arrojo un resultado superior al nivel de significancia, lo que quiere decir que la hipótesis nula no se rechaza, entonces se establece que el promedio de la circunferencia abdominal, pasando por el ombligo en cm, es mayor en hombres que en mujeres.

e. ¿La varianza de la circunferencia abdominal en mujeres es mayor que 80? (α=0.01).

En el inciso C de la actividad 2. se evaluó si la muestra de datos proviene de una distribución normal. Aun así, las graficas a continuación, muestran cómo están distribuidos los datos respecto a la media.

grafico.8 <- ggplot(muestra_mujeres, aes(x=X13))+
  geom_histogram(bins=30,aes(y=..density..),colour = "black", fill="grey")+
  xlab("Circunferencia abdomen (cm)")+ylab("Frecuencia")+
  ggtitle("Figura 8.1. Distribucion de la circunferencia del abdomen (cm) para mujeres")+
  geom_density(alpha=.2, fill="red")+
  theme_minimal();grafico.8

Figura 8.2. Boxplot para la variable X13 (circunferencia abdominal)

plotly::plot_ly(data = muestra_mujeres, x=~X13, 
                y ="" ,type = "box",boxmean=TRUE,fillcolor="#ff6961",
                marker = list(color = "#c94139"),
                line = list(color = "#c94139"), height=400)

La grafica 9 nos muestra que los datos se acumulan, en gran parte, en el intervalo de 75 cm a 90 cm, por lo que podemos sospechar que la media ronda este intervalo. La grafica 10 arrojo muy pocos datos atipicos, teniendo un rango de 67.2 cm a 103.5 cm, por lo que se sospecha que la varibilidad de los datos no sea tan alta y se ubique, no muy alejado de las medidas de tendencia central.

Realizado ese pequeño anlisis, iniciaremos con nuestra prueba de hipótesis para tener una mayor exactitud. Las hipótesis nula y alterna seran

  • H0: La varianza de la circunferencia abdominal en mujeres es mayor o igual que 80
  • H1: La varianza de la circunferencia abdominal en mujeres es menor que 80

Que también podemos escribir de la siguiente manera:

  • H0: \(\sigma^2\) ≥ 80
  • H1: \(\sigma^2\) < 80

Con α=0.01

Para esta prueba utilizaremos la librería “stests” adquirida de el libro Manuel de R, el cual se deja referenciado en la bibliografía, y usaremos su función var.test:

stests::var.test(x=muestra_mujeres$X13, alternative='less',
                 null.value=80, conf.level=0.99)
## 
##  X-squared test for variance
## 
## data:  muestra_mujeres$X13
## X-squared = 51.289, df = 49, p-value = 0.616
## alternative hypothesis: true variance is less than 80
## 99 percent confidence interval:
##  54.76703      Inf
## sample estimates:
## variance of x 
##      83.73708

La prueba nos arroja que el valor-P es 0.616, que es mayor al nivel de significancia, por lo tanto la hipótesis nula no se rechaza, y podemos establecer que la varianza de la circunferencia abdominal en mujeres es mayor o igual que 80

f. ¿La varianza del diámetro de la rodilla en hombres es diferente de 1.5? (α=0.01).

Como paso inicial, debemos probar si la muestra de los datos de la variable X8 en hombres, provienen de una distribución normal. Por medio de un gráfico de cuartiles-cuartiles y un histograma de la variable X8 podemos realizar un breve analisis.

par(mfrow=c(1, 2))
par(cex.main = 0.8)
car::qqPlot(muestra_hombres$X8, pch=19,
                    main='Figura 9.1. QQplot para X8',
                    xlab='Cuantiles teóricos',
                    ylab='Cuantiles muestrales')
## [1] 25 48
hist(muestra_hombres$X8, freq=TRUE, breaks=30 , col="#fffec4" , xlab="Diametro de rodilla (cm)" , ylab="Frecuencia" , main="Figura 9.2. Histograma de la varibale X8" )

Las grafica cuartiles-cuartiles, no muestra pruebas suficientes para probar que se trata de una distribución normal. Aunque el Histograma
muestra una forma un poco acampanada, propia de una distribución normal, esta no es totalmente clara. Por lo tanto, una prueba de normalidad sería la mejor alternativa para asegurarnos. En este

Usaremos la prueba de normalidad de Anderson-Darling. Las hipótesis serán:

  • H0: La muestra proviene de una distribución normal
  • H1: la muestra no proviene de una distribución normal
ad.test(muestra_hombres$X8)
## 
##  Anderson-Darling normality test
## 
## data:  muestra_hombres$X8
## A = 0.1676, p-value = 0.9329

El valor-p arrojado por la prueba es de 0.9329, que sería equivalente al 93.29%, que supera el valor significativo del 10%, por lo tanto, la hipótesis nula no se rechaza y se establece que la muestre viene de una distribución normal.

Con el hecho de que la muestre si es normal, continuaremos a relizar la prueba de hipótesis donde la hipótesis nula y la hipótesis alternativa son:

  • H0: La varianza del diámetro de la rodilla en hombres es igual a 1.5
  • H1: La varianza del diámetro de la rodilla en hombres es diferente de 1.5

lo que seria igual a:

  • H0: \(\sigma^2\) = 1.5
  • H1: \(\sigma^2\) ≠ 1.5

Donde α=0.01

La hipótesis alternativa nos indica que es una prueba de hipótesis de dos colas.

stests::var.test(x=muestra_hombres$X8, alternative='two.sided',
                null.value=1.5, conf.level=0.99)
## 
##  X-squared test for variance
## 
## data:  muestra_hombres$X8
## X-squared = 40.07, df = 49, p-value = 0.3708
## alternative hypothesis: true variance is not equal to 1.5
## 99 percent confidence interval:
##  0.7683044 2.2057408
## sample estimates:
## variance of x 
##      1.226633

la prueba de hipótesis nos arrojo un valor-p igual a 0.3708 que seri el 37.08%, por lo tanto, la hipótesis nula no se rechaza, y podemos decir que la varianza es similar a 1.5

Actividad 4. Regresión lineal

Al realizar un gráfico de pares para las variables es posible analizar las relaciones y patrones entre las variables de un conjunto de datos multivariado.

library(ggplot2)
library(GGally)
ggpairs(tabla_completa[, -c(ncol(tabla_completa), 8)]) +
  theme_bw() +theme(axis.text = element_text(size = 6.5)) +
  labs(title = "Gráfico de pares",
       x = "Variable X",
       y = "Variable Y")+
  labs(caption = "Los asteriscos en el coeficiente de correlación indican el nivel de significancia. Así, tres asteriscos *** indican un nivel de 0.001.")+
  theme(axis.text = element_text(color = "black"))+theme(panel.background = element_rect(fill = "#f5f5f5"))

En el gráfico de pares se observa:

-El nombre de las variables en los bordes exteriores de la matriz.

-La gráfica de densidad de cada variable en los cuadros a lo largo de la diagonal.

-Los cuadros en la esquina izquierda inferior, por su parte, corresponden a los diagramas de dispersión los cuales muestran gráficamente conjuntos de datos de dos variables, esto para evaluar la relación entre las mismas.

-Los cuadros en la esquina derecha superior indican el coeficiente de correlación de Pearson entre las variables.

Relación entre variables

La relación entre dos variables X y Y se puede describir mediante una recta, esto es:

\(Y_{i}=\beta_{1}+\beta_{2}X_{i}+\epsilon\)

En este caso \(Y_{i}\) es una función lineal de \(X_{i}\) más \(\epsilon\) (que representa el error).

Así, se debe determinar el valor numérico de cada parámetro \(\beta_{1}\) y \(\beta_{2}\), que suele llevarse a cabo por métodos de ajuste como el método de mínimos cuadrados. [6] Dado que no es posible conocer los valores reales, se realiza una estimación, para ello se calculan los estadísticos de la muestra (denotados como \(b_{1}\) y \(b_{2}\)) como estimadores de los parámetros \(\hat \beta_{1}\) y \(\hat \beta_{2}\), respectivamente.

\(\hat Y_{i} =\hat \beta_{1} +\hat \beta_{2} X_{i}= b_{1}+b_{2}X_{i}\)

La gráfica de la ecuación de regresión se denomina línea de regresión estimada, donde \(b_{1}\) es la ordenada en el origen, \(b_{2}\) es la pendiente y \(\hat Y_{i}\) es el valor estimado de \(Y_{i}\) para un valor específico de \(X_{i}\).

Al asociar variables y evaluar la linealidad aparecen dos términos relevantes: el coeficiente de determinación \(R^2\) y el coeficiente de correlación lineal de Pearson \(r\).

El coeficiente de determinación es una medida adimensional de la bondad de ajuste para una ecuación de regresión que toma valores entre 0 y 1. [7]

Ahora bien, a la raíz cuadrada del coeficiente de determinación se le conoce como coeficiente de correlación de Pearson. Este coeficiente es un valor adimensional con rango definido entre -1 y 1 que mide la fuerza y la dirección de la relación lineal entre dos variables de interés.

Entre otras de las propiedades relacionadas al coeficiente de Pearson se encuentra la simetría, que garantiza que el valor de \(r\) no cambiará a pesar de intercambiar las posiciones de las variables X y Y, y la independencia respecto al origen y escala, esto es, el valor del coeficiente no diferirá una vez ha sido calculado aunque se modifique el origen y la escala de los datos. [8]

En lo que respecta a la muestra de medidas antropométricas, a grandes rasgos es posible observar que todos los coeficientes de correlación lineal extráidos del gráfico de pares se encuentran entre 0 y 1, esto quiere decir que todas las relaciones entre variables son positivas.

Aunque existen coeficientes muy bajos como el caso de la circunferencia del muslo en función del diámetro de codo, (variable X15 en función de la variable X6) cuyo coeficiente es de 0,195 o el de la circunferencia del muslo en función del diámetro de la muñeca (variable X15 en función de la variable X7), cuyo valor de r es de 0,300, la mayoría de relaciones brindan coeficientes por encima de 0.5.

Para seleccionar las relaciones de variables a las que se le evaluaría la linealidad, se tuvieron en cuenta los valores determinados como coeficientes de correlación lineal de Pearson a partir del gráfico de pares y la regla empírica para interpretar la fuerza de la relación entre dos variables según el valor de r que se enuncia a continuación [9]:

Valor_absoluto_r <- c("0,00 - 0,10", "0,10-0,39", "0,40-0,69","0,70-0,89","0,90-1,00") 
Fuerza_de_relacion <- c("Correlación despreciable", "Correlación débil", "Correlación moderada","Correlación fuerte","Correlación muy fuerte")

tabla <- data.frame(Valor_absoluto_r,Fuerza_de_relacion)
library(magrittr)

tabla %>%
  kbl(caption = "Tabla 7. Fuerza de relación entre variables según el valor de r") %>%
  kable_classic(full_width = F, html_font = "Cambria") %>%
  row_spec(0, bold = TRUE, color = "black")
Tabla 7. Fuerza de relación entre variables según el valor de r
Valor_absoluto_r Fuerza_de_relacion
0,00 - 0,10 Correlación despreciable
0,10-0,39 Correlación débil
0,40-0,69 Correlación moderada
0,70-0,89 Correlación fuerte
0,90-1,00 Correlación muy fuerte

Con base en lo anterior se tiene que:

Relacion_variables <- c("X6 vs X7", "X6 vs X8", "X6 vs X23","X6 vs X24","X7 vs X8","X7 vs X23", "X7 vs X24","X8 vs X23", "X13 vs X23", "X13 vs X15", "X23 vs X24") 
r <- c(0.816,0.693,0.779,0.716,0.609,0.775,0.731,0.798,0.766,0.624,0.663)
Fuerza_de_correlacion <- c("Fuerte","Moderada", "Fuerte","Fuerte","Moderada","Fuerte","Fuerte","Fuerte","Fuerte","Moderada","Moderada")

tabla <- data.frame(Relacion_variables,r,Fuerza_de_correlacion)
library(magrittr)

tabla %>%
  kbl(caption = "Tabla 8. Fuerza de relación entre variables según el valor de r") %>%
  kable_classic(full_width = F, html_font = "Cambria") %>%
  row_spec(0, bold = TRUE, color = "black")
Tabla 8. Fuerza de relación entre variables según el valor de r
Relacion_variables r Fuerza_de_correlacion
X6 vs X7 0.816 Fuerte
X6 vs X8 0.693 Moderada
X6 vs X23 0.779 Fuerte
X6 vs X24 0.716 Fuerte
X7 vs X8 0.609 Moderada
X7 vs X23 0.775 Fuerte
X7 vs X24 0.731 Fuerte
X8 vs X23 0.798 Fuerte
X13 vs X23 0.766 Fuerte
X13 vs X15 0.624 Moderada
X23 vs X24 0.663 Moderada

Diámetro del codo vs diámetro de muñeca (X6 vs X7)

En general se observa una relación directamente proporcional entre las variables, esto es, a mayor diámetro de muñeca, mayor será el diámetro del codo, lo que es acorde con la estructura anatómica humana.

library(ggplot2)
library(hrbrthemes)
hrbrthemes::import_roboto_condensed() 

# linear trend + confidence interval
ggplot(tabla_completa, aes(x=X7, y=X6)) +
  geom_point() +
  geom_smooth(method=lm , color="red", fill="#69b3a2", se=TRUE) +
  theme_ipsum()+
  labs(caption = "Figura 10.1. Gráfico de dispersión del diámetro del codo en función del diámetro de la muñeca.")

Al graficar los datos asociados al diámetro del codo en función del diámetro de la muñeca se obtiene una curva que se ajusta a la ecuación de la recta \(y=(0,589±0,042)x+(2,674±0,564)\) con un coeficiente de determinación \(R^2=0,667\) y un coeficiente de correlación lineal de Pearson \(r= 0,816\). El valor de r positivo da cuenta de la relación creciente entre las variables, además, al ser un valor cercano a 1 da indicios de linealidad. No obstante, es necesario realizar pruebas adicionales para verificar esto último.

De esta manera se establecen las siguientes hipótesis para la prueba del estadístico F:

  • H0: No hay regresión entre \(x\) y \(y\).
  • H1: Sí hay regresión entre \(x\) y \(y\).

El estadístico t del intercepto:

  • H0: El intercepto no es significativamente diferente de cero.
  • H1: El intercepto es significativamente diferente de cero.

Y el estadístico t de la pendiente:

  • H0: La pendiente no es significativamente diferente de cero.
  • H1: La pendiente es significativamente diferente de cero.
reg1 <- lm(X7~X6, tabla_completa)
r <- cor(tabla_completa$X7, tabla_completa$X6)
summary(reg1)
## 
## Call:
## lm(formula = X7 ~ X6, data = tabla_completa)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.13540 -0.46051  0.01194  0.35747  1.75736 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.67371    0.56406    4.74 7.24e-06 ***
## X6           0.58936    0.04211   13.99  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5922 on 98 degrees of freedom
## Multiple R-squared:  0.6665, Adjusted R-squared:  0.6631 
## F-statistic: 195.9 on 1 and 98 DF,  p-value: < 2.2e-16
anova(reg1)
## Analysis of Variance Table
## 
## Response: X7
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## X6         1 68.691  68.691  195.85 < 2.2e-16 ***
## Residuals 98 34.371   0.351                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
 Parametro<- c("Pendiente", "Intercepto", "Coeficiente de determinación","F","Valor crítico de F","t intercepto", "Valor crítico de t intercepto", "t pendiente", "Valor crítico de t pendiente") 
Valor <- c("0,589±0,042","2,674±0,564",0.667,195.9,2.2E-16,4.74,7.24E-6,13.99,2e-16)

tabla <- data.frame(Parametro,Valor)
library(magrittr)

tabla %>%
  kbl(caption = "Tabla 9. Resumen de los parámetros de la relación entre X6 y X7") %>%
  kable_classic(full_width = F, html_font = "Cambria") %>%
  row_spec(0, bold = TRUE, color = "black")
Tabla 9. Resumen de los parámetros de la relación entre X6 y X7
Parametro Valor
Pendiente 0,589±0,042
Intercepto 2,674±0,564
Coeficiente de determinación 0.667
F 195.9
Valor crítico de F 2.2e-16
t intercepto 4.74
Valor crítico de t intercepto 7.24e-06
t pendiente 13.99
Valor crítico de t pendiente 2e-16

Dado que el valor de F, determinado con un nivel de significancia de 0,001, es significativamente mayor que su valor crítico se rechaza la hipótesis nula de que no hay correlación entre x y y, es decir, que existe linealidad.

El valor de t de la pendiente es mayor que su valor crítico rechazando la hipótesis nula de que la pendiente no es significativamente diferente de cero. Sin embargo, el valor t del intercepto, por su parte, es mucho mayor que el valor crítico de t por lo que se rechaza la hipótesis nula de que el intercepto no es significativamente diferente de cero.

En lo que respecta a los residuales, se obtuvo un valor de 0,351. Cuanto más bajo sea este valor, mejor será la capacidad del modelo para ajustarse a los datos y explicar la variabilidad de la variable dependiente.

En general, la variabilidad entre medidas se puede dar por factores adicionales que no se tuvieron en cuenta a la hora de evaluar la relación, como lo es la actividad física, la complexión corporal, el desarrollo muscular, el género, la dieta nutricional, edad, raza, entre otros.

La información anterior permite confirmar que existe relación entre las variables con una correlación fuerte más no perfecta.

Circunferencia abdominal en función del peso (X13 vs X23)

Se detalla una relación directamente proporcional entre el peso y la circunferencia abdominal: mayor medida del perímetro del abdomen, mayor es el peso de un individuo. Las personas con mayor proporción de grasa en el abdomen tienden a tener un peso mayor.

Comúnmente, el exceso de grasa abdominal contribuye al incremento de peso. Este tipo de grasa se denomina grasa visceral y se acumula alrededor de los órganos dentro de la cavidad abdominal como el hígado, el estómago, el intestino, el páncreas, los riñones, entre otros.

En el área de la salud, la medida de la circunferencia abdominal se utiliza como indicador de la distribución de grasa, aunque se deben tener en cuenta factores como la estatura y la masa muscular.

La gráfica de la medida de la circunferencia abdominal en función del peso muestra una curva que se ajusta a la ecuación de la recta \(y=(1,157±0,098)x+(-29,422 ±8,379)\) con un coeficiente de determinación \(R^2=0,587\) y un coeficiente de correlación lineal de Pearson \(r= 0,766\). El valor de r positivo explica la relación creciente entre las variables y al ser un valor cercano a 1 da indicios de linealidad.

library(ggplot2)
library(hrbrthemes)
hrbrthemes::import_roboto_condensed() 

# linear trend + confidence interval
ggplot(tabla_completa, aes(x=X23, y=X13)) +
  geom_point() +
  geom_smooth(method=lm , color="blue", fill="#69b3a2", se=TRUE) +
  theme_ipsum()+
  labs(caption = "Figura 10.2. Gráfico de dispersión de la circunferencia abdominal en función del peso.")

reg2 <- lm(X23~X13, tabla_completa)
r <- cor(tabla_completa$X23, tabla_completa$X13)
summary(reg2)
## 
## Call:
## lm(formula = X23 ~ X13, data = tabla_completa)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -20.8714  -5.7273  -0.4446   6.2733  20.1196 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -29.42220    8.37890  -3.511 0.000675 ***
## X13           1.15704    0.09806  11.800  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.852 on 98 degrees of freedom
## Multiple R-squared:  0.5869, Adjusted R-squared:  0.5827 
## F-statistic: 139.2 on 1 and 98 DF,  p-value: < 2.2e-16
anova(reg2)
## Analysis of Variance Table
## 
## Response: X23
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## X13        1 10909.4 10909.4  139.24 < 2.2e-16 ***
## Residuals 98  7678.5    78.4                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Parametro<- c("Pendiente", "Intercepto", "Coeficiente de determinación","F","Valor crítico de F","t intercepto", "Valor crítico de t intercepto", "t pendiente", "Valor crítico de t pendiente") 
Valor <- c("1,157±0,098","-29,422 ±8,379","0.587","139.2","2.2E-16","11.800","2.2E-16"," 11.800","2e-16")

tabla <- data.frame(Parametro,Valor)
library(magrittr)

tabla %>%
  kbl(caption = "Tabla 10. Resumen de los parámetros de la relación entre X13 y X23") %>%
  kable_classic(full_width = F, html_font = "Cambria") %>%
  row_spec(0, bold = TRUE, color = "black")
Tabla 10. Resumen de los parámetros de la relación entre X13 y X23
Parametro Valor
Pendiente 1,157±0,098
Intercepto -29,422 ±8,379
Coeficiente de determinación 0.587
F 139.2
Valor crítico de F 2.2E-16
t intercepto 11.800
Valor crítico de t intercepto 2.2E-16
t pendiente 11.800
Valor crítico de t pendiente 2e-16

Haciendo énfasis en la prueba del estadístico F, con un nivel de significancia de 0,001, se tiene un valor de F significativamente mayor que su valor crítico, por ello se rechaza la hipótesis nula de que no hay correlación entre x y y, es decir, que existe linealidad.

Por otra parte, el valor de t del intercepto es menor que el valor crítico de t por lo que se acepta la hipótesis nula de que el intercepto no es significativamente diferente de cero. Del mismo modo, el valor de t de la pendiente es mayor que su valor crítico rechazando la hipótesis nula de que la pendiente no es significativamente diferente de cero.

En lo que respecta a los residuales, se obtuvo un valor de 78,4, valor alto que implica que la capacidad del modelo para ajustarse a los datos y explicar la variabilidad de la variable dependiente no es la más apropiada. Aún así, la información anterior permite confirmar que existe relación entre las variables con una correlación fuerte.

Bibliografía

[1] Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probabilidad y estadistica para ingenieria y ciencias (9.a ed.). Pearson Education.pp 1-7

[2] ¿Cómo se utiliza el estadístico de Anderson-Darling para evaluar el ajuste de la distribución? - Minitab. (s. f.). (C) Minitab, LLC. All rights Reserved. 2021. https://support.minitab.com/es-mx/minitab/20/help-and-how-to/quality-and-process-improvement/capability-analysis/supporting-topics/distributions-and-transformations-for-nonnormal-data/anderson-darling-and-distribution-fit/

[3] Barraza, A. N. (2017). MANUAL ANTROPOMETRIA. www.academia.edu. https://www.academia.edu/32051157/MANUAL_ANTROPOMETRIA

[4] Sanjuán, F. J. M. (2022). Intervalo de confianza. Economipedia. https://economipedia.com/definiciones/intervalo-de-confianza.html

[5] ¿Qué es una prueba de hipótesis? - Minitab. (s. f.). (C) Minitab, LLC. All rights Reserved. 2021. https://support.minitab.com/es-mx/minitab/20/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/what-is-a-hypothesis-test/

[6] Rodríguez, E. M. (2005). Errores frecuentes en la interpretación del coeficiente de determinación lineal. Anuario jurídico y económico escurialense, (38), 315-331.

[7] Cardona, D., Gonzalez-Rodriguez, J. L., Rivera Lozano, M., & Cárdenas Vallejo, E. (2013). Inferencia estadística Módulo de regresión lineal simple.

[8]Lalinde, J. D. H., Castro, F. E., Rodríguez, J. E., Rangel, J. G. C., Sierra, C. A. T., Torrado, M. K. A., … & Pirela, V. J. B. (2018). Sobre el uso adecuado del coeficiente de correlación de Pearson: definición, propiedades y suposiciones. Archivos venezolanos de Farmacología y Terapéutica, 37(5), 587-595.

[9] Schober, Patrick MD, PhD, MMedStat; Boer, Christa PhD, MSc; Schwarte, Lothar A. MD, PhD, MBA. Correlation Coefficients: Appropriate Use and Interpretation. Anesthesia & Analgesia 126(5):p 1763-1768, May 2018. | DOI: 10.1213/ANE.0000000000002864

[10] Practica 8 de desarrollo. (Año). Intervalos de Confianza con R. Recuperado de: https://estadistica-dma.ulpgc.es/estadFCM/html/Practica8-Desarrollo.html

[11] Rico, V. 2022. Distribución T de STUDENT en Rstudio. Recuperado de URL:https://ricovictor.com/index.php/2022/04/16/distribucion-t-de-student-en-rstudio/