Los jóvenes colombianos se han vuelto más consientes con respecto a la importancia de una buena nutrición acompañada de actividad deportiva para tener buena salud. Una asociación de médicos opina que quizás los jóvenes estén modificando sus dietas para para incluir menos carnes rojas y más frutas y verduras.
Para verificar esta teoría ,un grupo de estudiantes de la Javeriana Cali decide seleccionar registros nutricionales delos estudiantes (consignados en una encuesta realizada por VMU) de hace 10 años y comparar la cantidad promedio de carne de res consumida por año, con las cantidades consumidas por un número de jóvenes que serían entrevistados este año. De acuerdo con la información actual se estima que el consumo de carne de res por año varia entre 0 y 104 libras por año.
¿Cuántos jóvenes deben seleccionar los investigadores de cada grupo si desean estimar la diferencia en el consumo anual promedio per cápita de carne de res correcta dentro de 5 libras con un 99% de confianza?
Si además se desea estimar la proporción de jóvenes que son vegetarianos con un error de muestreo del 5%, ¿que tamaño debe tener la muestra?
# Valores para los cálculos
confianza <- 0.99
margen_error_consumo <- 5 # Libras
rango_max <- 104 # Máximo consumo estimado en libras
sigma_estimado <- rango_max / 4 # Estimación de la desviación estándar
# Valor Z para un 99% de confianza
z <- qnorm((1 + confianza) / 2)
# Cálculo del tamaño de la muestra para el consumo de carne de res
n_consumo <- (z^2 * sigma_estimado^2) / (margen_error_consumo^2)
n_consumo
## [1] 179.4076
# Margen de error y proporción estimada
margen_error_proporcion <- 0.05 # 5%
p_estimado <- 0.5 # Sin información previa, asumimos 0.5
# Cálculo del tamaño de la muestra para la proporción de vegetarianos
n_vegetarianos <- (z^2 * p_estimado * (1 - p_estimado)) / (margen_error_proporcion^2)
n_vegetarianos
## [1] 663.4897
Los investigadores del problema anterior seleccionaron dos grupos de 400 jóvenes cada uno y reunieron la siguiente información sobre los hábitos de consumo de carnes de res actuales y de hace 10 años :
Hace 10 años Este año media muestral 73 63 desviación estandar muestral 25 28
A los investigadores les gustaría poder mostrar que el consumo de carne per cápita se redujo en los últimos 10 años, mediante la construcción de una pruba de hipótesis. ¿A que conclusión se puede lllegar a partir de la información suministrada?
# Datos proporcionados
n1 <- 400 # Tamaño de la muestra hace 10 años
n2 <- 400 # Tamaño de la muestra este año
x1_bar <- 73 # Media muestral hace 10 años
x2_bar <- 63 # Media muestral este año
s1 <- 25 # Desviación estándar muestral hace 10 años
s2 <- 28 # Desviación estándar muestral este año
# Calcular la estadística t manualmente
sp <- sqrt(((n1 - 1) * s1^2 + (n2 - 1) * s2^2) / (n1 + n2 - 2))
t_stat <- (x1_bar - x2_bar) / (sp * sqrt(1/n1 + 1/n2))
# Grados de libertad
df <- n1 + n2 - 2
# Calcular el valor p
p_value <- pt(t_stat, df, lower.tail = FALSE)
# Mostrar los resultados
cat("t_statistic:", t_stat, "\n")
## t_statistic: 5.328126
cat("df:", df, "\n")
## df: 798
cat("p_value:", p_value, "\n")
## p_value: 6.459854e-08
Uno de los problemas más frecuentes en jóvenes universitarios es la alta tensión que generan las evaluaciones finales, las cuales en algunos casos genera dolores de cabeza. La tensión muscular en laregión dela cabeza se ha asociado con los dolores de cabeza, es razonable pensar que si la tensión muscular disminuye, es probable que los dolores de cabeza se reduzcan o desaparezcan. Un grupo de investigadores diseña un experimento en el cual participan nueve estudiantes que padecen dolores de cabeza durante las semanas de evaluación. Posteriormente un grupo de profesionales de ingeniería Biomédica y Enfermería los entrenan con el fin de que puedan aprender a reducir la tensión muscular en la región frontal de la cabeza. Para este experimento el dispositivo mencionado se conecta al musculo frontal, que se encuentra en la región frontal de la cara. El dispositivo indica al estudiante la cantidad de tensión que existe en el musculo al que está unido (en este caso, al frontal) y le ayuda a reducir los niveles de tensión. Después de 6 semanas de entrenamiento, los jóvenes han logrado mantener una baja tensión en el musculo frontal; entonces se lleva nuevamente un registro de los dolores de cabeza que sufren durante las dos semanas de evaluaciones. La información recogida se presenta en la siguiente tabla :
Sujeto 1 2 3 4 5 6 7 8 9 linea base 17 13 6 5 5 10 8 6 7 Después de entrenamiento 3 7 2 3 6 2 1 0 2
Dado que pueden existir problemas de interacción en el planteamiento anterior, debido a que los resultados muestran aparentemente una disminución de los dolores de cabeza, es posible que esta disminución no se deba al entrenamiento realizado con la utilización del dispositivo , sino a algún otro factor también presente en la situación, como por ejemplo el momento en que se realizan las mediciones ( primeros parciales, segundos parciales, finales), los investigadores incorporan un grupo que se denomina grupo control que permita dar cuenta de estas variaciones. Este grupo de jóvenes que tambien presentan dolores de cabeza fue medido durante los mismos momentos del primer grupo (grupo experimental) salvo que no fue entrenado con el dispositivo para controlar la tension. Durante el periodo intermedion este grupo solo hablo con los investigadores sobre los dolores de cabeza. El número de dolores de cabeza durante la linea base y el segundo periodo para el grupo control se presentan en la siguiente tabla:
Sujeto 1 2 3 4 5 6 7 8 9 linea base 5 8 14 16 6 5 8 10 9 Después de entrenamiento 4 9 12 15 4 3 7 6 7
Se puede concluir que el tratamiento realizado con el dispivo disminuye los dolores de cabeza?
Nota:Suponga que el número de dolores de cabeza se distribuye aproximadamente normal. (Basado en Robert Pangano (2006))
# Datos del grupo experimental
dolores_antes <- c(17, 13, 6, 5, 5, 10, 8, 6, 7)
dolores_despues <- c(3, 7, 2, 3, 6, 2, 1, 0, 2)
# Prueba t para muestras pareadas para el grupo experimental
t_test_exp <- t.test(dolores_antes, dolores_despues, paired = TRUE)
# Datos del grupo control
dolores_control_antes <- c(5, 8, 14, 16, 6, 5, 8, 10, 9)
dolores_control_despues <- c(4, 9, 12, 15, 4, 3, 7, 6, 7)
# Prueba t para muestras independientes para el grupo control
t_test_control <- t.test(dolores_control_antes, dolores_control_despues)
# Mostrar los resultados de las pruebas
t_test_exp
##
## Paired t-test
##
## data: dolores_antes and dolores_despues
## t = 4.0931, df = 8, p-value = 0.003471
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
## 2.474149 8.859185
## sample estimates:
## mean difference
## 5.666667
t_test_control
##
## Welch Two Sample t-test
##
## data: dolores_control_antes and dolores_control_despues
## t = 0.84462, df = 15.982, p-value = 0.4108
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.349101 5.460212
## sample estimates:
## mean of x mean of y
## 9.000000 7.444444
Los ingenieros de una ensambladora de automóviles requieren decidir sobre cuál de dos de las marcas de neumáticos deben comprar. La marca FB o la marca KT. Con el fin de tomar una decisión basada en evidencias estadísticas, deciden realizar un experimento en el que usan 12 neumáticos de cada marca. Los neumáticos se utilizan hasta su terminación. Los resultados obtenidos son los siguientes:
Cuál marca de neumáticos recomendaría comprar. Justifique su respuesta. Suponga que la distancia recorrida por un neumático se distribuye aproximadamente normal y un α= 0,05.
# Cargar la librería ggplot2 para visualización de datos
library(ggplot2)
# Datos de rendimiento para las marcas FB y KT
FB <- c(41.8, 41.6, 31.5, 48.7, 40.8, 31.2, 36.5, 36.2, 32.8, 36.3, 38.6, 30.5)
KT <- c(40.5, 38.4, 44.0, 34.9, 44.0, 44.7, 44.0, 47.1, 39.8, 43.9, 44.2, 40.2)
# Crear un dataframe con los datos
llantas <- data.frame(rendimiento = c(FB, KT),
marca = rep(c("FB","KT"), each=12 ))
# Crear el boxplot con ggplot2
ggplot(llantas, aes(x = marca, y = rendimiento, fill = marca)) +
geom_boxplot() +
geom_point(position = position_jitterdodge(jitter.width = 0.2), size = 3) +
labs(x = "Marca", y = "Rendimiento") +
scale_fill_manual(values = c("FB" = "lightblue", "KT" = "lightgreen")) +
theme_minimal()
# Realizar una prueba t de muestras independientes
t_test <- t.test(FB, KT, alternative = "two.sided", var.equal = TRUE)
# Mostrar los resultados de la prueba t
print(t_test)
##
## Two Sample t-test
##
## data: FB and KT
## t = -2.6721, df = 22, p-value = 0.01392
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -8.762213 -1.104454
## sample estimates:
## mean of x mean of y
## 37.20833 42.14167
Un director de un gimnasio quiere determinar si un instructor de ejercicio debe ser contratado o no para su campaña estrella “Reducción de peso”, Para tomar la decisión le dice que pruebe con 16 de las personas que habitualmente concurren tomadas al azar. Los datos que se tomaron antes (x1) y después (x2) de haber realizado un mes de ejercicios son los siguientes:
id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 x1 104 89 84 106 90 96 79 90 85 76 91 82 100 89 121 72 x2 98 85 85 103 88 95 79 90 82 76 89 81 99 86 111 70
Emplee y realice las pruebas de hipótesis a un nivel de significancia del 0.01 para determinar si el programa que ofrece el nuevo instructor es eficaz. Suponga que la variable peso se distribuye aproximadamente normal.
# Datos de pesos antes y después del programa de ejercicios
x1 <- c(104, 89, 84, 106, 90, 96, 79, 90, 85, 76, 91, 82, 100, 89, 121, 72)
x2 <- c(98, 85, 85, 103, 88, 95, 79, 90, 82, 76, 89, 81, 99, 86, 111, 70)
# Realizar la prueba t para muestras pareadas
t_test <- t.test(x1, x2, alternative = "greater", paired = TRUE, conf.level = 0.99)
# Mostrar los resultados de la prueba
print(t_test)
##
## Paired t-test
##
## data: x1 and x2
## t = 3.4246, df = 15, p-value = 0.001882
## alternative hypothesis: true mean difference is greater than 0
## 99 percent confidence interval:
## 0.5551231 Inf
## sample estimates:
## mean difference
## 2.3125