Un investigador está evaluando si hay una diferencia significativa entre dos tratamientos para mejorar el rendimiento académico de los estudiantes. Se seleccionaron aleatoriamente 6 estudiantes para el tratamiento A y 6 estudiantes para el tratamiento B. Los resultados obtenidos en una prueba de rendimiento fueron los siguientes:
Tratamiento A (Grupo A): 70, 75, 80, 85, 90, 95
Tratamiento B (Grupo B): 85, 87, 89, 91, 93, 95
El investigador quiere construir un intervalo de confianza del 95 % para la diferencia de medias.
#Ponemos los datos en vectores
TratamientoA <- c(70, 75, 80, 85, 90, 95)
TratamientoB <- c(85, 87, 89, 91, 93, 95)
#Prueba F para comparar Varianzas
Prueba_fisher <- var.test(TratamientoA, TratamientoB, alternative = "two.sided", conf.level = 0.95)
print(Prueba_fisher)
##
## F test to compare two variances
##
## data: TratamientoA and TratamientoB
## F = 6.25, num df = 5, denom df = 5, p-value = 0.06573
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.8745684 44.6648864
## sample estimates:
## ratio of variances
## 6.25
cat("El intervalo de confianza es:")
## El intervalo de confianza es:
cat("\n")
intervalo <- Prueba_fisher$conf.int
print(intervalo)
## [1] 0.8745684 44.6648864
## attr(,"conf.level")
## [1] 0.95
Por lo tanto, como este intervalo de confianza incluye el número 1, no es posible afirmar que las varianzas poblacionales sean diferentes con un nivel de confianza del 95%, es decir, son iguales. Este resultado influye en el tipo de prueba t de manera en que el tamaño de muestra seguirá siendo menor que 30, y de la misma manera también se desconocen las varianzas poblacionales, pero, gracias a la prueba de Fisher podemos concluir que son iguales. Así, influyó el resultado del intervalo.
Calculemos el intervalo del confianza de 95%
resultado <- t.test(TratamientoA, TratamientoB, var.equal = TRUE)
print(resultado)
##
## Two Sample t-test
##
## data: TratamientoA and TratamientoB
## t = -1.8235, df = 10, p-value = 0.09822
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -16.664307 1.664307
## sample estimates:
## mean of x mean of y
## 82.5 90.0
cat("El intervalo de confianza es:")
## El intervalo de confianza es:
cat("\n")
intervalo2 <- resultado$conf.int
print(intervalo2)
## [1] -16.664307 1.664307
## attr(,"conf.level")
## [1] 0.95
Como el intervalo incluye al 0, podemos decir que las medias poblacionales son iguales, ya que no hay suficiente evidencia para afirmar lo contrario.
Ahora, calculemos el intervalo de confianza de 99%
resultado2 <- t.test(TratamientoA, TratamientoB, var.equal = TRUE, conf.level = 0.99)
print(resultado2)
##
## Two Sample t-test
##
## data: TratamientoA and TratamientoB
## t = -1.8235, df = 10, p-value = 0.09822
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
## -20.535179 5.535179
## sample estimates:
## mean of x mean of y
## 82.5 90.0
intervalo3 <- resultado2$conf.int
print(intervalo3)
## [1] -20.535179 5.535179
## attr(,"conf.level")
## [1] 0.99
Como el intervalo incluye al número 0, podemos concluir que no hay mucha diferencia entre las medias, es decir, pueden ser iguales ya que el intervalo no nos demuestra lo contrario.
El intervalo para el 99% es más amplio, por lo que, puede ser más preciso pero menos exacto, ya que abarca más números que el de 95%. Es más amplio debido a que al aumentar el nivel de confianza el intervalo se amplía.
En ambos casos, cuando el intervalo es del 95 o del 99, se encuentra el número 0 en el intervalo, lo que nos permite concluir que no hay una diferencia significativa entre las medias, es decir, que pueden ser iguales.
Un grupo de investigación desea estimar el tiempo promedio de estudio semanal de los estudiantes de una universidad. En un estudio piloto con 25 estudiantes, obtuvieron una media de 15 horas semanales con una desviación estándar de 4 horas. El grupo de investigación desea construir un intervalo de confianza del 95 % para estimar el verdadero tiempo promedio de estudio semanal.
Calcularemos el intervalo de confianza para la media poblacional:
#Datos
media <- 15
s <- 4
n <- 25
tcritico <- qt(0.975, df = n - 1)
# Calcular el margen de error
MargenError <- tcritico * (s / sqrt(n))
# Intervalo de confianza
limite_inferior <- media - MargenError
limite_superior <- media + MargenError
# Imprimir el intervalo
intervalo_confianza <- c(limite_inferior, limite_superior)
print(intervalo_confianza)
## [1] 13.34888 16.65112
Con un nivel de confianza del 95%, el tiempo promedio de estudio semanal de los estudiantes de universidad esta entre 13.3 horas y 16.6 horas.
A continuación, calcularemos el tamaño de muestra cuando se reduce el margen de error a 1 hora:
s <- 4
t_95 <- 2.064
error_margin_1 <- 1
n_95 <- (t_95 * s / error_margin_1)^2
print(n_95)
## [1] 68.16154
El tamaño de muestra necesario es aproximadamente 68 estudiantes para reducir el margen de error a 1 hora.
A continuación, calcularemos el tamaño de muestra cuando se reduce el margen de error a 0.5 horas:
s <- 4
t_95 <- 2.064
error_margin_1 <- 0.5
n_95 <- (t_95 * s / error_margin_1)^2
print(n_95)
## [1] 272.6461
El tamaño de muestra necesario es aproximadamente 273 estudiantes para reducir el margen de error a 0.5 horas.
Lo que observo respecto a la relación entre el margen de error y el tamaño de la muestra es que mientras más se reduzca el margen de error más grande será la muestra, ya que en una muestra más grande la estimación de la media es más precisa. Es decir, para reducir el margen de error, en este caso, el estudio necesitara una muestra con más estudiantes.