Suponga que se estudia la compra de una nueva máquina para una empresa. Se comprara la máquina si la proporción de la producción que necesita ser reprocesados por tener defectos es inferior al 5 %. Se examina una muestra de 40 artículos construidos por la máquina y 3 necesitan ser reprocesados . ¿ Que decisión se toma? ( Se compra o no la máquina?
Ho:la proporción de articulos defectuosos es mayor o igual al 5%. Ha:la proporción de articulos defectuosos es menor al 5%.
n <- 40
x <- 3
proporcion_muestra <- x / n
proporcion_nula <- 0.05
resultado <- prop.test(x, n, p = proporcion_nula, alternative = "less", correct = TRUE)
resultado
1-sample proportions test with continuity correction
data: x out of n, null probability proporcion_nula
X-squared = 0.13158, df = 1, p-value = 0.6416
alternative hypothesis: true p is less than 0.05
95 percent confidence interval:
0.0000000 0.1894048
sample estimates:
p
0.075
Como el p-value = 0.6416, no se rechaza la Ho, ya que no existe suficiente evidencia en los datos que permita rechazarla. Asi que, se puede asumir que la Ho es verdad. Esto quiere decir que la proporción de articulos defectuosos es mayor o igual al 5%. Por ende, no se recomienda comprar la máquina.
Suponga que una empresa desarrolla un curso de entrenamiento para sus empleados, formando dos grupos y aplicándoles dos métodos distintos de entrenamiento. El primer grupo lo componen 36 empleados que obtuvieron un puntaje promedio de 6 ( en escala de 0 a 10 puntos) y una desviación estándar de 4 puntos y el segundo grupo de 40 empleados cuyo puntaje promedio fue de 8.2 y una desviación de 4.3. Se puede afirmar que el método aplicado al segundo grupo es superior al aplicado al primero? ¿Que supuestos debe de tener en cuenta?
# Datos del primer grupo
n1 <- 36
media1 <- 6
desviacion1 <- 4
# Datos del segundo grupo
n2 <- 40
media2 <- 8.2
desviacion2 <- 4.3
# Prueba t para comparar las medias de los dos grupos
resultado <- t.test(x = rnorm(n1, mean = media1, sd = desviacion1),
y = rnorm(n2, mean = media2, sd = desviacion2),
alternative = "two.sided", var.equal = TRUE)
resultado
Two Sample t-test
data: rnorm(n1, mean = media1, sd = desviacion1) and rnorm(n2, mean = media2, sd = desviacion2)
t = -2.2867, df = 74, p-value = 0.02507
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.1306694 -0.2839474
sample estimates:
mean of x mean of y
6.619381 8.826689
La prueba t para muestras independientes se realizó asumiendo las varianzas iguales. El estadístico t obtenido fue -2.5465 con 74 grados de libertad, y el p-valor asociado fue 0.01296. Dado que el p-valor es muy pequeño, rechazamos la hipótesis nula Ho. Por lo tanto, hay suficiente evidencia para concluir que el método aplicado al segundo grupo es estadísticamente superior al del primer grupo en términos de puntajes promedio.
Los ingenieros de una ensambladora de automóviles requieren decidir sobre cuál de dos de las marcas de neumáticos deben comprar. La marca FB o la marca KT. Con el fin de tomar una decisión basada en evidencias estadísticas, deciden realizar un experimento en el que usan 12 neumáticos de cada marca. Los neumáticos se utilizan hasta su terminación. Los resultados obtenidos son los siguientes:
Marca FB: 41.8 41.6 31.5 48.7 40.8 31.2 36.5 36.2 32.8 36.3 38.6 30.5 ; Marca KT: 40.5 38.4 44.0 34.9 44.0 44.7 44.0 47.1 39.8 43.9 44.2 40.2 .
Cuál marca de neumáticos recomendaría comprar. Justifique su respuesta. Suponga que la distancia recorrida por un neumático se distribuye aproximadamente normal y un nivel de significancia del 0,05.
Para decidir qué marca de neumáticos es mejor, se realiza una prueba t para muestras independientes para comparar las medias de las distancias recorridas por los neumáticos de las marcas FB y KT.
Hipótesis nula (H0): No hay diferencia significativa en las distancias recorridas por los neumáticos de ambas marcas.
Hipótesis alternativa (Ha):Hay una diferencia significativa.
# Datos de las marcas de neumáticos
marca_fb <- c(41.8, 41.6, 31.5, 48.7, 40.8, 31.2, 36.5, 36.2, 32.8, 36.3, 38.6, 30.5)
marca_kt <- c(40.5, 38.4, 44.0, 34.9, 44.0, 44.7, 44.0, 47.1, 39.8, 43.9, 44.2, 40.2)
# Prueba t para muestras independientes
resultado <- t.test(marca_fb, marca_kt, alternative = "less", var.equal = TRUE)
resultado
Two Sample t-test
data: marca_fb and marca_kt
t = -2.6721, df = 22, p-value = 0.006961
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -1.763063
sample estimates:
mean of x mean of y
37.20833 42.14167
La prueba t de dos muestras arrojó un valor t de -2.6721 con 22 grados de libertad. El p-valor asociado fue 0.006961, que es menor que el nivel de significancia de 0.05. Dado que el p-valor es muy pequeño, rechazamos la hipótesis nula Ho. Por ende, hay suficiente evidencia para afirmar que la marca KT recorre una distancia menor a la marca FB en términos de los neumáticos utilizados en este experimento.
En este orden de ideas, podemos concluir que, se recomienda comprar la marca de neumáticos FB, ya que parece tener un rendimiento superior en términos de la distancia que recorren sus neumáticos en comparación con la marca KT.
Un ingeniero desea establecer si existen diferencias entre dos métodos diferentes de realizar el ensamble de una casa prefabricada. Para comprobarlo recoge información de ambos métodos que se presentan a continuación:
Procedimiento estándar: 32, 37, 35, 28, 41, 44, 35, 31, 34. Nuevo procedimiento: 35, 31, 29, 25, 34, 40, 27, 32, 31.
Presentan los datos suficiente evidencia estadística para afirmar que el nuevo método es más eficiente que el estándar? (utilice un nivel de significancia del 0,05).
# Datos del procedimiento estándar y nuevo procedimiento
estandar <- c(32, 37, 35, 28, 41, 44, 35, 31, 34)
nuevo <- c(35, 31, 29, 25, 34, 40, 27, 32, 31)
# Prueba t para muestras independientes
resultado <- t.test(estandar, nuevo, alternative = "greater")
resultado
Welch Two Sample t-test
data: estandar and nuevo
t = 1.6495, df = 15.844, p-value = 0.05937
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-0.2166361 Inf
sample estimates:
mean of x mean of y
35.22222 31.55556
El p-valor asociado fue 0.05937, el nivel de significancia es del 0.05, así que es un poco mayor. Aunque el p-valor no es menor que 0.05, sabemos que está bastante cerca del límite de significancia, entonces no podemos afirmar que el nuevo método sea significativamente más eficiente que el procedimiento estándar en términos de tiempos de ensamblaje. Así que, el método estandar es ligeramente más eficiente que el nuevo método.
Un director de un gimnasio quiere determinar si un instructor de ejercicio debe ser contratado o no para su campaña estrella “Reducción de peso”, Para tomar la decisión le dice que pruebe con 16 de las personas que habitualmente concurren tomadas al azar. Los datos que se tomaron antes (x1) y después (x2) de haber realizado un mes de ejercicios son los siguientes:
id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 x1 104 89 84 106 90 96 79 90 85 76 91 82 100 89 121 72 x2 98 85 85 103 88 95 79 90 82 76 89 81 99 86 111 70
Emplee y realice las pruebas de hipótesis a un nivel de significancia del 0.01 para determinar si el programa que ofrece el nuevo instructor es eficaz. Suponga que la variable peso se distribuye aproximadamente normal.
Se realiza la prueba t para muestras relacionadas con un nivel de significancia del 0.01 para probar:
Hipótesis nula (H0):No hay diferencia significativa en el peso antes y después del programa.
Hipótesis alternativa (Ha):Hay una diferencia significativa.
# Entrada de datos
x1 <- c(104, 89, 84, 106, 90, 96, 79, 90, 85, 76, 91, 82, 100, 89, 121, 72) # peso antes
x2 <- c(98, 85, 85, 103, 88, 95, 79, 90, 82, 76, 89, 81, 99, 86, 111, 70) # peso después
# Prueba t pareada
resultado <- t.test(x1, x2, paired = TRUE)
# Imprimir el resultado
print(resultado)
Paired t-test
data: x1 and x2
t = 3.4246, df = 15, p-value = 0.003763
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
0.873196 3.751804
sample estimates:
mean difference
2.3125
El valor t obtenido fue -3.4246 y el p-valor asociado fue 0.003763. Dado que el p-valor es menor que 0.01, rechazamos la hipótesis nula. Por lo tanto, hay suficiente evidencia para afirmar que el programa del nuevo instructor es eficaz en la “Reducción de peso”, ya que hay una diferencia significativa en el peso antes y después del programa para las personas evaluadas.
Se realizan pruebas de un nuevo lector láser manual para uso en inventarios y el lector utilizado actualmente, con el fin de decidir si se adquiere el primero. Se obtienen los datos siguientes sobre el número de códigos de barra de 7 pulgadas que pueden leerse por segundo. Sea X1: número de códigos leído por segundo con el dispositivo nuevo y X2 el correspondiente al dispositivo antiguo. n1 = 61 ; x1 = 40 ; s2-1 = 24,9 n2 = 61 ; x2 = 29 ; s2-2 = 22,7
De acuerdo con la información suministrada, es posible preferir alguno de ellos?. En caso de poderlo realizar con cual se quedaría? Justifique su respuesta. En cada caso determine las pruebas de hipótesis, el estadístico de prueba apropiado, el valor − p obtenido y las conclusiones resultantes.
Para comparar los dos dispositivos (el nuevo y el antiguo), se realiza una prueba t para muestras independientes para verificar si hay una diferencia significativa en el número de códigos de barra leídos por segundo entre los dos dispositivos.
Hipótesis nula (H0): No hay diferencia significativa en el número de códigos leídos por segundo entre los dos dispositivos.
Hipótesis alternativa (Ha): Hay una diferencia significativa en el número de códigos leídos por segundo entre los dos dispositivos.
# Datos
n1 <- 61
xbar1 <- 40
s1 <- sqrt(24.9)
n2 <- 61
xbar2 <- 29
s2 <- sqrt(22.7)
# Estadístico de prueba t
t_stat <- (xbar1 - xbar2) / sqrt((s1^2 / n1) + (s2^2 / n2))
# Grados de libertad
df <- ((s1^2 / n1) + (s2^2 / n2))^2 / (((s1^2 / n1)^2 / (n1 - 1)) + ((s2^2 / n2)^2 / (n2 - 1)))
# Valor p (usando una prueba de dos colas)
p_value <- 2 * pt(abs(t_stat), df = df, lower.tail = FALSE)
# Resultados
t_stat
[1] 12.45243
df
[1] 119.7442
p_value
[1] 2.416439e-23
Dado que el p-valor obtenido (2.416439e-23) es menor que el nivel de significancia (0.05), rechazamos Ho y se asume Ha como verdad. Esto indica que hay una diferencia significativa en el número de códigos leídos por segundo entre los dos dispositivos.
Para determinar cuál escoger, se deben observar las medias de los dos grupos. En este caso, el dispositivo nuevo tiene una media de 40 códigos leídos por segundo, mientras que el dispositivo antiguo tiene una media de 29 códigos leídos por segundo.
En base a esto, es preferible el dispositivo nuevo, ya que tiene un rendimiento significativamente mejor en términos del número de códigos leídos por segundo.
Un empresario registro el número de artículos producidos durante 10 días, para un grupo de 15 obreros que trabajaban con base en un salario fijo (Grupo 1). El industrial introdujo un plan de incentivos para otros 15 obreros y registro su producción durante otros 10 días (Grupo 2). El número de artículos producidos por cada uno de los grupos fue :
G1 75 76 74 80 72 78 76 73 72 75
G2 86 78 86 84 81 79 78 84 88 80
Suponiendo que los salarios pagados a cada grupo son equivalentes. ¿Se puede concluir que el plan de incentivos es efectivo?
Para determinar si el plan de incentivos es efectivo, se debe realizar una prueba t para muestras independientes.
La hipótesis nula (H0): no hay diferencia en la producción entre el Grupo 1 (sin incentivos) y el Grupo 2 (con incentivos).
La hipótesis alternativa (Ha): hay una diferencia significativa en la producción entre los grupos.
# Datos
g1 <- c(75, 76, 74, 80, 72, 78, 76, 73, 72, 75)
g2 <- c(86, 78, 86, 84, 81, 79, 78, 84, 88, 80)
# Prueba t de una cola (cola derecha, ya que queremos saber si el Grupo 2 produce más)
t_test <- t.test(g1, g2, alternative = "less")
# Resultados
t_test
Welch Two Sample t-test
data: g1 and g2
t = -5.1719, df = 16.105, p-value = 4.539e-05
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -4.83674
sample estimates:
mean of x mean of y
75.1 82.4
El p-valor es muy pequeño (4.539×10^−5), lo que indica que existe evidencia significativa para rechazar Ho donde las medias de los dos grupos son iguales.Asi que, se afirma que el plan de incentivos ha tenido un impacto significativo en la producción de los trabajadores del Grupo 2 en comparación con el Grupo 1.
En una muestra de 200 clientes, el 20 % indica una preferencia por tamaño especial de pizza. Con posterioridad a una campaña publicitaria realizada en radio y televisión promoviendo dicho producto, se selecciono una muestra de igual tamaño. En esta última muestra el 22 % de los clientes indicó preferencia por el producto. De acuerdo con estos resultados y un nivel de significancia del 5 % , ¿podría decirse que la campaña publicitaria no fue efectiva?.
Hipótesis nula (H0): La proporción de clientes que prefieren el producto después de la campaña publicitaria es igual a la proporción antes de la campaña publicitaria.
Hipótesis alternativa (Ha): La proporción de clientes que prefieren el producto después de la campaña publicitaria es mayor que la proporción antes de la campaña publicitaria.
En la primera muestra (antes de la campaña): n1 = 200, p1 = 0.20 En la segunda muestra (después de la campaña): n2 = 200, p2 = 0.22
# Datos
n1 <- 200
p1 <- 0.20
n2 <- 200
p2 <- 0.22
# Estadístico de prueba z y valor p (usando una prueba de cola derecha)
z_stat <- (p1 - p2) / sqrt((p1 * (1 - p1) / n1) + (p2 * (1 - p2) / n2))
p_value <- 1 - pnorm(z_stat)
# Nivel de significancia
alpha <- 0.05
# Comparar con el nivel de significancia
resultado <- ifelse(p_value < alpha, "Rechazar H0: La campaña fue efectiva", "No rechazar H0: No hay evidencia suficiente para decir que la campaña fue efectiva")
# Resultados
z_stat
[1] -0.4911767
p_value
[1] 0.6883493
resultado
[1] "No rechazar H0: No hay evidencia suficiente para decir que la campaña fue efectiva"
Como el p-valor (0.6883493) es mayor que el nivel de significancia (0.05), no hay suficiente evidencia para rechazar la hipótesis nula. Por lo tanto, no hay pruebas estadísticas significativas para afirmar que la campaña publicitaria tuvo un impacto significativo en las preferencias de los clientes, en este caso aumentar la preferencia por el tamaño especial de pizza.
Los siguientes son los datos de las horas hombre que se pierden en promedio por accidentes en 10 plantas industriales antes (A) y después (D) de la implantación de un programa de seguridad industrial:
id: 1 2 3 4 5 6 7 8 9 10
A: 45 73 46 124 30 57 83 34 26 17
D: 36 60 44 119 35 51 77 29 24 11
Utilice un nivel de significancia de 0.05 para probar si el programa de seguridad implantado es eficaz. Suponga que esta variable se distribuye aproximadamente normal.
Se utilizará una prueba t para muestras pareadas, ya que se están comparando las mismas plantas industriales antes y después del programa.
Las hipótesis para este caso son las siguientes:
Hipótesis nula (H0): La media de las horas hombre perdidas antes del programa (A) es igual a la media después del programa (D).
Hipótesis alternativa (Ha): La media de las horas hombre perdidas antes del programa es mayor que la media después del programa.
# Datos
antes <- c(45, 73, 46, 124, 30, 57, 83, 34, 26, 17)
despues <- c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)
# Prueba t para muestras pareadas (una cola derecha)
t_test <- t.test(antes, despues, paired = TRUE, alternative = "greater")
# Nivel de significancia
alpha <- 0.05
# Comparar con el nivel de significancia
resultado <- ifelse(t_test$p.value < alpha, "Rechazar H0: El programa de seguridad es eficaz", "No rechazar H0: No hay evidencia suficiente para decir que el programa de seguridad es eficaz")
# Resultados
t_test
Paired t-test
data: antes and despues
t = 3.2796, df = 9, p-value = 0.004767
alternative hypothesis: true mean difference is greater than 0
95 percent confidence interval:
2.161215 Inf
sample estimates:
mean difference
4.9
resultado
[1] "Rechazar H0: El programa de seguridad es eficaz"
Dado a que el valor-p (0.004767) es menor que el nivel de significancia (0.05), se rechaza Ho y se asume Ha como verdadera, por ende la media de las horas hombre perdidas antes del programa es mayor que la media después del programa, lo que conlleva a afirmar que el programa de seguridad implantado es eficaz.
La compañía de dulces Mars publica en su sitio web información relacionada con los porcentajes de los distintos colores de sus dulces M&M para la variedad de chocolate con leche.
Color contenido en la bolsa: café, amarillo, rojo, azul, naranja, verde Porcentaje (%): 13, 14, 13, 24, 20, 16
Se realiza una verificación mediante el conteo delos dulces contenidos en una bolsa de 14 onzas de dulces M&M, obteniendo los siguientes resultados: 70 duces cafés, 72 amarillos, 61 rojos, 118 azules, 108 naranjas y 85 verdes.
¿Se podría afirmar que los datos anteriores respaldan la información suministrada por la compañía en su sitio web? Sustente su respuesta.
Se debe realizar una prueba de bondad de ajuste. Esta prueba permitirá comparar las frecuencias observadas (los datos obtenidos de la bolsa de M&M) con las frecuencias esperadas (los porcentajes proporcionados por la compañía).
Hipótesis nula (H0): Los datos observados se ajustan a la distribución proporcionada por la compañía Mars.
Hipótesis alternativa (Ha): Los datos observados no se ajustan a la distribución proporcionada por la compañía Mars.
Se usará un nivel de significancia de 0.05 para esta prueba.
# Porcentajes proporcionados por la compañía
porcentajes <- c(13, 14, 13, 24, 20, 16)
# Frecuencias esperadas basadas en una bolsa de 14 onzas (total de dulces = 70)
total_dulces <- 70
frecuencias_esperadas <- total_dulces * (porcentajes / 100)
frecuencias_esperadas
[1] 9.1 9.8 9.1 16.8 14.0 11.2
# Frecuencias observadas
frecuencias_observadas <- c(70, 72, 61, 118, 108, 85)
# Prueba de bondad de ajuste
chi_sq_test <- chisq.test(frecuencias_observadas, p = porcentajes / 100)
# Nivel de significancia
alpha <- 0.05
# Comparar con el nivel de significancia
resultado <- ifelse(chi_sq_test$p.value < alpha, "Rechazar H0: Los datos no se ajustan a la distribución proporcionada por la compañía", "No rechazar H0: Los datos respaldan la distribución proporcionada por la compañía")
# Resultados
chi_sq_test
Chi-squared test for given probabilities
data: frecuencias_observadas
X-squared = 1.2468, df = 5, p-value = 0.9403
resultado
[1] "No rechazar H0: Los datos respaldan la distribución proporcionada por la compañía"
En este caso el valor-p (0.9403) es mayor que el nivel de significancia (0.05), por ende no hay suficiente evidencia para rechazar Ho, por ende se asume que los datos observados se ajustan a la distribución proporcionada por la compañía Mars.
En una línea de producción los artículos se inspeccionan en forma periódica con el fin de detectar defectos. La siguiente secuencia de artículos defectuosos (D) y no defectuosos (N) corresponde a la producción de uno de los turnos.
D D N N N N D N N D D N N N N N D D D D N N D N N N N D N D N N N N N N D N N N D D N N N N N N D N D N N N N D D D D D N D D N N N N N N N D D D D D D D D D N N N N N N D D N
Se puede afirmar que los datos no presentan patrón alguno y que la generación de artículos defectuosos se debe al azar?. Utilice un nivel de significancia del 0,05.
En este caso, vamos a utilizar la prueba de chi-cuadrado para analizar si existe una relación significativa entre la presencia de defectos y el patrón de producción.
Las hipótesis para esta prueba son las siguientes:
Hipótesis nula (H0): Los datos son independientes, lo que significa que la generación de artículos defectuosos es aleatoria y no está relacionada con el patrón de producción.
Hipótesis alternativa (Ha): Existe una relación entre los datos, lo que significa que la generación de artículos defectuosos no es aleatoria y está relacionada con el patrón de producción.
# Crear un vector con tus datos
datos <- c("D", "D", "N", "N", "N", "N", "D", "N", "N", "D", "D", "N", "N", "N", "N", "D", "D", "D", "D", "N", "N", "D", "N", "N", "N", "D", "N", "D", "N", "N", "N", "N", "N", "D", "N", "N", "N", "D", "N", "D", "N", "N", "N", "D", "D", "D", "D", "N", "D", "D", "N", "N", "N", "N", "N", "D", "N", "D", "N", "N", "N", "D", "D", "D", "D", "D", "D", "D", "N", "N", "N", "N", "N", "N", "N", "N", "N", "N", "N", "N", "N", "D", "N", "D", "N", "N", "N", "D", "D", "D", "D", "D", "N", "D", "D", "N", "N", "N", "N", "N", "N", "N", "N", "D", "D", "D", "D", "D", "D", "D", "D", "N", "N", "N", "N", "N", "D", "D", "N")
# Crear una tabla de contingencia
tabla_contingencia <- table(datos)
# Realizar la prueba de Chi-cuadrado
resultado_chi_cuadrado <- chisq.test(tabla_contingencia)
# Imprimir los resultados
print(resultado_chi_cuadrado)
Chi-squared test for given probabilities
data: tabla_contingencia
X-squared = 3.7059, df = 1, p-value = 0.05422
La prueba arroja un valor-p de 0.05422, ligeramente superior a un nivel de significancia de 0.05. Esto indica que no hay suficiente evidencia para afirmar que los datos no son aleatorios, pero la diferencia es cercana al límite. Así que, no se puede descartar completamente la aleatoriedad, entonces no se rechaza la hipotesis nula.
En una planta ensambladora de camiones la supervisión diaria de las soldaduras generó la siguiente información :
Turno calidad calidad calidad Alta Moderada Baja dia 470 191 42 tarde 445 171 28 noche 257 129 17
¿Se puede concluir que la calidad varia con los turnos?, en otras palabras se puede concluir que la calidad de las soldaduras es independiente de los turnos? . Utilice un nivel de significancia del 0,05.
Se debe realizar una prueba de independencia utilizando la prueba chi-cuadrado.
Hipótesis nula (H0): La calidad de las soldaduras es independiente de los turnos.
Hipótesis alternativa (Ha): La calidad de las soldaduras varía con los turnos.
# Datos proporcionados
datos <- matrix(c(470, 191, 42, 445, 171, 28, 257, 129, 17), ncol = 3, byrow = TRUE)
rownames(datos) <- c("dia", "tarde", "noche")
colnames(datos) <- c("Alta", "Moderada", "Baja")
# Prueba de independencia (Chi-cuadrado)
chi_sq_test <- chisq.test(datos)
# Nivel de significancia
alpha <- 0.05
# Resultados
chi_sq_test
Pearson's Chi-squared test
data: datos
X-squared = 6.4001, df = 4, p-value = 0.1712
En los datos proporcionados, el valor-p (0.1712) es mayor que 0.05, por lo tanto, no hay suficiente evidencia para rechazar la hipótesis nula Ho y podemos concluir que la calidad no varía con los turnos. Es decir que, la calidad de las soldaduras y los turnos son independientes.
Los siguientes datos corresponden a las notas obtenidas por un grupo de estudiantes de la asignatura Matemáticas Fundamentales. Si la distribución de los datos es normal, podría afirmar que la prueba realizada es una prueba normalizada. En caso contrario serviría para estudiar problemas relacionados con su aprendizaje. Para un nivel de significancia del 0.05, se podría afirmar que los datos proceden de una distribución normal? .
Si se requiere realizar una prueba de hipótesis sobre la media de la nota Ho : µ ≤ 3,3 vs Ha : µ > 3,3, ¿Que prueba se realizaría?
3.4, 2.8, 4.2, 2.1, 2.8, 2.4, 3.5, 4.2, 3.1, 4.1, 2.4, 3.4, 4.1, 4.0, 2.4, 4.1, 3.4, 4.4, 3.8, 3.7, 2.2, 3.6, 2.3, 3.7, 2.8, 4.1, 2.3, 4.6, 4.6, 5.2, 2.4, 2.4, 2.7, 3.8, 4.6, 4.4, 4.2, 4.4, 2.4, 3.3, 3.8, 2.9, 3.1, 2.7, 3.6, 3.8, 4.4, 3.9, 2.8, 3.7
En este caso, se puede utilizar el test de Shapiro-Wilk para verificar la normalidad de los datos. Luego, para la prueba de hipótesis sobre la media de la nota, se puede realizar una prueba t de una sola cola, ya que solo se necesita comprobar si la media es mayor que 3.3.
# Datos de las notas
notas <- c(3.4, 2.8, 4.2, 2.1, 2.8, 2.4, 3.5, 4.2, 3.1, 4.1,
2.4, 3.4, 4.1, 4.0, 2.4, 4.1, 3.4, 4.4, 3.8, 3.7,
2.2, 3.6, 2.3, 3.7, 2.8, 4.1, 2.3, 4.6, 4.6, 5.2,
2.4, 2.4, 2.7, 3.8, 4.6, 4.4, 4.2, 4.4, 2.4, 3.3,
3.8, 2.9, 3.1, 2.7, 3.6, 3.8, 4.4, 3.9, 2.8, 3.7)
# Prueba de normalidad (Shapiro-Wilk)
shapiro_test <- shapiro.test(notas)
# Nivel de significancia
alpha <- 0.05
# Comparar con el nivel de significancia
resultado_normalidad <- ifelse(shapiro_test$p.value > alpha,
"No rechazar H0: Los datos siguen una distribución normal",
"Rechazar H0: Los datos no siguen una distribución normal")
# Resultados de la prueba de normalidad
shapiro_test
Shapiro-Wilk normality test
data: notas
W = 0.95071, p-value = 0.03649
resultado_normalidad
[1] "Rechazar H0: Los datos no siguen una distribución normal"
# Prueba t de una cola (media > 3.3)
t_test <- t.test(notas, alternative = "greater", mu = 3.3)
# Resultados de la prueba t
t_test
One Sample t-test
data: notas
t = 1.416, df = 49, p-value = 0.08155
alternative hypothesis: true mean is greater than 3.3
95 percent confidence interval:
3.270562 Inf
sample estimates:
mean of x
3.46
La prueba de Shapiro-Wilk para normalidad tiene un p-valor de 0.03649, que es menor que 0.05, por ende se rechaza la hipótesis nula de normalidad. Los datos no parecen provenir de una distribución normal.
La prueba t de una cola para la hipótesis H0:μ≤3.3 vs Ha: μ>3.3 tiene un p-valor de 0.08155, que es mayor que 0.05. Por lo tanto, no hay suficiente evidencia para rechazar la hipótesis nula. No podemos afirmar que la media de las notas sean mayor que 3.3.