Ejercicio: Una empresa de entrega de paquetes desea determinar si su nueva estrategia de entregas ha mejorado la rapidez promedio de las mismas en comparación a la media histórica, esta corresponde a 45 minutos, con una desviacion estandar de 5 minutos.
Para esto se tomó una muestra de 40 entregas, las cuales utilizan la nueva estrategia. y de esta forma determinar si el tiempo de entrega es igual o mayor a la media histórica, sabiendo que el promedio de la muestra es de 42 minutos, con un nivel de significancia del 5%.
Gráfico distribución de probabilidad.
La hipotesis nula que se plantea es la siguiente:
\[ H_0 : \mu_0 \leq 45 \hspace{0.2cm} minutos. \]
Datos:
mu=45
sigma=5
x_bar=42
n=40
# Normalización
z=(x_bar-mu)/(sigma/sqrt(n))
alpha=0.05
confianza=1-alpha
z_alpha=qnorm(alpha/2) #intervalo de confianza
z_alpha
## [1] -1.959964
pvalue <- pnorm(z)
pvalue
## [1] 7.390116e-05
Con los valores encontrados podemos determinar que el p-value, al ser menor que el nivel de significancia 0.05, es posible rechazar la hipotesis nula. Esto implica que con un 95% de confianza la nueva estrategia de entregas ha reducido el tiempo promedio de entrega.
Lo cual se puede graficar de la siguiente forma:
Ejercicio: Una empresa afirma que uno de sus productos tiene una duración de batería de mas de 5000 horas en proemdio. En una muestra de 20 productos se encontró que duran 4900 horas en promedio, con una desviación estandar de 120 horas. Con un nivel de significancia de 0.05 ¿Podemos rechazar la afirmación de la empresa?
Gráfico distribución de probabilidad.
grafico_densidad = ggplot(data = data.frame(x = c(3900, 6000)), aes(x)) +
stat_function(fun = dt, n = 1000, args = list(x =5000, df = 120)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Horas de bateria") + ylab("Densidad") + ggtitle("Función de densidad (Distribución t)") + theme_bw() +
geom_vline(xintercept = 4900,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=4750, label="xbar", y=0.0), colour ="darkred",size=5) +
geom_vline(xintercept = 5000,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=5100, label="mu", y=0.001), colour ="coral3",size=5)
grafico_densidad
Planteamiento de hipótesis:
La hipotesis nula que se plantea es la siguiente:
\[ H_0 : \mu_0 \geq 5000 \hspace{0.2cm} horas. \]
Datos:
mu = 5000
x_bar = 4900
s = 120
n = 20
t = (x_bar-mu)/(s/sqrt(n))
t
## [1] -3.72678
#Confianza
alfa = 0.05
confianza = 1-alfa
t_alfa = qt(alfa/2,df = n-1)
set.seed(3)
muestra=rnorm(n,mean=x_bar,s)
t=t.test(muestra,mu=mu,conf.level=0.95,alternative="less")
print(t)
##
## One Sample t-test
##
## data: muestra
## t = -5.7196, df = 19, p-value = 8.18e-06
## alternative hypothesis: true mean is less than 5000
## 95 percent confidence interval:
## -Inf 4916.234
## sample estimates:
## mean of x
## 4879.937
Con los valores encontrados podemos determinar que el p-value, al ser menor que el nivel de significancia 0.05, es posible rechazar la hipotesis nula. Esto implica que con un 95% de confianza la afirmación de la empresa no es correcta.
Lo cual se puede graficar de la siguiente forma:
dnorm_limit <- function(x) {
y <- dnorm(x)
y[x < t_alfa] <- NA
return(y)
}
# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-6, 5)), aes(x = x)) +
stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) + stat_function(fun = dnorm) +
xlab("Horas de batería") + ylab("Densidad") + ggtitle("Función de densidad") +
theme_bw() + geom_vline(xintercept = (x_bar-mu)/(s/sqrt(n)),cex=1.2,colour ="darkred") +
geom_text(aes(x=(x_bar-mu)/(s/sqrt(n))+0.2, label="t", y=0.0), colour ="darkred",size=10)
plot(grafico_densidad)
Ejercicio: La varianza en las puntuaciones de los exámenes necesarios para obtener una licencia de conducir de una empresa en particular, historicamente ha sido de 100 puntos.
Se ha creado un nuevo exámen con nuevas preguntas, y de una muestra de 30 exámenes la varianza muestral fue de 162. Con esto, se desean que la varianza en las puntuaciones del examen permanezca en los niveles históricos.
Planteamiento de hipótesis:
La hipótesis nula corresponde a:
\[ H_0: \sigma^2 = 100 \hspace{0.2cm} puntos \]
La hipótesis alternativa corresponde a:
\[ H_a: \sigma^2 \neq 100 \hspace{0.2cm} puntos \]
grafico_densidad = ggplot(data = data.frame(x = c(100, 200 )), aes(x)) +
stat_function(fun = dchisq, n = 101, args = list(x =100, df = 29)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Puntaje") + ylab("Densidad") + ggtitle("Función de densidad") + theme_bw() +
geom_vline(xintercept = 162,cex=1.2,colour ="darkred") + geom_text(aes(x=156, label="S^2", y=0.0), colour ="darkred",size=5)
grafico_densidad
Datos:
sigma2=100
n=30
s2=162
chi = (n-1)*s2/(sigma2)
chi
## [1] 46.98
#Confianza
alfa = 0.05
confianza = 1-alfa
chi_alfa = qchisq(alfa,df = n-1,lower.tail = F)
chi_alfa
## [1] 42.55697
Con los resultados obtenidos, como el valor de chi es mayor a chi_alpha, este no se encuentra en el intervalo de confianza, por lo que podemos rechazar la hipotesis nula \(H_0\). Por lo que la muestra de 30 exámenes sugiere que la varianza en las puntuaciones del nuevo exámen es distinta a la varianza histórica.
Ejercicio: Un estudiante recibe la tarea de recolectar flores en una determinada area. Tras completar su tarea el estudiante se da cuenta de que encontró 54 flores Setosas, 52 Versicolor y 44 Vriginica. Además, un estudio establece que la proporción de estas flores en el area indicada, es de 1:1:1. Lo cual se puede ver representado en la siguiente tabla.
data = data.frame(iris)
q <- table(data$Species)
print(q)
##
## setosa versicolor virginica
## 50 50 50
Tras esta apreciación, ¿Hay alguna diferencia significativa entre las proporciones observadas y las proporciones esperadas?
Planteamiento de hipótesis:
\(H_0\) : No existe diferencia significativa entre las frecuencias observadas y las esperadas.
\(H_a\): Existe notoria diferencia entre las frecuencias observadas y las esperadas.
Datos:
flowers = c(54,52,44)
prob = c(1/3,1/3,1/3)
Cálculo del test:
res = chisq.test(flowers, p =prob)
res
##
## Chi-squared test for given probabilities
##
## data: flowers
## X-squared = 1.12, df = 2, p-value = 0.5712
Tras revisar los resultados obtenidos por la prueba Chi cuadrado, se aprecia un p-value = 0.5712, el cual es mayor al nivel de significancia (.05), esto significa que la hipotesis nula NO se puede rechazar, es decir que, no existe notoria diferencia entre las frecuencias observadas y las esperadas.
Ejercicio: Un comerciante de dulces “Skittles” asegura que el 80% de los dulces son de color rojo. Por lo que se desea probar que la proporción real de dulces rojos es menor del 80%, con un nivel de significancia del 5%. Para esto se toma una muestra de 100 dulces y se encuentra que 70 de estos son rojos.
Planteamiento de hipótesis:
\[ H_0: p < 0.8 \]
\[ H_a: p \geq 0.8 \]
Datos:
n=100
x=70
P0= 0.8
res=prop.test(x, n, p = P0, alternative = "less")
print(res)
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability P0
## X-squared = 5.6406, df = 1, p-value = 0.008774
## alternative hypothesis: true p is less than 0.8
## 95 percent confidence interval:
## 0.0000000 0.7738142
## sample estimates:
## p
## 0.7
Como el p-value entregado por la prueba realizada es menor al nivel de significancia (0.008 < 0.05), se rechaza la hipotesis nula, por lo que se puede concluir que la proporción real de dulces rojos es menor al 80%.
Ejercicio: Una compañía de computadores inventó un nuevo dispositivo y necesitan saber si este tendrá las mismas ventas que el de la generación anterior. Para esto se le preguntó a 30 personas si comprarían el nuevo dispositivo, sin embargo antes de dar su opinión, cada persona realizó una prueba en ambos dispositivos. Finalmente los resultados marcan que 12 de las personas comprarian el nuevo, mientras que el resto compraría el antiguo, con una nivel de significancia de .05, ¿Podemos rechazar la hipotesis de que los dos dispositivos tendrán las mismas ventas?
Planteamiento de hipótesis:
Hipótesis nula: Ambos dispositivos tendrán las mismas ventas.
Hipótesis alternativa: Un dispositivo tendrá mas ventas que otro.
new = 7
n=30
res=binom.test(new , n)
res
##
## Exact binomial test
##
## data: new and n
## number of successes = 7, number of trials = 30, p-value = 0.005223
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.09933786 0.42283652
## sample estimates:
## probability of success
## 0.2333333
Como el p-value obtenido por el test realizado es menor al nivel de significancia, es decir, p-value < 0.05, la hipotesis nula es rechazada. Por lo que se puede concluir que el nuveo dispositivo tendrá menos ventas que el anterior.
Ejercicio: Tras un estudio realizado por el centro de investigación nacional de aves, se determinó el peso de 10 individuos de la misma especie. Tras esto, ¿La mediana del peso de las aves, difiere de los 5 kilos? Considerando un .05 nivel de significancia.
Planteamiento de hipótesis:
H0: La mediana de las avez no difiere de 5Kg.
Ha: La mediana de las avez difiere de 5Kg.
peso = c(4.8, 3.5, 2.6, 4.6, 5.3, 2.3, 2.6, 3.4, 5,1, 4.9)
res <- wilcox.test(peso, mu = 5, conf.level = 0.95) # Calculo de la prueba
## Warning in wilcox.test.default(peso, mu = 5, conf.level = 0.95): cannot compute
## exact p-value with ties
## Warning in wilcox.test.default(peso, mu = 5, conf.level = 0.95): cannot compute
## exact p-value with zeroes
print(res)
##
## Wilcoxon signed rank test with continuity correction
##
## data: peso
## V = 3, p-value = 0.01437
## alternative hypothesis: true location is not equal to 5
Con los resuitados obtenidos por el test de Wilcoxon, se presenta un p-value de 0.01437, y este al ser menor que el nivel de significancia (.05) se rechaza la hipotesis nula. Por lo tanto es posible concluir que el peso de las aves difiera de los 5Kg.