“Se cree que el tiempo medio de ocio al día que dedican los estudiantes sigue una distribución normal de media 350 minutos y desviación típica poblacional de 60 minutos. Para contrastar esta hipótesis, se toma una muestra aleatoria formada por 100 alumnos, y se observa que el tiempo medio es de 320 minutos ¿ que se puede decir de esta afirmación con un nivel de significación del 10%?”
grafico_densidad = ggplot(data = data.frame(x = c(200, 500)), aes(x)) +
stat_function(fun = dnorm, n = 100, args = list(mean = 350, sd = 60)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Ocio") + ylab("Densidad") + ggtitle("Función de densidad (Distribución normal)") + theme_bw() +
geom_vline(xintercept = 320,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=320, label="xbar", y=0.0), colour ="darkgreen",size=5) + geom_vline(xintercept = 320,cex=1.2,colour ="darkgreen",linetype="longdash") + geom_text(aes(x=350, label="mu", y=0.1), colour ="darkgreen",size=5)
grafico_densidad
Tenemos que la hipótesis nula corresponde a \(H_0 = 90 kilos\) y la hipótesis alternativa es \(H_\alpha < 350\)
mu = 350
sigma = 60
x_bar = 320
n = 100
z = (x_bar-mu)/(sigma/sqrt(n)) # Normalización
alpha = 0.05
confianza = 1-alpha
z_alpha = qnorm(alpha/2)
z_alpha
## [1] -1.959964
z
## [1] -5
Tenemos que el valor de z es -5, mientras que el valor de \(z_\alpha\) se encuentra en el intervalo [-1.959964, 1.959964]. Esto implica que z no se encuentra dentro del intervalo de confianza, por lo que se rechaza \(H_0\) y se acepta \(H_\alpha\)
dnorm_limit <- function(x) {
y <- dnorm(x)
y[x < z_alpha | x > -z_alpha] <- NA
return(y)}
# Se construye el gráfico
grafico_densidad = ggplot(data.frame(x = c(-3, 3)), aes(x = x)) +
stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) + stat_function(fun = dnorm) +
xlab("Remuneraciones") + ylab("Densidad") + ggtitle("Función de densidad") +
theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") +
geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.2, label="z", y=0.0), colour ="darkred",size=10)
plot(grafico_densidad)
“Para utilizar un auto a control remoto, Juan compra baterías que, según el fabricante, tienen una vida media de más de 11,000 horas. Se encontró que en una muestra de 40 de dichas baterías solo duraban 10,900 horas como promedio. Suponiendo que la desviación estándar de la muestra es de 135 horas y con un nivel de significancia de 0.05, ¿Se rechaza la afirmación del fabricante?”
grafico_densidad = ggplot(data = data.frame(x = c(100, 300)), aes(x)) +
stat_function(fun = dt, n = 40, args = list(x =11000, df = 24)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Vida baterías") + ylab("Densidad") + ggtitle("Función de densidad (Distribución t)") + theme_bw() +
geom_vline(xintercept = 135,cex=1.2,colour ="darkgreen",linetype="longdash") + geom_text(aes(x=20000, label="xbar", y=0.0), colour ="darkgreen",size=5) + geom_vline(xintercept = 11000,cex=1.2,colour ="blue",linetype="longdash") + geom_text(aes(x=10900, label="mu", y=0.001), colour ="blue",size=5)
grafico_densidad
Tenemos que la hipótesis nula corresponde a \(H_0 = \mu \ge 11000\) y la hipótesis alternativa es \(H_\alpha = \mu < 11000\)
mu = 11000 # Mu
sigma = 135 # Sigma
x_bar = 10900 # xBar
n = 40 # N
t = (x_bar-mu)/(sigma/sqrt(n)) #Normalización
t
## [1] -4.684856
alpha = 0.05 # Confianza
confianza = 1-alpha
t_alpha = qt(alpha/2,df = n-1)
t_alpha
## [1] -2.022691
Tenemos que el valor de t es -4.684856, mientras que el valor de \(t_\alpha\) se encuentra en el intervalo [-2.022691, 2.022691]. Esto implica que t se encuentra fuera del intervalo de confianza por lo que no aceptamos \(H_0\)
Esto también se puede probar simulando los datos y luego aplicar la función t-test de la biblioteca de R, se presenta a continuación un gráfico de la función de densidad:
“Una empresa de exportación de frutas desea determinar si la varianza de la calidad de estas sea menor a 0.3, dado que no podrán ser comercializados y representarán una pérdida económica. Se estudia una muestra de 20 frutas y se llega a que su varianza es de 0.35. Realizar la prueba de hipótesis con alfa = 0.05”
grafico_densidad = ggplot(data = data.frame(x = c(0, 0.6)), aes(x)) +
stat_function(fun = dchisq, n = 20, args = list(x =15, df = 19)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Calidad") + ylab("Densidad") + ggtitle("Función de densidad") + theme_bw() +
geom_vline(xintercept = 0.35,cex=1.2,colour ="darkred") + geom_text(aes(x=0.37, label="S^2", y=0.0), colour ="darkred",size=5)
grafico_densidad
Tenemos que la hiótesis nula corresponde a \(H_0 :{\sigma^2} \le 0.3\). Ahora aplicamos una normalización para hacer uso de la prueba Chi.
#Datos
sigma2=0.35
n = 20
s2=0.3
chi_n = (n-1)*s2/(sigma2) #Normalización
chi_n
## [1] 16.28571
# Tenemos una confianza del 95%
alfa = 0.05
confianza = 1-alfa
alfa = alfa/2 # dos colas
chi_alfa = qchisq(alfa,df = n-1,lower.tail = F) #Lower.tail se relaciona con <= de la hipótesis nula.
chi_alfa
## [1] 32.85233
# Se crea una muestra artifical con una seed = 10
set.seed(15)
datos=rnorm(20,sqrt(s2),n=n)
# Se aplica el test
chi = varTest(datos,sigma.squared=sigma2,alternative="greater")
print(chi)
##
## Results of Hypothesis Test
## --------------------------
##
## Null Hypothesis: variance = 0.35
##
## Alternative Hypothesis: True variance is greater than 0.35
##
## Test Name: Chi-Squared Test on Variance
##
## Estimated Parameter(s): variance = 0.2316244
##
## Data: datos
##
## Test Statistic: Chi-Squared = 12.5739
##
## Test Statistic Parameter: df = 19
##
## P-value: 0.8596527
##
## 95% Confidence Interval: LCL = 0.145997
## UCL = Inf
Tenemos entonces que el intervalo de confianza es [-32.85233; 32.85233] y el valor de chi obtenido es 16.28571, dado que se encuentra dentro del intervalo no se puede aprobar la hipótesis alternativa sino que se aprueba la hipótesis nula.
“Se estudia la especie de las flores del conjunto de datos “iris”, las cuales pueden ser “setosa”, “versicolor” y “virginica”. Además, se supone que la proporción global de estas especies es de 3:2:1 ¿Hay alguna diferencia significativa entre las proporciones observadas y las proporciones esperadas?”
set.seed (23)
iris <- iris [ sample ( nrow (iris), size = 80 ),]
setosa = length(iris$Species[iris$Species == "setosa"])
versicolor = length(iris$Species[iris$Species == "versicolor"])
virginica = length(iris$Species[iris$Species == "virginica"])
especies = c(setosa, versicolor, virginica)
res = chisq.test(especies, p = c(1/2, 1/3, 1/6))
print(res)
##
## Chi-squared test for given probabilities
##
## data: especies
## X-squared = 18.913, df = 2, p-value = 7.82e-05
“En cierto sector de un hospital, se han dado de alta a 123 personas de un total de 180 pacientes en las útlimas semanas, con un nivel de significancia del 0.05 ¿Es posible afirmar que la tasa de recuperación es mayor al 50%?”
X=123
pbar= 123/180
p0=0.5
n=180
p = prop.test(X, n, p=p0, correct=FALSE) # Aplicamos el test
print(p)
##
## 1-sample proportions test without continuity correction
##
## data: X out of n, null probability p0
## X-squared = 24.2, df = 1, p-value = 8.683e-07
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.612151 0.746854
## sample estimates:
## p
## 0.6833333
“Una empresa de videojuegos inventó un nuevo juego, el cual esperan que sea tan famoso como el juego de los usuarios, para serciorar esto, se organiza llamar a 28 jugadores para probar el juego y el juego más exitoso de la empresa. De esto, se obtiene que 10 de los participantes prefieren en juego nuevo y el resto prefiere el juego “antiguo”. si tenemos un nivel de significancia de 0.05, ¿es posible rechazar la noción de que ambos juegos son igualmente populares?”
btest = binom.test(10, 28, conf.level = 0.95)
print(btest)
##
## Exact binomial test
##
## data: 10 and 28
## number of successes = 10, number of trials = 28, p-value = 0.1849
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.1864067 0.5593497
## sample estimates:
## probability of success
## 0.3571429
“Se tienen los datos de las notas de un trabajo final de un curso. Con un nivel de significancia del 0.05, se desea saber si la mediana difiere de 0.5 décimas.”
n = c(2.3, 4.5, 7.0, 3.5, 1.7, 6.7, 5.8, 5.9, 3.9, 4.6, 6.8, 2.7)
r = wilcox.test(n, mu = 0.5,conf.int=0.95)
print(r)
##
## Wilcoxon signed rank exact test
##
## data: n
## V = 78, p-value = 0.0004883
## alternative hypothesis: true location is not equal to 0.5
## 95 percent confidence interval:
## 3.30 5.85
## sample estimates:
## (pseudo)median
## 4.625