grafico_densidad = ggplot(data = data.frame(x = c(1, 9)), aes(x)) +
stat_function(fun = dnorm, n = 30, args = list(mean =5, sd = 1)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Horas de actividad física") + ylab("Densidad") + ggtitle("Función de densidad (distribución normal)") + theme_bw() +
geom_vline(xintercept = 3,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=3.5, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 5,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=5.5, label="mu", y=0.00001), colour ="coral3",size=5)
grafico_densidad
A partir de los datos del enunciado, la hipótesis nula es: \(H_0 : μ_0 > 5\) \(horas\)
Si aplicamos la normalización para calcular z bajo una prueba de una
cola, se tiene que:
mu = 5
sigma = 1
x_bar = 3
n = 30
#Normalización
z = (x_bar-mu)/(sigma/sqrt(n))
#Confianza
alfa = 0.05
confianza = 1-alfa
z_alfa = qnorm(alfa)
cat("El valor de z es de", z, "mientras que el valor de z_alfa es de", z_alfa, "por lo que se rechaza la hipótesis nula dado que no está dentro del intervalo de confianza")
## El valor de z es de -10.95445 mientras que el valor de z_alfa es de -1.644854 por lo que se rechaza la hipótesis nula dado que no está dentro del intervalo de confianza
set.seed(5)
#Creación de muestra artificial
datos = rnorm(n,x_bar,sigma)
#Aplicación de test
z = z.test(x=datos,mu=mu,sigma.x=sigma,conf.level = confianza)
print(z)
##
## One-sample z-Test
##
## data: datos
## z = -10.893, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 5
## 95 percent confidence interval:
## 2.653460 3.369138
## sample estimates:
## mean of x
## 3.011299
print("Cuyo gráfico es el siguiente")
## [1] "Cuyo gráfico es el siguiente"
dnorm_limit <- function(x) {
y <- dnorm(x)
y[x < z_alfa] <- NA
return(y)
}
# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-10, 10)), aes(x = x)) +
stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) + stat_function(fun = dnorm) +
xlab("Horas de actividad física") + ylab("Densidad") + ggtitle("Función de densidad") +
theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") +
geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.2, label="z", y=0.0), colour ="darkred",size=10)
plot(grafico_densidad)
grafico_densidad2 = ggplot(data = data.frame(x = c(4, 20)), aes(x)) +
stat_function(fun = dt, n = 101, args = list(x =12, df = 50)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Kilómetros") + ylab("Densidad") + ggtitle("Función de densidad (Distribución t)") + theme_bw() +
geom_vline(xintercept = 7, cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=8, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 12,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=12.5, label="mu", y=0.001), colour ="coral3",size=5)
grafico_densidad2
A partir de los datos del enunciado, la hipótesis nula es: \(H_0 : μ_0 > 12\) \(kilómetros\)
Si aplicamos la normalización para calcular t bajo una prueba de una
cola, se tiene que:
mu = 12
sigma = 1
x_bar = 7
n = 50
#Normalización
t = (x_bar-mu)/(sigma/sqrt(n))
#Confianza
alfa = 0.05
confianza = 1-alfa
t_alfa = qt(alfa,df=n-1)
cat("El valor de t es de", t, "mientras que el valor de t_alfa es de", t_alfa, "por lo que se rechaza la hipótesis nula dado que no está dentro del intervalo de confianza")
## El valor de t es de -35.35534 mientras que el valor de t_alfa es de -1.676551 por lo que se rechaza la hipótesis nula dado que no está dentro del intervalo de confianza
dnorm_limit <- function(x) {
y <- dnorm(x)
y[x < z_alfa] <- NA
return(y)
}
# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-3, 5)), aes(x = x)) +
stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) + stat_function(fun = dnorm) +
xlab("Kilómetros") + ylab("Densidad") + ggtitle("Función de densidad") +
theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") +
geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.5, label="t", y=0.0), colour ="darkred",size=10)
plot(grafico_densidad)
library("ggplot2")
grafico_densidad = ggplot(data = data.frame(x = c(0, 30)), aes(x)) +
stat_function(fun = dchisq, n = 50, args = list(x =10, df = 15)) + ylab("") +
scale_y_continuous(breaks = NULL) + xlab("Puntaje") + ylab("Densidad") + ggtitle("Función de densidad") + theme_bw() +
geom_vline(xintercept = 0.6,cex=1.2,colour ="darkred") + geom_text(aes(x=1, label="S^2", y=0.0), colour ="darkred",size=5)
grafico_densidad
La hipótesis nula corresponde a: \(H_0
:{\sigma^2} = 0.7\)
Si aplicamos la normalización para calcular chi bajo una prueba de dos
colas, resulta lo siguiente:
#Datos
sigma2=0.7
n = 15
s2 = 0.6
#Normalización
chi = (n-1)*s2/(sigma2)
#Confianza
alfa = 0.05
confianza = 1-alfa
chi_alfa = qchisq(alfa,df = n-1,lower.tail = F)
cat("El valor de chi es de", chi, "mientras que el valor de chi_alfa es de", chi_alfa, "por lo que no se rechaza la hipótesis nula dado que está dentro del intervalo de confianza")
## El valor de chi es de 12 mientras que el valor de chi_alfa es de 23.68479 por lo que no se rechaza la hipótesis nula dado que está dentro del intervalo de confianza
Al utilizar el dataframe de iris, se pretende estudiar si la proporción de las especies setosa, versicolor y virginica están dentro de la proporción 4:4:2 ¿Hay alguna diferencia entre las proporciones esperadas y observadas?
data("iris")
setosa = length(which(iris == "setosa"))
versicolor = length(which(iris == "versicolor"))
virginica = length(which(iris == "virginica"))
total_especie = c(setosa, versicolor, virginica)
cat("Hay", setosa, "setosas,",versicolor,"versicolores y",virginica, "virginicas")
## Hay 50 setosas, 50 versicolores y 50 virginicas
res = chisq.test(total_especie, p = c(1/4, 1/4, 1/2))
res
##
## Chi-squared test for given probabilities
##
## data: total_especie
## X-squared = 16.667, df = 2, p-value = 0.0002404
Dado que el x-squared es mayor al p-value, se da cuenta que hay diferencias entre las proporciones observadas y las esperadas. Esto se debe a que hay 50 setosas, 50 versicolores y 50 virginicas, por lo que la proporción esperada es de 1/3 para cada especie, lo cual es distinta a la proporción entregada por el enunciado.
x = 60
pbar = 60/5030
p0 = 0.02
n = 5030
print(prop.test(x,n,p=p0,alt="greater", correct = FALSE))
##
## 1-sample proportions test without continuity correction
##
## data: x out of n, null probability p0
## X-squared = 16.72, df = 1, p-value = 1
## alternative hypothesis: true p is greater than 0.02
## 95 percent confidence interval:
## 0.009660006 1.000000000
## sample estimates:
## p
## 0.01192843
Como el p-value es mayor a 0.05, se acepta dado que está dentro del intervalo de confianza
binom.test(40, 54)
##
## Exact binomial test
##
## data: 40 and 54
## number of successes = 40, number of trials = 54, p-value = 0.0005354
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.6034553 0.8504233
## sample estimates:
## probability of success
## 0.7407407
Dado que el p-value es de 0.0005, se rechaza la hipótesis dado que es menor al nivel de significancia
A raiz de un reclamo al SERNAC de que una marca de papas fritas no trae la cantidad de gramos indicada en el envase, se decide fiscalizar si la mediana del contenido difiere de los 30g indicados en el producto.
gramos = c(29.9, 30.4, 29, 29.5, 29.7, 29.2, 30.2, 30.6, 28.9, 30.12)
res <- wilcox.test(gramos, mu = 30, conf.int=0.95)
res
##
## Wilcoxon signed rank exact test
##
## data: gramos
## V = 17, p-value = 0.3223
## alternative hypothesis: true location is not equal to 30
## 95 percent confidence interval:
## 29.3 30.2
## sample estimates:
## (pseudo)median
## 29.75
Como la mediana es distinta al mu, el contenido de los envases difiere de 30 gramos.