Ejercicios 6 - Pruebas de Contraste de Hipótesis para una Muestra

Actividad 1: Buscar y resolver un ejemplo de uso de la prueba z con una cola.

Las horas de ejercicio promedio de estudiantes femeninas de una universidad de un país, es de más de 5 horas semanales y su desviación estandar de 1, bajo una distribución normal. Se realiza una muestra de 30 mujeres de una universidad chilena, las cuales en promedio dedican 3 horas a la semana a actividad física. Si el nivel de significancia es de 0.05, ¿qué se puede concluir?

grafico_densidad = ggplot(data = data.frame(x = c(1, 9)), aes(x)) +
  stat_function(fun = dnorm, n = 30, args = list(mean =5, sd = 1)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Horas de actividad física") + ylab("Densidad") + ggtitle("Función de densidad (distribución normal)") + theme_bw() +
  geom_vline(xintercept = 3,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=3.5, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 5,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=5.5, label="mu", y=0.00001), colour ="coral3",size=5)  

grafico_densidad

A partir de los datos del enunciado, la hipótesis nula es: \(H_0 : μ_0 > 5\) \(horas\)
Si aplicamos la normalización para calcular z bajo una prueba de una cola, se tiene que:

mu = 5
sigma = 1
x_bar = 3
n = 30

#Normalización
z = (x_bar-mu)/(sigma/sqrt(n))

#Confianza
alfa = 0.05
confianza = 1-alfa

z_alfa = qnorm(alfa)
cat("El valor de z es de", z, "mientras que el valor de z_alfa es de", z_alfa, "por lo que se rechaza la hipótesis nula dado que no está dentro del intervalo de confianza")

## El valor de z es de -10.95445 mientras que el valor de z_alfa es de -1.644854 por lo que se rechaza la hipótesis nula dado que no está dentro del intervalo de confianza

set.seed(5)

#Creación de muestra artificial
datos = rnorm(n,x_bar,sigma)

#Aplicación de test
z = z.test(x=datos,mu=mu,sigma.x=sigma,conf.level = confianza)
print(z)

## 
##  One-sample z-Test
## 
## data:  datos
## z = -10.893, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 5
## 95 percent confidence interval:
##  2.653460 3.369138
## sample estimates:
## mean of x 
##  3.011299

print("Cuyo gráfico es el siguiente")

## [1] "Cuyo gráfico es el siguiente"

dnorm_limit <- function(x) {
    y <- dnorm(x)
    y[x < z_alfa] <- NA
    return(y)
}

# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-10, 10)), aes(x = x)) + 
  stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) +  stat_function(fun = dnorm) +
  xlab("Horas de actividad física") + ylab("Densidad") + ggtitle("Función de densidad") + 
  theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") + 
  geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.2, label="z", y=0.0), colour ="darkred",size=10)

plot(grafico_densidad)

Actividad 2: Buscar y resolver un ejemplo de uso de la prueba t con una cola.

Se rumorea que los estudiantes de 10 años son capaces de caminar en promedio más de 12 [km] sin parar. Por lo que se toma una muestra aleatoria de 50 niños y se da cuenta que su media muestral es de 7 [km] con una desviación estándar de 1 [km]. ¿Qué concluye si está bajo una distribución normal y su nivel de significancia es de 0.05?

grafico_densidad2 = ggplot(data = data.frame(x = c(4, 20)), aes(x)) +
  stat_function(fun = dt, n = 101, args = list(x =12, df = 50)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Kilómetros") + ylab("Densidad") + ggtitle("Función de densidad (Distribución t)") + theme_bw() +
  geom_vline(xintercept = 7, cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=8, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 12,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=12.5, label="mu", y=0.001), colour ="coral3",size=5)  

grafico_densidad2

A partir de los datos del enunciado, la hipótesis nula es: \(H_0 : μ_0 > 12\) \(kilómetros\)
Si aplicamos la normalización para calcular t bajo una prueba de una cola, se tiene que:

mu = 12
sigma = 1
x_bar = 7
n = 50

#Normalización
t = (x_bar-mu)/(sigma/sqrt(n))

#Confianza
alfa = 0.05
confianza = 1-alfa

t_alfa = qt(alfa,df=n-1)
cat("El valor de t es de", t, "mientras que el valor de t_alfa es de", t_alfa, "por lo que se rechaza la hipótesis nula dado que no está dentro del intervalo de confianza")

## El valor de t es de -35.35534 mientras que el valor de t_alfa es de -1.676551 por lo que se rechaza la hipótesis nula dado que no está dentro del intervalo de confianza

dnorm_limit <- function(x) {
    y <- dnorm(x)
    y[x < z_alfa] <- NA
    return(y)
}

# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-3, 5)), aes(x = x)) + 
  stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) +  stat_function(fun = dnorm) +
  xlab("Kilómetros") + ylab("Densidad") + ggtitle("Función de densidad") + 
  theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") + 
  geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.5, label="t", y=0.0), colour ="darkred",size=10)

plot(grafico_densidad)

Actividad 3:Buscar y resolver un ejemplo de uso de la prueba chi para varianza con dos colas.

Una fábrica de alcohol gel quiere determinar si el lote de uno de estos está contaminado con alguna bacteria, para ello su varianza poblacional debe ser 0.7.Se realiza un muestreo de 15 elementos, cuya varianza es de 0.6. Realizar la prueba de hipótesis con alfa = 0.05

library("ggplot2")

grafico_densidad = ggplot(data = data.frame(x = c(0, 30)), aes(x)) +
  stat_function(fun = dchisq, n = 50, args = list(x =10, df = 15)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Puntaje") + ylab("Densidad") + ggtitle("Función de densidad") + theme_bw() +
  geom_vline(xintercept = 0.6,cex=1.2,colour ="darkred") + geom_text(aes(x=1, label="S^2", y=0.0), colour ="darkred",size=5) 

grafico_densidad

La hipótesis nula corresponde a: \(H_0 :{\sigma^2} = 0.7\)
Si aplicamos la normalización para calcular chi bajo una prueba de dos colas, resulta lo siguiente:

#Datos
sigma2=0.7
n = 15
s2 = 0.6


#Normalización
chi = (n-1)*s2/(sigma2)

#Confianza
alfa = 0.05
confianza = 1-alfa

chi_alfa = qchisq(alfa,df = n-1,lower.tail = F)

cat("El valor de chi es de", chi, "mientras que el valor de chi_alfa es de", chi_alfa, "por lo que no se rechaza la hipótesis nula dado que está dentro del intervalo de confianza")

## El valor de chi es de 12 mientras que el valor de chi_alfa es de 23.68479 por lo que no se rechaza la hipótesis nula dado que está dentro del intervalo de confianza

Actividad 4: Buscar/crear y resolver un ejemplo de bondad de ajuste Chi cuadrado, utilice el conjunto de datos Iris disponible en R data(“iris”).

Al utilizar el dataframe de iris, se pretende estudiar si la proporción de las especies setosa, versicolor y virginica están dentro de la proporción 4:4:2 ¿Hay alguna diferencia entre las proporciones esperadas y observadas?

data("iris")
setosa = length(which(iris == "setosa"))
versicolor = length(which(iris == "versicolor"))
virginica = length(which(iris == "virginica"))
total_especie = c(setosa, versicolor, virginica)
cat("Hay", setosa, "setosas,",versicolor,"versicolores y",virginica, "virginicas")

## Hay 50 setosas, 50 versicolores y 50 virginicas

res = chisq.test(total_especie, p = c(1/4, 1/4, 1/2))
res

## 
##  Chi-squared test for given probabilities
## 
## data:  total_especie
## X-squared = 16.667, df = 2, p-value = 0.0002404

Dado que el x-squared es mayor al p-value, se da cuenta que hay diferencias entre las proporciones observadas y las esperadas. Esto se debe a que hay 50 setosas, 50 versicolores y 50 virginicas, por lo que la proporción esperada es de 1/3 para cada especie, lo cual es distinta a la proporción entregada por el enunciado.

Actividad 5: Buscar/crear y resolver un ejemplo de prueba de hipótesis en una proporción binomial, de una o dos colas.

En una empresa farmaceutica, el 3% de los fármacos producidos estaba contaminado el año 2010. El año siguiente, 60 de 5030 estaban contaminados. ¿Se puede afirmarla proporcion de farmacos contaminados es menor al 2% el año 2011 si se considera un nivel de significancia del 0.05?

x = 60
pbar = 60/5030
p0 = 0.02
n = 5030
print(prop.test(x,n,p=p0,alt="greater", correct = FALSE))

## 
##  1-sample proportions test without continuity correction
## 
## data:  x out of n, null probability p0
## X-squared = 16.72, df = 1, p-value = 1
## alternative hypothesis: true p is greater than 0.02
## 95 percent confidence interval:
##  0.009660006 1.000000000
## sample estimates:
##          p 
## 0.01192843

Como el p-value es mayor a 0.05, se acepta dado que está dentro del intervalo de confianza

Actividad 6: Buscar/crear y resolver un ejemplo de prueba de hipótesis en el que aplique la prueba del signo

Dos amigos discuten si los colores están dirigidos a algún sexo en particular, como no llegan a un acuerdo, deciden entrevistar a sus compañeros de curso. Al entrevistar a 54 personas de su curso, 40 dicen que los colores no tienen un sexo en particular mientras que el resto dice que si. ¿Se puede rechazar la hipótesis de que los colores tienen un sexo en particular si se tiene un nivel de significancia del 0.05?

binom.test(40, 54)

## 
##  Exact binomial test
## 
## data:  40 and 54
## number of successes = 40, number of trials = 54, p-value = 0.0005354
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.6034553 0.8504233
## sample estimates:
## probability of success 
##              0.7407407

Dado que el p-value es de 0.0005, se rechaza la hipótesis dado que es menor al nivel de significancia

Actividad 7: Buscar/crear y resolver un ejemplo de prueba de hipótesis en el que aplique la prueba de Wilcoxon para una muestra.

A raiz de un reclamo al SERNAC de que una marca de papas fritas no trae la cantidad de gramos indicada en el envase, se decide fiscalizar si la mediana del contenido difiere de los 30g indicados en el producto.

gramos = c(29.9, 30.4, 29, 29.5, 29.7, 29.2, 30.2, 30.6, 28.9, 30.12)
res <- wilcox.test(gramos, mu = 30, conf.int=0.95)
res

## 
##  Wilcoxon signed rank exact test
## 
## data:  gramos
## V = 17, p-value = 0.3223
## alternative hypothesis: true location is not equal to 30
## 95 percent confidence interval:
##  29.3 30.2
## sample estimates:
## (pseudo)median 
##          29.75

Como la mediana es distinta al mu, el contenido de los envases difiere de 30 gramos.