1. Prueba para contraste de media, con media poblacional y varianza conocida utilizando z-test

“Se cree que el tiempo medio de ocio al día que dedican los estudiantes sigue una distribución normal de media 350 minutos y desviación típica poblacional de 60 minutos. Para contrastar esta hipótesis, se toma una muestra aleatoria formada por 100 alumnos, y se observa que el tiempo medio es de 320 minutos ¿ que se puede decir de esta afirmación con un nivel de significación del 10%?”

Gráfica de la función densidad

Antes de responder, podemos graficar la respectiva distribución de probabilidad.

library("ggplot2")
grafico_densidad = ggplot(data = data.frame(x = c(200, 500)), aes(x)) +
  stat_function(fun = dnorm, n = 100, args = list(mean = 350, sd = 60)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Ocio") + ylab("Densidad") + ggtitle("Función de densidad (distribución normal)") + theme_bw() +
  geom_vline(xintercept = 320,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=320, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 320,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=350, label="mu", y=0.1), colour ="coral3",size=5)  
grafico_densidad

Planteamiento de hipótesis nula y alternativa

La hiótesis nula es que la media es 350 y la hiótesis alternativa es que la media es menor a 350 \[H_0 = 350\] \[H_a < 350\]

Cálculo de z:

# Donde los datos a utilizar son:
mu = 350
sigma = 60
x_bar = 320
n = 100
#Normalización
z = (x_bar-mu)/(sigma/sqrt(n))
#Confianza
alpha = 0.05
confianza = 1-alpha
z_alpha = qnorm(alpha/2)
z
## [1] -5
z_alpha
## [1] -1.959964

Análisis de los resultados obtenidos

El valor de z es -5, mientras que el intervalo de zα es [-1.959964, 1.959964]. Esto implica que z está fuera del intervalo de confianza, por lo que se rechaza H0 y se acepta ha.

Esto también puede ser probado simulando los datos, para luego aplicar la función z-test de la biblioteca de R BSDA.

library("BSDA")
## Loading required package: lattice
## 
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
## 
##     Orange
set.seed(10)
#Creación de muestra artificial
datos = rnorm(n,x_bar,sigma)
#Aplicación de test
z = z.test(x=datos,mu=mu,sigma.x=sigma,conf.level = confianza)
print(z)
## 
##  One-sample z-Test
## 
## data:  datos
## z = -6.3655, p-value = 1.947e-10
## alternative hypothesis: true mean is not equal to 350
## 95 percent confidence interval:
##  300.0473 323.5668
## sample estimates:
## mean of x 
##  311.8071
dnorm_limit <- function(x) {
    y <- dnorm(x)
    y[x < z_alpha  |  x > -z_alpha] <- NA
    return(y)}
# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-3, 3)), aes(x = x)) + 
  stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) +  stat_function(fun = dnorm) +
  xlab("Remuneraciones") + ylab("Densidad") + ggtitle("Función de densidad") + 
  theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") + 
  geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.2, label="z", y=0.0), colour ="darkred",size=10)
plot(grafico_densidad)

2. Prueba para contraste de media, con media poblacional conocida y varianza desconocida utilizando t-test.

Para utilizar un auto a control remoto, Juan compra baterías que, según el fabricante, tienen una vida media de más de 11,000 horas. Se encontró que en una muestra de 40 de dichas baterías solo duraban 10,900 horas como promedio. Suponiendo que la desviación estándar de la muestra es de 135 horas y con un nivel de significancia de 0.05, ¿Se rechaza la afirmación del fabricante?

Gráfico de la función de densidad

Antes de responder, podemos graficar la respectiva distribución de probabilidad.

grafico_densidad = ggplot(data = data.frame(x = c(100, 300)), aes(x)) +
  stat_function(fun = dt, n = 40, args = list(x =11000, df = 24)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Vida baterías") + ylab("Densidad") + ggtitle("Función de densidad (Distribución t)") + theme_bw() +
  geom_vline(xintercept = 135,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=20000, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 11000,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=10900, label="mu", y=0.001), colour ="coral3",size=5)  
grafico_densidad

Planteamiento de hipótesis nula y alternativa

la hipótesis nula es: \[H_0 = \mu \geq 11000\] la hipótesis alternativa es: \[H_a = \mu < 11000\]

Cálculo de t

#Datos
mu = 11000
sigma = 135
x_bar = 10900
n = 40
#Normalización
t = (x_bar-mu)/(sigma/sqrt(n))
t
## [1] -4.684856
#Confianza
alpha = 0.05
confianza = 1-alpha
t_alpha = qt(alpha/2,df = n-1)
t_alpha
## [1] -2.022691

Análisis de los resultados

El valor de t es -4.684856, mientras que el intervalo de tα es [-2.022691, 2.022691]. Esto implica que t está fuera del intervalo de confianza, por lo que no podemos aceptar H_0.

Esto también puede ser probado simulando los datos, para luego aplicar la función t-test de la biblioteca de R base.

## 
##  One Sample t-test
## 
## data:  datos
## t = -8.1674, df = 39, p-value = 5.667e-10
## alternative hypothesis: true mean is not equal to 11000
## 95 percent confidence interval:
##  10806.57 10883.36
## sample estimates:
## mean of x 
##  10844.96

3. Prueba para contraste de varianza con chi-test

En una empresa se utiliza una máquina que llena automáticamente botellas con las distintas bebidas que distribullen. Al tomar una muestra aleatoria de 30 botellas, se obtiene como resultado una varianza de la muestra del volumen en el llenado de sigma^2 = 0.0253 (onzas líquidas). Si la varianza del volumen de llenado excede 0.02 (onzas líquidas), una proporción inaceptable de botellas se llenará de forma excesiva. ¿Hay evidencia en los datos de la muestra que sugiera que el fabricante tiene un problema con las botellas (bajo o sobre)? Use α = 0.05 y suponga que el volumen de llenado tiene una distribución normal.

Gráfico de la función de densidad

library("ggplot2")
grafico_densidad = ggplot(data = data.frame(x = c(0, 30)), aes(x)) +
  stat_function(fun = dchisq, n = 101, args = list(x = 0.02, df = 19)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Botellas") + ylab("Densidad") + ggtitle("Función de densidad") + theme_bw() +
  geom_vline(xintercept = 0.0253,cex=1.2,colour ="darkred") + geom_text(aes(x=-1, label="S^2", y=0.0), colour ="darkred",size=5) 

grafico_densidad
## Warning in (function (x, df, ncp = 0, log = FALSE) : NaNs produced
## Warning: Removed 4 row(s) containing missing values (geom_path).

Planteamiento de hipótesis nula y alternativa

la hipótesis nula es: \[H_0: \sigma^2 = 0.02\] la hipótesis alternativa es: \[H_a: \sigma^2 > 0.02\]

Cálculo de chi

#Datos
sigma2 = 0.02
n = 30
s2 = 0.0253
#Normalización
chi = (n-1)*s2/(sigma2)
chi
## [1] 36.685
#Confianza
alpha = 0.05
confianza = 1-alpha
chi_alpha = qchisq(alpha,df = n-1,lower.tail = F) #Lower.tail se relaciona con <= de la hipótesis nula.
chi_alpha
## [1] 42.55697

Análisis de los resultados

El valor de chi es 26.5746667, mientras chiα es [30.1435272]. Esto implica que chi está dentro del intervalo de confianza, por lo que NO podemos rechazar H0

Esto también puede ser probado simulando los datos, para luego aplicar la función varTest de la biblioteca de R EnvStats.

library("EnvStats")
## 
## Attaching package: 'EnvStats'
## The following objects are masked from 'package:stats':
## 
##     predict, predict.lm
## The following object is masked from 'package:base':
## 
##     print.default
#Creación de muestra artificial
set.seed(10)
datos=rnorm(30,sqrt(s2),n=n)
#Aplicación de test
chi = varTest(datos,sigma.squared=sigma2,alternative="greater")
print(chi)
## 
## Results of Hypothesis Test
## --------------------------
## 
## Null Hypothesis:                 variance = 0.02
## 
## Alternative Hypothesis:          True variance is greater than 0.02
## 
## Test Name:                       Chi-Squared Test on Variance
## 
## Estimated Parameter(s):          variance = 0.01901156
## 
## Data:                            datos
## 
## Test Statistic:                  Chi-Squared = 27.56676
## 
## Test Statistic Parameter:        df = 29
## 
## P-value:                         0.5411556
## 
## 95% Confidence Interval:         LCL = 0.01295523
##                                  UCL =        Inf

4. Buscar/crear y resolver un ejemplo de bondad de ajuste Chi cuadrado, utilice el conjunto de datos Iris disponible en R data(“iris”).

Suponiendo una distribución de tipos de especies de ojos en la naturaleza posee en una proporción de 3:2:1, tenemos a nuestra disposición el dataset “iris”, el cual contempla muchos ejemplares, de ellos se van a utilizar, 10 son virginica, 49 son setosa y 25 son versicolor.¿Existe diferencia entre las proporciones?”

La hipótesis nula es que las proporciones son correctas.

data("iris")

eyetypes = c(49, 25, 10)
res = chisq.test(eyetypes, p = c(1/2, 1/3, 1/6))
res
## 
##  Chi-squared test for given probabilities
## 
## data:  eyetypes
## X-squared = 2.631, df = 2, p-value = 0.2683

Ya que el p-value es mayor a 0.05, se acepta la hipotesis nula.

5. Buscar/crear y resolver un ejemplo de prueba de hipótesis en una proporción binomial, de una o dos colas.

“Suponga que el 22% de las ciruelas cosechadas en un huerto el año anterior, se encontraban podridas. Este año, están podridas 40 de las 224 ciruelas. Si consideramos un nivel de significancia de 0.05, ¿Es correcta la hipótesis nula de que este año la proporción de ciruelas podridas en la cosecha permanece por debajo del 22%?”

Se tiene la hiótesis nula corresponde a \[ H_0: 0.22 \geq P \]

## 
##  1-sample proportions test without continuity correction
## 
## data:  X out of n, null probability p0
## X-squared = 7.2771, df = 1, p-value = 0.003492
## alternative hypothesis: true p is greater than 0.12
## 95 percent confidence interval:
##  0.1403924 1.0000000
## sample estimates:
##         p 
## 0.1785714

Dado el p-value menor a 0.05, debemos rechazar la hipótesis nula, la cual nos dice que la proporción de ciruelas podridas en la cosecha permanece por debajo del 22%

6. Buscar/crear y resolver un ejemplo de prueba de hipótesis en el que aplique la prueba del signo.

Una empresa de videojuegos inventó un nuevo juego, el cual esperan que sea tan famoso como el juego de los usuarios, para serciorar esto, se organiza llamar a 28 jugadores para probar el juego y el juego más exitoso de la empresa. De esto, se obtiene que 10 de los participantes prefieren en juego nuevo y el resto prefiere el juego “antiguo”. si tenemos un nivel de significancia de 0.05, ¿es posible rechazar la noción de que ambos juegos son igualmente populares?

btest = binom.test(10, 28, conf.level = 0.95)
btest
## 
##  Exact binomial test
## 
## data:  10 and 28
## number of successes = 10, number of trials = 28, p-value = 0.1849
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.1864067 0.5593497
## sample estimates:
## probability of success 
##              0.3571429

7. Buscar/crear y resolver un ejemplo de prueba de hipótesis en el que aplique la prueba de Wilcoxon para una muestra.

Se crean 300 valores aleatorios y se toma como hipóteis nula que la media poblacional es 25.

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  data$Value
## V = 2271, p-value = 0.5849
## alternative hypothesis: true location is not equal to 15
## 95 percent confidence interval:
##  12.50002 16.00005
## sample estimates:
## (pseudo)median 
##       14.50004

Ya que el p-value es mayor a 0.05, se acepta la hipotesis nula.