Actividad 1

Una embotelladora de refrescos dice que sus latas de refresco tienen una cantiad de refresco de medida 33cl y desviación típica de 2cl.

Se han tomado 36 latas de refresco y se ha calculado que el contenido medio por lata es de 32.5cl. ¿Es cierta la afirmación del fabricantes con un nivel de significancia del 1%? O ¿Nos está dando menos cantiad de producto de la que nos dice?

grafico_densidad = ggplot(data = data.frame(x = c(30, 40)), aes(x)) +
  stat_function(fun = dnorm, n = 101, args = list(mean =33, sd = 2)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Cantidad de refresco [cl]") + ylab("Densidad") + ggtitle("Función de densidad (distribución normal)") + theme_bw() +
  geom_vline(xintercept = 32.5,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=34, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 33  ,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=32, label="mu", y=0.00001), colour ="coral3",size=5)  
grafico_densidad

Hipótesis nula: que la cantidad de refresco en las latas es igual a 33.

#Datos
mu=33
sigma = 2
x_bar=32.5
n=36

#Normalización
z_value = (x_bar-mu)/(sigma/sqrt(n))

#Confianza
alfa = 0.03
confianza = 1-alfa

C = qnorm(1-alfa)

#Prueba z-test

#Creación de muestra artificial
datos = rnorm(n,x_bar,sigma)

#Aplicación de test
z = z.test(x=datos,mu=mu,sigma.x=sigma,conf.level = confianza)

dnorm_limit <- function(x) {
    y <- dnorm(x)
    y[x < z_alfa  |  x > -z_alfa] <- NA
    return(y)
}

# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-3, 3)), aes(x = x)) + 
  stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) +  stat_function(fun = dnorm) +
  xlab("Cantidad de refresco [cl]") + ylab("Densidad") + ggtitle("Función de densidad") + 
  theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") + 
  geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.2, label="z", y=0.0), colour ="darkred",size=10)
cat("Se obtiene",z_value," lo cual está dentro del intervalor [",C,",",-C,"]")
## Se obtiene -1.5  lo cual está dentro del intervalor [ 1.880794 , -1.880794 ]
plot(grafico_densidad)
## Warning: Computation failed in `stat_function()`:
## objeto 'z_alfa' no encontrado

Gracias a esto se acepta la hipótesis nula, es decir, que la cantidad promedio de bebida por lata es de 33cl.

Actividad 2

Se usará el mismo problema anterior pero se asumirá que la varianza es poblacional es desconocida pero la muestral es 1.3cl.

grafico_densidad = ggplot(data = data.frame(x = c(30, 40)), aes(x)) +
  stat_function(fun = dt, n = 36, args = list(x =36, df = 35)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Cantidad de bebida [cl]") + ylab("Densidad") + ggtitle("Función de densidad (Distribución t)") + theme_bw() +
  geom_vline(xintercept = 32.5,cex=1.2,colour ="darkred",linetype="longdash") + geom_text(aes(x=34, label="xbar", y=0.0), colour ="darkred",size=5) + geom_vline(xintercept = 33,cex=1.2,colour ="coral3",linetype="longdash") + geom_text(aes(x=32, label="mu", y=0.001), colour ="coral3",size=5)  
grafico_densidad

Se mantiene la misma hipótesis, Hipótesis nula: que la cantidad de refresco en las latas es igual a 33.

#Datos
mu=168
s = 15.4
x_bar=172.5
n=25

#Normalización
t_value = (x_bar-mu)/(s/sqrt(n))

#Confianza
alfa = 0.05
confianza = 1-alfa

t_alfa = qt(alfa,df = n-1)

set.seed(10)

#Creación de muestra artificial
datos = rnorm(n,x_bar,s)

#Aplicación de test
t = t.test(x=datos,mu=mu,conf.level = confianza)

dnorm_limit <- function(x) {
    y <- dnorm(x)
    y[x < t_alfa  |  x > -t_alfa] <- NA
    return(y)
}

# ggplot() with dummy data
grafico_densidad = ggplot(data.frame(x = c(-3, 3)), aes(x = x)) + 
  stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) +  stat_function(fun = dnorm) +
  xlab("Remuneraciones") + ylab("Densidad") + ggtitle("Función de densidad") + 
  theme_bw() + geom_vline(xintercept = (x_bar-mu)/(s/sqrt(n)),cex=1.2,colour ="darkred") + 
  geom_text(aes(x=(x_bar-mu)/(s/sqrt(n))+0.2, label="t", y=0.0), colour ="darkred",size=10)
cat("Se obtiene",t_value," lo cual está dentro del intervalor [",t_alfa,",",-t_alfa,"]")
## Se obtiene 1.461039  lo cual está dentro del intervalor [ -1.710882 , 1.710882 ]
plot(grafico_densidad)

Actividad 3

Se utiliza una máquina de llenado automática para llenar botellas con detergente líquido. Una muestra aleatoria de 20 botellas da como resultado una varianza de la muestra del volumen en el llenado de s^2 0.0153 (onzas líquidas). Si la varianza del volumen de llenado excede 0.01 (onzas líquidas), una proporción inaceptable de botellas se llenará de manera insuficiente o excesiva. ¿Hay evidencia en los datos de la muestra que sugiera que el fabricante tiene un problema con las botellas (bajo o sobre) ? Use α = 0.05 y suponga que el volumen de llenado tiene una distribución normal.

Se establece que la hipotesis nula es que s^2 < 0.01

library("ggplot2")

grafico_densidad = ggplot(data = data.frame(x = c(0, 0.1)), aes(x)) +
  stat_function(fun = dchisq, n = 10, args = list(x =0.01, df = 19)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Puntaje") + ylab("Densidad") + ggtitle("Función de densidad") + theme_bw() +
  geom_vline(xintercept = 0.0153,cex=1.2,colour ="darkred") + geom_text(aes(x=0.0153, label="S^2", y=0.0), colour ="darkred",size=5) 
grafico_densidad

#Datos
sigma2=0.01
n = 20
s2=0.0153


#Normalización
chi_value = (n-1)*s2/(sigma2)

#Confianza
alfa = 0.05
confianza = 1-alfa

chi_alfa = qchisq(alfa,df = n-1,lower.tail = F)

#Creación de muestra artificial
set.seed(10)
datos=rnorm(20,sqrt(s2),n=n)

#Aplicación de test
chi = varTest(datos,sigma.squared=sigma2,alternative="greater")
print(chi)
## 
## Results of Hypothesis Test
## --------------------------
## 
## Null Hypothesis:                 variance = 0.01
## 
## Alternative Hypothesis:          True variance is greater than 0.01
## 
## Test Name:                       Chi-Squared Test on Variance
## 
## Estimated Parameter(s):          variance = 0.00978978
## 
## Data:                            datos
## 
## Test Statistic:                  Chi-Squared = 18.60058
## 
## Test Statistic Parameter:        df = 19
## 
## P-value:                         0.4827143
## 
## 95% Confidence Interval:         LCL = 0.006170672
##                                  UCL =         Inf
cat("Se obtiene",chi_value," lo cual está dentro del intervalor [",-chi_alfa,",",chi_alfa,"]")
## Se obtiene 29.07  lo cual está dentro del intervalor [ -30.14353 , 30.14353 ]

Actividad 4

n=20
sigma2 = var(ii$Sepal.Length)
s2 = var(sample(ii$Sepal.Length,n,replace=FALSE)) # sigma de una muestra aleatoria

#Normalización
chi_value = (n-1)*s2/(sigma2)
chi_value
## [1] 12.96425
#Confianza
alfa = 0.05
confianza = 1-alfa

chi_alfa = qchisq(alfa,df = n-1,lower.tail = F)

cat("Se obtiene",chi_value," lo cual está dentro del intervalor [",-chi_alfa,",",chi_alfa,"]")
## Se obtiene 12.96425  lo cual está dentro del intervalor [ -30.14353 , 30.14353 ]

Actividad 5

Supongamos que al lanzar una moneda se obtienen 12 caras en 20 intentos. Con un nivel de significancia de .05, ¿se puede rechazar la hipótesis nula de que el lanzamiento de la moneda es justo?

X=12
pbar=12/20
p0=0.5
n=20
print(prop.test(X, n, p=0.5, correct=FALSE)) 
## 
##  1-sample proportions test without continuity correction
## 
## data:  X out of n, null probability 0.5
## X-squared = 0.8, df = 1, p-value = 0.3711
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.3865815 0.7811935
## sample estimates:
##   p 
## 0.6

Actividad 6

Imaginemos que recolectamos rosas silvestres y encontramos que 81 eran rojas, 50 amarillas y 27 blancas. Suponga que un artículo científico señala indica que en la región donde recopiló las flores, la proporción de rosas rojas, amarillas y blancas es 3:2:1. ¿Hay alguna diferencia significativa entre las proporciones observadas y las proporciones esperadas?

tulip = c(81, 50, 27)
res = chisq.test(tulip, p = c(1/2, 1/3, 1/6))
res
## 
##  Chi-squared test for given probabilities
## 
## data:  tulip
## X-squared = 0.20253, df = 2, p-value = 0.9037

Actividad 7

my_data = c(17.6, 20.6, 22.2, 15.3, 20.9)

wilcox.test(my_data, mu = 25,
conf.int=0.95)
## 
##  Wilcoxon signed rank exact test
## 
## data:  my_data
## V = 0, p-value = 0.0625
## alternative hypothesis: true location is not equal to 25
## 95 percent confidence interval:
##  15.3 22.2
## sample estimates:
## (pseudo)median 
##          19.25