Lista de actividades:

Actividad 1: Buscar y resolver un ejemplo de uso de la prueba z con una cola.
Actividad 2: Buscar y resolver un ejemplo de uso de la prueba t con una cola.
Actividad 3: Buscar y resolver un ejemplo de uso de la prueba chi para varianza con dos colas.
Actividad 4: Buscar/crear y resolver un ejemplo de bondad de ajuste Chi cuadrado, utilice el conjunto de datos Iris disponible en R data(“iris”).
Actividad 5: Buscar/crear y resolver un ejemplo de prueba de hipótesis en una proporción binomial, de una o dos colas.
Actividad 6: Buscar/crear y resolver un ejemplo de prueba de hipótesis en el que aplique la prueba del signo.
Actividad 7: Buscar/crear y resolver un ejemplo de prueba de hipótesis en el que aplique la prueba de Wilcoxon para una muestra.

Desarrollo

Queremos comparar la altura media de los adultos en una ciudad con la altura media de una muestra de adultos de esa ciudad. Si la altura media de los adultos en la ciudad es de 1,80 metros y la altura media de la muestra es de 1,75 metros, podemos utilizar la prueba Z con una cola derecha para determinar si la diferencia entre las dos medias es estadísticamente significativa.

library("ggplot2")
grafico_densidad = ggplot(data = data.frame(x = c(170, 190)), aes(x)) +
  stat_function(fun = dnorm, n = 15, args = list(mean =180, sd = 4)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Estatura") + ylab("Densidad") + ggtitle("Densidad estatura de población (distribución normal)") + theme_bw() +
  geom_vline(xintercept = 175,cex=1.2,colour ="blue",linetype="longdash") + geom_text(aes(x=172, label="Media muestra", y=0.0), colour ="blue",size=5) + geom_vline(xintercept = 175,cex=1.2,colour ="blue",linetype="longdash") + geom_text(aes(x=176, label="mu", y=0.00001), colour ="coral3",size=5)  

grafico_densidad

Este gráfico lo que hace es ponernos en contexto del caso, siguiente de esto se procede con el cálculo de Z:

\(Z=(1,75-1,80)\setminus Desv. estandar\setminus \sqrt{n}\)

Donde n es el tamaño de la muestra.

Supongamos que la desviación estándar de la muestra es de 0,5 metros y el tamaño de la muestra es de 100 personas. Entonces, el estadístico Z sería:

# Cálculo de Z
Z = (-0.05) / (0.5 / sqrt(100))
Z
## [1] -1
#Confianza
x_bar=175
sigma=0.5
signif = 0.05 
conf = 1-signif
z_value = qnorm(signif)
z_value
## [1] -1.644854
mu=180
n=20

Ahora se puede elaborar una respuesta final:

dnorm_limit = function(x) {
    y = dnorm(x)
    y[x < z_value  |  x > -z_value] = NA
    return(y)
}

graph_act1 = ggplot(data.frame(x = c(-3, 3)), aes(x = x)) + 
  stat_function(fun = dnorm_limit, geom = "area", fill = "blue", alpha = 0.2) +  stat_function(fun = dnorm) +
  xlab("Remuneraciones") + ylab("Densidad") + ggtitle("Función de densidad") + 
  theme_bw() + geom_vline(xintercept = (x_bar-mu)/(sigma/sqrt(n)),cex=1.2,colour ="darkred") + 
  geom_text(aes(x=(x_bar-mu)/(sigma/sqrt(n))+0.2, label="z", y=0.0), colour ="darkred",size=10)

graph_act1

Supongamos que el valor p es de 0,32. Esto significa que hay una probabilidad del 32% de que la diferencia entre las dos medias sea solo debido al azar y no a una verdadera diferencia entre la población y la muestra.

En general, se considera que un valor p inferior al 5% indica una diferencia estadísticamente significativa entre las dos medias. En este caso, el valor p es demasiado alto para considerar la diferencia estadísticamente significativa, por lo que no podemos rechazar la hipótesis nula de que la altura media de la población es igual a la altura media de la muestra.

“Una máquina que se encarga de llenar de botellas está configurada para llenarlas con refrescos hasta los 500 mililitros mm. Se sabe que el volumen real sigue una distribución normal. El fabricante cree que la máquina no está llenando bien las botellas, por lo que, toma una muestra de 20 botellas y se mide el volumen de líquido en su interior.

# MUESTRA DE 20 BOTELLAS
bot <- c(484.11,459.49,471.38,512.01,494.48,
             528.63,493.64,485.03,473.88,501.59,
             502.85,538.08,465.68,495.03,475.32,
             529.41,518.13,464.32,449.08,489.27)

Queremos saber si el volumen es inferior a 500 mililitros.

Tenemos que determinar si las botellas se están llenando de manera insuficiente o si el bajo volumen medio de la muestra podría ser el resultado de una variación aleatoria.

La media del resultado de la muestra es la siguiente:”

mean_sample=491.6
mean_sample
## [1] 491.6
library("ggplot2")
grafico_densidad = ggplot(data = data.frame(x = c(450, 550)), aes(x)) +
  stat_function(fun = dnorm, n = 5, args = list(mean =500, sd = 2)) + ylab("") +
  scale_y_continuous(breaks = NULL) + xlab("Estatura") + ylab("Densidad") + ggtitle("Densidad estatura de población (distribución normal)") + theme_bw() +
  geom_vline(xintercept = 491.6,cex=1.2,colour ="blue",linetype="longdash") + geom_text(aes(x=491.6, label="Media muestra", y=0.0), colour ="blue",size=5) + geom_vline(xintercept = 491.6,cex=1.2,colour ="blue",linetype="longdash") + geom_text(aes(x=491.6, label="mu", y=0.00001), colour ="coral3",size=5)  

grafico_densidad

A partir de esto podemos decir que tenemos una hipótesis nula: el volumen medio de llenado es igual a 500 mililitros y por otro lado la hipótesis alternativa: el volumen medio de llenado es inferior a 500 mililitros.

Se utilizará un nivel de significación de 0,01.

El promedio del llenado de botellas para la muestra es de 491,6 ml.

t.test(bot, 
       mu = 500, 
       alternative = "less", 
       conf = 0.99)
## 
##  One Sample t-test
## 
## data:  bot
## t = -1.5205, df = 19, p-value = 0.07243
## alternative hypothesis: true mean is less than 500
## 99 percent confidence interval:
##      -Inf 505.6495
## sample estimates:
## mean of x 
##  491.5705

El intervalo de confianza unilateral del 99 % significa que es probable que el volumen de llenado sea inferior a 505,64 ml.

Debido al valor p de 0.07243, la probabilidad de seleccionar una muestra con un volumen medio menor o igual a 500 ml sería de aproximadamente 7%.

Debido a que el valor p no es menor que el nivel de significancia de 0.01, no podemos rechazar la hipótesis nula de que el volumen medio de llenado es igual a 500 ml. Por lo tanto podemos decir que no hay evidencia de que las botellas se estén llenando de manera insuficiente.

“Se tiene bajo un estudio a pacientes que son sujetos del consumo de una droga, se quiere saber si aquellos pacientes en los cuales se espera que la varianza de efectividad de la droga en los pacientes sea de 7. Se consigue entonces una muestra aleatoria de 32 pacientes, y tras calcular la varianza de la muestra, se obtiene que esta es 5.4.”

sigma2=7
n=32
s2=5.4

chi=(n-1)*s2 / (sigma2)


alfa=0.05
conf=1- alfa

chi_alfa=qchisq(alfa/2, df=n - 1)

chi
## [1] 23.91429
chi_alfa
## [1] 17.53874

Rechazamos la hipótesis nula debido a que chi no está dentro del intervalo de confianza.

library(EnvStats)
## Warning: package 'EnvStats' was built under R version 4.2.2
## 
## Attaching package: 'EnvStats'
## The following objects are masked from 'package:stats':
## 
##     predict, predict.lm
## The following object is masked from 'package:base':
## 
##     print.default
set.seed(543)
datos = rnorm(32, sqrt(s2), n = n)

# Aplicación
chi = varTest(datos, 
              sigma.squared = sigma2, 
              alternative = "two.sided")
print(chi)
## 
## Results of Hypothesis Test
## --------------------------
## 
## Null Hypothesis:                 variance = 7
## 
## Alternative Hypothesis:          True variance is not equal to 7
## 
## Test Name:                       Chi-Squared Test on Variance
## 
## Estimated Parameter(s):          variance = 4.171011
## 
## Data:                            datos
## 
## Test Statistic:                  Chi-Squared = 18.47162
## 
## Test Statistic Parameter:        df = 31
## 
## P-value:                         0.07367592
## 
## 95% Confidence Interval:         LCL = 2.680827
##                                  UCL = 7.372329

Podemos decir que aceptamos la hipotesis alternativa debido a que el p-value es mayor a 0,05 lo cual hace que esta afirmación sea válida.

Suponemos una proporción de 3:2:1, luego aplicamos la función chisq.test().

data("iris") # Primeramente cargamos los datos

set.seed(596)


ocurrencias=function(data){
  tabulate(match(data
                 , unique(data)
                 )
           )
}


sample_f = ocurrencias(sample(iris$Species, 90))


prop = c(1/2, 1/3, 1/6)


print(chisq.test(sample_f, prop))
## Warning in chisq.test(sample_f, prop): Chi-squared approximation may be
## incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  sample_f and prop
## X-squared = 6, df = 4, p-value = 0.1991

“En un casino se busca tramposos, un jugador llamado Lionel va una mesa y 8 de 12 partidas las gana, se sabe que un jugador normal gana 2 de 3 partidas, si hay una diferencia grande es probable que Lionel sea un tramposo, ¿Es Lionel un tramposo?”

Wins=c(17, 8)
GamesTotal=c(25, 20)

print(prop.test(Wins, GamesTotal, correct = FALSE, conf.level = 0.95))
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  Wins out of GamesTotal
## X-squared = 3.528, df = 1, p-value = 0.06034
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.002016956  0.562016956
## sample estimates:
## prop 1 prop 2 
##   0.68   0.40

Al tener un p-value levemente mayor que 0,05 entendemos que no hay una gran diferencia podemos decir que Lionel probablemente no sea un tramposo además de aceptar la hipótesis nula.

“Se toma a 150 estudiantes de la USACH y se les pregunta que jugador de futból creen que es mejor, si Lionel Messi (Arg) o Cristiano Ronaldo (Por), 79 estudiantes afirman que el argentino Messi es mejor y el resto creen que Ronaldo es mejor. ¿La opinión sobre estos dos jugadores de futból es equitativa o hay inclinación hacia uno de los dos?”

De tener un p-value mayor a 5 podemos decir que la opinión es equitativa, de no ser así, hay una inclinación hacia alguno de los dos.

binom.test(79,150)
## 
##  Exact binomial test
## 
## data:  79 and 150
## number of successes = 79, number of trials = 150, p-value = 0.5678
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.4435990 0.6086602
## sample estimates:
## probability of success 
##              0.5266667

Al tener un p-value mayor a 5 podemos decir que la opinión de los estudiantes de la USACH es equitativa.

“El peso promedio de un niño de 8 años en Chile es de 25,5 Kg, un doctor no cree que esto sea cierto por lo que hace una lista de los pesos de niños de 8 años que entran a su consulta.¿ El promedio de los niños que entran a la consulta del médico difieren del promedio entregado por el gobierno de Chile?”

n = c(24,24.9,26.8,23,25.9,26,24.2,22,27.2,25,25,5)
print(wilcox.test(n, mu = 0.5,conf.int=0.95))
## Warning in wilcox.test.default(n, mu = 0.5, conf.int = 0.95): cannot compute
## exact p-value with ties
## Warning in wilcox.test.default(n, mu = 0.5, conf.int = 0.95): cannot compute
## exact confidence interval with ties
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  n
## V = 78, p-value = 0.002516
## alternative hypothesis: true location is not equal to 0.5
## 95 percent confidence interval:
##  22.50004 25.89996
## sample estimates:
## (pseudo)median 
##       24.60005

Al tener un p-value tan bajo y mejor a 0,5 podemos decir que el peso de los niños que entraron a la consulta del doctor, no difiere del promedio entregado por el gobierno.

Referencias: