Ejercicios 5

1. Ejemplo de uso de la prueba z con una cola

Ejemplo encontrado:

“Una asociación de hosteleros rurales desea conocer la edad media de los turistas que optan por los alojamientos rurales durante el período estival. Un estudio realizado tres años antes indicaba que esta edad se situaba en los 39 años. Sin embargo, para planificar la campaña turística de este año, se realiza un nuevo estudio seleccionando una muestra de 850 individuos que desean viajar durante sus vacaciones, resultando que la edad media de los que planean pernoctar en alojamientos rurales es de 40,7 años. Sabiendo que la desviación típica de ese estudio fue de 4,8 años, y con un nivel de confianza del 95%, ¿se puede concluir que la edad media de los visitantes ha aumentado en los tres últimos años?”

Planteamiento de hipótesis nula y alternativa

En este caso las hipótesis nula quiere decir que la edad de los turistas no ha cambiado por lo que queda:

\[ H_0: \mu\leq39 \]

Luego, como se plantea la posibilidad de que la edad de los turistas haya aumentado, la hipótesis alternativa es:

\[ H_1: \mu>39 \]

Probandolo:

# DATOS
mu = 39      # Edad media
n = 850      # Tamaño de la muestra
sigma = 4.8    # desviación típica muestral
x_bar = 40.7

# Por lo que Z queda:
z = (x_bar-mu) / (sigma/sqrt(n))
z

## [1] 10.32564

# Para z alpha:
confianza = 0.95                  # 95% (Aparece en el enunciado)
alpha = 1 - confianza             # Por lo que alpha queda 0.05
z_alpha = qnorm(alpha,lower.tail = FALSE)
z_alpha

## [1] 1.644854

Análisis de resultados:

Como se vió, el valor de z es de 10.32564 mientras que el intervalo $z_\alpha$ es de [-1.644854, 1.644854], esto implica que z está por encima del intervalo de confianza, por lo que se rechaza $H_0$ y se acepta $H_1$; es decir, se podría afirmar, con un nivel de confianza del 95%, que la edad media de las personas que eligen alojamientos rurales ha aumentado en los mencionados 3 años.

Usando la prueba alternativa

set.seed(10)

#Creación de muestra artificial
datos = rnorm(n,x_bar,sigma)

#Aplicación de test
z = z.test(x=datos,mu=mu,sigma.x=sigma,conf.level = confianza, alternative = "g")
print(z)

## 
##  One-sample z-Test
## 
## data:  datos
## z = 9.7531, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 39
## 95 percent confidence interval:
##  40.33494       NA
## sample estimates:
## mean of x 
##  40.60574

Como el p-value es menor a 0.05 se acepta la hipótesis alternativa, es decir, se llega a la misma conclusión.

2. Ejemplo de uso de la prueba t con una cola

Ejemplo encontrado:

“El departamento de quejas de una empresa de seguros informa que el costo medio para tramitar una queja es de $60 dólares. Una comparación en la industria demostró que esta cantidad es mayor que en las demás compañías de seguros, así que la compañía tomó medidas para reducir gastos. Para evaluar el efecto de las medidas de reducción de gastos, el supervisor del departamento de quejas seleccionó una muestra aleatoria de 26 quejas atendidas el mes pasado. La información de la muestra aparece a continuación:

$45	$49	$62	$40	$43	$61
$48	$53	$67	$63	$78	$64
$48	$54	$51	$56	$63	$69
$58	$51	$58	$59	$56	$57
$38	$76

¿Es razonable concluir que el costo medio de atención de una queja ahora es menor a $60 con un nivel de significancia de 0.01?

Planteamiento de hipótesis nula y alternativa

En este caso las hipótesis nula quiere decir que el costo medio se mantiene:

\[ H_0: \mu\geq60 \]

Luego, como se plantea la posibilidad de que el costo medio haya descendido de los 60 dólares, la hipótesis alternativa es:

\[ H_1: \mu<60 \]

Probandolo:

# DATOS
x = c(45,49,62,40,43,61,48,53,67,63,78,64,48,54,51,56,63,69,58,51,58,59,56,57,38,76)
mu = 60              # Costo medio queja
n = 26               # Tamaño de la muestra
sigma = sd(x)        # desviación típica muestral
x_bar = mean(x)      # Media muestral

# Por lo que t queda:
t = (x_bar-mu) / (sigma/sqrt(n))
t

## [1] -1.816503

# Para t alpha:
alpha = 0.01
confianza = 1 - alpha
t_alpha = qt(alpha, df = n-1)
t_alpha

## [1] -2.485107

Análisis de resultados:

Como se vió, el valor de t es de -1.816503 mientras que el intervalo $t_\alpha$ es de [-2.485107, $\infty$], esto implica que t esta dentro del intervalo de confianza, por lo que se acepta $H_0$ y se rechaza $H_1$; es decir, no existe evidencia suficiente para concluir que el costo medio de atención de una queja sea menor a 60 dólares, respondiendo a la pregunta, no sería razonable realizar dicha afirmación.

Usando la prueba alternativa

#Aplicación de test
t = t.test(x=x,mu=mu,conf.level = confianza, alternative = "l")
print(t)

## 
##  One Sample t-test
## 
## data:  x
## t = -1.8165, df = 25, p-value = 0.04065
## alternative hypothesis: true mean is less than 60
## 99 percent confidence interval:
##      -Inf 61.31657
## sample estimates:
## mean of x 
##  56.42308

Como el p-value es mayor a 0.01 se acepta la hipótesis nula, es decir, se llega a la misma conclusión.

3. Ejemplo de uso de la prueba chi para varianza con dos colas

“Unos ingenieros están pintando franjas para separar secciones de una fábrica. Las franjas deben ser de 10 metros de largo. Se espera que la varianza de este largo sea aproximadamente de 4 metros. Se toma una muestra de 12 franjas y se encuentran en las siguientes medidas: 11.3, 9.0, 8.3, 8.4, 12.4, 9.8, 8.8, 12.7, 8.5, 14.1, 12.0, 11.4. ¿Se puede concluir que el proceso se encuentra en el rango esperado?, use una significancia de 0.01”

Planteamiento de hipótesis nula y alternativa

La hipótesis nula requiere que la varianza sea menor o igual a cuatro metros:

\[ H_0: \sigma^2 =16 \]

Luego, la hipótesis alternativa será el caso contrario:

\[ H_1: \sigma^2\neq16 \]

# DATOS
x = c(11.3, 9.0, 8.3, 8.4, 12.4, 9.8, 8.8, 12.7, 8.5, 14.1, 12.0, 11.4)  # Muestra
sigma2 = 16                 # Varianza esperada
n = length(x)               # Tamaño de la muestra
s2 = sd(x)**2               # Varianza muestral

# Por lo que chi queda:
chi = ((n-1)*s2) / (sigma2)
chi

## [1] 2.746823

# Para chi alpha:
alpha = 0.01
confianza = 1 - alpha
chi_alpha1 = qchisq(alpha/2,df = n-1,lower.tail = TRUE)
chi_alpha2 = qchisq(alpha/2,df = n-1,lower.tail = FALSE)
chi_alpha1

## [1] 2.603222

chi_alpha2

## [1] 26.75685

Como se vió, el valor de chi es de 2.746823 mientras que el intervalo $chi_\alpha$ es de [2.603222, 26.75685], esto implica que chi se encuentra en el intervalo de confianza, por lo que se acepta $H_0$ y se rechaza $H_1$; es decir, se podría afirmar con evidencia que el proceso de pintado de franjas tiene la varianza esperada; sin embargo, lo ideal si se está realizando un pintado de franjas, sería que no fuese así, sino que la varianza sea menor que la esperada, ya que, así sería un trabajo más uniforme.

set.seed(10)

#Creación de muestra artificial
datos = rnorm(n,x_bar,sigma)

#Aplicación de test
tp = chisq.test(x=datos)
print(tp)

## 
##  Chi-squared test for given probabilities
## 
## data:  datos
## X-squared = 14.646, df = 11, p-value = 0.1993

Como el p-value es mayor a 0.01 se acepta la hipótesis nula, es decir, llegamos a la misma conclusión.

4. Ejemplo de resolución de bondad de ajuste chi cuadrado usando conjunto de datos Iris

Ejemplo:

“Se desea comprobar que el largo de los pétalos encontrados en el dataset”iris” sigan una distribución uniforme, para esto haga uso de la prueba de bondad de ajuste chi cuadrado con una significancia del 0.05”

Planteamiento de hipótesis nula y alternativa

La hipótesis nula es que se sigue una distribución uniforme.

Luego, la hipótesis alternativa será el caso contrario.

Probandolo:

data(iris)

n = length(iris$Petal.Length)
prob_for_length = 1 / n
p = rep(prob_for_length, n)

chisq.test(iris$Petal.Length, p = p)

## Warning in chisq.test(iris$Petal.Length, p = p): Chi-squared approximation may
## be incorrect

## 
##  Chi-squared test for given probabilities
## 
## data:  iris$Petal.Length
## X-squared = 123.56, df = 149, p-value = 0.9368

Análisis de resultados:

Como se pudo apreciar, el p-value es mayor a 0.05, por lo que se acepta la hipótesis nula y se rechaza la alternativa, es decir, se podría afirmar que el largo de los pétalos en el dataset “iris” siguen una proporción uniforme.

5. Ejemplo de prueba de hipótesis en una proporción binomial (una o dos colas)

Ejemplo encontrado:

“Un estudio sugiere que en una ciudad están naciendo más hombres que mujeres. Para determinar si es cierto se selecciona una muestra aleatoria de los niños nacidos durante los últimos 2 años y se identifica para cada uno el género. ¿Existen diferencias significativas para un nivel de significancia del 5%?

La muestra se encuentra en la siguiente tabla:

masculino	masculino	masculino	masculino	femenino
masculino	masculino	masculino	femenino	femenino
femenino	femenino	femenino	femenino	masculino
masculino	femenino	masculino	femenino	masculino
femenino	masculino	masculino	masculino	femenino
masculino	masculino	femenino	masculino	femenino

”

Planteamiento de hipótesis nula y alternativa

La hipótesis nula será que la proporción de nacimientos sea del 50% (iguales cantidaes de nacimientos para ambos sexos).

Luego, la hipótesis alternativa será el caso contrario (proporción diferente).

Probandolo:

muestra = c("masculino", "masculino", "masculino", "masculino", "femenino",
            "masculino", "masculino", "masculino", "femenino", "femenino",
            "femenino", "femenino", "femenino", "femenino", "masculino",
            "masculino", "femenino", "masculino", "femenino", "masculino",
            "femenino", "masculino", "masculino", "masculino", "femenino",
            "masculino", "masculino", "femenino", "masculino", "femenino")

alpha = 0.05
confianza = 1 - alpha

binom.test(x = table(muestra), alternative = "t", conf.level = confianza)    # al usar table(muestra) r por si solo entrega el vector de cuantas veces se repiten los valores, el cual es x

## 
##  Exact binomial test
## 
## data:  table(muestra)
## number of successes = 13, number of trials = 30, p-value = 0.5847
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.2546075 0.6257265
## sample estimates:
## probability of success 
##              0.4333333

Análisis de resultados:

Como se pudo notar, el p-value es mayor a 0.05, es decir, se rechaza la hipótesis alternativa, y, en consecuencia, se acepta la hipótesis nula, o sea, es esperable que la proporcion de nacimientos sea igual para ambos sexos.

6. Ejemplo de prueba de hipótesis con aplicación de la prueba del signo

Ejemplo encontrado:

“La empresa PQR afirma que la vida media de un tipo de batería que fabrican es mayor a 250 horas (h). un estudio de consumidores, que busca determinar que su afirmación está justificada, calcula la vida media de 24 baterías de la comprada, los resultados se muestran en la siguiente tabla. Suponiendo que la muestra es aleatoria, determine si la afirmación de la empresa se justifica a nivel de 0.05 de significancia.”

271	239	198	275	282	225
289	219	253	216	262	288
236	291	253	229	269	295
211	252	294	243	272	268

Planteamiento de hipótesis nula y alternativa

La hipótesis nula será que la afirmación de la empresa es verdad, es dercir:

\[ H_0: \mu = 250 \]

Luego, la hipótesis alternativa será el caso contrario:

\[ H_1: \mu \neq 250 \]

Probandolo:

x=c(271, 239, 198, 275, 282, 225, 289, 219, 253, 216, 262, 288, 236, 291, 253, 229, 269, 295, 211, 252, 294, 243, 272, 268)
alpha = 0.05
confianza = 1 - alpha

SIGN.test(x=x,conf.level=confianza, alternative = "t")

## 
##  One-sample Sign-Test
## 
## data:  x
## s = 24, p-value = 1.192e-07
## alternative hypothesis: true median is not equal to 0
## 95 percent confidence interval:
##  237.9882 273.0118
## sample estimates:
## median of x 
##       257.5 
## 
## Achieved and Interpolated Confidence Intervals: 
## 
##                   Conf.Level   L.E.pt   U.E.pt
## Lower Achieved CI     0.9361 239.0000 272.0000
## Interpolated CI       0.9500 237.9882 273.0118
## Upper Achieved CI     0.9773 236.0000 275.0000

Análisis de resultados:

Como se pudo notar, el p-value es menor a 0.05, es decir, se rechaza la hipótesis nula, y, en consecuencia, se acepta la hipótesis alternativa, o sea, se tiene evidencia suficiente para decir que, la afirmación de la empresa PQR es falsa.

7. Ejemplo de prueba de hipótesis con aplicación de la prueba de Wilcoxon para una muestra

Ejemplo:

“Hace 3 años, en un arcade, se realizó un estudio para saber la edad promedio de sus usuarios, la cual resultó ser de 19 años. Ahora, se ha vuelto a realizar nuevo estudio, para así, saber si este promedio ha variado, las edades obtenidas de la muestra extraída en este estudio, se encuentran a continuación:

16	21	32	21	19	23
24	17	17	20	15	15
31	16	13	35	14	18
14	25	16	40	26	27
20	18	15	22

¿Es razonable concluir que la edad promedio ha variado? para esto se debe usar un nivel de confianza del 95%, teniendo en cuenta que, no se puede asumir que las edades de los usuarios de este recinto sigan una distribución normal.”

Planteamiento de hipótesis nula y alternativa

En este caso las hipótesis nula quiere decir que la edad promedio de los usuarios del arcade no ha variado:

\[ H_0: \mu=19 \]

Por lo que, la hipótesis alternativa es:

\[ H_1: \mu\neq19 \]

Probandolo:

x = c(16,24,31,14,20,21,17,16,25,18,32,17,13,16,15,21,20,35,40,22,19,15,14,26,23,15,18,27)
mu = 19
confianza = 0.95

wilcox.test(x=jitter(x),mu=mu,conf.level = confianza,alternative = "t") # Se agrego el jitter por un aviso que surgía en r, sin embargo, el resultado era el mismo sin él.

## 
##  Wilcoxon signed rank exact test
## 
## data:  jitter(x)
## V = 242, p-value = 0.3864
## alternative hypothesis: true location is not equal to 19

Análisis de resultados:

Como se pudo apreciar, el p-value es mayor a 0.05, por lo que se acepta la hipótesis nula y se rechaza la alternativa, es decir, no es posible afirmar que el promedio de edad de los usuarios del arcade haya variado desde el primer estudio.

$45	$49	$62	$40	$43	$61
$48	$53	$67	$63	$78	$64
$48	$54	$51	$56	$63	$69
$58	$51	$58	$59	$56	$57
$38	$76

271	239	198	275	282	225
289	219	253	216	262	288
236	291	253	229	269	295
211	252	294	243	272	268

$45	$49	$62	$40	$43	$61
$48	$53	$67	$63	$78	$64
$48	$54	$51	$56	$63	$69
$58	$51	$58	$59	$56	$57
$38	$76

271	239	198	275	282	225
289	219	253	216	262	288
236	291	253	229	269	295
211	252	294	243	272	268

$45	$49	$62	$40	$43	$61
$48	$53	$67	$63	$78	$64
$48	$54	$51	$56	$63	$69
$58	$51	$58	$59	$56	$57
$38	$76

271	239	198	275	282	225
289	219	253	216	262	288
236	291	253	229	269	295
211	252	294	243	272	268