Taller pruebas de hipótesis

1. INTERVALOS DE CONFIANZA

Punto 1 = Anderson 2011, capitulo. 11, ejercicio 8, pag. 458

El 4 de marzo de 2009 fue uno de los pocos buenos días para el mercado de valores a princi- pios de 2009. El índice Dow Jones alcanzó 149.82 puntos (The Wall Street Journal, 5 de marzo de 2009).La tabla siguiente presenta los cambios en los precios (Price Change) de las accio- nes de una muestra de 12 empresas (Company) que cotizaron ese día.

library(readxl)
PriceChange <- read_excel("Downloads/PriceChange.xlsx")
PriceChange

## # A tibble: 12 × 2
##    Company     `Price Change ($)`
##    <chr>                    <dbl>
##  1 Aflac                     0.81
##  2 Bank of Am.              -0.05
##  3 Cablevision               0.41
##  4 Diageo                    1.32
##  5 Fluor Cp                  2.37
##  6 Goodrich                  0.3 
##  7 John.&John.               1.46
##  8 Loews Cp                  0.92
##  9 Nokia                     0.21
## 10 SmpraEngy                 0.97
## 11 Sunoco                    0.52
## 12 Tyson Food                0.12

a) Calcule la varianza muestral del cambio de precio diario.

varPC = var(PriceChange$`Price Change ($)`)
varPC

## [1] 0.4748182

b) Determine la desviación estándar muestral de la variación de precio.

sd(varPC, na.rm = T)

## [1] NA

c) Proporcione una estimación por intervalo de 95% de confianza para la varianza poblacional y la desviación estándar poblacional.

n1 = length(varPC)
prop.test(x = varPC, n1,
        alternative = "two.sided",
        conf.level = 0.95)

## Warning in prop.test(x = varPC, n1, alternative = "two.sided", conf.level =
## 0.95): Chi-squared approximation may be incorrect

## 
##  1-sample proportions test with continuity correction
## 
## data:  varPC out of n1, null probability 0.5
## X-squared = 6.163e-33, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.0446851 0.9453792
## sample estimates:
##         p 
## 0.4748182

sd1 = sd(PriceChange$`Price Change ($)`)
sd1

## [1] 0.6890705

n2 = length(sd1)
prop.test(x = sd1, n2,
        alternative = "two.sided",
        conf.level = 0.95)

## Warning in prop.test(x = sd1, n2, alternative = "two.sided", conf.level = 0.95):
## Chi-squared approximation may be incorrect

## 
##  1-sample proportions test with continuity correction
## 
## data:  sd1 out of n2, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.05462076 0.99634921
## sample estimates:
##         p 
## 0.6890705

Punto 2 = Anderson 2011, capitulo. 12, ejercicio 11, pag. 459

A fines de 2008 la varianza en los rendimientos semestrales de los bonos gubernamentales en el extranjero fue σ2 = 0.70. Un grupo de inversionistas se reunió entonces para analizar las tendencias futuras en los rendimientos de los bonos en el extranjero. Algunos esperaban una variabilidad en aumento de los rendimientos mientras que otros adoptaron el punto de vista contrario. La tabla siguiente muestra los rendimientos (Yield) semestrales en 12 países (Coun- try) del 6 de marzo de 2009 (Barron’s, 9 de marzo de 2009).

library(readxl)
Yields <- read_excel("Downloads/Yields.xlsx")
Yields

## # A tibble: 12 × 2
##    Country     `Yield (%)`
##    <chr>             <dbl>
##  1 Australia          3.98
##  2 Belgium            3.78
##  3 Canada             2.95
##  4 Denmark            3.55
##  5 France             3.44
##  6 Germany            3.08
##  7 Italy              4.51
##  8 Japan              1.32
##  9 Netherlands        3.53
## 10 Spain              3.9 
## 11 Sweden             2.48
## 12 U.K.               3.76

a) Calcule la media, la varianza y la desviación estándar de estos rendimientos trimestrales.

mean(Yields$`Yield (%)`)

## [1] 3.356667

var(Yields$`Yield (%)`)

## [1] 0.6898788

sd(Yields$`Yield (%)`)

## [1] 0.8305894

b) Establezca la hipótesis para probar si los datos muestrales indican que la varianza en el rendimiento de bonos ha cambiado desde fines de 2008.

#H0 = var (Yields$`Yield (%)`) != 0.6898788
#H1 = var (Yields$`Yield (%)`) = 0.6898788

c) Utilice α = 0.05 para realizar la prueba de la hipótesis establecida en el inciso b). ¿Cuál es su conclusión?

a1 = 0.05
t.test(x = Yields$`Yield (%)`, alternative = "two.sided", mu = 3.356667, 
       conf.level = 1-a1)

## 
##  One Sample t-test
## 
## data:  Yields$`Yield (%)`
## t = -1.3902e-06, df = 11, p-value = 1
## alternative hypothesis: true mean is not equal to 3.356667
## 95 percent confidence interval:
##  2.828935 3.884398
## sample estimates:
## mean of x 
##  3.356667

RESPUESTA = La conclusión a la que llegamos es que rechazamos la hipótesis, debido a que la variabilidad del rendimiento de bonos si bien no se sabe concretamente el número, se sabe que la varibilidad nueva no ha cambiado mucho porque 3.356667 esta en el rango de 2.828935 y 3.884398.

Punto 3 = Anderson 2011, capitulo. 11, ejercicio 19, pag. 466

La varianza en un proceso de producción es un indicador importante de la calidad del proceso. Las varianzas grandes representan una oportunidad para mejorarlo, buscando maneras de reducir la varianza del proceso. Realice una prueba estadística para determinar si existe una diferencia significativa entre las varianzas de los pesos de las bolsas procesadas con dos máquinas diferentes (Machine 1 y Machine 2). Use 0.05 como nivel de significancia. ¿Cuál es su conclusión? ¿Alguna de las dos máquinas representa una oportunidad para mejorar la calidad?

library(readxl)
Bags <- read_excel("Downloads/Bags.xlsx")
Bags

## # A tibble: 25 × 2
##    `Machine 1` `Machine 2`
##          <dbl>       <dbl>
##  1        2.95        3.22
##  2        3.45        3.3 
##  3        3.5         3.34
##  4        3.75        3.28
##  5        3.48        3.29
##  6        3.26        3.25
##  7        3.33        3.3 
##  8        3.2         3.27
##  9        3.16        3.38
## 10        3.2         3.34
## # … with 15 more rows

var(Bags$`Machine 1`)

## [1] 0.048889

var(Bags$`Machine 2`, na.rm = T)

## [1] 0.005901299

RESPUESTA = Evidentemente viendo los resultados de las varianzas de los pesos de las bolsas de las dos maquinas se puede evidenciar que la máquina 2 tiene una menor variabilidad, y la máquina 1 mayor variabilidad. Lo anterior, quiere decir que la máquina 1 tiene mayor oportunidad de mejorar la calidad por su variabilidad.

2. PRUEBAS DE HIPOTESIS

Punto 4 = En un estudio de la cantidad de calcio en el agua potable, el cual se efectuara como parte del control de calidad, se analiz ́o siete veces la misma muestra en el laboratorio en intervalos aleatorios. Los siete resultados del promedio de calcio en partes por millon fueron 9.54, 9.61, 9.32, 9.48, 9,30, 9.70 y 9.26. Algunos investigadores afirman que la media poblacional es de 9.7; ¿está usted de acuerdo con esta afirmación?, justifique usando un nivel de significancia del 5%. Asuma que los datos se distribuyen de forma normal.

cal = c(9.54, 9.61, 9.32, 9.48, 9,30, 9.70, 9.26)
n = length(cal)
#H0= mu = 9.7
#H1= mu != 9.7
a = 0.05
t.test(x = cal, alternative = "two.sided", mu = 9.7, 
       conf.level = 1-a)

## 
##  One Sample t-test
## 
## data:  cal
## t = 0.8891, df = 7, p-value = 0.4035
## alternative hypothesis: true mean is not equal to 9.7
## 95 percent confidence interval:
##   5.901662 18.075838
## sample estimates:
## mean of x 
##  11.98875

RESPUESTA =Estamos de acuerdo con la afirmación y no rechazamos la hipótesis, debido a que 9.7 es un valor dentro del rango de confianza, el promedio del calcio en todo el agua podría ser 9.7

Punto 5 = Una marca de nueces afirma que, como máximo, el 6% de las nueces están vacías. Se eligieron 300 nueces al azar y se detectaron 21 vacías con un nivel de significación de 1%,¿se puede aceptar la afirmación de la marca?

M5 = 1:300
Rotas = 1:21
(21/300)*100

## [1] 7

RESPUESTA = Si se puede aceptar la afirmación de la marca debido a que se encontraron 21 nueces vacías de 300, lo que conlleva que el 7% de las nueces sean las que vienen vacias. Al utilizar el 1% de significancia se puede afirmar que la declaración de la compañia es verdadera.

Punto 6 = En cierta región se siembra una variedad de trigo que tiene un rendimiento medio de 3,5 toneladas por hectárea. Una compañía productora de semillas ha desarrollado una nueva variedad y pretende que el rendimiento promedio sea mayor que en la variedad comúnmente usada. Para probar esta afirmación, se siembran nueve lotes experimentales con la nueva variedad y se obtuvo un rendimiento promedio de 3,88 toneladas por hectárea con una desviación típica de 0,49 toneladas. Si se supone que los rendimientos por hectáreas tienen una distribución aproximadamente normal, el estadístico de prueba utilizado para probar la hipótesis nula, μ ≤ 3.5 es:

a. 0.378 b. 2.331 c. 6.950 d. −0.781

mu = 3.5
n = 9
xb = 3.88
sd = 0.49

p = (xb-mu)/(sd/sqrt(n))
round(p,2)

## [1] 2.33

RESPUESTA =El estadístico de prueba utilizado para probar la hipótesis nula es la opción b 2.331.

Punto 7 = Un exportador de aguacate hass asegura que su producto tiene en promedio un diámetro de 8 cm un con una desviación estándar de 0.5 cm. Si siete de estos aguacates tienen diámetros de 7.7, 8.4, 9.0, 8.5, 6.8, 6.6 y 9.2 cm, ¿el exportador continuaría convencido de que sus aguacates tienen una desviación estándar de 0.5 cm? Suponga que los diámetros de los aguacates siguen una distribución normal.

(a) Realice el planteamiento de las hipotesis correspondiente y el calcule el estadístico de prueba apropiado.

Mu = 8
desv = 0.5
ag = c(7.7,8.4,9.0,8.5,6.8,6.6,9.2)
n = length(ag)
#h_0= sigma^2 = 0.5^2
#h_1= sigma^2 != 0.5^2

Las hipótesis son las siguientes h_0= sigma^2 = 0.5^2 h_1= sigma^2 != 0.5^2

s2 = var(ag)
s2

## [1] 1.055714

ep = (n-1)*s2/0.5^5
ep

## [1] 202.6971

alpha = 0.03
Li = qchisq(0.985,6,lower.tail = F)
Li

## [1] 1.015962

Ls = qchisq(0.015,6, lower.tail = F)

(b) Conteste la pregunta argumentando estadísticamente.

RESPUESTA =Dado que 25.34 es mayor que 15.78 se rechaza la hipótesis, por lo tanto, existe la suficiente evidencia estadística en la muestra para establecer que la variabilidad de los aguacates es diferente a 0.25