Dubtes Inferència 1

Codi font del document: dubtes.Rmd

Recordatori regións de no rebuig (blanc) i de rebuig (gris) de \(H_0\) en tests de comparació de paràmetres (\(H_a\) fa referència a la hipòtesi alternativa, en el nostre cas \(H_1\))

Figura1

Exercici 57

An investor wants to compare the risks associated to two different stocks, A and B. Market risk is measured using the variance of the daily changes in stock prices. The investor believes that the risk in market A is lower than the risk in market B. Two random samples are selected, consisting of 21 observations on the changes of prices in market A and 16 observations on the changes of prices in market B. The results are:

Market A	Market B
\(X_A = 0.3\)	\(X_B = 0.3\)
\(S_A = 0.45\)	\(S_B = 0.25\)

Assuming that both samples come from two Normal and independent populations, does the data support the investor’s belief ? (\(\alpha\) = 0.05)

Definim les hipòtesis primer. Com que el risc es mesura utilitzant la variància, el que volem veure és si la variància del stock del Market A és més petita que la variància del stock del Market B:

\(H_0: \ \sigma^2_A \ge \sigma^2_B\)
\(H_1: \ \sigma^2_A < \sigma^2_B\)

L’estadístic de la prova (observed value of test statistic, OVTS) és \(S_A^2 / S_B^2\).

sa <- 0.45
sb <- 0.25
(OVTS <- sa^2 / sb^2)  # 3.24

## [1] 3.24

Ara busquem l’estadístic de contrast, el qual es basa en la distribució \(F_{na -1, nb -1}\). Al tractar-se d’un test unilateral esquerra (\(H_1: \sigma^2_A < \sigma^2_B\)) i que la significació és \(\alpha = 0.05\), l’àrea de rebuig serà:

\([0, F_{na -1, nb -1, alpha}]\)

na <- 21
nb <- 16
alpha <- 0.05
(qf( p = alpha, df1 = na-1, df2 = nb-1 ))  # 0.45387

## [1] 0.45387

L’OVTS es troba fora de la regió de rebuig ja que \(3.24 \notin [0, 0.46]\). Per tant, donada la mostra, no podem rebutjar la hipòtesi alternativa. No podem dir que hi ha menys risc al Market A que al Market B.

Gràficament:

L’àrea en verd ens mostra a l’eix de les x la regió de no rebuig de la \(H_0\), entre 0.45 i +Inf, mentres que l’àrea en vermell ens mostra l’àrea de rebuig de \(H_0\), entre 0 i 0.45 Com que el nostre estadístic (3.24) queda dintre de la regió d’acceptació, (línia negra) no rebutgem \(H_0\)

Exercici 59

In a Hospital 7 patients were selected, observing that they slept 7, 5, 8, 8.5, 6, 7 i 8 hours respectively. All of them were given a new sleeping pill, and then 5 of them were selected, observing 9, 8.5, 9.5, 10 i 8 sleep hours respectively. Is the new pill effective ? (Assume normality and \(\alpha\) = 0.05)

Volem veure si el medicament augmenta les hores de son dels pacients. Així doncs, les hipòtesis les definim com:

\(H_0: \ \mu_1 - \mu_2 \ge 0\)
\(H_1: \ \mu_1 - \mu_2 < 0\)

Ara bé, s’ha de comprovar si les variàncies són iguals, pel que definim també:

\(H_0: \ \sigma^2_1 = \sigma^2_2\)
\(H_1: \ \sigma^2_1 \ne \sigma^2_2\)

no_pill <- c(7, 5, 8, 8.5, 6, 7, 8)
si_pill <- c(9, 8.5, 9.5, 10, 8)
( s21 <- var( no_pill) ) # 1.535714
( s22 <- var( si_pill) ) # 0.625
( OVTS <- s21 / s22 )    # 2.457143

## [1] 1.535714
## [1] 0.625
## [1] 2.457143

Ara busquem l’estadístic de contrast, el qual es basa en la distribució \(F_{na -1, nb -1}\). Al tractar-se d’un test bilateral (\(H_1: \sigma^2_A \ne \sigma^2_B\)) i que la significació és \(\alpha = 0.05\), l’àrea de rebuig serà:

\([0, F_{na -1, nb -1, alpha/2}]\) i \([F_{na -1, nb -1, 1 - alpha/2}, +\infty]\)

n1 <- length( no_pill ) # 7
n2 <- length( si_pill ) # 5
alpha <- 0.05
FVTS1 <- qf(alpha/2, df1 = n1-1, df2 = n2-1 )  # 0.1605868
FVTS2 <- qf(1-alpha/2, df1 = n1-1, df2 = n2-1 ) # 9.197311

Com que 2.45 no està dintre de l’àrea de rebuig \([0,0.16]\cup[9.19,+\infty]\), no rebutgem \(H_0\), és a dir, no podem dir que les variàncies siguin diferents.

Gràficament:

Ara, utilitzant el resutlat anterior, podem dir que l’estadístic de la prova és:

\(\frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{S^2}{n_1} + \frac{S^2}{n2} }} \quad\) on \(\quad S^2 = \frac{(n_1 -1)S^2_1 + (n_2 -1)S^2_2}{n_1 + n_2 -2}\)

El qual, sota la hipòtesis nul.la, segueix una distribució \(t_ {n_1+n_2-2}\). Al tractar-se d’un test unilateral i amb \(\alpha = 0.05\), la regió de rebuig es troba a l’esquerra delimitada pel valor crític \(t_ {10, \alpha}\)

## [1] -1.812461

Per trobar l’estadístic, cal calcular:

( m1 <- mean(no_pill) ) # 7.071429
( s21 <- var(no_pill) ) # 1.535714
( m2 <- mean(si_pill) ) # 9
( s22 <- var(si_pill) ) # 0.625
( S2 <- ( (n1 - 1) * s21 + ( n2 - 1 ) * s22) / ( n1 + n2 - 2 ) ) # 1.171429

## [1] 7.071429
## [1] 1.535714
## [1] 9
## [1] 0.625
## [1] 1.171429

\(\bar{X_1} = 7.07 \quad S^2_1 = 1.53\)
\(\bar{X_2} = 9 \quad S^2_2 = 0.62\)
\(S^2 = 1.17\)

Calculem l’estadístic:

( OVTS <- (m1-m2) / sqrt( S2/n1 + S2/n2) ) # -3.043135

## [1] -3.043135

Donat qu el valor observat es troba fora la regió d’acceptació, -3.04 < -1.812, hi ha prou evidències per rebutjar \(H_0\).

Utilitzant l’R, primer mirem si les variàncies les podem considerar no diferents amb var.test() i després apliquem la funció t.test():

var.test(x=no_pill, y=si_pill, alternative = "two.sided", conf.level = 0.95)

## 
##  F test to compare two variances
## 
## data:  no_pill and si_pill
## F = 2.4571, num df = 6, denom df = 4, p-value = 0.4035
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   0.2671588 15.3010246
## sample estimates:
## ratio of variances 
##           2.457143

Com que el \(p\)-valor és més gran que la significació, no podem dir que les variàncies siguin diferents. Fem ara el t.test() tot indicant que les variànces no són diferents (var.equal = TRUE):

t.test(x=no_pill, y=si_pill, alternative = "less", var.equal = TRUE, conf.level = 0.95)

## 
##  Two Sample t-test
## 
## data:  no_pill and si_pill
## t = -3.0431, df = 10, p-value = 0.006198
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##        -Inf -0.7799334
## sample estimates:
## mean of x mean of y 
##  7.071429  9.000000

Com que el \(p\)-valor\(=0.006\) és més petit que \(\alpha = 0.05\), rebutgem \(H_0\). És a dir, no podem dir que el medicament no faci que els pacients dormin més hores en mitjana.

Gràficament:

Exercici 60

Random errors in two measuring tools follow Normal distributions \(N(0, \sigma^2_1)\) i \(N(0, \sigma^2_1)\). In a sample of size 7 the following measuring errors are observed:

First tool: 1.6, -0.9, -2.8, 3.1, 4.2, -1.0, 2.1
Second tool: 0.3, 0.7, -1.1, 2.0, 1.7, -0.8, -0.5

If we assume that the sampling was conducted over two normal and independent populations, can we conclude that the first tool is more precise than the second tool?

En aquest cas volem veure si la variabilitat de la primera eina és més baixa que al de la segona eina. Així doncs, les hipòtesis són:

\(H_0: \ \sigma^2_A \ge \sigma^2_B\)
\(H_1: \ \sigma^2_A < \sigma^2_B\)

L’estadístic de la prova (OVTS) és \(S^2_A /S^2_B\), el calculem:

( s2a <- var( c(1.6, -0.9, -2.8, 3.1, 4.2, -1.0, 2.1) ) ) # 6.366667
( s2b <- var( c(0.3, 0.7, -1.1, 2.0, 1.7, -0.8, -0.5) ) ) # 1.469048
( OVTS <- s2a / s2b )  # 4.333874

## [1] 6.366667
## [1] 1.469048
## [1] 4.333874

\([0, F_{na -1, nb -1, alpha}]\)

na <- length( c(1.6, -0.9, -2.8, 3.1, 4.2, -1.0, 2.1) ) # 7
nb <- length( c(0.3, 0.7, -1.1, 2.0, 1.7, -0.8, -0.5) ) # 7
alpha <- 0.05
(qf( p = alpha, df1 = na-1, df2 = nb-1 ))  # 0.233434

## [1] 0.233434

Com que l’estadístic OVTS (4.33) es troba fora de regió de rebuig [0, 0.23], podem dir que donada la mostra hi ha prou evidència per a no rebutjar la hipòtesi nul.la. És a dir, no podem dir que la presició de la primera eina sigui més alta que la de la segona eina.

En aquest cas al tenir les dues mostres, podem aplicar la funció var.test():

toolA <- c(1.6, -0.9, -2.8, 3.1, 4.2, -1.0, 2.1)
toolB <- c(0.3, 0.7, -1.1, 2.0, 1.7, -0.8, -0.5)
var.test(x=toolA, y=toolB, alternative = "less")

## 
##  F test to compare two variances
## 
## data:  toolA and toolB
## F = 4.3339, num df = 6, denom df = 6, p-value = 0.9512
## alternative hypothesis: true ratio of variances is less than 1
## 95 percent confidence interval:
##   0.00000 18.56573
## sample estimates:
## ratio of variances 
##           4.333874

Pel que amb \(p\)-valor \(= 0.9512 > 0.05 = \alpha\), no rebutgem la hipòtesi nul.la.

Gràficament:

L’àrea en verd ens mostra a l’eix de les x la regió de no rebuig de la \(H_0\), entre el 0.23 i +Inf, mentres que l’àrea en vermell ens mostra l’àrea de rebuig de \(H_0\), entre 0 i 0.23 Com que el nostre estadístic (4.33) queda dintre de la regió d’acceptació, (línia negra) no rebutgem \(H_0\).

Exercici 62

A consumer association wants to compare several alkaline battery brands. Two random samples , both of size 50, corresponding to the two main brands in the market (sample A and sample B) are obtained. Each element in each sample is plugged into an electronic device to measure its lifespan. Assume that the lifespan of batteries follows a Normal distribution and that the samples were drawn independently. The sample mean for the lifespan of the batteries in samples A and B were 41 and 45 hours respectively, and the standard deviations 2 and 1.8 hours respectively. Answer the following questions:

Can we infer from the information gathered that the batteries of brand B have a lifespan with less variability? (use a significance level of \(\alpha\) = 0.05)

\(H_0: \ \sigma^2_A \le \sigma^2_B\)
\(H_1: \ \sigma^2_A > \sigma^2_B\)

Hem de veure si acceptem o rebutgem \(H_0\), per a fer-ho utilitzem el estadístic \(S^2_A / S^2_B\) (variància mostral de la bateria A dividit entre la variància mostral de la bateria B). L’estadístic de la prova (observed value of test statistic, OVTS) és \(S_A^2 / S_B^2\).

sa <- 2
sb <- 1.8
(OVTS <- sa^2 / sb^2)  # 1.234568

## [1] 1.234568

Ara busquem l’estadístic de contrast, el qual es basa en la distribució \(F_{na -1, nb -1}\). Al tractar-se d’un test unilateral dreta (\(H_1: \sigma^2_A > \sigma^2_B\)) i que la significació és \(\alpha = 0.05\), l’àrea de rebuig serà:

\([F_{na -1, nb -1, 1-alpha}, +\infty]\)

Utilitzarem la funció qf() (recomanable veure el help per a exemples d’ús), amb una significació \(\alpha = 0.05\)

na <- 50
nb <- 50
alpha <- 0.05
(qf( p = 1-alpha, df1 = na-1, df2 = nb-1 ))  # 1.607289

## [1] 1.607289

Com que 1.23 no entra dintre de la regió de rebuig [1.61, +Inf), no rebutgem \(H_0\). És a dir, no podem dir que la vida útil de les bateries de la marca B tingui una variabilitat menor que les de la marca A.

Gràficament:

L’àrea en verd és de 1-alpha = 0.95 i ens mostra a l’eix de les x la regió de no rebuig de la \(H_0\), entre el 0 i 1.61, mentres que l’àrea en vermell és de alpha = 0.05 i ens mostra l’àrea de rebuig de \(H_0\), entre 1.61 i +Inf. Com que el nostre estadístic (1.21) queda dintre de la regió d’acceptació, (línia negra) no rebutgem \(H_0\)

Quin és el p-valor? Haurem de calcular l’àrea més a la dreta de la línia negra [OVTS, +Inf)

pf( OVTS, df1=na-1, df2=nb-1, lower.tail = F ) #  0.2317496

## [1] 0.2317496

En termes de p-valor, no rebutgem \(H_0\) ja que 0.23 > 0.05.

Dubtes Inferència 1

Jordi Tur

Última actualització: 17/05/2021

Exercici 57

Exercici 59

Exercici 60

Exercici 62