Relatório III

Lista de Testes de Hipóteses

Trace uma curva normal e sombreie a área desejada obtendo então a informação.

Área à direita de $Z = 1$

1-pnorm(q=1, mean = 0, sd=1)

## [1] 0.1586553

pnormGC(1, region="above", mean=0,
        sd=1, graph=TRUE)

## [1] 0.1586553

Área à esquerda de $Z = 1$

pnorm(q=1, mean = 0, sd=1)

## [1] 0.8413447

pnormGC(1, region="below", mean=0,
        sd=1, graph=TRUE)

## [1] 0.8413447

Área entre $Z = 0$ e $Z = 1.5$

pnorm(q=1.5, mean = 0, sd=1)-0.5

## [1] 0.4331928

pnormGC(c(0,1.5), region="between", mean=0,
        sd=1, graph=TRUE)

## [1] 0.4331928

Área entre $Z = −0,56$ e $Z = −0,2$

pnorm(q=-0.2, mean = 0, sd=1)-pnorm(q=-0.56, mean = 0, sd=1)

## [1] 0.1330006

pnormGC(c(-0.56,-0.2), region="between", mean=0,
        sd=1, graph=TRUE)

## [1] 0.1330006

Área entre $Z = 0, 5$ e $Z = 0, 5$

pnorm(q=-0.5, mean = 0, sd=1)-pnorm(q=-0.5, mean = 0, sd=1)

## [1] 0

pnormGC(c(-0.5,-0.5), region="between", mean=0,
        sd=1, graph=TRUE)

## [1] 0

Área entre $Z = 0$ e $Z = −2, 5$

pnorm(q=0, mean = 0, sd=1)-pnorm(q=-2.5, mean = 0, sd=1)

## [1] 0.4937903

pnormGC(c(0.,-2.5), region="between", mean=0,
        sd=1, graph=TRUE)

## [1] 0.4937903

Usando a tabela da distribuição normal, determine os valores de $Z$ que correspondem às seguintes áreas:

Área de 0,0505 à esquerda de Z.

qnorm(0.0505, mean = 0, sd=1, lower.tail = TRUE)

## [1] -1.640025

pnormGC(qnorm(0.0505, mean = 0, sd=1), region="below", mean=0,
        sd=1, graph=TRUE)

## [1] 0.0505

Área de 0,0228 à direita de Z

qnorm(0.0228, mean = 0, sd=1, lower.tail = FALSE)

## [1] 1.999077

pnormGC(qnorm(0.0228, mean = 0, sd=1 , lower.tail = FALSE), region="above", mean=0, sd=1, graph=TRUE)

## [1] 0.0228

Área de 0,0228 à esquerda de Z

qnorm(0.0228, mean = 0, sd=1, lower.tail = TRUE)

## [1] -1.999077

pnormGC(qnorm(0.0228, mean = 0, sd=1), region="below", mean=0,
        sd=1, graph=TRUE)

## [1] 0.0228

0,4772 entre 0 e z

pnormGC(c(0.0,2), region="between", mean=0,
        sd=1, graph=TRUE)

## [1] 0.4772499

Consultando a tabela, determine a probabilidade de certo valor padronizado de Z estar entre $Z_0 = −1, 20$ e $Z_1 = 2, 00.$ Desenhe o gráfico.

pnorm(q=2, mean = 0, sd=1, lower.tail = TRUE)-pnorm(q=-1.2, mean = 0, sd=1, lower.tail = TRUE)

## [1] 0.8621802

pnormGC(c(-1.2,2), region="between", mean=0,
        sd=1, graph=TRUE)

## [1] 0.8621802

Dado uma variável X com distribuição normal de média 25 e desvio-padrão 2, determine os valores de Z para os seguintes valores (x) :

Sabemos que $Z=\frac{X-\mu}{\sigma},$ logo:

(Z=(23-25)/2)

## [1] -1

23,5

(Z=(23.5-25)/2)

## [1] -0.75

(Z=(24-25)/2)

## [1] -0.5

25,2

(Z=(25.2-25)/2)

## [1] 0.1

25,5

(Z=(25.5-25)/2)

## [1] 0.25

Determine a probabilidade de certo valor padronizado de Z estar entre $Z_0 = −1, 30$ e $Z_1 = 1.5.$ Desenhe o gráfico.

pnorm(q=1.5, mean = 0, sd=1, lower.tail = TRUE)-pnorm(q=-1.3, mean = 0, sd=1, lower.tail = TRUE)

## [1] 0.8363923

pnormGC(c(-1.3,1.5), region="between", mean=0,
        sd=1, graph=TRUE)

## [1] 0.8363923

Uma população normal tem média 40 e desvio-padrão 3. Determine os valores da população correspondentes aos seguintes de Z:

Sabemos que $Z=\frac{X-\mu}{\sigma},$ logo, dado Z, temos que $X=Z\sigma+\mu,$ assim:

0,10

(X=(0.1*3)+40)

## [1] 40.3

2,00

(X=(2*3)+40)

## [1] 46

0,75

(X=(0.75*3)+40)

## [1] 42.25

-3,00

(X=(-3*3)+40)

## [1] 31

-2,53

(X=(-2.53*3)+40)

## [1] 32.41

Explique com suas palavras, exemplificando, o significado de:

teste de hipótese;

É uma metodologia estatística que nos auxilia a tomar decisões sobre uma ou mais populações baseado na informação obtida da amostra.Nos permite verificar se os dados amostrais trazem evidência que apoiem ou não uma hipótese estatística formulada.Ao tentarmos tomar decisões, é conveniente a formulação de suposições ou de conjeturas sobre as populações de interesse, que, em geral, consistem em considerações sobre parâmetros (μ,σ2,p) das mesmas.Essas suposições, que podem ser ou não verdadeiras, são denominadas de Hipóteses Estatísticas. Em muitas situações práticas o interesse do pesquisador é verificar a veracidade sobre um ou mais parâmetros populacionais (μ,σ2,p) ou sobre a distribuição de uma variável aleatória. Exemplos: A produtividade média milho no estado (SC) é de 2500 kg/ha; A proporção de peças defeituosas no unidade de fabricação é de 0,10; A propaganda produz efeito positivo nas vendas; Os métodos de ensino produzem resultados diferentes de aprendizagem

Hipótese nula e alternativa;

As hipóteses nula e alternativa são duas declarações mutuamente exclusivas sobre uma população. Um teste de hipótese usa dados amostrais para determinar se deve rejeitar a hipótese nula.

Hipótese nula (H0) A hipótese nula afirma que um parâmetro da população (como a média, o desvio padrão, e assim por diante) é igual a um valor hipotético. A hipótese nula é, muitas vezes, uma alegação inicial baseado em análises anteriores ou conhecimentos especializados. Hipótese Alternativa (H1) A hipótese alternativa afirma que um parâmetro da população é menor, maior ou diferente do valor hipotético na hipótese nula. A hipótese alternativa é aquela que você acredita que pode ser verdadeira ou espera provar ser verdadeira.

erros do tipo I e II;

Erro tipo I Quando a hipótese nula é verdadeira e você a rejeita, comete um erro do tipo I. A probabilidade de cometer um erro do tipo I é α, que é o nível de significância que você definiu para seu teste de hipóteses. Um α de 0,05 indica que você quer aceitar uma chance de 5% de que está errado ao rejeitar a hipótese nula. Para reduzir este risco, você deve usar um valor inferior para α. Entretanto, usar um valor inferior para alfa significa que você terá menos probabilidade de detectar uma diferença verdadeira, se existir uma realmente. Erro tipo II Quando a hipótese nula é falsa e você não a rejeita, comete um erro de tipo II. A probabilidade de cometer um erro de tipo II é β, que depende do poder do teste. Você pode diminuir o risco de cometer um erro do tipo II, assegurando que o seu teste tenha potência suficiente. Você pode fazer isso garantindo que o tamanho amostral seja grande o suficiente para detectar uma diferença prática, quando realmente existir uma.

nível de significância.

O nível de significância (ou nível α) é um limite que determina se o resultado de um estudo pode ser considerado estatisticamente significativo depois de se realizarem os teste estatísticos planeados. O nível de significância é geralmente definido como 5% (ou 0,05), embora possam ser utilizados outros níveis dependendo do estudo. Isto representa a probabilidade de rejeitar a hipótese nula quando é verdadeira. Por exemplo, um nível de significância de 0,05 indica um risco de 5% de concluir que existe uma diferença entre os resultados do estudo e a hipótese nula, quando na verdade não existe nenhuma diferença.

Enuncie a hipótese nula e a hipótese alternativa em cada um dos casos a seguir.

A produção média de certo cereal é de 40 toneladas por hectare. Acredita-se que um novo tipo de adubo aumenta a produção média por hectare.

$H_{0}:\mu=40$ toneladas por hectare

$H_{1}:\mu>40$ toneladas por hectare

#H0:mu=40
#H1:mu>40

Um sindicato de empregados de certa categoria deseja verificar se a taxa de desemprego em certo município é maior que a taxa de 12% observada seis meses antes.

$H_{0}:\mu=12$ taxa de desemprego por cem

$H_{1}:\mu>12$ taxa de desemprego por cem

#H0:mu=12
#H1:mu>12

O fabricante de certa marca de suco informa que as embalagens de seu produto têm em média 500 ml, com desvio padrão igual a 10 ml. Tendo sido encontradas no mercado algumas embalagens com menos de 500 ml, suspeita-se que a informação do fabricante seja falsa. Para verificar se isto ocorre, um fiscal analisa uma amostra de 200 embalagens escolhidas aleatoriamente no mercado e constata que as mesmas contêm em média 498 ml. Considerando-se um nível de significância de $5\%$, pode-se afirmar que o fabricante está mentindo? Calcule o valor da prova para esta amostra.

mu <- 500
sigma <- 10
n <- 200
xbarra <- 498
alpha <- 0.05
#H0: mu=500
#H1: mu<500 (Unilateral a esquerda)
#Estatística do Teste
Zcal <- (xbarra-mu)/(sigma/sqrt(n))
Zcal

## [1] -2.828427

pnormGC(Zcal, region="below", mean=0,
        sd=1, graph=TRUE)

## [1] 0.002338867

Ztab <- qnorm(alpha)
Ztab

## [1] -1.644854

ConclusaoZ <- ifelse(abs(Zcal)>abs(Ztab),paste(
"Como |Zcal|>|Ztab| Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
), paste(
"Como |Zcal|<|Ztab| Não Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
))
ConclusaoZ

## [1] "Como |Zcal|>|Ztab| Rejeita-se H0 ao nível de 0.05 de significância"

#Logo, o fabricante está mentindo!
(pvalor <- pnorm(Zcal))

## [1] 0.002338867

A duração das lâmpadas produzidas por certo fabricante tem distribuição normal com média igual a 1200 horas e desvio padrão igual a 300 horas. O fabricante introduz um novo processo na produção das lâmpadas. Para verificar se o novo processo produz lâmpadas de maior duração, o fabricante observa 100 lâmpadas produzidas pelo novo processo e constata que as mesmas duram em média 1265 horas. Admitindo-se um nível de significância de $5\%$, pode-se concluir que o novo processo produz lâmpadas com maior duração?

n <- 100
xbarra <- 1265
mu <- 1200
sigma <- 300
alpha <- 0.05
#H0:mu = 1200h
#H1:mu > 1200h (Teste-z unilateral)
#Estatística do Teste
Zcal <- (xbarra-mu)/(sigma/sqrt(n))
Zcal

## [1] 2.166667

pnormGC(Zcal, region="above", mean=0,
        sd=1, graph=TRUE)

## [1] 0.01513014

Ztab <- qnorm(alpha, mean = 0, sd=1, lower.tail = FALSE)
Ztab

## [1] 1.644854

ConclusaoZ <- ifelse(abs(Zcal)>abs(Ztab),paste(
"Como |Zcal|>|Ztab| Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
), paste(
"Como |Zcal|<|Ztab| Não Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
))
ConclusaoZ

## [1] "Como |Zcal|>|Ztab| Rejeita-se H0 ao nível de 0.05 de significância"

#Logo, o fabricante está mentindo!
(pvalor <- pnorm(Zcal, lower.tail = FALSE))

## [1] 0.01513014

ConclusaoZ <- ifelse(pvalor>alpha,paste(
"Como p-valor>", alpha, " Não Rejeita-se H0"
), paste(
"Como p-valor<", alpha, " Rejeita-se H0")
)
ConclusaoZ

## [1] "Como p-valor< 0.05  Rejeita-se H0"

O custo de produção de certo artigo numa localidade tem distribuição normal com média igual a $R\$~42, 00.$ Desenvolve-se uma política de redução de custos na empresa para melhorar a competitividade do referido produto no mercado. Observando-se os custos de 10 unidades deste produto, obtiveram-se os seguintes valores: 34, 41, 36, 41, 29, 32, 38, 35, 33 e 30. Admitindo-se um nível de significância de $5\%$, pode-se afirmar que o custo do produto considerado diminuiu?

mu <- 42
n <- 10
x <- c(34, 41, 36, 41, 29, 32, 38, 35, 33, 30)
xbarra <- mean(x)
s <- sd(x)
alpha <- 0.05
#H0: mu = 42 
#H1: mu < 42 (Teste-t unilateral)
gl <- n-1
#Estatística do Teste
Tcal <- (xbarra-mu)/(s/sqrt(n))
Tcal

## [1] -5.377348

Ttab <- qt(alpha, df=gl, lower.tail = TRUE,)
Ttab

## [1] -1.833113

ConclusaoT <- ifelse(abs(Tcal)>abs(Ttab),paste(
"Como |Tcal|>|Ttab| Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
), paste(
"Como |Tcal|<|Ttab| Não Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
))
ConclusaoT

## [1] "Como |Tcal|>|Ttab| Rejeita-se H0 ao nível de 0.05 de significância"

#Logo, o fabricante está mentindo!
(pvalor <- pt(Tcal, df = gl, lower.tail = TRUE))

## [1] 0.0002230215

ConclusaoT <- ifelse(pvalor>alpha,paste(
"Como p-valor>", alpha, " Não Rejeita-se H0"
), paste(
"Como p-valor<", alpha, " Rejeita-se H0")
)
ConclusaoT

## [1] "Como p-valor< 0.05  Rejeita-se H0"

O controle de qualidade das peças produzidas por certa fábrica exige que o diâmetro médio das mesmas seja 57 mm. Para verificar se o processo de produção está sob controle, observam-se os diâmetros de 10 peças, constatando-se os seguintes valores em mm: $56,5; 56,6; 57,3; 56,9; 57,1; 56,7; 57,1; 56,8; 57,1; 57,0.$ Admitindo-se um nível de significância de $5\%$, pode-se concluir que o processo de produção está sob controle?

mu <- 57
n <- 10
x <- c(56.5, 56.6, 57.3, 56.9, 57.1, 56.7, 57.1, 56.8, 57.1, 57.0)
xbarra <- mean(x)
s <- sd(x)
alpha <- 0.05
#H0: mu = 42 
#H1: mu < 42 (Teste-t unilateral)
gl <- n-1
#Estatística do Teste
Tcal <- (xbarra-mu)/(s/sqrt(n))
Tcal

## [1] -1.112516

Ttab <- qt(alpha, df=gl, lower.tail = TRUE,)
Ttab

## [1] -1.833113

ConclusaoT <- ifelse(abs(Tcal)>abs(Ttab),paste(
"Como |Tcal|>|Ttab| Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
), paste(
"Como |Tcal|<|Ttab| Não Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
))
ConclusaoT

## [1] "Como |Tcal|<|Ttab| Não Rejeita-se H0 ao nível de 0.05 de significância"

#Logo, o processo está fora de controle!
(pvalor <- pt(Tcal, df = gl, lower.tail = TRUE))

## [1] 0.1473741

ConclusaoT <- ifelse(pvalor>alpha,paste(
"Como p-valor>", alpha, " Não Rejeita-se H0"
), paste(
"Como p-valor<", alpha, " Rejeita-se H0")
)
ConclusaoT

## [1] "Como p-valor> 0.05  Não Rejeita-se H0"

Suponha que o tempo necessário para que estudantes completem uma prova tenha distribuição normal com média 90 minutos e desvio padrão 15 minutos.

Qual é a probabilidade do estudante terminar a prova em menos de 80 minutos?

(pMenor80 <- pnorm(80, mean = 90, sd = 15, lower.tail = TRUE))

## [1] 0.2524925

Em mais de 120 minutos?

(pMaior120 <- pnorm(120, mean = 90, sd = 15, lower.tail = FALSE))

## [1] 0.02275013

Entre 75 e 85 minutos?

(pIgual75 <- pnorm(75, mean = 90, sd = 15, lower.tail = FALSE))-(pIgual85 <- pnorm(85, mean = 90, sd = 15, lower.tail = FALSE))

## [1] 0.2107861

Qual é o tempo necessário para que 98% dos estudantes terminem a prova?

qnorm(0.98, mean = 90, sd = 15)

## [1] 120.8062

Uma v.a. X tem distribuição normal, com média 100 e desvio padrão 10.

Qual a $P(90 < X < 110)?$

pnorm(110, mean = 100, sd = 10)-pnorm(90, mean = 100, sd = 10)

## [1] 0.6826895

Se $\bar{X}$ for a média de uma amostra de 16 elementos retirados dessa população, calcule $P(90 < \bar{X} < 110).$

sigma <- 10/sqrt(n)

pnorm(110, mean = 100, sd = sigma)-pnorm(90, mean = 100, sd = sigma)

## [1] 0.9984346

Represente, num único gráfico, as distribuições de $X$ e $\bar{X}$.

n <- 16
x <- seq(-50, 150, length=1000)
mu <- 100
sigma <- 10/sqrt(n)
z <- dnorm(x, mean = 100, sd = 10)
colors <- "blue"
plot(x, z, type="l", lty=2, xlab="x", ylim = c(0,0.2),
    ylab="Densidade", main="Comparação de distribuições normais")
lines(x, dnorm(x,mu,sigma), lwd=2, col=colors)

Que tamanho deveria ter a amostra para que $P(90 < \bar{X}< 110) = 0, 95?$

$P(P(90 < \bar{X}< 110) = P\Big(\frac{90-\mu}{\frac{\sigma}{\sqrt{n}}}< \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}< \frac{110-\mu}{\frac{\sigma}{\sqrt{n}}}\Big )=P(-\sqrt{n}<Z<\sqrt{n})=0.95\Rightarrow \sqrt{n}=1.96;$

Para que $P(90 < \bar{X}< 110) = 0, 95?$ devemos ter $n\approx$ 3.8416

Nas situações abaixo, escolha como hipótese nula, $H_0,$ aquela que para você leva a um erro tipo I mais importante. Descreva quais os dois erros em cada caso.

O trabalho de um operador de radar é detectar aeronaves inimigas. Quando surge alguma coisa estranha na tela, ele deve decidir entre as hipotéses:

está começando um ataque;
tudo bem, apenas uma leve interferência.

Num júri, um indivíduo está sendo julgado por um crime. As hipóteses sujeitas ao júri são:

o acusado é inocente;
o acusado é culpado.

$H_{0}:$o acusado é inocente

Rejeitar $H_{0}$ e ela ser verdadeira, significa que, estamos afirmando ser culpada uma pessoa inocente. Acredito que é mais importante ter certeza que uma pessoa inocente será considerada inocente do que uma pessoa culpada ser considerada inocente.

Um pesquisador acredita que descobriu uma vacina contra resfriado. Ele irá conduzir uma pesquisa de laboratório para verificar a veracidade da afirmação. De acordo com o resultado, ele lançará ou não a vacina no mercado. As hipóteses que pode testar são:

a vacina é eficaz;
a vacina não é eficaz.

Uma fábrica de automóveis anuncia que seus carros consomem, em média, 11 litros por 100 km, com desvio padrão de 0,8 litros. Uma revista resolve testar essa afirmação e analisa 35 automóveis dessa marca, obtendo 11,3 litros por 100 km como consumo médio (considerar distribução normal). O que a revista pode concluir sobre o anúncio da fábrica, no nível de $10\%$?

mu <- 11 #litros por 100 quilometro
sigma <- 0.8 #litros
n <- 35
xbarra <- 11.3 #litros por 100 quilometro
alpha <- 0.1
#H0:mu=11
#H1:mu!=11 (Teste Z bilateral)

#Estatística do Teste
Zcal <- (xbarra-mu)/(sigma/sqrt(n))
Zcal

## [1] 2.21853

Ztab <- qnorm(alpha, mean = 0, sd=1, lower.tail = FALSE)
Ztab

## [1] 1.281552

ConclusaoZ <- ifelse(abs(Zcal)>abs(Ztab),paste(
"Como |Zcal|>|Ztab| Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
), paste(
"Como |Zcal|<|Ztab| Não Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
))
ConclusaoZ

## [1] "Como |Zcal|>|Ztab| Rejeita-se H0 ao nível de 0.1 de significância"

pnormGC(c(qnorm(0.05), qnorm(0.05, lower.tail = F)), region="between", mean=0, sd=1, graph=TRUE)

## [1] 0.9

#Logo, o fabricante está mentindo!
(pvalor <- 2*pnorm(Zcal, lower.tail = FALSE))

## [1] 0.02651872

ConclusaoZ <- ifelse(pvalor>alpha,paste(
"Como p-valor>", alpha, " Não Rejeita-se H0"
), paste(
"Como p-valor<", alpha, " Rejeita-se H0")
)
ConclusaoZ

## [1] "Como p-valor< 0.1  Rejeita-se H0"

Duas máquinas, A e B, são usadas para empacotar pó de café. A experiência passada garante que o desvio padrão para ambas é de 10 g. Porém, suspeita-se que elas têm médias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da máquina A e outra com 16 pacotes da máquina B. As médias foram, respectivamente, $\bar{X}_{A} = 502, 74g$ e $\bar{X}_{B} = 496, 60g.$ Com esses números, e com o nível de $5\%$, qual seria a conclusão do teste $H_{0} : \mu_A = \mu_B?$

sigma <- 10
nA <- 25
nB <- 16
xAbarra <- 502.74
xBbarra <- 496.6
alpha <- 0.05
#H0:muA=MuB
#H1:muA!=muB (Teste-z bilateral)

#Estatística do Teste
Zcal <- (xAbarra-xBbarra)/(sqrt((sigma^2)*((1/nA)+(1/nB))))
Zcal

## [1] 1.917814

Ztab <- qnorm((alpha)/2, mean = 0, sd=1, lower.tail = FALSE)
Ztab

## [1] 1.959964

ConclusaoZ <- ifelse(abs(Zcal)>abs(Ztab),paste(
"Como |Zcal|>|Ztab| Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
), paste(
"Como |Zcal|<|Ztab| Não Rejeita-se H0 ao nível de"
, alpha ,
"de significância"
))
ConclusaoZ

## [1] "Como |Zcal|<|Ztab| Não Rejeita-se H0 ao nível de 0.05 de significância"

pnormGC(c(qnorm((alpha)/2), qnorm((alpha)/2, lower.tail = F)), region="between", mean=0, sd=1, graph=TRUE)

## [1] 0.95

#Logo, o fabricante está mentindo!
(pvalor <- 2*pnorm(Zcal, lower.tail = FALSE))

## [1] 0.05513463

ConclusaoZ <- ifelse(pvalor>alpha,paste(
"Como p-valor>", alpha, " Não Rejeita-se H0"
), paste(
"Como p-valor<", alpha, " Rejeita-se H0")
)
ConclusaoZ

## [1] "Como p-valor> 0.05  Não Rejeita-se H0"

Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais. Para verificar o efeito dos tratamentos, foram usadas amostras cujos resultados estão no quadro abaixo (em porcentagem de corrosão eliminada). Qual seria a conclusão sobre os dois tratamentos?

Método	Amostra	Média	Desvio Padrão
A	15	48	10
B	12	52	15

nA <- 15
nB <- 12
xAbarra <- 48
xBbarra <- 52
sA <- 10
sB <- 15
#H0:muA=muB
#H1:muA!=muB (Teste-t bilateral)
#Precisamos proceder antes do teste-T o teste-F.
#H0:SigmaA^2=SigmaB^2
#H1:SigmaA^2<SigmaB^2 (Teste unilateral)

(Fcal <- (sB^2)/(sA^2))

## [1] 2.25

(pvalor <- pf(q=Fcal, df1 = nB-1, df2 = nA-1))

## [1] 0.9224523

#Conclusao: Não rejeita-se H0 para todo alpha < pvalor. Assim, para realizar o teste - t, vamos considerar que as variâncias do método A 
#e método B são iguais (SigmaA^2=SigmaB^2). Dessa forma, procedemos 
# o teste-t para variâncias populacionais iguais.

#H0:muA=muB
#H1:muA!=muB (Teste-t bilateral)

#A <- (sA^2)/nA
#B <- (sB^2)/nB
#
#df <- ((A+B)^2)/(((A^2)/(nA-1))+((B^2)/(nB-1)))
df <- nA+nB-2  
Sc <- sqrt((((sA^2)*(nA-1))+((sB^2)*(nB-1)))/(nA+nB-2))  
#Estatística do Teste
Tcal <- (xAbarra-xBbarra)/(Sc*sqrt((1/nA)+(1/nB)))
Tcal

## [1] -0.8295614

(pvalor <- pt(Tcal, df = gl, lower.tail = TRUE))

## [1] 0.2141203

ConclusaoT <- "Não rejeita-se H0 para alpha menor que pvalor"

Para investigar a influência da opção profissional sobre o salário inicial de recém-formados, investigaram-se dois grupos de profissionais: um de liberais em geral e outro de formandos em Administração de Empresas. Com os resultados abaixo, expressos em salários mínimos, quais seriam suas conclusões?

Liberais	6,6	10,3	10,8	12,9	9,2	12,3	7,0
Administradores	8,1	9,8	8,7	10,0	10,2	8,2	8,7

Li <- c(6.6, 10.3, 10.8, 12.9, 9.2, 12.3, 7.0)
Ad <- c(8.1, 9.8, 8.7, 10.0, 10.2, 8.2, 8.7, 10.1)
sd(Li)

## [1] 2.432909

sd(Ad)

## [1] 0.8876132

nLi <- length(Li)
nAd <- length(Ad)
#Teste-F
#H0:SigmaLi^2=SigmaAd^2
#H1:SigmaLi^2!=SigmaAd^2

var.test(Li, Ad, alternative = "two.sided")

## 
##  F test to compare two variances
## 
## data:  Li and Ad
## F = 7.5128, num df = 6, denom df = 7, p-value = 0.01768
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   1.467755 42.789180
## sample estimates:
## ratio of variances 
##           7.512844

print("Para alpha > p-value=0.01768 rejeita-se H0, logo, devemos proceder o teste-t para variâncias desiguais.")

## [1] "Para alpha > p-value=0.01768 rejeita-se H0, logo, devemos proceder o teste-t para variâncias desiguais."

#H0:muLi=muAd
#H1:muLi!=muAd

t.test(Li, Ad, alternative = "two.sided", var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  Li and Ad
## t = 0.6653, df = 7.393, p-value = 0.5261
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.626575  2.919433
## sample estimates:
## mean of x mean of y 
##  9.871429  9.225000

print("Para alpha menor do que p-value=0.5261, não rejeita-se H0. Ou seja nesse caso, as médias salariais são iguais.")

## [1] "Para alpha menor do que p-value=0.5261, não rejeita-se H0. Ou seja nesse caso, as médias salariais são iguais."

Os dados abaixo referem-se a medidas de determinada variável em 19 pessoas antes e depois de uma cirurgia. Verifique se as medidas pré e pós-operatórias apresentam a mesma média. Que suposições você faria para resolver o problema?

Pessoas	Pré	Pós	Pessoas	Pré	Pós
1	50,0	42,0	10	40,0	50,0
2	50,0	42,0	11	50,0	48,0
3	50,0	78,0	12	75,0	52,0
4	87,5	33,0	13	92,5	74,0
5	32,5	96,0	14	38,0	47,5
6	35,0	82,0	15	46,5	49,0
7	40,0	44,0	16	50,0	58,0
8	45,0	31,0	17	30,0	42,0
9	62,5	87,0	18	35,0	60,0
10			19	39,4	28,0

Pre <- c(50.0,50.0,50.0,87.5,32.5,35.0,40.0,45.0,62.5,40.0,50.0,75.0,92.5,38.0,46.5,50.0,30.0,35.0,39.4)
Pos <- c(42.0,42.0,78.0,33.0,96.0,82.0,44.0,31.0,87.0,50.0,48.0,52.0,74.0,47.5,49.0,58.0,42.0,60.0,28.0)
Dif <- Pre-Pos
sd(Dif)

## [1] 26.35174

mean(Dif)

## [1] -4.978947

#H0:muDif=0
#H1:muDif!=0

t.test(Dif, alternative = "two.sided")

## 
##  One Sample t-test
## 
## data:  Dif
## t = -0.82358, df = 18, p-value = 0.421
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -17.680077   7.722183
## sample estimates:
## mean of x 
## -4.978947

print("Não rejeita-se H0 ao nível de 5% de significância, pois pvalor é maior que alpha=0.05")

## [1] "Não rejeita-se H0 ao nível de 5% de significância, pois pvalor é maior que alpha=0.05"

Como a variância da diferença entre os valores Pré e Pós-Operatório do exercício é muito alta, nós não rejeitamos H0, mesmo observando um valor bem diferente de 0. Para corrigir o teste e/ou rejeitarmos H0 com um valor de média tão discrepante de 0, precisamos corrigir a variabilidade da diferente entre o pré e o pós-operatório.

Uma empresa deseja estudar o efeito de uma pausa de dez minutos para um cafezinho sobre a produtividade de seus trabalhadores. Para isso, sorteou seis operários, e contou o número de peças produzidas durante uma semana sem intervalo e uma semana com intervalo. Os resultados sugerem se há ou não melhora na produtividade? Caso haja melhora, qual deve ser o acréscimo médio de produção para todos os trabalhadores da fábrica?

Operário	1	2	3	4	5	6
Sem intervalo	23	35	29	33	43	32
Com intervalo	28	38	29	37	42	30

SemIntervalo <- c(23, 35, 29, 33, 43, 32)
ComIntervalo <- c(28, 38, 29, 37, 42, 30)
Dif <- ComIntervalo-SemIntervalo
sd(Dif)

## [1] 2.880972

mean(Dif)

## [1] 1.5

#H0:muDif=0
#H1:muDif!=0

t.test(Dif, alternative = "two.sided")

## 
##  One Sample t-test
## 
## data:  Dif
## t = 1.2753, df = 5, p-value = 0.2582
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -1.523395  4.523395
## sample estimates:
## mean of x 
##       1.5

## 
##  One Sample t-test
## 
## data:  Dif
## t = 1.2753, df = 5, p-value = 0.2582
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -1.523395  4.523395
## sample estimates:
## mean of x 
##       1.5

print("Não rejeita-se H0 ao nível de 5% de significância, pois pvalor é maior que alpha=0.05. logo existe a melhora quando a pausa é feita. Nesse caso a quantidade o acréscimo médio da produção deve ser de 1.5 peças")

## [1] "Não rejeita-se H0 ao nível de 5% de significância, pois pvalor é maior que alpha=0.05. logo existe a melhora quando a pausa é feita. Nesse caso a quantidade o acréscimo médio da produção deve ser de 1.5 peças"

Num levantamento feito com os operários da indústria mecânica, chegou-se aos seguintes números: salário médio = 3,64 salários mínimos e desvio padrão = 0,85 salário mínimo. Suspeita-se que os salários de subclasse formada pelos torneiros mecânicos são diferentes dos salários do conjunto todo, tanto na média como na variância. Que conclusões você obteria se uma amostra de 25 torneiros apresentasse salário médio igual a 4,22 salários mínimos e desvio padrão igual a 1,25 salário mínimo?

mu <- 3.64
sd <- 0.85

xbarra <- 4.22
s <- 1.25
n <- 25


print("Observa-se que não houve melhora na produtividade, pois encontrou-se um p-valor de 0,68.")

## [1] "Observa-se que não houve melhora na produtividade, pois encontrou-se um p-valor de 0,68."

Para verificar o grau de adesão de uma nova cola para vidros, preparam-se dois tipos de montagem: cruzado (A), onde a cola é posta em forma de X, e quadrado (B), onde a cola é posta apenas nas quatro bordas. Os resultados da resistência para as duas amostras de 10 cada estão abaixo. Que tipo de conclusão poderia ser tirada?

Método	A	16	14	19	18	19	20	15	18	17	18
Método	B	13	19	14	17	21	24	10	14	13	15

A <- c(16, 14, 19, 18, 19, 20, 15, 18, 17, 18)
B <- c(13, 19, 14, 17, 21, 24, 10, 14, 13, 15)

# primeiramente, testamos as variâncias do caso:
var.test(A, B, alternative = "two.sided")

## 
##  F test to compare two variances
## 
## data:  A and B
## F = 0.2, num df = 9, denom df = 9, p-value = 0.02507
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.04967717 0.80519883
## sample estimates:
## ratio of variances 
##                0.2

## 
##  F test to compare two variances
## 
## data:  a and b
## F = 0.2, num df = 9, denom df = 9, p-value = 0.02507
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.04967717 0.80519883
## sample estimates:
## ratio of variances 
##                0.2
# variâncias diferentes. logo, teste T com variâncias diferentes:
t.test(A, B, alternative = "two.sided", var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  A and B
## t = 0.95258, df = 12.462, p-value = 0.3589
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.789083  4.589083
## sample estimates:
## mean of x mean of y 
##      17.4      16.0

## 
##  Welch Two Sample t-test
## 
## data:  A and B
## t = 0.95258, df = 12.462, p-value = 0.3589
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.789083  4.589083
## sample estimates:
## mean of x mean of y 
##      17.4      16.0
print("Logo, conclui-se que não houve diferença na adesão quando as montagens possuem diferentes geometrias das colas.")

## [1] "Logo, conclui-se que não houve diferença na adesão quando as montagens possuem diferentes geometrias das colas."

Em um estudo para comparar os efeitos de duas dietas, A e B, sobre o crescimento, 6 ratos foram submetidos à dieta A, e 9 ratos à dieta B. Após 5 semanas, os ganhos em peso foram:

Dieta A	15	18	12	11	14	15
Dieta B	11	11	12	16	12	13	8	10	13

dietaA <- c(15, 18, 12, 11, 14, 15)
dietaB <- c(11, 11, 12, 16, 12, 13, 8, 10, 13)

# primeiro, testamos as variâncias
var.test(dietaA, dietaB, alternative = "two.sided")

## 
##  F test to compare two variances
## 
## data:  dietaA and dietaB
## F = 1.2472, num df = 5, denom df = 8, p-value = 0.7425
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.2588997 8.4274842
## sample estimates:
## ratio of variances 
##           1.247191

## 
##  F test to compare two variances
## 
## data:  dietaA and dietaB
## F = 1.2472, num df = 5, denom df = 8, p-value = 0.7425
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.2588997 8.4274842
## sample estimates:
## ratio of variances 
##           1.247191
# variâncias iguais. logo, teste T com variâncias iguais:
t.test(dietaA, dietaB, alternative = "two.sided", var.equal = TRUE)

## 
##  Two Sample t-test
## 
## data:  dietaA and dietaB
## t = 1.9479, df = 13, p-value = 0.07335
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.2605688  5.0383466
## sample estimates:
## mean of x mean of y 
##  14.16667  11.77778

## 
##  Two Sample t-test
## 
## data:  dietaA and dietaB
## t = -0.41845, df = 10, p-value = 0.6845
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -9.487186  6.487186
## sample estimates:
## mean of x mean of y 
##      32.5      34.0
print("Conclui-se que não houve diferença no efeito das duas dietas.")

## [1] "Conclui-se que não houve diferença no efeito das duas dietas."

Admitindo que temos duas amostras independentes de populações normais, teste a hipótese de que não há diferença entre as duas dietas, contra a alternativa que a dieta A é mais eficaz, usando o teste t de Student, no nível de $\alpha = 0, 01.$

#H0: muA = muB
#H1: muA > muB
x = c(15, 18, 12, 11, 14, 15)
y = c(11, 11, 12, 16, 12, 13, 8, 10, 13)
xAbarra = mean(x)
xBbarra = mean(y)
nA = 6
nB = 9
sA = sd(x)
sB = sd(y)
alpha = 0.01
#teste-F (desvio populacional desconhecido)
#H0:SigmaA^2 = SigmaB^2
#H1:SigmaA^2 < SigmaB^2
Fcal = (sB^2)/(sA^2)
Fcal

## [1] 0.8018018

Ftab = qf(alpha,nB-1,nA-1)
Ftab

## [1] 0.1507881

ConclusaoF <- ifelse(Fcal>Ftab,paste("Como Fcal>Ftab Rejeita-se H0 ao nível de", alpha ,"de significância"), paste("Como Fcal<Ftab Não Rejeita-se H0 ao nível de", alpha ,"de significância"))
ConclusaoF

## [1] "Como Fcal>Ftab Rejeita-se H0 ao nível de 0.01 de significância"

# A variância das populações são diferentes.

#teste-t
#H0:muA = muB
#H1:muA > muB
Tcal = (xAbarra-xBbarra)/sqrt(((sA^2)/nA)+((sB^2)/nB))
Tcal

## [1] 1.902208

A <- (sA^2)/nA
B <- (sB^2)/nB
df = ((A+B)^2)/(((A^2)/(nA-1))+((B^2)/(nB-1)))
(df = round(df, digits = 0))

## [1] 10

df

## [1] 10

Ttab <- qt(alpha/2, df)
Ttab

## [1] -3.169273

ConclusaoT <- ifelse(abs(Tcal)>abs(Ttab),paste("Como |Tcal|>|Ttab| Rejeita-se H0 ao nível de", alpha ,"de significância"), paste("Como |Tcal|<|Ttab| Não Rejeita-se H0 ao nível de", alpha,"de significância"))
ConclusaoT

## [1] "Como |Tcal|<|Ttab| Não Rejeita-se H0 ao nível de 0.01 de significância"

Suponha que o tempo necessário para atendimento de clientes em uma central de atendimento telefônico siga uma distribuição normal de média de 8 minutos e desvio padrão de 2 minutos.

Qual é a probabilidade de que um atendimento dure menos de 5 minutos?

mu = 8
sigma = 2

x = 5
zcal5 = (x-mu)/sigma
zcal5

## [1] -1.5

x = 0
zcal0 = (x-mu)/sigma
zcal0

## [1] -4

P = pnorm(zcal5) - pnorm(zcal0)
P

## [1] 0.06677553

E mais do que 9,5 minutos?

mu = 8
sigma = 2

x = 9.5
zcal9.5 = (x-mu)/sigma
zcal9.5

## [1] 0.75

P = 1 - pnorm(zcal9.5)
P

## [1] 0.2266274

E entre 7 e 10 minutos?

mu = 8
sigma = 2

x = 7
zcal7 = (x-mu)/sigma
zcal7

## [1] -0.5

x = 10
zcal10 = (x-mu)/sigma
zcal10

## [1] 1

P = pnorm(zcal10) - pnorm(zcal7)
P

## [1] 0.5328072

7$5\%$ das chamadas telefônicas requerem pelo menos quanto tempo de atendimento?

mu = 8
sigma = 2

ztab = qnorm(0.75)
ztab

## [1] 0.6744898

x = mu + (sigma*ztab)
x

## [1] 9.34898

A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição Normal, com média 5 kg e desvio padrão 0,9 kg. Um abatedouro comprará 5000 coelhos e pretende classificá-los de acordo com o peso do seguinte modo: 1$5\%$ dos mais leves como pequenos, os $50\%$ seguintes como médios, os $20\%$ seguintes como grandes e os 1$5\%$ mais pesados como extras. Quais os limites de peso para cada classificação?

mu <- 5
sigma <- 0.9
n <- 5000

pnorm(6, mean = 5, sd = 0.9, lower.tail = F)

## [1] 0.1332603

qnorm(0.9, mean = 5, sd = 0.8, lower.tail = TRUE)

## [1] 6.025241

pnorm(4.06721, mean = 5, sd = 0.9, lower.tail = TRUE)

## [1] 0.15

qnorm(0.65, mean = 5, sd = 0.9, lower.tail = TRUE)

## [1] 5.346788

Uma enchedora automática de refrigerantes está regulada para que o volume médio de líquido em cada garrafa seja de $1000cm^{3}$ e desvio padrão de $10m^{3}.$ Admita que o volume siga uma distribuição normal.

Qual é a porcentagem de garrafas em que o volume de líquido é menor que $990cm^{3}?$
Qual é a porcentagem de garrafas em que o volume de líquido não se desvia da média em mais do que dois desvios padrões?

mu = 1000
sigma = 10
#a)  Qual é a porcentagem de garrafas em que o volume de líquido é menor que 990cm3?
#mu - sigma = 34%
#A porcentagem de garrafas menores que 990 mL são de 34%

#b) Qual é a porcentagem de garrafas em que o volume de líquido não se desvia da média em mais do que dois desvios padrões?
#A porcentagem de garrafas que não se desviam mais que mu+2sigma é 95%

Uma empresa produz televisores de 2 tipos, tipo A (comum) e tipo B (luxo), e garante a restituição da quantia paga se qualquer televisor apresentar defeito grave no prazo de seis meses. O tempo para ocorrência de algum defeito grave nos televisores tem distribuição normal sendo que, no tipo A, com média de 10 meses e desvio padrão de 2 meses e no tipo B, com média de 11 meses e desvio padrão de 3 meses. Os televisores de tipo A e B são produzidos com lucro de 1200 u.m. e 2100 u.m. respectivamente e, caso haja restituição, com prejuízo de 2500 u.m. e 7000 u.m. Respectivamente.

Calcule as probabilidades de haver restituição nos televisores do tipo A e do tipo B.

mu_a <- 10
dp_a <- 2
mu_b <- 11
dp_b <- 3

l_a <- 1200
l_b <- 2100

p_a <- -2500
p_b <- -7000

# A
pnorm(6, mean = mu_a, sd = dp_a, lower.tail = TRUE)

## [1] 0.02275013

# B
pnorm(6, mean = mu_b, sd = dp_b, lower.tail = TRUE)

## [1] 0.04779035

Calcule o lucro médio para os televisores do tipo A e para os televisores do tipo B.Baseando-se nos lucros médios, a empresa deveria incentivar as vendas dos aparelhos do tipo A ou do tipo B?

# Lucro médio = lucro * P(lucro) + prejuízo * P(prejuízo)

# A
lucro_a <- l_a * (1 - pnorm(6, mean = mu_a, sd = dp_a, lower.tail = TRUE)) + p_a * pnorm(6, mean = mu_a, sd = dp_a, lower.tail = TRUE)

# B
lucro_b <- l_b * (1 - pnorm(6, mean = mu_b, sd = dp_b, lower.tail = TRUE)) + p_b * pnorm(6, mean = mu_b, sd = dp_b, lower.tail = TRUE)

print(lucro_a)

## [1] 1115.825

print(lucro_b)

## [1] 1665.108

# A empresa deveria incentivar as vendas dos televisores do tipo B.

Um estudo comparou dois métodos (A e B) para ensinar matemática a alunos do primeiro grau. Após 10 semanas, o desempenho dos alunos foi avaliado em um teste. Teste a hipótese de que o método A resulta num melhor desempenho médio, ao nível $\alpha=5\%$, com base nos resultados da tabela a seguir:

Método	Número de alunos	Média das notas	Desvio padrão das notas
A	10	8.15	1.15
B	8	7.31	1.94

n <- 10
n_a <- 10
n_b <- 8

mu_a <- 8.15
mu_b <- 7.31

dp_a <- 1.15
dp_b <- 1.94

# teste de variâncias
Fcal = (dp_a ^ 2) / (dp_b ^2)

pf(Fcal, n_a - 1, n_b - 1, lower.tail = TRUE)

## [1] 0.07326077

# variâncias iguais a 5%.
# teste t com variâncias iguais:

gl <- nA + nB - 2
Sc <- sqrt((((sA^2)*(nA - 1))+((sB^2)*(nB - 1)))/gl)

Tcal <- (mu_a - mu_b)/(Sc*sqrt((1/nA)+(1/nB)))

(pvalor <- pt(Tcal, df = gl, lower.tail = TRUE))

## [1] 0.7472932

print("Não deve-se rejeitar a hipótese nula de que os métodos têm o mesmo desempenho.")

## [1] "Não deve-se rejeitar a hipótese nula de que os métodos têm o mesmo desempenho."

A lei trabalhista estabelece que o pagamento diário mínimo deve ser de 13, 20 U.M. (unidades monetárias). Assuma distribuição normal com desvio padrão igual a 2,0 U.M. Uma amostra aleatória de 40 trabalhadores de uma firma revelou média diária de 12,20 U.M .Esta firma deve ser acusada de estar infringindo a lei? Conclua a $1\%$ de probabilidade.

mu <- 13.2
dp <- 2
n <- 40
xbarra <- 12.2

Tcal <- (xbarra - mu) / (dp / sqrt(n))

(pvalor <- pt(Tcal, df = n - 1, lower.tail = TRUE))

## [1] 0.001513711

print("Não podemos acusar a firma de infringir a lei, pois não podemos rejeitar H0 a 1%.")

## [1] "Não podemos acusar a firma de infringir a lei, pois não podemos rejeitar H0 a 1%."

A tabela a seguir mostra a frequência de acidentes automobilísticos por ano, de acordo com a faixa etária (idade) do motorista, para motoristas com idade inferior a 25 anos. Teste a hipótese de que o número de acidentes independe da idade, a $5\%$ de probabilidade. Isto é, teste a hipótese de que o número anual de acidentes se distribui proporcionalmente nas faixas etárias. A tabela abaixo apresenta o percentual de motoristas em cada faixa etária.

% de motoristas	10	20	20	25	25
idade (anos)	15-16	17-18	19-20	21-22	23-24
número de acidentes	8	15	13	11	8

alpha <- 0.05
(TotalAcidentes <- 8+15+13+11+8)

## [1] 55

Obs <- c(8,15,13,11,8)
#H0:O percentual de acidentes independe da idade
#H1:Não H0
XiQuad <- chisq.test(Obs, p = c(0.1,0.2,0.2,0.25,0.25))
XiQuad

## 
##  Chi-squared test for given probabilities
## 
## data:  Obs
## X-squared = 5.9091, df = 4, p-value = 0.206

Uma indústria farmacêutica conduziu um estudo para avaliar o tempo médio em dias para recuperação dos efeitos da gripe. O estudo comparou o tempo de indivíduos que tomaram 500 mg diárias de vitamina C, contra indivíduos que não tomaram vitamina C (nenhum suplemento). Com base nos dados a seguir, conclua e interprete a $5\%$ de probabilidade.

	Nenhum suplemento 500mg	Vit. C
Tamanho da amostra	12	12
Tempo médio	7,4	5,8
Variâncias	2,9	2,4

# A = tomaram
# B = não tomaram

na <- 12
nb <- 12
xa <- 7.4
xb <- 5.8
vara <- 2.9
varb <- 2.4

sda <- sqrt(vara)
sdb <- sqrt(varb)

Fcal <- (vara)/(varb)
pf(Fcal, na - 1, nb - 1)

## [1] 0.6204097

# variâncias iguais,
# realizamos teste t com variâncias iguais

gl <- na + nb - 2
Sc <- sqrt((((sda^2)*(na - 1))+((sdb^2)*(nb - 1)))/gl)

Tcal <- (xb - xa)/(Sc*sqrt((1/na)+(1/nb))) # B - A: tempo de quem tomou, menos tempo de quem não tomou (a diferença tem de ser negativa)

(pvalor <- pt(Tcal, df = gl, lower.tail = TRUE))

## [1] 0.01244463

print("Podemos afirmar que houve melhoria dentre os pacientes que tomaram vitamina C, ao nível de 5%.")

## [1] "Podemos afirmar que houve melhoria dentre os pacientes que tomaram vitamina C, ao nível de 5%."

Um pesquisa de opinião entrevistou 50 pessoas em dois distritos. O objetivo era verificar se a distribuição das opiniões era homogênea nos dois distritos. Com base nos dados da tabela, teste a hipótese de homogeneidade de opiniões usando $\alpha=5\%$.

	Sim	Indeciso	Não	Total
Distrito A	20	9	21	50
Distrito B	26	3	21	50
Total	46	12	42	100

Fobs <- data.frame(Distrito=c("Distrito A", "Distrito B"), Sim=c(20,26),
                   Indeciso=c(9,3), Nao=c(21,21), row.names = TRUE)

#H0: As opiniões são homogêneas
#H1: Não H0

chisq.test(Fobs, correct = TRUE)

## 
##  Pearson's Chi-squared test
## 
## data:  Fobs
## X-squared = 3.7826, df = 2, p-value = 0.1509

Uma associação comercial afirma que o número médio de dias de trabalho perdidos anualmente, devido a problemas de saúde, é igual a 60. Uma extensa campanha educacional visando a conscientizar os trabalhadores quanto a importância de uma alimentação balanceada, higiene pessoal, prática de esportes etc, foi conduzida com o intuito de melhorar este quadro. Um ano após esta campanha, um estudo com 30 trabalhadores forneceu média igual a 55 dias. Assuma que o número de dias de trabalho perdidos anualmente é normalmente distribuído com variância $\sigma^{2}=275$. Pede-se:

Pode-se afirmar que a campanha foi eficaz ao nível de $\alpha= 1\%$ de probabilidade?

mu <- 60
n <- 30
xbarra <- 55
var <- 275
sd <- sqrt(var)

Tcal <- (xbarra - mu) / (sd / sqrt(n))

(pt(Tcal, df = n - 1, lower.tail = TRUE))

## [1] 0.05471847

print("Ao nível de 1% não é possível rejeitar a hipótese nula de que a campanha não foi eficaz.")

## [1] "Ao nível de 1% não é possível rejeitar a hipótese nula de que a campanha não foi eficaz."

Para qual nível de significância se pode afirmar que a campanha educacional foi eficaz?

(pt(Tcal, df = n - 1, lower.tail = TRUE))

## [1] 0.05471847

print("Para o nível de 5,4%.")

## [1] "Para o nível de 5,4%."

Um gerente comercial acredita que um número excessivo de horas estejam sendo desperdiçadas em contatos comerciais, via telefone, entre os seus vendedores e os clientes em potencial. Ele deseja no máximo quinze horas por semana por vendedor. Este gerente comercial contratou uma empresa especializada para treinar seus vendedores. Após este treinamento, uma amostra de 36 vendedores revelou média igual a 17h por semana por vendedor. O que pode ser concluído quanto a eficácia do treinamento? Assuma $\sigma^{2}=9$ e utilize $\alpha=5\%$.

mu <- 15
n <- 36
xbarra <- 17
var <- 9
sd <- sqrt(var)

Tcal <- (xbarra - mu) / (sd / sqrt(n))

(pt(Tcal, df = n - 1, lower.tail = FALSE))

## [1] 0.0001561009

print("Pode-se concluir que houve mudança significativa após o treinamento, só que para pior: os vendedores passaram a desperdiçar ainda mais horas em contatos comerciais.")

## [1] "Pode-se concluir que houve mudança significativa após o treinamento, só que para pior: os vendedores passaram a desperdiçar ainda mais horas em contatos comerciais."

Com base em dados obtidos de 400 mulheres, apresentados na tabela abaixo, pode-se concluir que o nível educacional e a adaptação à vida conjugal são independentes? Conclua a $5\%$ de probabilidade.

Nível educacional	ruim	razoável	boa	muito boa
Universidade	18	29	70	115
2º grau	17	28	30	41
3º grau	11	10	11	20

Fobs <- data.frame(Educação = c("Universidade", "2º grau", "3º grau"), 
                   Ruim = c(18, 17, 11),
                   Razoável = c(29, 28, 10),
                   Boa = c(70, 30, 11),
                   Muito_boa = c(115, 41, 20),
                   row.names = TRUE)

#H0: nível educacional e adaptação à vida conjugal são independentes
#H1: Não H0

chisq.test(Fobs, correct = TRUE)

## 
##  Pearson's Chi-squared test
## 
## data:  Fobs
## X-squared = 19.943, df = 6, p-value = 0.002835

print("As variáveis são consideradas dependentes, pois encontramos um p-valor de 0.002, abaixo da significância de 5%.")

## [1] "As variáveis são consideradas dependentes, pois encontramos um p-valor de 0.002, abaixo da significância de 5%."

Uma cooperativa de produtores possui uma máquina de encher vasilhame com um litro de leite. Para assegurar que em média cada vasilhame não terá leite a mais e nem a menos, o responsável pelo controle de qualidade amostra, semanalmente, 75 vasilhames enchidos pela máquina. Se uma amostra fornecer 63, 97 litros e desvio padrão $s = 0, 25$ litros, deve-se parar a máquina para regulagem ou continuar a produção? Qual deve ser o procedimento adotado a $\alpha=5\%$ de probabilidade?

mu <- 1
n <- 75
xbarra <- 63.97/75
s <- 0.25

Tcal <- (xbarra - mu) / (s / sqrt(n))

(pt(Tcal, df = n - 1, lower.tail = TRUE))

## [1] 1.292756e-06

print("A 5% de probabilidade, devemos parar a máquina para regulagem pois ela está enchendo vasilhames com média diferente de 1L.")

## [1] "A 5% de probabilidade, devemos parar a máquina para regulagem pois ela está enchendo vasilhames com média diferente de 1L."

A renda média de famílias com 4 pessoas na região sudeste do Brasil, no ano de 1975, era de 5 U.M. Economistas acreditam que atualmente a renda média é maior. Pede-se,

Quais seriam as hipóteses estatísticas (H0 e Ha), para se tentar provar que atualmente a renda média é maior do que em 1975?

# H0: renda = 5 U.M.
# Ha: renda > 5 U.M.

Quais são as informações necessárias para se realizar um teste Z?

# Para realizar um teste Z é preciso termos uma amostra consideravelmente grande, maior do que 30, para obter sua média amostral e a variância populacional.

Quais são as informações necessárias para se realizar um teste t?

# Para realizar um teste t basta termos uma amostra, não necessariamente grande, e computarmos sua média e variância.

Explique os dois possíveis erros (erro tipo I e erro tipo II) de decisão que podem ocorrer neste exemplo?

# Erro tipo 1: rejeitar H0 quando verdadeira, ou seja, informar que a renda teve aumento quando ela se manteve igual.
# Erro tipo 2: não rejeitar H0 quando ela é falsa, ou seja, dizer que a renda manteve-se igual quando na verdade ela teve aumento.

Assuma que o consumo mensal per capita de determinado produto tem distribuição normal com desvio padrão igual a 5 kg. Com a atual crise (do dólar, do apagão, do futebol…várias opções!) o departamento de vendas da fábrica decidiu que irá retirar o produto do mercado, caso o consumo médio $(\mu)$ per capita seja inferior a 10kg. Se uma pesquisa de mercado, com uma amostra de 100 indivíduos, revelar consumo médio mensal per capita de 9 kg, pede-se: Qual deve ser a afirmação, ao nível de significância de $1, 5\%?$

sd <- 5
mu <- 10
n <- 100
xbarra <- 9

Zcal <- (xbarra - mu) / (sd / sqrt(n))

(pnorm(Zcal, lower.tail = TRUE))

## [1] 0.02275013

print("Ao nível de 1.5% não deve-se rejeitar a H0 de que o consumo médio per capita é de 10kg.")

## [1] "Ao nível de 1.5% não deve-se rejeitar a H0 de que o consumo médio per capita é de 10kg."

No quadro abaixo estão as opiniões, com respeito ao desempenho e a potência do motor, de proprietários de veículos de um determinado fabricante. As opiniões foram classificadas pela idade do proprietário.

Idade	Ruim	Bom
Jovem	30	20
Experiente	20	30

O que pode ser afirmado quanto à seguinte hipótese de nulidade? H0 : Idade e opinião são independentes.

Fobs <- data.frame(Idade = c("Jovem", "Experiente"), 
                   Ruim = c(30, 20),
                   Bom = c(20, 30), 
                   row.names = TRUE)

#H0: Idade e opinião são independentes
#H1: Não H0

chisq.test(Fobs, correct = TRUE)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  Fobs
## X-squared = 3.24, df = 1, p-value = 0.07186

print("Afirmamos que Idade e opinião são independentes")

## [1] "Afirmamos que Idade e opinião são independentes"

Para comparar duas marcas de pará-choques, montaram-se seis de cada marca em 12 carros compactos, fazendo-se cada carro colidir com um muro de concreto, a uma velocidade de 40 km Registraram-se os seguintes custos de reparo:

Pára-choque	Custo (R$)	Média	Variância
A	320 310 380 360 320 345	339,17	744,17
B	305 290 340 315 280 305	305,80	434,17

Teste ($\alpha=5\%$) a hipótese de igualdade entre os custos médios de reparo dos pará-choques.

a <- c(320, 310, 380, 360, 320, 345)
b <- c(305, 290, 340, 315, 280, 305)

# testando variâncias
var.test(a, b, alternative = "two.sided")

## 
##  F test to compare two variances
## 
## data:  a and b
## F = 1.714, num df = 5, denom df = 5, p-value = 0.5687
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   0.2398433 12.2489808
## sample estimates:
## ratio of variances 
##           1.714012

# variâncias iguais. teste t com variâncias iguais
t.test(a, b, alternative = "two.sided", var.equal = TRUE)

## 
##  Two Sample t-test
## 
## data:  a and b
## t = 2.3786, df = 10, p-value = 0.03871
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   2.108458 64.558208
## sample estimates:
## mean of x mean of y 
##  339.1667  305.8333

print("Ao nível de 5% há diferença entre os custos, sendo A o mais caro.")

## [1] "Ao nível de 5% há diferença entre os custos, sendo A o mais caro."

Se um dado não é viciado cada uma das seis faces ocorre com igual probabilidade. Um determinado dado foi lançado 720 vezes, obtendo-se:

Face	1	2	3	4	5	6	Total
Frequência observada	129	107	98	132	136	118	720

O dado será considerado viciado para qual nível de significância? Explique sua resposta.

Fobs <- data.frame(Face = c("1", "2", "3", "4", "5", "6"), 
                   Frequência_obs = c(129, 107, 98, 132, 136, 118),
                   Frequência_esperada = c(120, 120, 120, 120, 120, 120), 
                   row.names = TRUE)

#H0: dado não viciado
#H1: Não H0

chisq.test(Fobs, correct = TRUE)

## 
##  Pearson's Chi-squared test
## 
## data:  Fobs
## X-squared = 4.8782, df = 5, p-value = 0.4309

print("O dado será considerado viciado para o nível de significância 43.09%")

## [1] "O dado será considerado viciado para o nível de significância 43.09%"

O tempo médio, por operário, para executar uma tarefa, tem sido 100 minutos. Introduziu-se uma modificação para diminuir esse tempo, e, após certo período, sorteou-se uma amostra de 16 operários, medindo-se o tempo de execução de cada um. O tempo médio da amostra foi 85 minutos, e o desvio padrão foi 12 minutos. Estes resultados trazem evidências estatísticas da melhora desejada, considerando $\alpha=5\%$? Apresente as suposições teóricas usadas para resolver problema.

mu <- 100
n <- 16
xbarra <- 85
s <- 12

Tcal <- (xbarra - mu) / (s/sqrt(n))

(pt(Tcal, df = n - 1, lower.tail = TRUE))

## [1] 7.918476e-05

print("Nota-se que existe evidência estatística o suficiente para afirmar que a melhora ocorreu após tal modificação.Assumiu-se que o comportamento da população pode ser modelado por uma distribuição T-Student, por compreender uma amostra pequena e ter sido utilizado a variância amostral no cálculo.")

## [1] "Nota-se que existe evidência estatística o suficiente para afirmar que a melhora ocorreu após tal modificação.Assumiu-se que o comportamento da população pode ser modelado por uma distribuição T-Student, por compreender uma amostra pequena e ter sido utilizado a variância amostral no cálculo."

Bibliografia:

https://www.inf.ufsc.br/~andre.zibetti/probabilidade/teste-de-hipoteses.html

https://support.minitab.com/pt-br/minitab/20/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/null-and-alternative-hypotheses/#:~:text=A%20hip%C3%B3tese%20nula%20%C3%A9%2C%20muitas,an%C3%A1lises%20anteriores%20ou%20conhecimentos%20especializados.&text=A%20hip%C3%B3tese%20alternativa%20afirma%20que,valor%20hipot%C3%A9tico%20na%20hip%C3%B3tese%20nula.

https://support.minitab.com/pt-br/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/type-i-and-type-ii-error/

https://toolbox.eupati.eu/glossary/nivel-de-significancia/?lang=pt-pt

Relatório III

Leonardo Roberto de Oliveira Júnior

2022-03-23

Lista de Testes de Hipóteses