Aula 09-11-2019

Exercício 01 Estatística

A autorização de despejo para uma indústria requer que a concentração média mensal de COD seja inferior a 50 mg/L. A indústria requer que isso seja interpretado como “50 mg/L está dentro do intervalo de confiança da média, que vai ser estimada a partir de 20 observações por mês”.

cod<-c(57, 60, 49, 50, 51, 60, 49, 53, 49, 56, 64, 60, 49,
52, 69, 40, 44, 38, 53, 66) #inserindo os dados
cod

##  [1] 57 60 49 50 51 60 49 53 49 56 64 60 49 52 69 40 44 38 53 66

Análise Exploratória dos dados

Importando e Verificando os dados

summary(cod)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   38.00   49.00   52.50   53.45   60.00   69.00

sort(cod)

##  [1] 38 40 44 49 49 49 49 50 51 52 53 53 56 57 60 60 60 64 66 69

Medidas de posição e dispersão

mean(cod)

## [1] 53.45

median(cod)

## [1] 52.5

var(cod)

## [1] 66.68158

sd(cod)

## [1] 8.165879

Visualizando a distribuição dos dados

boxplot(cod, main = "Boxplot" , ylab = "Concentração mensal COD (mg/L)", col="lightblue")

Teste e intervalo de confiança t-student (teste com alfa=5%)

t.test(cod,alternative = c("two.sided"),mu = 50, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  cod
## t = 1.8894, df = 19, p-value = 0.07419
## alternative hypothesis: true mean is not equal to 50
## 95 percent confidence interval:
##  49.62825 57.27175
## sample estimates:
## mean of x 
##     53.45

Teste e intervalo de confiança não-paramétrico de wilcoxon

wilcox.test(cod, mu = 50, conf.int=TRUE)

## Warning in wilcox.test.default(cod, mu = 50, conf.int = TRUE): cannot
## compute exact p-value with ties

## Warning in wilcox.test.default(cod, mu = 50, conf.int = TRUE): cannot
## compute exact confidence interval with ties

## Warning in wilcox.test.default(cod, mu = 50, conf.int = TRUE): cannot
## compute exact p-value with zeroes

## Warning in wilcox.test.default(cod, mu = 50, conf.int = TRUE): cannot
## compute exact confidence interval with zeroes

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  cod
## V = 139, p-value = 0.07905
## alternative hypothesis: true location is not equal to 50
## 95 percent confidence interval:
##  49.00001 58.00001
## sample estimates:
## (pseudo)median 
##       53.66572

A) Você concorda com a interpretação proposta pela indústria? Por que?

Não, porque ao analisar a concentração média mensal de COD (53.45 mg/L) está superior a 50mg/L.

B) Para as 20 observações seguintes, estaria a indústria em conformidade com a interpretação que você considerou adequada em a)?

Estaria, pois para as 20 observações de acordo com o intervalo de confiança apresentado (limite inferior de 49.62825 e limite superior 57.27175) e o teste de Wilcoxon (limite inferior de 49.00001 e limite superior 58.00001), mesmo estando dentro dos intervalos, verifica-se que a indústria está apresentando inconsistência com os padrões estabelecidos, estando fora da média de valores que a mesma deseja apresentar, então aceita-se H1. E através do desvio padrão sd = 8.165879 vê-se que os valores estão distantes do valor esperado pela indústria.

Exercício 2

Os seguintes dados foram obtidos a partir de medidas pareadas de nitrito em água e em águas residuais por eletrodo direto de íon-seletivo e um método colorimétrico. Os dois métodos apresentaram resultados similares?

ISE<- c ( 0.32, 0.36, 0.24, 0.11, 0.11, 0.44, 2.79, 2.99, 3.47 )
Cmetric <- c (0.36, 0.37, 0.21, 0.09, 0.11, 0.42, 2.77, 2.91, 3.52 )
ISE

## [1] 0.32 0.36 0.24 0.11 0.11 0.44 2.79 2.99 3.47

Cmetric

## [1] 0.36 0.37 0.21 0.09 0.11 0.42 2.77 2.91 3.52

Análise exploratória dos dados

summary(ISE)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.110   0.240   0.360   1.203   2.790   3.470

summary(Cmetric)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.090   0.210   0.370   1.196   2.770   3.520

sort(ISE)

## [1] 0.11 0.11 0.24 0.32 0.36 0.44 2.79 2.99 3.47

sort(Cmetric)

## [1] 0.09 0.11 0.21 0.36 0.37 0.42 2.77 2.91 3.52

Importando e verificando os dados

mean(ISE)

## [1] 1.203333

mean(Cmetric)

## [1] 1.195556

median(ISE)

## [1] 0.36

median(Cmetric)

## [1] 0.37

sd(ISE)

## [1] 1.424798

sd(Cmetric)

## [1] 1.421901

var(ISE)

## [1] 2.03005

var(Cmetric)

## [1] 2.021803

pnorm(ISE, mean = 1.203333, sd = 1.424798, lower.tail = TRUE, log.p = FALSE)

## [1] 0.2676385 0.2769599 0.2494825 0.2214338 0.2214338 0.2960663 0.8672764
## [8] 0.8950752 0.9441805

pnorm(Cmetric, mean = 1.195556, sd = 1.421901, lower.tail = TRUE, log.p = FALSE)

## [1] 0.2783893 0.2807550 0.2441154 0.2184261 0.2225963 0.2927268 0.8659138
## [8] 0.8860413 0.9489486

Gerando o gráfico boxplot

par(mfrow=c(1,2))
boxplot(ISE, main="ISE", ylab="Valor", col="red")
boxplot(Cmetric, main="Cmetric", ylab="Valor", col="blue")

Teste t para duas amostras independentes

t.test(ISE,Cmetric, paired = TRUE, var.equal = FALSE)

## 
##  Paired t-test
## 
## data:  ISE and Cmetric
## t = 0.5986, df = 8, p-value = 0.566
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.02218494  0.03774050
## sample estimates:
## mean of the differences 
##             0.007777778

Teste Wilcox para duas amostras independentes

wilcox.test(ISE, Cmetric, paired=TRUE, var.equal=FALSE)

## Warning in wilcox.test.default(ISE, Cmetric, paired = TRUE, var.equal =
## FALSE): cannot compute exact p-value with ties

## Warning in wilcox.test.default(ISE, Cmetric, paired = TRUE, var.equal =
## FALSE): cannot compute exact p-value with zeroes

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  ISE and Cmetric
## V = 22, p-value = 0.6236
## alternative hypothesis: true location shift is not equal to 0

Teste Shapiro Wilks

shapiro.test(ISE)

## 
##  Shapiro-Wilk normality test
## 
## data:  ISE
## W = 0.72382, p-value = 0.00269

shapiro.test(Cmetric)

## 
##  Shapiro-Wilk normality test
## 
## data:  Cmetric
## W = 0.73167, p-value = 0.003321

Gráfico Shapiro Wilks

par(mfrow=c(1,2))
qqnorm(ISE, main= "ISE", ylab = "Valor", col = "pink") 
qqline(ISE, col = "green")

qqnorm(Cmetric, main= "Cmetric", ylab = "Valor", col = "blue")
qqline(Cmetric, col = "red")

A) Formule o problema em termos de um teste de hipótese e da estimação de um IC?

ISE: Hipótese Nula H0 = Normal Hipótese Alternativa H1 # Normal

Cmetric: Hipótese Nula H0 = Normal Hipótese Alternativa H1 # Normal

Com base no teste de Shapiro Wilks os dados estão fora da normalidade, tanto para o método ISE ou Cmetric, sendo assim a hipósete nula foi rejeitada.

B) Os dois métodos forneceram resultados similares? Utilize um método tradicional adequado (paramétrico? Não-paramétrico?)

Sim, os dois métodos forneceram resultados similares. Ao análisar os dados foi utilizado os dois métodos, mas o mais adequado para analisar estes dados foi o método tradicional não paramétrico, pois os dados não seguem a distribuição normal.

Exercício 3

Estime o poder do teste para os exercícios 2 e 3

Poder do Teste - Exercício 2

library(pwr)

pwr.t.test(d = c (0.2, 0.5, 0.8), n = 20, sig.level = 0.05, type="one.sample", alternative="two.sided")

## 
##      One-sample t test power calculation 
## 
##               n = 20
##               d = 0.2, 0.5, 0.8
##       sig.level = 0.05
##           power = 0.1359563, 0.5645044, 0.9238988
##     alternative = two.sided

No comando pwr o teste de confiança apresentou um terceiro valor de 0.9238988, acima de 80%, significando um teste confiável.

Poder do Teste - Exercício 3

pwr.t.test(d = c (0.2, 0.5, 0.8), n = 9, sig.level = 0.05, type="one.sample", alternative="two.sided")

## 
##      One-sample t test power calculation 
## 
##               n = 9
##               d = 0.2, 0.5, 0.8
##       sig.level = 0.05
##           power = 0.08291639, 0.26274609, 0.55909612
##     alternative = two.sided

No exercício 02 o terceiro valor do pacote pwr é de 0.55909612, sendo menor que 80% significando que o teste não foi confiável.

Exercício 4

Obtenha IC via bootstrap para a média e para a mediana com os dados dos exercício 1 e 2

Média com os dados dos exercício 1

OD = c(1.2, 1.4, 1.4, 1.3, 1.2, 1.35, 1.4, 2.0, 1.95, 1.1, 1.75, 1.05, 1.05, 1.4)
xbar = c()
for (i in 1:1999) {
amostras = sample(OD, size = length(OD),
replace = TRUE)
xbar[i] = mean(amostras)
}

Estimativa IC via Bootstrap com os dados dos exercício 1

quantile(xbar, c(.025, .975))

##     2.5%    97.5% 
## 1.253571 1.553571

Mediana com os dados dos exercício 1

OD = c(1.2, 1.4, 1.4, 1.3, 1.2, 1.35, 1.4, 2.0, 1.95, 1.1, 1.75, 1.05, 1.05, 1.4)
xbar = c()
for (i in 1:1999) {
amostras = sample(OD, size = length(OD),
replace = TRUE)
xbar[i] = median(amostras)
}

Estimativa IC via Bootstrap

quantile(xbar, c(.025, .975))

##  2.5% 97.5% 
##   1.2   1.4

Média com os dados dos exercício 2

COD = c(57, 60, 49, 50, 51, 60, 49, 53, 49, 56, 64, 60, 49, 52, 69, 40, 44, 38, 53, 66)
xbar = c()
for (i in 1:1999) {
amostras = sample(COD, size = length(COD),
replace = TRUE)
xbar[i] = mean(amostras)
}

Estimativa IC via Bootstrap com os dados dos exercício 2

quantile(xbar, c(.025, .975))

##  2.5% 97.5% 
## 50.25 56.90

Mediana com os dados dos exercício 2

COD = c(57, 60, 49, 50, 51, 60, 49, 53, 49, 56, 64, 60, 49, 52, 69, 40, 44, 38, 53, 66)
xbar = c()
for (i in 1:1999) {
amostras = sample(COD, size = length(COD),
replace = TRUE)
xbar[i] = median(amostras)
}