#Definindo diretório atual
setwd("G:\\MestradoIFMG\\Aula21a24")

Exercício 1:

A autorização de despejo para uma indústria requer que a concentraçãoao média mensal de COD seja inferior a 50 mg/L.A indústria quer que isso seja interpretado como 50 mg/L está dentro do intervalo de confiança da média, que vai ser estimada a partir de 20 observações por mês.Para as 20 observações seguintes, estaria a indústria em conformidade com esta interpretação do padrão?

57 60 49 50 51 60 49 53 49 56 64 60 49 52 69 40 44 38 53 66

#Inserindo os dados:
cod <- c(57,60,49,50,51,60,49,53,49,56,64,60,49,52,69,40,44,38,53,66)

#Examinando os dados
summary(cod)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   38.00   49.00   52.50   53.45   60.00   69.00
#Ordenando o vetor do menor para o maior valor
sort(cod)
##  [1] 38 40 44 49 49 49 49 50 51 52 53 53 56 57 60 60 60 64 66 69
#Observando os dados através do gráfico do tipo "ramo e folhas"
stem(cod)
## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   3 | 8
##   4 | 049999
##   5 | 0123367
##   6 | 000469
#Observando os dados através do gráfico do tipo "boxplot" (observando na vertical e horizontal)
boxplot(cod,main="Gráfico tipo Boxplot Vertical",ylab="valor",col="red")
grid()

boxplot(cod,horizontal=TRUE,main="Gráfico tipo Boxplot Horizontal",xlab="valor",col="red")
grid()

Consideração: observa-se que a distribuição dos dados é aparentemente assimétrica o que pode indicar uma anormalidade da distribuição dos dados, portanto não conclusivo, sendo necessária a análise por método paramétrico denominado teste de hipóteses e intervalo de confiança.

#Realizando os testes de hipóteses
t.test(cod, alternative = c("two.side"),mu=50.0, conf.level= 0.95)
## 
##  One Sample t-test
## 
## data:  cod
## t = 1.8894, df = 19, p-value = 0.07419
## alternative hypothesis: true mean is not equal to 50
## 95 percent confidence interval:
##  49.62825 57.27175
## sample estimates:
## mean of x 
##     53.45

Para não depender somente da hipótese acima, realiza o teste de Wilcoxon que é um método não paramétrico.

#Realizando o teste de Wilcoxon
wilcox.test(cod,mu=50.0,conf.int=TRUE)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  cod
## V = 139, p-value = 0.07905
## alternative hypothesis: true location is not equal to 50
## 95 percent confidence interval:
##  49.00001 58.00001
## sample estimates:
## (pseudo)median 
##       53.66572
#Observando o valor de desvio padrão devido aos limites do intervalo de confiança aplicado nos dois testes:
sd(cod)
## [1] 8.165879

Conclusão:De acordo com os testes realizados a concentração média mensal de COD para a indústria requerente do despejo é superior a 50 mg/L conforme confirmada pelo gráfico boxplot. Ainda que o valor de 50 mg/L esteja dentro do intervalo de confiança conforme observado nos testes de hipóteses por intervalo de confiança (linf de 49.62825 mg/L e lsup 57.27175 mg/L) e teste de Wilcoxon(linf 49.00001 mg/L e lsup 58.00001 mg/L) observa-se que os limites inferiores estão bem próximos ao valor da média esperada de 50 mg/L e também observado pelo cálculo do desvio padrão que foi de 8.16 mg/L indicando que os valores amostrais estão distantes do valor esperado, portanto, devido a essas análises exploratória dos dados recomenda-se que a empresa não seja passível de autorização.

Exercício 2:

Um protocolo de garantia de qualidade laboratorial exige que as soluções padrão tenham 50 mg/l de COT, tais amostras são inseridas de forma aleatória no fluxo de trabalho. Os analistas são cegos a estas normas. Estime o viés e a precisão das 16 observações mais recentes deste padrão. O processo de medição de COT em conformidade com o padrão?

50.3 51.2 50.5 50.2 49.9 50.2 50.3 50.5 49.3 50.0 50.4 50.1 51.0 49.8 50.7 50.6

#Inserindo os dados:
COT <- c(50.3, 51.2, 50.5, 50.2, 49.9, 50.2, 50.3, 50.5, 49.3, 50.0, 50.4, 50.1, 51.0, 49.8, 50.7, 50.6)

#Examinando os dados
summary(COT)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   49.30   50.08   50.30   50.31   50.52   51.20
#Ordenando o vetor do menor para o maior valor
sort(COT)
##  [1] 49.3 49.8 49.9 50.0 50.1 50.2 50.2 50.3 50.3 50.4 50.5 50.5 50.6 50.7
## [15] 51.0 51.2
#Observando os dados através do gráfico do tipo "ramo e folhas"
stem(COT)
## 
##   The decimal point is at the |
## 
##   49 | 3
##   49 | 89
##   50 | 0122334
##   50 | 5567
##   51 | 02
#Observando os dados através do gráfico do tipo "boxplot"(observando na horizontal e vertical)
boxplot(COT, vertical=TRUE, main="Gráfico tipo Boxplot Vertical",ylab="valor",col="lightgrey")
grid()

boxplot(COT,horizontal=TRUE,main="Gráfico tipo Boxplot Horizontal",xlab="valor",col="lightgrey")
grid()

Consideração: observa-se que a distribuição dos dados é aparentemente simétrica o que pode indicar uma distribuição normal dos dados, portanto não conclusivo, sendo necessária a análise por método paramétrico denominado teste de hipóteses e intervalo de confiança.

#Realizando os testes de hipóteses
t.test(COT, alternative = c("two.side"),mu=50.0, conf.level= 0.95)
## 
##  One Sample t-test
## 
## data:  COT
## t = 2.7074, df = 15, p-value = 0.01622
## alternative hypothesis: true mean is not equal to 50
## 95 percent confidence interval:
##  50.06648 50.55852
## sample estimates:
## mean of x 
##   50.3125

Para não depender somente da hipótese acima, realiza o teste de Wilcoxon que é um método não paramétrico.

#Realizando o teste de Wilcoxon
wilcox.test(COT,mu=50.0,conf.int=TRUE)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  COT
## V = 102, p-value = 0.01823
## alternative hypothesis: true location is not equal to 50
## 95 percent confidence interval:
##  50.09998 50.59994
## sample estimates:
## (pseudo)median 
##       50.34994
#Calculando o viés por método manual para conferência dos dados

#Variáveis necessárias: t(COT), mean(COT), sd(COT) e sqrt(n) sendo n = 16

#O cálculo da estatística de teste é dada pela fórmula dada em sala de aula:

#t(COT) = (mean(COT) - (mu))/(sd(COT)/sqrt(16))

#Cálculo da média:
mean(COT)
## [1] 50.3125
#mu = 50

#Cálculo do desvio padrão (COT)
sd(COT)
## [1] 0.4616998
#Cálculo da raiz quadrada de 16
sqrt(16)
## [1] 4
#Retomando a fórmula de t(COT):
(50.3125-50.00)/(0.4616998/4)
## [1] 2.707387
#temos o valor t=2.707387

#Conferindo o valor da margem de erro (viés)
(2.707387)*(sd(COT)/sqrt(16))
## [1] 0.3125
#temos o valor de margem de erro (viés) de 0.3125 mg/L

Conclusão:De acordo com os testes realizados foi observado que o viés (margem de erro) é de 0.3125 mg/L em relação ao valor de referência (50.0 mg/L) para o teste de hipótese considerando o intervalo de confiança de 95% e 0.3499 para o teste de Wilcoxon. Foi observado também pelo gráfico do tipo boxplot que a distribuição dos dados foi aparentemente normal demonstrando a proximidade dos valores amostrais ao valor de esperado. Também observa-se que o desvio padrão foi pequeno (0.4616 mg/L). Conclui-se que o processo de medição de COT está próximo do valor conformidade com o padrão, uma vez que o valor da média amostral está bem próximo ao valor padrão para as duas situações de testes realizados.

Exercício 3:

O gás produzido a partir da fermentação biológica é oferecido para a venda com o garantia de que o teor médio de metano de 72%. Uma amostra aleatória de n = 7 amostras de gás forneceu conteúdo de metano (em %) de 64, 65, 75,67, 65, 74 e 75.

efetue testes de hipóteses com níveis de signicância de 0,10, 0,05, e 0,01 para determinar se é justo reivindicar uma média de 72; calcular intervalos de confiança de 90%, 95% e 99% para avaliar a alegação de uma média de 72%.

#Inserindo os dados:
metano <- c(64,65,75,67,65,74,75)

#Examinando os dados
summary(metano)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   64.00   65.00   67.00   69.29   74.50   75.00
#Ordenando o vetor do menor para o maior valor
sort(metano)
## [1] 64 65 65 67 74 75 75
#Observando os dados através do gráfico do tipo "ramo e folhas"
stem(metano)
## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   6 | 4
##   6 | 557
##   7 | 4
##   7 | 55
#Observando os dados através do gráfico do tipo "boxplot"(observando na horizontal e vertical)
boxplot(metano,main="Gráfico tipo Boxplot Vertical",ylab="valor",col="green2")
grid()

boxplot(metano,horizontal=TRUE,main="Gráfico tipo Boxplot Horizontal",xlab="valor",col="green2")
grid()

Consideração: observa-se que a distribuição dos dados é aparentemente assimétrica o que pode indicar uma distribuição não normal dos dados, os valores tendem a estar bem abaixo do valor esperado, portanto não conclusivo, sendo necessária a análise por método paramétrico denominado teste de hipóteses e intervalo de confiança.

#Realizando os testes de hipóteses e cálculo de amplitude dos dados

#Função t.test com valor de alpha = 10%
t.test(metano, alternative = c("two.side"),mu=72.0, conf.level= 0.90)
## 
##  One Sample t-test
## 
## data:  metano
## t = -1.402, df = 6, p-value = 0.2105
## alternative hypothesis: true mean is not equal to 72
## 90 percent confidence interval:
##  65.52362 73.04781
## sample estimates:
## mean of x 
##  69.28571
r10 <- t.test(metano,alternative=c("two.sided"),mu=72,conf.level=0.90)
r10$conf.int[2]-r10$conf.int[1]
## [1] 7.524198
#Função t.test com valor de alpha = 5%
t.test(metano, alternative = c("two.side"),mu=72.0, conf.level= 0.95)
## 
##  One Sample t-test
## 
## data:  metano
## t = -1.402, df = 6, p-value = 0.2105
## alternative hypothesis: true mean is not equal to 72
## 95 percent confidence interval:
##  64.54836 74.02306
## sample estimates:
## mean of x 
##  69.28571
r5 <- t.test(metano,alternative=c("two.sided"),mu=72,conf.level=0.95)
r5$conf.int[2]-r5$conf.int[1]
## [1] 9.4747
#Função t.test com valor de alpha = 1%
t.test(metano, alternative = c("two.side"),mu=72.0, conf.level= 0.99)
## 
##  One Sample t-test
## 
## data:  metano
## t = -1.402, df = 6, p-value = 0.2105
## alternative hypothesis: true mean is not equal to 72
## 99 percent confidence interval:
##  62.10794 76.46349
## sample estimates:
## mean of x 
##  69.28571
r1<-t.test(metano,alternative=c("two.sided"),mu=72,conf.level=0.99)
r1$conf.int[2]-r1$conf.int[1]
## [1] 14.35555

Para não depender somente da hipótese acima, realiza o teste de Wilcoxon que é um método não paramétrico.

#Realizando o teste de Wilcoxon
wilcox.test(metano,mu=72.0,conf.int=TRUE)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  metano
## V = 6, p-value = 0.2033
## alternative hypothesis: true location is not equal to 72
## 90 percent confidence interval:
##  64.99999 74.50002
## sample estimates:
## (pseudo)median 
##       69.50002
#Conferindo o valor de média normal
mean(metano)
## [1] 69.28571
#Calculando o desvio padrão da amostragem (sd)
sd(metano)
## [1] 5.122313

Conclusão:De acordo com os testes realizados foi observado que quanto maior o valor alpha (1%, 5% e 10%), menor é intervalo de confiança (amplitude dos dados) onde deverá situar o valor esperado (72%). Observa-se que o valor da média amostral foi de 69.28% (média de metano do gás produzido por fermentação biológica), abaixo do valor reivindicado, conforme demonstrado no gráfico tipo boxplot. Para o teste de Wilcoxon a média amostral foi de 69.50%, comprovando que o teor oferecido está abaixo do reinvidicado, portanto não é aceitável a hipótese de mu=72%, ainda que esteje dentro dos intervalos de confiança calculados.

Exercício 4:

Os seguintes dados foram obtidos a partir de medidas pareadas de nitrito em água e em águas residuais por eletrodo direto de íon-seletivo e um método colorimétrico. Os dois métodos forneceram resultados consistentes?

Medições de Nitrito

#Criando os objetos
ISE<- c(0.32,0.36,0.24,0.11,0.11,0.44,2.79,2.99,3.47)
Colorimetric <- c(0.36,0.37,0.21,0.09,0.11,0.42,2.77,2.91,3.52)

#Realizando o cálculo da média e desvio padrão de ISE
mean(ISE)
## [1] 1.203333
sd(ISE)
## [1] 1.424798
#Realizando o cálculo da média e desvio padrão de Colorimetric
mean(Colorimetric)
## [1] 1.195556
sd(Colorimetric)
## [1] 1.421901
#Observando os dados através do gráfico do tipo "ramo e folhas"
stem(ISE)
## 
##   The decimal point is at the |
## 
##   0 | 112344
##   1 | 
##   2 | 8
##   3 | 05
stem(Colorimetric)
## 
##   The decimal point is at the |
## 
##   0 | 112444
##   1 | 
##   2 | 89
##   3 | 5
#Comparando os dados através do gráfico do tipo "boxplot". Para isto pode se usar a função "par" para plotar os dois gráficos ao mesmo tempo:
par(mfrow=c(1,2))
boxplot(ISE, main=" Método ISE",ylab="valor", col="lightblue")
grid()
boxplot(Colorimetric, main="Método Colorimetric",ylab="valor", col="lightblue")
grid()

Consideração: observa-se que os gráficos plotados são similares, mas com pequena variação entre as duas medianas. Então prossegue-se com a análise exploratória dos dados com a realização do teste de intervalo de confiança e Wilcoxon.

#Teste e IC t para duas amostras independentes no R e cálculo de amplitude dos dados

t.test(ISE,Colorimetric, paired=TRUE, var.equal = FALSE)
## 
##  Paired t-test
## 
## data:  ISE and Colorimetric
## t = 0.5986, df = 8, p-value = 0.566
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.02218494  0.03774050
## sample estimates:
## mean of the differences 
##             0.007777778
#Cálculo da amplitude do método ISE
r5 <- t.test(ISE,alternative=c("two.sided"),mu=0,conf.level=0.95)
r5$conf.int[2]-r5$conf.int[1]
## [1] 2.190394
#Cálculo da amplitude do método Colometric
r5 <- t.test(Colorimetric,alternative=c("two.sided"),mu=0,conf.level=0.95)
r5$conf.int[2]-r5$conf.int[1]
## [1] 2.18594
#Teste e IC de Wilcoxon para duas amostras independentes no R

wilcox.test(ISE,Colorimetric, paired=TRUE, var.equal = FALSE)
## Warning in wilcox.test.default(ISE, Colorimetric, paired = TRUE, var.equal
## = FALSE): cannot compute exact p-value with ties
## Warning in wilcox.test.default(ISE, Colorimetric, paired = TRUE, var.equal
## = FALSE): cannot compute exact p-value with zeroes
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  ISE and Colorimetric
## V = 22, p-value = 0.6236
## alternative hypothesis: true location shift is not equal to 0

Conclusão:De acordo com os testes realizados foi observado que o gráfico de ramo e folhas e o boxplot apresentaram similiridades nos dados das medições de nitrito para os dois métodos, confirmado pela aplicação da fórmula t.test onde a diferença da média entre os dois métodos variou pouco, ou seja, 0,007777778 para um intervalo de confiança de 95%.Também observa-se que os valores do desvio padrão de ISE e Colorimetric e as amplitudes possuem pouca diferença, ou seja, quase idênticos. Pode se considerar que os dois métodos apresentaram resultados consistentes.

Exercício 5:

Limites extremamente baixos existem agora para metais pesados em limites de águas residuais de efluentes. Pensa-se frequentemente que, sempre que a concentração de metais pesados é demasiado elevada, o problema pode ser corrigido forçando indústrias a interromper a descarga da substância nociva. E possível, no entanto, que a concentração alvo do efluente ser tão baixa que elas podem ser ultrapassadas pela concentração em esgoto doméstico. Amostras de água potável foram coletadas de dois bairros residenciais, um servido pelo abastecimento de água da cidade e outro servido por poços particulares. As concentrações de mercúrio observados estão listados na Tabela abaixo. Para estudos futuros sobre concentrações de mercúrio em áreas residenciais, seria conveniente ser capaz de coletar dados em qualquer bairro, sem ter que se preocupar que o abastecimento de água pode afetar o resultado. Existe alguma diferença no teor de mercúrio das duas áreas residenciais?

Concentrações de Mercúrio

Cidade<- c(0.34,0.18,0.13,0.09,0.16,0.09,0.16,0.10,0.14,0.26,0.06,0.26,0.07)
Part <- c(0.26,0.06,0.16,0.19,0.32,0.16,0.08,0.05,0.10,0.13)

#Ordenando os vetores do menor valor para o maior
sort(Cidade)
##  [1] 0.06 0.07 0.09 0.09 0.10 0.13 0.14 0.16 0.16 0.18 0.26 0.26 0.34
sort(Part)
##  [1] 0.05 0.06 0.08 0.10 0.13 0.16 0.16 0.19 0.26 0.32
#Obtendo os valores máximo e mínimo para análise final da média amostral
summary(Cidade)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0600  0.0900  0.1400  0.1569  0.1800  0.3400
summary(Part)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0500  0.0850  0.1450  0.1510  0.1825  0.3200
#Observando os dados através do gráfico do tipo "ramo e folhas"
stem(Cidade)
## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##   0 | 6799
##   1 | 034668
##   2 | 66
##   3 | 4
stem(Part)
## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##   0 | 568
##   1 | 03669
##   2 | 6
##   3 | 2
#Comparando os dados através do gráfico do tipo "boxplot". Para isto pode se usar a função "par" para plotar os dois gráficos ao mesmo tempo:
par(mfrow=c(1,2))
boxplot(Cidade, main="Cidade",ylab="valor", col="yellow")
grid()
boxplot(Part, main="Poço particular",ylab="valor", col="yellow")
grid()

Aprimoramento: Se varwidth=TRUE, as caixas são desenhadas com larguras proporcionais à raiz quadrada do número de observações. Este caso se aplica a grupos de tamanhos diferentes.

boxplot(Cidade,Part,main="Cidade            Part.",ylab="valor", varwidth=TRUE,col="yellow")
grid()

#Teste e IC t para duas amostras emparelhadas no R e cálculo da amplitude dos dados

t.test(Cidade,Part, paired=FALSE, var.equal = TRUE)
## 
##  Two Sample t-test
## 
## data:  Cidade and Part
## t = 0.1643, df = 21, p-value = 0.871
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.06902507  0.08087122
## sample estimates:
## mean of x mean of y 
## 0.1569231 0.1510000
#Cálculo da amplitude dos dados das amostras Cidade
rCidade5<-t.test(Cidade,alternative=c("two.sided"),mu=0,conf.level=0.95)
rCidade5$conf.int[2]-rCidade5$conf.int[1]
## [1] 0.1020028
#Cálculo da amplitude das amostras de poços particulares
rPart5<-t.test(Part,alternative=c("two.sided"),mu=0,conf.level=0.95)
rPart5$conf.int[2]-rPart5$conf.int[1]
## [1] 0.1249909
#Teste e IC de Wilcoxon para duas amostras emparelhadas no R

wilcox.test(Cidade,Part, paired=FALSE, var.equal = TRUE)
## Warning in wilcox.test.default(Cidade, Part, paired = FALSE, var.equal =
## TRUE): cannot compute exact p-value with ties
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Cidade and Part
## W = 68.5, p-value = 0.8518
## alternative hypothesis: true location shift is not equal to 0
dif <- Cidade-Part
## Warning in Cidade - Part: longer object length is not a multiple of
## shorter object length
wilcox.test(dif,paired=FALSE)
## Warning in wilcox.test.default(dif, paired = FALSE): cannot compute exact
## p-value with ties
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  dif
## V = 47.5, p-value = 0.9165
## alternative hypothesis: true location is not equal to 0
#Conferindo as médias e diferença entre elas
mean(Cidade)
## [1] 0.1569231
mean(Part)
## [1] 0.151
mean(Cidade)-mean(Part)
## [1] 0.005923077
#Conferindo o desvio padrão de Cidade e Part e a diferença entre eles
sd(Cidade)
## [1] 0.08439832
sd(Part)
## [1] 0.08736259
sd(Cidade)-sd(Part)
## [1] -0.002964268

Conclusão:De acordo com os testes realizados foi observado que o gráfico boxplot apresentou similiridade nos dados das medições de mercúrio com pequena variação do valor da mediana para as duas áreas residenciais, ainda que no gráfico de amostragem em poços particulares tenha apresentado maior variação dos dados (amplitude). Mesmo com 3 amostras a menos para a medição em poços particulares foi observada que a diferença entre as médias amostrais representadas pelo teor médio de mercúrio foi mínima, de 0,0059, bem como a diferença dos valores de desvio padrão calculado, de 0,0029. Mesmo que a amostra Cidades obteve menor amplitude dos dados, considera-se que não houve diferença significativa dos teores de mercúrio para as duas áreas residenciais.