MESTRADO PROFISSIONAL EM SUSTENTABILIDADE E TECNOLOGIA AMBIENTAL
DISCIPLINA: ANÁLISE DE DADOS
TUTOR: WASHINGTON SILVA
OBSERVAÇÕES: EXAME 1
Problema identificado: Ausência de tratamento de esgoto no município de Bambuí-MG.
Variáveis para coleta de dados para endenter melhor o problema:
*Nível de poluição do Rio Bambuí;
*Número de residências sem ligação de esgoto. Uso de fossas;
*Contaminação do solo do canal que leva o esgoto até o Rio Bambuí.
*Número de Comunidades e/ou cidades que fazem uso da água do Rio com a referida contaminação;
*Número de pessoas que seriam beneficiadas caso houvesse o tratamento do esgoto.
FONTE: http://www.redejucara.org.br/legislacao/in_112_2006_IBAMA.pdf
FONTE: https://www.legisweb.com.br/legislacao/?id=260641
OUTRAS LEGISLAÇÕES PESQUISADAS LIGADAS A QUESTÃO AMBIENTAL QUE CONSIDERAM PARÂMETROS:
Alumínio: 0,1 mg/l Al
Amônia não ionizável: 0,02 mg/l NH3.
Arsênio: 0,05 mg/l As
Bório: 1,0 mg/l Ba.
Berílio: 0,1 mg/l Be
Boro: 0,75 mg/l B
Benzeno : 0,01 mg/l
Benzo-a-pireno: 0,00001 mg/l
Codmio: 0,001 mg/l Cd
Cianetos: 0,01 mg/l CN
Chumbo: 0,03 mg/l Pb
Cloretos: 250 mg/l CI
Cloro Residual: 0,01 mg/l Cl
Cobalto: 0,2 mg/l Co
Cobre: 0,02 mg/l Cu
Cromo Trivalente: 0,5 mg/l Cr
Cromo Hexavalente: 0,05 mg/l Cr
1,1 dicloroeteno : 0,0003 mg/l
1,2 dicloroetano: 0,01 mg/l
Estanho: 2,0 mg/l Sn
Índice de Fenais: 0,001 mg/l C6H5OH
Ferro solúvel: 0,3 mg/l Fe
Fluoretos: 1,4 mg/l F
Fosfato total: 0,025 mg/l P
Lítio: 2,5 mg/l Li
Manganês: 0,1 mg/l Mn
Mercúrio: 0,0002 mg/l Hg
Níquel: 0,025 mg/l Ni
Nitrato: 10 mg/l N
Nitrito: 1,0 mg/l N
Prata: 0,01mg/l Ag
Pentaclorofenol: 0,01 mg/l
Selênio: 0,01mg/l Se
Sólidos dissolvidos totais: 500 mg/l
Substâncias tenso-ativas quereagem com o azul de metileno : 0,5 mg/l LAS
Sulfatos: 250 mg/l SO4
Sulfetos (como H2S n?o dissociado): 0,002 mg/l S
Tetracloroeteno: 0,01 mg/l
Tricloroeteno: 0,03 mg/l
Tetracloreto de carbono: 0,003 mg/l
2, 4, 6 triclorofenol: 0,01 mg/l
Urânio total: 0,02 mg/l U
Vanídio: 0,1 mg/l V
Zinco: 0,18 mg/l Zn
Aldrin: 0,01 mg/l
Clordano: 0,04 ?g/l
DDT: 0,002 ?g/l
Dieldrin: 0,005 ?g/l
Endrin: 0,004 ?g/l
Endossulfan: 0,056 ?g/l
Epóxido de Heptacloro: 0,01 ?g/l
Heptacloro: 0,01 ?g/l
Lindano (gama.BHC) 0,02 ?g/l
Metoxicloro: 0,03 ?g/l
Dodecacloro + Nonacloro: 0,001 ?g/l
Bifenilas Policloradas (PCB’S): 0,001 ?g/l
Toxafeno: 0,01 ?g/l
Demeton: 0,1 ?g/l
Gution: 0,005 ?g/l
Malation: 0,1 ?g/l
Paration: 0,04 ?g/l
Carbaril: 0,02 ?g/l
Compostos organofosforados e carbamatos totais: 10,0 ?g/l em Paration
2,4 - D: 4,0 g/l
2,4,5 - TP: 10,0 g/l
2,4,5 - T: 2,0 g/l
FONTE: http://www.mma.gov.br/port/conama/res/res86/res2086.html
Alumínio 7429-90-5 E - - - - 3.500**
Antimônio 7440-36-0 E 2 5 10 25 5*
Arsênio 7440-38-2 E 15 35 55 150 10*
Bório 7440-39-3 E 150 300 500 750 700*
Boro 7440-42-8 E - - - - 500
Codmio 7440-48-4 E 1,3 3 8 20 5*
Chumbo 7440-43-9 E 72 180 300 900 10*
Cobalto 7439-92-1 E 25 35 65 90 70
Cobre 7440-50-8 E 60 200 400 600 2.000*
Cromo 7440-47-3 E 75 150 300 400 50*
Ferro 7439-89-6 E - - - - 2.450**
Manganês 7439-96-5 E - - - - 400**
Mercúrio 7439-97-6 E 0,5 12 36 70 1*
Molibdônio 7439-98-7 E 30 50 100 120 70
Níquel 7440-02-0 E 30 70 100 130 20
Nitrato (como N) 797-55-08 E - - - - 10.000*
Prata 7440-22-4 E 2 25 50 100 50
Selênio 7782-49-2 E 5 - - - 10*
Vanídio 7440-62-2 E - - - 1000 -
Zinco 7440-66-6 E 300 450 1.000 2.000 1.050**
Hidrocarbonetos arom?ticos vol?teis
Benzeno 71-43-2 na 0,03 0,06 0,08 0,15 5*
Estireno 100-42-5 na 0,2 15 35 80 20*
Etilbenzeno 100-41-4 na 6,2 35 40 95 300**
Tolueno 108-88-3 na 0,14 30 30 75 700**
Xilenos 1330-20-7 na 0,13 25 30 70 500**
Hidrocarbonetos policíclicos arom?ticos
Antraceno 07/12/20 na 0,039 - - - -
Benzo(a)antraceno 56-55-3 na 0,025 9 20 65 1,75
Benzo(k)fluoranteno 207-06-9 na 0,38 - - - -
Benzo(g,h,i)
perileno 191-24-2 na 0,57 - - - -
Benzo(a)pireno 50-32-8 na 0,052 0,4 1,5 3,5 0,7*
Criseno 218-01-9 na 8,1 - - - -
Dibenzo(a,h)antraceno 53-70-3 na 0,08 0,15 0,6 1,3 0,18
FONTE: http://www.mprs.mp.br/ambiente/legislacao/id4830.htm
População é um conjunto de indivíduos (pessoas, animais, objetos, resultados experimentais etc) que tem uma ou mais características em comum para serem analisadas. Existem dois tipos de população, a finita: que é quando o número de indivíduos não é muito grande e todos devem ser analisados e a infinita que é quando o número de indivíduos é muito elevado.
Amostra aleatória é um número de indivíduos (subconjunto) colhidos de uma população de forma sem utilizar tendendências para a escolha, ou seja, todos os indivíduos da população tem a mesma chance de ser selecionado.
Dados aproximadamente normais são aqueles que em processos aleatórios independentes igualmente prováveis costumam se agrupar de modo a seguir uma distribuição chamada de “normal”, formando então a “curva de sino”.
fos <- c(1.8, 2.2, 2.1, 2.3, 2.1, 2.2, 2.1, 2.1, 1.8, 1.9, 2.4, 2.0, 1.9, 1.9, 2.2, 2.3, 2.2, 2.3, 2.1, 2.2)
summary(fos)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.800 1.975 2.100 2.105 2.200 2.400
sort(fos)
## [1] 1.8 1.8 1.9 1.9 1.9 2.0 2.1 2.1 2.1 2.1 2.1 2.2 2.2 2.2 2.2 2.2 2.3
## [18] 2.3 2.3 2.4
stem(fos)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 18 | 00000
## 20 | 000000
## 22 | 00000000
## 24 | 0
boxplot(fos)
str(fos)
## num [1:20] 1.8 2.2 2.1 2.3 2.1 2.2 2.1 2.1 1.8 1.9 ...
t.test (fos, mu=2, conf.level=0.95, alternative = c("two.sided"))
##
## One Sample t-test
##
## data: fos
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
## 2.023973 2.186027
## sample estimates:
## mean of x
## 2.105
O viés é 0.105. Obtém se o viés estimado subtraindo o valor conhecido do valor da média, portanto se não houvesse um valor conhecido não teria como calcular o viés.
b’
#Precisão dos dados:
sd(fos)
## [1] 0.1731291
A precisão dos dados é 0.173 + o valor da média.
b’’
#Precisão da média amostral:
t.test(fos,alternative=c("two.sided"),mu=2,conf.level=0.95)
##
## One Sample t-test
##
## data: fos
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
## 2.023973 2.186027
## sample estimates:
## mean of x
## 2.105
sd(fos)/sqrt(length(fos))
## [1] 0.03871284
b’’’
#Cálculo da amplitude do intervalo de confiança:
r95<-t.test(fos,alternative=c("two.sided"),mu=50,conf.level=0.95)
r95$conf.int[2]-r95$conf.int[1]
## [1] 0.1620538
t.test (fos, mu=2, conf.level=0.95, alternative = c("great"))
##
## One Sample t-test
##
## data: fos
## t = 2.7123, df = 19, p-value = 0.006909
## alternative hypothesis: true mean is greater than 2
## 95 percent confidence interval:
## 2.03806 Inf
## sample estimates:
## mean of x
## 2.105
O intervalo estimado com confiança de 95% não contém o valor de 2mg/L. Isso implica que para um nível de confiança de 95% h um desvio superior na concentração.
tetra <- c(0.60, 0.50, 0.39, 0.84, 0.46, 0.39, 0.62, 0.67, 0.69, 0.81, 0.38, 0.79, 0.43, 0.57, 0.74, 0.27, 0.51, 0.35, 0.28, 0.45, 0.42, 1.14, 0.23, 0.72, 0.63, 0.50, 0.29, 0.82, 0.54, 1.13, 0.56, 1.33, 0.56, 1.11, 0.57, 0.89, 0.28, 1.20, 0.76, 0.26, 0.34, 0.52, 0.42, 0.22, 0.33, 1.14, 0.48)
sort(tetra)
## [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33
str(tetra)
## num [1:47] 0.6 0.5 0.39 0.84 0.46 0.39 0.62 0.67 0.69 0.81 ...
summary(tetra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
Valores:
Máximo: 1.3300
Mínimo:0.2200
Médio:0.5985
Mediano:0.5400
Primeiro quartil: 0.3900
Este é o quartil inferior, e o valor de 0.3900 é o valor inferior até aos 25% da amostra ordenada.
Terceiro quartil: 0.7500
Este é o quartil superior, e o valor de 0.7500 é o valor superior a mediana até aos 25% da amostra ordenada.
hist(tetra, # histograma com linhas de densidade sobreposta
freq = FALSE,
breaks=20,
col="lightgreen",
main="Tetraclorobenzeno-1,2,3,4 (TCCB),")
lines(density(tetra), col="red", lwd=4)
Nota-se através da linha sobreposta e das barras que as distribuição das amostras tem uma desigualdade relevante é direita, por isso observa-se também que é tendencioso o numero de amostras menores.
A mediana representa melhor os valores dos dados, porque aproxima mais da frequência dos valores dos dados no conjunto da amostra, pois nota-se uma assimetria grande na amostra de acordo com o histograma, além de ter uma condição melhor do que a média de não ser afetada pelos valores extremos.
IQR(tetra)
## [1] 0.36
Considerando que o IQR assim como a mediana tem melhor condição de não ser afetado pelos valores extremos dos dados da amostra que são assimétricos é direita, conclui se que ele (IQR) é a medida de variabilidade dos dados mais representativa.
boxplot(tetra)
max(tetra)
## [1] 1.33
De acordo com o gráficos boxplot há um valor discrepante para cima na amostra com o valor de 1.33 mg/L.
A hipótese nula é o valor considerado aceitável, ou seja, =0,5 e a hipótese alternativa terá que ser significantemente maior que o valor considerado aceitável, ou seja, >0,5;
boxplot(tetra)
stem(tetra)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 2 | 2367889345899
## 4 | 223568001246677
## 6 | 023792469
## 8 | 1249
## 10 | 1344
## 12 | 03
t.test(tetra,alternative=c("greater"),mu=0.5,conf.level=0.95)
##
## One Sample t-test
##
## data: tetra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
## 0.529059 Inf
## sample estimates:
## mean of x
## 0.5985106
Usando a condição “greater”, pois a variançia deverá ser significantemente maior ao valor considerado aceitável, que é 0,5. E isto se confirma no resultado do t.test que apresenta o valor de 0.5985106 com nível de significância de 95%.
Não, pois analisando o histograma de todo o conjunto de dados não se forma a curva de sino, pela assimetria dos extremos.
Erro Tipo I - Ho é verdadeira - é quando a hipotese nula é verdadeira e rejeitamos a mesma e Erro Tipo II - Ho é falsa - quando a hipótese do teste nula? falsa e mesmo assim, não rejeitamos a mesma. O erro é definido pelo analista através da hipótese alternativa, sendo considerado um nível de significância para os cálculos de teste da hipótese.
t.test(tetra,alternative=c("greater"),mu=0.5,conf.level=0.95)
##
## One Sample t-test
##
## data: tetra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
## 0.529059 Inf
## sample estimates:
## mean of x
## 0.5985106
summary(tetra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
e’- De acordo com o calculado valor acima de 0,5 são aceitos, ou seja, acima da mediana todos serão aceitos.
e’’- O valor P é a probabilidade calculada quando a hipótese é nula, ou seja, quando ela é verdadeira. O valor P encontrado foi 0.01073, reforçando a hipótese alternativa, pois ém enor do que o nível de significância.
wilcox.test(tetra,alternative=c("greater"),mu=0.5,conf.int=TRUE)
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with ties
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with ties
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with zeroes
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: tetra
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
## 0.5049733 Inf
## sample estimates:
## (pseudo)median
## 0.5700434
O qual nos remete a reafirmar a hipótese alternativa pelo seu Valor P que continua abaixo do nível de significância que é 0.5.
t.test(tetra,alternative=c("greater"),mu=0.5,conf.level=0.95)
##
## One Sample t-test
##
## data: tetra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
## 0.529059 Inf
## sample estimates:
## mean of x
## 0.5985106
Como já havia realizado este procedimento mais acima o teste t-student, adota a hipótese alternativa, com valor-p abaixo do nível de significância que é 0.5 e o resultado é satisfat?rio pois é superior ao aceitável,0.5985106.
wilcox.test(tetra,alternative=c("greater"),mu=0.5,conf.int=TRUE)
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with ties
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with ties
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with zeroes
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: tetra
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
## 0.5049733 Inf
## sample estimates:
## (pseudo)median
## 0.5700434
library(pwr)
## Warning: package 'pwr' was built under R version 3.1.3
pwr.t.test(power=0.80, d=0.1, sig.level= 0.05,alternative="two.sided")
##
## Two-sample t test power calculation
##
## n = 1570.733
## d = 0.1
## sig.level = 0.05
## power = 0.8
## alternative = two.sided
##
## NOTE: n is number in *each* group
O resultado de n foi 1570.733, ou seja, será necessário uma amostra de 1571 dados.
pwr.t.test(n=20,d=0.1,sig.level=.05,alternative="two.sided")
##
## Two-sample t test power calculation
##
## n = 20
## d = 0.1
## sig.level = 0.05
## power = 0.06095912
## alternative = two.sided
##
## NOTE: n is number in *each* group
O valor do poder do teste é de 0.06095912, ou seja, baixo. O que mostra uma baixa confiabilidade no tamanho da amostra.