MESTRADO PROFISSIONAL EM SUSTENTABILIDADE E TECNOLOGIA AMBIENTAL
DISCIPLINA: ANÁLISE DE DADOS
TUTOR: WASHINGTON SILVA
OBSERVAÇÕES: EXAME 1 COM DATA PARA ENTREGA DIA 24/04/2015 ATÉ AS 13:00 HORAS
Problema identificado: Ausência de tratamento de esgoto no município de Bambuí-MG.
Váriaveis para coleta de dados para endenter melhor o problema:
*Nível de poluição do Rio Bambuí;
*Número de residência sem ligação de esgoto. Uso de fossas;
*Contaminação do solo do canal que leva o esgoto até o Rio Bambuí.
*Número de Comunidades e/ou cidades que fazem uso da água do Rio com a referida contaminação;
*Número de pessoas que seriam beneficiadas caso houvesse o tratamento do esgoto.
FONTE: http://www.redejucara.org.br/legislacao/in_112_2006_IBAMA.pdf
FONTE: https://www.legisweb.com.br/legislacao/?id=260641
OUTRAS LEGISLAÇÕES PESQUISADAS LIGADAS A QUESTÃO AMBIENTAL QUE CONSIDERAM PARÂMETROS:
Alumínio: 0,1 mg/l Al
Amônia não ionizável: 0,02 mg/l NH3.
Arsênio: 0,05 mg/l As
Bário: 1,0 mg/l Ba.
Berílio: 0,1 mg/l Be
Boro: 0,75 mg/l B
Benzeno : 0,01 mg/l
Benzo-a-pireno: 0,00001 mg/l
Cádmio: 0,001 mg/l Cd
Cianetos: 0,01 mg/l CN
Chumbo: 0,03 mg/l Pb
Cloretos: 250 mg/l CI
Cloro Residual: 0,01 mg/l Cl
Cobalto: 0,2 mg/l Co
Cobre: 0,02 mg/l Cu
Cromo Trivalente: 0,5 mg/l Cr
Cromo Hexavalente: 0,05 mg/l Cr
1,1 dicloroeteno : 0,0003 mg/l
1,2 dicloroetano: 0,01 mg/l
Estanho: 2,0 mg/l Sn
Índice de Fenóis: 0,001 mg/l C6H5OH
Ferro solúvel: 0,3 mg/l Fe
Fluoretos: 1,4 mg/l F
Fosfato total: 0,025 mg/l P
Lítio: 2,5 mg/l Li
Manganês: 0,1 mg/l Mn
Mercúrio: 0,0002 mg/l Hg
Níquel: 0,025 mg/l Ni
Nitrato: 10 mg/l N
Nitrito: 1,0 mg/l N
Prata: 0,01mg/l Ag
Pentaclorofenol: 0,01 mg/l
Selênio: 0,01mg/l Se
Sólidos dissolvidos totais: 500 mg/l
Substâncias tenso-ativas quereagem com o azul de metileno : 0,5 mg/l LAS
Sulfatos: 250 mg/l SO4
Sulfetos (como H2S não dissociado): 0,002 mg/l S
Tetracloroeteno: 0,01 mg/l
Tricloroeteno: 0,03 mg/l
Tetracloreto de carbono: 0,003 mg/l
2, 4, 6 triclorofenol: 0,01 mg/l
Urânio total: 0,02 mg/l U
Vanádio: 0,1 mg/l V
Zinco: 0,18 mg/l Zn
Aldrin: 0,01 mg/l
Clordano: 0,04 µg/l
DDT: 0,002 µg/l
Dieldrin: 0,005 µg/l
Endrin: 0,004 µg/l
Endossulfan: 0,056 µg/l
Epôxido de Heptacloro: 0,01 µg/l
Heptacloro: 0,01 µg/l
Lindano (gama.BHC) 0,02 µg/l
Metoxicloro: 0,03 µg/l
Dodecacloro + Nonacloro: 0,001 µg/l
Bifenilas Policloradas (PCB’S): 0,001 µg/l
Toxafeno: 0,01 µg/l
Demeton: 0,1 µg/l
Gution: 0,005 µg/l
Malation: 0,1 µg/l
Paration: 0,04 µg/l
Carbaril: 0,02 µg/l
Compostos organofosforados e carbamatos totais: 10,0 µg/l em Paration
2,4 - D: 4,0 µg/l
2,4,5 - TP: 10,0 µg/l
2,4,5 - T: 2,0 µg/l
FONTE: http://www.mma.gov.br/port/conama/res/res86/res2086.html
Alumínio 7429-90-5 E - - - - 3.500**
Antimônio 7440-36-0 E 2 5 10 25 5*
Arsênio 7440-38-2 E 15 35 55 150 10*
Bário 7440-39-3 E 150 300 500 750 700*
Boro 7440-42-8 E - - - - 500
Cádmio 7440-48-4 E 1,3 3 8 20 5*
Chumbo 7440-43-9 E 72 180 300 900 10*
Cobalto 7439-92-1 E 25 35 65 90 70
Cobre 7440-50-8 E 60 200 400 600 2.000*
Cromo 7440-47-3 E 75 150 300 400 50*
Ferro 7439-89-6 E - - - - 2.450**
Manganês 7439-96-5 E - - - - 400**
Mercúrio 7439-97-6 E 0,5 12 36 70 1*
Molibdênio 7439-98-7 E 30 50 100 120 70
Níquel 7440-02-0 E 30 70 100 130 20
Nitrato (como N) 797-55-08 E - - - - 10.000*
Prata 7440-22-4 E 2 25 50 100 50
Selênio 7782-49-2 E 5 - - - 10*
Vanádio 7440-62-2 E - - - 1000 -
Zinco 7440-66-6 E 300 450 1.000 2.000 1.050**
Hidrocarbonetos aromáticos voláteis
Benzeno 71-43-2 na 0,03 0,06 0,08 0,15 5*
Estireno 100-42-5 na 0,2 15 35 80 20*
Etilbenzeno 100-41-4 na 6,2 35 40 95 300**
Tolueno 108-88-3 na 0,14 30 30 75 700**
Xilenos 1330-20-7 na 0,13 25 30 70 500**
Hidrocarbonetos policíclicos aromáticos
Antraceno 07/12/20 na 0,039 - - - -
Benzo(a)antraceno 56-55-3 na 0,025 9 20 65 1,75
Benzo(k)fluoranteno 207-06-9 na 0,38 - - - -
Benzo(g,h,i)
perileno 191-24-2 na 0,57 - - - -
Benzo(a)pireno 50-32-8 na 0,052 0,4 1,5 3,5 0,7*
Criseno 218-01-9 na 8,1 - - - -
Dibenzo(a,h)antraceno 53-70-3 na 0,08 0,15 0,6 1,3 0,18
FONTE: http://www.mprs.mp.br/ambiente/legislacao/id4830.htm
População é um conjunto de indivíduos (pessoas, animais, objetos, resultados experimentais etc) que tem uma ou mais características em comum para serem analisadas. Existem dois tipos de população, a finita: que é quando o número de indivíduos não é muito grande e todos devem ser analisados e a infinita que é quando o número de indivíduos é muito elevado.
Amostra aleatória é um número de indivíduos (subconjunto) colhidos de uma população de forma sem utilizar tendendências para a escolha, ou seja, todos os indivíduos da população tem a mesma chance de ser selecionado.
Dados aproximadamente normais são aqueles que em processos aleatórios independentes igualmente prováveis costumam se agrupar de modo a seguir uma distribuição chamada de “normal”, formando então a “curva de sino”.
fos <- c(1.8, 2.2, 2.1, 2.3, 2.1, 2.2, 2.1, 2.1, 1.8, 1.9, 2.4, 2.0, 1.9, 1.9, 2.2, 2.3, 2.2, 2.3, 2.1, 2.2)
summary(fos)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.800 1.975 2.100 2.105 2.200 2.400
sort(fos)
## [1] 1.8 1.8 1.9 1.9 1.9 2.0 2.1 2.1 2.1 2.1 2.1 2.2 2.2 2.2 2.2 2.2 2.3
## [18] 2.3 2.3 2.4
stem(fos)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 18 | 00000
## 20 | 000000
## 22 | 00000000
## 24 | 0
boxplot(fos)
str(fos)
## num [1:20] 1.8 2.2 2.1 2.3 2.1 2.2 2.1 2.1 1.8 1.9 ...
t.test (fos, mu=2, conf.level=0.95, alternative = c("two.sided"))
##
## One Sample t-test
##
## data: fos
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
## 2.023973 2.186027
## sample estimates:
## mean of x
## 2.105
O viés é 0.105. Obtém se o viés estimado subtraindo o valor conhecido do valor da média, portanto se não houvesse um valor conhecido não teria como calcular o viés.
b’
#Precisão dos dados:
sd(fos)
## [1] 0.1731291
A precisão dos dados é 0.173 + o valor da média.
b’’
#Precisão da média amostral:
t.test(fos,alternative=c("two.sided"),mu=2,conf.level=0.95)
##
## One Sample t-test
##
## data: fos
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
## 2.023973 2.186027
## sample estimates:
## mean of x
## 2.105
sd(fos)/sqrt(length(fos))
## [1] 0.03871284
b’’’
#Cálculo da amplitude do intervalo de confiança:
r95<-t.test(fos,alternative=c("two.sided"),mu=50,conf.level=0.95)
r95$conf.int[2]-r95$conf.int[1]
## [1] 0.1620538
t.test (fos, mu=2, conf.level=0.95, alternative = c("great"))
##
## One Sample t-test
##
## data: fos
## t = 2.7123, df = 19, p-value = 0.006909
## alternative hypothesis: true mean is greater than 2
## 95 percent confidence interval:
## 2.03806 Inf
## sample estimates:
## mean of x
## 2.105
O intervalo estimado com confiança de 95% não contém o valor de 2mg/L. Isso implica que para um nível de confiança de 95% há um desvio superior na concentração.
tetra <- c(0.60, 0.50, 0.39, 0.84, 0.46, 0.39, 0.62, 0.67, 0.69, 0.81, 0.38, 0.79, 0.43, 0.57, 0.74, 0.27, 0.51, 0.35, 0.28, 0.45, 0.42, 1.14, 0.23, 0.72, 0.63, 0.50, 0.29, 0.82, 0.54, 1.13, 0.56, 1.33, 0.56, 1.11, 0.57, 0.89, 0.28, 1.20, 0.76, 0.26, 0.34, 0.52, 0.42, 0.22, 0.33, 1.14, 0.48)
sort(tetra)
## [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33
str(tetra)
## num [1:47] 0.6 0.5 0.39 0.84 0.46 0.39 0.62 0.67 0.69 0.81 ...
summary(tetra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
Valores:
Máximo: 1.3300
Mínimo:0.2200
Médio:0.5985
Mediano:0.5400
Primeiro quartil: 0.3900
Este é o quartil inferior, e o valor de 0.3900 é o valor inferior até aos 25% da amostra ordenada.
Terceiro quartil: 0.7500
Este é o quartil superior, e o valor de 0.7500 é o valor superior a mediana até aos 25% da amostra ordenada.
hist(tetra, # histograma com linhas de densidade sobreposta
freq = FALSE,
breaks=20,
col="lightgreen",
main="Tetraclorobenzeno-1,2,3,4 (TCCB),")
lines(density(tetra), col="red", lwd=4)
Nota se através da linha sobreposta e das barras que as distribuição das amostras têm uma desigualdade relevante à direita, por isso observa se também que é tendencioso o numero de amostras menores.
A mediana representa melhor os valores dos dados, porque aproxima mais da frequência dos valores dos dados no conjunto da amostra, pois nota se uma assimetria grande na amostra de acordo com o histograma, além de ter uma condição melhor do que a média de não ser afetada pelos valores extremos.
IQR(tetra)
## [1] 0.36
Considerando que o IQR assim como a mediana tem melhor condição de não ser afetado pelos valores extremos dos dados da amostra que são assimétricos à direita, conclui se que ele (IQR) é a medida de variabilidade dos dados mais representativa.
boxplot(tetra)
max(tetra)
## [1] 1.33
De acordo com o gráficos boxplot há um valor discrepante para cima na amostra com o valor de 1.33 mg/L.
A hipótese nula é o valor considerado aceitável, ou seja, =0,5 e a hipótese alternativa terá que ser significantemente maior que o valor considerado aceitável, ou seja, >0,5;
boxplot(tetra)
stem(tetra)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 2 | 2367889345899
## 4 | 223568001246677
## 6 | 023792469
## 8 | 1249
## 10 | 1344
## 12 | 03
t.test(tetra,alternative=c("greater"),mu=0.5,conf.level=0.95)
##
## One Sample t-test
##
## data: tetra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
## 0.529059 Inf
## sample estimates:
## mean of x
## 0.5985106
Usando a condição “greater”, pois a variança deverá ser significantemente maior ao valor considerado aceitável, que é 0,5. E isto se confirma no resultado do t.test que apresenta o valor de 0.5985106 com nível de significância de 95%.
Não, pois analisando o histograma de todo o conjunto de dados não se forma a curva de sino, pela assimetria dos extremos.
Erro Tipo I - Ho é verdadeira - é quando a hipotese nula é verdadeira e rejeitamos a mesma e Erro Tipo II - Ho é falsa - quando a hipóteste nula é falsa e mesmo assim, não rejeitamos a mesma. O erro é definido pelo analista através da hipótese alternativa, sendo considerado um nível de significância para os cálculos de teste da hipótese.
t.test(tetra,alternative=c("greater"),mu=0.5,conf.level=0.95)
##
## One Sample t-test
##
## data: tetra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
## 0.529059 Inf
## sample estimates:
## mean of x
## 0.5985106
summary(tetra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
e’- De acordo com o calculado valor acima de 0,5 são aceitos, ou seja, acima da mediana todos serão aceitos.
e’’- O valor P é a probabilidade calculada quando a hipótese é nula, ou seja, quando ela é verdadeira. O valor P encontrado foi 0.01073, reforçando a hipótese alternativa, pois é menor do que o nível de significância.
wilcox.test(tetra,alternative=c("greater"),mu=0.5,conf.int=TRUE)
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with ties
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with ties
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with zeroes
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: tetra
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
## 0.5049733 Inf
## sample estimates:
## (pseudo)median
## 0.5700434
O qual nos remete a reafirmar a hipótese alternativa pelo seu Valor P que continua abaixo do nível de significância que é 0.5.
t.test(tetra,alternative=c("greater"),mu=0.5,conf.level=0.95)
##
## One Sample t-test
##
## data: tetra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
## 0.529059 Inf
## sample estimates:
## mean of x
## 0.5985106
Como já havia realizado este procedimento mais acima o teste t-student, adota a hipótese alternativa, com valor-p abaixo do nível de significância que é 0.5 e o resultado é satisfatório pois é superior ao aceitável,0.5985106.
wilcox.test(tetra,alternative=c("greater"),mu=0.5,conf.int=TRUE)
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with ties
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with ties
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with zeroes
## Warning in wilcox.test.default(tetra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: tetra
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
## 0.5049733 Inf
## sample estimates:
## (pseudo)median
## 0.5700434
library(pwr)
pwr.t.test(power=0.80, d=0.1, sig.level= 0.05,alternative="two.sided")
##
## Two-sample t test power calculation
##
## n = 1570.733
## d = 0.1
## sig.level = 0.05
## power = 0.8
## alternative = two.sided
##
## NOTE: n is number in *each* group
O resultado de n foi 1570.733, ou seja, será necessário uma amostra de 1571 dados.
pwr.t.test(n=20,d=0.1,sig.level=.05,alternative="two.sided")
##
## Two-sample t test power calculation
##
## n = 20
## d = 0.1
## sig.level = 0.05
## power = 0.06095912
## alternative = two.sided
##
## NOTE: n is number in *each* group
O valor do poder do teste é de 0.06095912, ou seja, baixo. O que mostra uma baixa confiabilidade no tamanho da amostra.