title: “Intervalos de Confianca e Testes de Hipoteses” author: “Fernanda Raggi” date: sabado, 18 de abril de 2015. output: html_document — O seguinte trabalho permitiu verificar, através de inferência estatística, hipóteses e cálculos de intervalo de confiança.
Questão 1 - A autorização de despejo para uma indústria requer que a concentração media mensal de COD seja inferior a 50 mg/L.A indústria quer que isso seja interpretado como “50 mg/L está dentro do intervalo de confiança da média, que vai ser estimada a partir de 20 observações por mês.” Para as 20 observações seguintes,estaria a indústria em conformidade com esta interpretação do padrão?
Resolução
# Exibindo o diretorio de trabalho atual
getwd()
## [1] "C:/Users/FERNANDA/Documents/mestrado2015/analisededados"
# Definindo o Diretorio de trabalho
setwd("C:\\Users\\FERNANDA\\Documents\\mestrado2015\\analisededados")
#inserir dados
cod <- c(57,60,49,50,51,60,49,53,49,56,64,60,49,52,69,40,44,38,53,66)
#Examinando os dados
summary(cod)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 38.00 49.00 52.50 53.45 60.00 69.00
#Ordenando os vetores de menor e maior valor, em ordem crescente
sort(cod)
## [1] 38 40 44 49 49 49 49 50 51 52 53 53 56 57 60 60 60 64 66 69
#interpretacao dos dados em gráficos
#tipo ramo e folhas
stem(cod)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 3 | 8
## 4 | 049999
## 5 | 0123367
## 6 | 000469
#tipo boxplot
boxplot(cod,main="Gráfico Boxplot", ylab="valor", col="yellow")
Observações
Os valores obtidos no intervalo de confiança Por meio do gráfico obtido através do t.test, foi possível perceber uma distribuição aparentemente assimétrica dos dados, indicando possível anormalidade de distribuição. Para a realização de uma analise mais conclusiva, é necessario avaliar a distribuição por teste de hipóteses e intervalo de confiança.
#Analise de dados através do t.test - hipóteses, via intervalo de confiança (paramétrico)
t.test(cod,alternative=c("two.sided"),mu=50, conf.level=0.95)
##
## One Sample t-test
##
## data: cod
## t = 1.8894, df = 19, p-value = 0.07419
## alternative hypothesis: true mean is not equal to 50
## 95 percent confidence interval:
## 49.62825 57.27175
## sample estimates:
## mean of x
## 53.45
#Analise de dados através do wilcox (não paramétrico)
wilcox.test(cod, mu = 50, conf.int=TRUE)
## Warning in wilcox.test.default(cod, mu = 50, conf.int = TRUE): cannot
## compute exact p-value with ties
## Warning in wilcox.test.default(cod, mu = 50, conf.int = TRUE): cannot
## compute exact confidence interval with ties
## Warning in wilcox.test.default(cod, mu = 50, conf.int = TRUE): cannot
## compute exact p-value with zeroes
## Warning in wilcox.test.default(cod, mu = 50, conf.int = TRUE): cannot
## compute exact confidence interval with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: cod
## V = 139, p-value = 0.07905
## alternative hypothesis: true location is not equal to 50
## 95 percent confidence interval:
## 49.00001 58.00001
## sample estimates:
## (pseudo)median
## 53.66572
#calculando o desvio padrão
sd(cod)
## [1] 8.165879
Considerações Finais
Questão 2 - Um protocolo de garantia de qualidade laboratorial exige que as soluçõoes padrão tenham 50 mg/l de COT. Tais amostras são inseridas de forma aleatória no fluxo de trabalho. Os analistas são cegos a estas normas. Estime o vi´es e a precisão das 16 observações mais recentes deste padrão. O processo de medição de COT está em conformidade com o padrão? Obs: vie’s = o quanto está fora do valor estipulado (margem de erro)
Resolução
# Exibindo o diretorio de trabalho atual
getwd()
## [1] "C:/Users/FERNANDA/Documents/mestrado2015/analisededados"
# Definindo o Diretorio de trabalho
setwd("C:\\Users\\FERNANDA\\Documents\\mestrado2015\\analisededados")
#inserir dados
cot <- c(50.3,51.2,50.5,50.2,49.9,50.2,50.3,50.5,49.3,50.0,50.4,50.1,51.0,49.8,50.7,50.6)
#Examinando os dados
summary(cot)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 49.30 50.08 50.30 50.31 50.52 51.20
#Ordenando os vetores
sort(cot)
## [1] 49.3 49.8 49.9 50.0 50.1 50.2 50.2 50.3 50.3 50.4 50.5 50.5 50.6 50.7
## [15] 51.0 51.2
#calculando a media
mean(cot)
## [1] 50.3125
#interpretacao dos dados em gráficos
#grafico ramo e folhas
stem(cot)
##
## The decimal point is at the |
##
## 49 | 3
## 49 | 89
## 50 | 0122334
## 50 | 5567
## 51 | 02
#grafico boxplot
boxplot(cot, main="Gráfico tipo Boxplot", ylab="valor", col="blue")
Considerações
Analisando os gráficos, a distribuição dos dados é aparentemente simétrica, indicando distribuição maior dos dados. Entretanto, para a conclusão, é necessária a avaliação por teste de hipótese e confiança, paramétrico. Ainda, foi realizado o teste de Wilcoxon, não paramétrico, para conferência.
#Analise de dados através do t.test- hipóteses
t.test(cot,alternative=c("two.sided"),mu=50, conf.level=0.95)
##
## One Sample t-test
##
## data: cot
## t = 2.7074, df = 15, p-value = 0.01622
## alternative hypothesis: true mean is not equal to 50
## 95 percent confidence interval:
## 50.06648 50.55852
## sample estimates:
## mean of x
## 50.3125
#Analise de dados através do wilcox
wilcox.test(cot, mu = 50, conf.int=TRUE)
## Warning in wilcox.test.default(cot, mu = 50, conf.int = TRUE): cannot
## compute exact p-value with ties
## Warning in wilcox.test.default(cot, mu = 50, conf.int = TRUE): cannot
## compute exact confidence interval with ties
## Warning in wilcox.test.default(cot, mu = 50, conf.int = TRUE): cannot
## compute exact p-value with zeroes
## Warning in wilcox.test.default(cot, mu = 50, conf.int = TRUE): cannot
## compute exact confidence interval with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: cot
## V = 102, p-value = 0.01823
## alternative hypothesis: true location is not equal to 50
## 95 percent confidence interval:
## 50.09998 50.59994
## sample estimates:
## (pseudo)median
## 50.34994
Conclusão
De acordo com os dados encontrados, o viés preciso observado foi 0.3125 em relação à média amostral (50.31), e em relação ao valor de referência 50 mg/L.As 16 observações mais recentes podem ser consideradas precisas, uma vez que apresentam valores de análises de COT próximos do valor padrão estabelecido (50 mg/L).
Questão 3 - O gás produzido a partir da fermentação biológica é oferecido para a venda com o garantia de que o teor médio de metano de 72%. Uma amostra aleatória de n = 7 amostras de gás forneceu conteúdo de metano (em %) de 64,65,75,67,65,74 e 75.
Efetue testes de hipóteses com níveis de significância de 0,10,0,05,e 0,01 para determinar se é justo reivindicar uma média de 72;
Calcular intervalos de confiança de 90%, 95% e 99% para avaliar a alegação de uma média de 72%.
#inserir dados
met <- c(64,65,75,67,65,74,75)
#examinando os dados
summary(met)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 64.00 65.00 67.00 69.29 74.50 75.00
#Ordenando os vetores
sort(met)
## [1] 64 65 65 67 74 75 75
#Observando os dados - gráfico tipo ramo e folhas
stem(met)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 6 | 4
## 6 | 557
## 7 | 4
## 7 | 55
#observando os dados - gráfico tipo boxplot
boxplot(met, main="Gráfico Tipo Boxplot", xlab="valor", col="pink")
Observações
Analisando os gráficos, a distribuição dos dados é assimétrica, indicando distribuição anormal dos dados. Os valores tendem estar abaixo do valor estipulado, portanto não conclusivo, sendo necessária a avaliação por teste de hipótese e confiança, paramétrico, e teste de Wilcoxon, não paramétrico.
#teste de hipótese
#alpha = 10%
t.test(met,alternative=c("two.sided"), mu=72.0, conf.level=0.90)
##
## One Sample t-test
##
## data: met
## t = -1.402, df = 6, p-value = 0.2105
## alternative hypothesis: true mean is not equal to 72
## 90 percent confidence interval:
## 65.52362 73.04781
## sample estimates:
## mean of x
## 69.28571
r10 <- t.test(met,alternative=c("two.sided"),mu=72,conf.level=0.90)
r10$conf.int[2]-r10$conf.int[1]
## [1] 7.524198
#alpha = 5%
t.test(met, alternative=c("two.sided"), mu=72.0, conf.level=0.95)
##
## One Sample t-test
##
## data: met
## t = -1.402, df = 6, p-value = 0.2105
## alternative hypothesis: true mean is not equal to 72
## 95 percent confidence interval:
## 64.54836 74.02306
## sample estimates:
## mean of x
## 69.28571
r5 <- t.test(met,alternative=c("two.sided"),mu=72,conf.level=0.95)
r5$conf.int[2]-r5$conf.int[1]
## [1] 9.4747
#alpha = 1%
t.test(met, alternative=c("two.sided"), mu=72.0, conf.level=0.99)
##
## One Sample t-test
##
## data: met
## t = -1.402, df = 6, p-value = 0.2105
## alternative hypothesis: true mean is not equal to 72
## 99 percent confidence interval:
## 62.10794 76.46349
## sample estimates:
## mean of x
## 69.28571
r1 <- t.test(met,alternative=c("two.sided"),mu=72.0,conf.level=0.99)
r1$conf.int[2]-r1$conf.int[1]
## [1] 14.35555
#Analise de dados através do wilcox
wilcox.test(met, mu=72.0, conf.int=TRUE)
## Warning in wilcox.test.default(met, mu = 72, conf.int = TRUE): requested
## conf.level not achievable
## Warning in wilcox.test.default(met, mu = 72, conf.int = TRUE): cannot
## compute exact p-value with ties
## Warning in wilcox.test.default(met, mu = 72, conf.int = TRUE): cannot
## compute exact confidence interval with ties
##
## Wilcoxon signed rank test with continuity correction
##
## data: met
## V = 6, p-value = 0.2033
## alternative hypothesis: true location is not equal to 72
## 90 percent confidence interval:
## 64.99999 74.50002
## sample estimates:
## (pseudo)median
## 69.50002
#Cálculo da média
sd(met)
## [1] 5.122313
Conclusão
Observando os testes realizados, foi possível observar que quanto maior o valor de alpha menor o intervalo de confiança onde deverá estar o valor esperado. Quanto menor o intervalo de confiança maior a amplitude dos dados e maior a chance de acerto. O valor da média amostral foi de 69.28% (mpedia de metano do gás produzido), abaixo do valor estipulado pelo órgão ambiental, como demonstrado no gráfico boxplot. No teste de Wilcoxon, a média encontrada (69.50%) comprova que o teor amostrado está abaixo do estipulado, não sendo aceitável a hipótese de mu = 72%, ainda que dentro do intervalo de confiança.
Questão 4 - Os seguintes dados foram obtidos a partir de medidas pareadas de nitrito em água e em águas residuais por eletrodo direto de íon-seletivo e um método colorimétrico. Os dois métodos forneceram resultados consistentes?
ISE<- c(0.32,0.36,0.24,0.11,0.11,0.44,2.79,2.99,3.47)
colorimetric <- c(0.36,0.37,0.21,0.09,0.11,0.42,2.77,2.91,3.52)
#cálculo da média e desvio padrão
mean(ISE)
## [1] 1.203333
sd(ISE)
## [1] 1.424798
#cálculo da média e desvio padrão colorimétrico
mean(colorimetric)
## [1] 1.195556
sd(colorimetric)
## [1] 1.421901
#examinando os dados
summary(ISE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.110 0.240 0.360 1.203 2.790 3.470
summary(colorimetric)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.090 0.210 0.370 1.196 2.770 3.520
#Ordenando os vetores
sort(ISE)
## [1] 0.11 0.11 0.24 0.32 0.36 0.44 2.79 2.99 3.47
sort(colorimetric)
## [1] 0.09 0.11 0.21 0.36 0.37 0.42 2.77 2.91 3.52
#Observando os dados através do gráfico - histograma
hist(ISE)
hist(colorimetric)
#Observando os dados através do gráfico - ramo e folhas
stem(ISE)
##
## The decimal point is at the |
##
## 0 | 112344
## 1 |
## 2 | 8
## 3 | 05
stem(colorimetric)
##
## The decimal point is at the |
##
## 0 | 112444
## 1 |
## 2 | 89
## 3 | 5
#Observando os dados através do gráfico - boxplot
boxplot(ISE)
boxplot(colorimetric)
#comparando os dados através do gráfico - boxplot
par(mfrow=c(1,2))
boxplot(ISE,main ="Método ISE",ylab = "valor", col="lightblue")
boxplot(colorimetric, main="Método Colorimetric", ylab="valor", col="pink")
Considerações Observa-se que os gráficos obtidos são similares, como observado em boxplot, com pequena variação entre as duas medianas. Para confirmar, foram realizados teste de hipótese e Wilcoxon.
#teste t e intervalo de confiança - amplitude dos dados
t.test(ISE,colorimetric, paired=TRUE, var.equal = FALSE)
##
## Paired t-test
##
## data: ISE and colorimetric
## t = 0.5986, df = 8, p-value = 0.566
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.02218494 0.03774050
## sample estimates:
## mean of the differences
## 0.007777778
#calculo da amplitude do método ISE
r5 <- t.test(ISE, alternative=c("two.sided"),mu=0,conf.level=0.95)
r5$conf.int[2]-r5$conf.int[1]
## [1] 2.190394
#calculo da amplitude do método colorimetric
r5 <- t.test(colorimetric, alternative=c("two.sided"),mu=0,conf.level=0.95)
r5$conf.int[2]-r5$conf.int[1]
## [1] 2.18594
#Teste wilcoxon e interevalo de confiança - amplitude dos dados
wilcox.test(ISE,colorimetric, paired=TRUE, var.equal = FALSE)
## Warning in wilcox.test.default(ISE, colorimetric, paired = TRUE, var.equal
## = FALSE): cannot compute exact p-value with ties
## Warning in wilcox.test.default(ISE, colorimetric, paired = TRUE, var.equal
## = FALSE): cannot compute exact p-value with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: ISE and colorimetric
## V = 22, p-value = 0.6236
## alternative hypothesis: true location shift is not equal to 0
Conclusão: De acordo com os testes realizados foi observado que o gráfico de ramo e folhas e o boxplot apresentaram similiridades nos dados das medições de nitrito para os dois métodos, confirmado pela aplicação do Teste T (t.test) onde a diferença da média entre os dois métodos variou pouco, ou seja, 0,007777778 para um intervalo de confiança de 95%. ——————————————————————————— Questão 5:
Limites extremamente baixos existem agora para metais pesados em limites de águas residuais de efluentes. Pensa-se frequentemente que, sempre que a concentração de metais pesados é demasiado elevada, o problema pode ser corrigido forçando indústrias a interromper a descarga da substância nociva. E possível, no entanto, que a concentração alvo do efluente ser tão baixa que elas podem ser ultrapassadas pela concentração em esgoto doméstico. Amostras de água potável foram coletadas de dois bairros residenciais, um servido pelo abastecimento de água da cidade e outro servido por poços particulares. As concentrações de mercúrio observados estão listados na Tabela abaixo. Para estudos futuros sobre concentrações de mercúrio em áreas residenciais, seria conveniente ser capaz de coletar dados em qualquer bairro, sem ter que se preocupar que o abastecimento de água pode afetar o resultado. Existe alguma diferença no teor de mercúrio das duas áreas residenciais?
cidade<- c(0.34,0.18,0.13,0.09,0.16,0.09,0.16,0.10,0.14,0.26,0.06,0.26,0.07)
part <- c(0.26,0.06,0.16,0.19,0.32,0.16,0.08,0.05,0.10,0.13)
#cálculo da média e desvio padrão
mean(cidade)
## [1] 0.1569231
sd(cidade)
## [1] 0.08439832
#cálculo da média e desvio padrão colorimétrico
mean(part)
## [1] 0.151
sd(part)
## [1] 0.08736259
mean(part)
## [1] 0.151
#examinando os dados
summary(cidade)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0600 0.0900 0.1400 0.1569 0.1800 0.3400
summary(part)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0500 0.0850 0.1450 0.1510 0.1825 0.3200
#Ordenando os vetores
sort(cidade)
## [1] 0.06 0.07 0.09 0.09 0.10 0.13 0.14 0.16 0.16 0.18 0.26 0.26 0.34
sort(part)
## [1] 0.05 0.06 0.08 0.10 0.13 0.16 0.16 0.19 0.26 0.32
#Observando os dados através do gráfico - ramo e folhas
stem(cidade)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 0 | 6799
## 1 | 034668
## 2 | 66
## 3 | 4
stem(part)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 0 | 568
## 1 | 03669
## 2 | 6
## 3 | 2
#Observando os dados através do gráfico - boxplot
boxplot(cidade, col="lightblue")
boxplot(part, col="pink")
#comparando os dados através do gráfico - boxplot
par(mfrow=c(1,2))
boxplot(cidade,main ="Cidade",ylab = "valor", col="lightblue")
boxplot(part, main="Part", ylab="valor", col="pink")
boxplot(cidade,part, main ="Cidade Part",ylab = "valor", varwidth=TRUE,col="lightgreen")
#teste t e intervalo de confiança - amplitude dos dados
t.test(cidade, part, paired=FALSE, var.equal = TRUE)
##
## Two Sample t-test
##
## data: cidade and part
## t = 0.1643, df = 21, p-value = 0.871
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.06902507 0.08087122
## sample estimates:
## mean of x mean of y
## 0.1569231 0.1510000
#calculo da amplitude das amostras cidade
rcidade5 <- t.test(cidade, alternative=c("two.sided"),mu=0,conf.level=0.95)
rcidade5$conf.int[2]-rcidade5$conf.int[1]
## [1] 0.1020028
#calculo da amplitude das amostras part
rpart5 <- t.test(part, alternative=c("two.sided"),mu=0,conf.level=0.95)
rpart5$conf.int[2]-rpart5$conf.int[1]
## [1] 0.1249909
#teste wilcoxon
wilcox.test(cidade, part, paired=FALSE, var.equal =TRUE)
## Warning in wilcox.test.default(cidade, part, paired = FALSE, var.equal =
## TRUE): cannot compute exact p-value with ties
##
## Wilcoxon rank sum test with continuity correction
##
## data: cidade and part
## W = 68.5, p-value = 0.8518
## alternative hypothesis: true location shift is not equal to 0
#Conferindo as médias
mean(cidade)
## [1] 0.1569231
mean(part)
## [1] 0.151
Conclusão
Foi possível perceber, analisando os gráficos boxplot obtidos, dados de média e testes, que houve similiridade nos dados das medições de mercúrio com pequena variação para as duas áreas.