LogoIFMG

cabecalho

1. Instruções

Forma de Envio: Vocês podem resolver usando o MS Word ou o R Markdown. Se escolherem o MS Word, incluam os comandos do R e as saídas e escrevam as análises, salvem ou convertam o documento para pdf e enviem ao meu email. Caso optem pelo R Markdown, me enviem o link do documento no rpubs. Não se esqueça de identificar o arquivo.

Data/Horário limite: Os arquivos ou links devem ser enviados para o meu email até as 13 horas do dia 24/04/2015.

Objetivo: A ideia do exame é que seja uma oportunidade de aprendizagem. Conto com a maturidade e ética profissional de todos para que não utilizem o fato de haver um prazo para resolver a prova para simplesmente copiar as respostas de colegas, a probabilidade de resoluções e entendimentos idênticos é extremamente baixa. A discussão e colaboração é encorajada, mas a simples cópia de respostas será penalizada.

Dúvidas: Além das referências constantes no programa da disciplina, a web está repleta de bons recursos para consulta sobre conceitos estatísticos, pesquise e use a vontade.

___________________________________________________________________

2. Questões

Questão 1:

Identifique um problema ambiental em sua comunidade ou relacionado ao seu trabalho e liste as variáveis (ou fatores) para as quais dados poderiam ser coletados para entender melhor esse problema.

Solução:

Para a resolução desde exercício, trouxe um exemplo, no qual muito sou preocupado, que é a questão da poluição atmosférica.

Resido em Contagem/MG na Região Metropolitana de Belo Horizonte-RMBH, representada principalmente pelo eixo Belo Horizonte/Contagem/Betim. Esta região está mais susceptível aos efeitos adversos à saúde em relação a alteração constante do índice de qualidade do ar IQA induzidos principalmente pelas emissões atmosféricas oriundas dos processos industriais aqui instalados e do grande fluxo de veículos automotores, tanto em número de possuidores deles quanto do transporte rodoviário, já que trata-se de região de interceptação de duas rodovias principais brasileiras, ou seja, BR-381(onde trafegam grande número de veículos do trecho Belo Horizonte-MG e São Paulo-SP) e BR 262(uma rodovia transversal brasileira que interliga os estados do Espírito Santo, Minas Gerais, São Paulo e Mato Grosso do Sul). Além disso Contagem-MG é um polo industrial da região sudeste.

Os poluentes atmosféricos podem ser classificados como primários, quando emitidos por uma fonte identificável, ou secundários, quando formados a partir de reações químicas que ocorrem na atmosfera envolvendo os poluentes primários. São considerados poluentes atmosféricos os seguintes compostos:

Monóxido de Carbono (CO);
Compostos Orgânicos Voláteis (COV);
Óxidos de Nitrogênio (NOx, ou seja NO e/ou NO2);
Óxidos de Enxofre (SOx, ou seja SO2 e/ou SO3);
Material Particulado (MP-partículas inaláveis, poeiras, fumaças);
Ozônio (O3).

Para cada uma dessas substâncias, foram definidos padrões de qualidade do ar, ou seja, limites máximos de concentração que, quando ultrapassados, podem afetar a saúde, a segurança e o bem-estar da população, bem como ocasionar danos ao meio ambiente em geral. No Brasil, os padrões de qualidade do ar foram fixados pelo Conselho Nacional do Meio Ambiente-CONAMA, por meio da Resolução CONAMA nº 03/90, sendo também adotados em Minas Gerais.

A Fundação Estadual do Meio Ambiente - FEAM realiza o monitoramento da Qualidade do Ar na Região Metropolitana de Belo Horizonte desde o ano de 1995, e ao longo destes anos, este monitoramento vem crescendo com o aumento das instalações de estações de medição na RMBH e demais regiões do Estado. São disponibilizados boletins diários sobre a qualidade do ar no próprio site da Fundação, disponível em http://www.feam.br/qualidade-do-ar.

Para monitorar a qualidade do ar na RMBH – eixo Belo Horizonte/Contagem/Betim, a FEAM opera uma rede constituída de doze estações automáticas, onde estão instalados monitor de PM-10, analisadores de gases, sensores meteorológicos e sistema de aquisição e transmissão dos dados. Os dados das medições são transmitidos por rede telefônica, em tempo real, a uma central instalada na FEAM e os resultados disponibilizados em boletim diário apresenta a situação das últimas 24 horas. Os equipamentos que compõem a rede são de origem francesa e foram adquiridos em atendimento a condicionante de licença ambiental ou medida compensatória de dano ambiental.

Os índices de qualidade do ar (IQA), em inglês, Pollutant Standards Index (PSI), foram desenvolvidos pela United States Environmental Protection Agency (USEPA).

O IQA, como concebido pela USEPA, também é adotado pelos órgãos ambientais estaduais brasileiros, inclusive Minas Gerais.Os índices de qualidade são definidos segundo o quadro abaixo:

IQR2

Fonte: FEAM, 2009.

Abaixo um modelo destas estações. Esta estação abaixo está instalada no bairro Cidade Industrial em Contagem-MG, no Departamento da Polícia Rodoviáia Federal.

estacao2

Fonte: FEAM, 2015.

Em consulta a estudos sobre a qualidade do ar da região, disponibilizados pela FEAM, listei as variáveis que podem fornecer um banco de dados que podem ser submetidos a uma análise exploratória de dados para que consiga entender, estatisticamente, o comportamento do índice de qualidade do ar da minha região.Escolhi os dados referente ao município de Contagem/MG. O motivo da escolha da estação é porque, além de morar aqui, acompanho a vários anos estes estudos, por caráter informativo e não de trabalho. Os dados foram obtidos conforme tabela abaixo referente ao total de dias segundo a qualidade do ar em função do parâmetro Partículas Inaláveis (PM-10), RMBH, no período de 1995 – 2002. As Partículas Inaláveis podem ser definidas de maneira simplificada como aquelas cujo diâmetro aerodinâmico é menor que 10 µm. Dependendo da distribuição de tamanho na faixa de 0 a 10 µm, podem ficar retidas na parte superior do sistema respiratório ou penetrar mais profundamente, alcançando os alvéolos pulmonares, provicando efeitos diversos à saúde humana.

Tabela 1: Total de dias segundo a qualidade do ar em função do parâmetro Partículas Inaláveis (PM-10), RMBH, 1995 – 2002 tabelainalaveis

Fonte: FEAM, 2003.

Podemos, tratar os dados da seguinte forma:

#Inserindo os dados: criei 8 objetos e atribui variáveis que na sequência representam respectivamente a qualidade do ar como boa, regular, inadequada,má, pessima e omisso (dias onde não houve monitoramento ou falha na transmissão dos dados).

Contagem1995 <- c(85, 129, 6, 0, 0, 145) 

Contagem1996 <- c(98, 139, 7, 2, 0, 119)

Contagem1997 <- c(90, 151, 11, 0, 0, 113) 

Contagem1998 <- c(143, 101, 3, 0, 0, 118) 

Contagem1999 <- c(214, 103, 0, 0, 0, 48) 

Contagem2000 <- c(130, 16, 0, 0, 0, 220) 

Contagem2001 <- c(193, 48, 0, 0, 0, 124) 

Contagem2002 <- c(143, 96, 0, 0, 0, 126) 

#Atribuindo nomes às variáveis

IQA1995 <- c("boa","regular","inadequada","má","péssima","omisso

IQA1996 <- c("boa","regular","inadequada","má","péssima","omisso

IQA1997 <- c("boa","regular","inadequada","má","péssima","omisso

IQA1998 <- c("boa","regular","inadequada","má","péssima","omisso

IQA1999 <- c("boa","regular","inadequada","má","péssima","omisso

IQA2000 <- c("boa","regular","inadequada","má","péssima","omisso

IQA2001 <- c("boa","regular","inadequada","má","péssima","omisso

IQA2002 <- c("boa","regular","inadequada","má","péssima","omisso

#Obtendo os respectivos gráficos

barplot(Contagem1995, names.arg=IQA1995, main="Total de dias segundo IQA(PM-10)- Contagem 1995",ylab="dias do ano")

barplot(Contagem1996, names.arg=IQA1996, main="Total de dias segundo IQA(PM-10)- Contagem 1996",ylab="dias do ano")

barplot(Contagem1997, names.arg=IQA1997, main="Total de dias segundo IQA(PM-10)- Contagem 1997",ylab="dias do ano")

barplot(Contagem1998, names.arg=IQA1998, main="Total de dias segundo IQA(PM-10)- Contagem 1998",ylab="dias do ano")

barplot(Contagem1999, names.arg=IQA1999, main="Total de dias segundo IQA(PM-10)- Contagem 1999",ylab="dias do ano")

barplot(Contagem2000, names.arg=IQA2000, main="Total de dias segundo IQA(PM-10)- Contagem 2000",ylab="dias do ano")

barplot(Contagem2001, names.arg=IQA2001, main="Total de dias segundo IQA(PM-10)- Contagem 2001",ylab="dias do ano")

barplot(Contagem2002, names.arg=IQA2002, main="Total de dias segundo IQA(PM-10)- Contagem 2002",ylab="dias do ano")

Análise dos gráficos:

Observa-se pelos gráficos plotados,que o ano de 1999 foi o que mais teve mais ocorrências de resultados considerando o baixo número de dias onde a estação de monitoramento teve falha na transmissão dos dados.

Observa-se também que o ano de 2000 foi o ano que teve menos ocorrência de resultados devido ao grande número de dias onde a estação de monitoramento teve falha na transmissão dos dados.

Observando o período de monitoramento (1995-1997) considera-se que a qualidade do ar predominante na minha região foi regular, ou seja,pessoas de grupos sensíveis (crianças, idosos e pessoas com doenças respiratórias e cardíacas) podem apresentar sintomas como tosse seca e cansaço. A população, em geral, não é afetada, desconsiderando os dias omissos de resultados.

Observando o período de monitoramento (1998-2002) considera-se que a qualidade do ar predominante na minha região foi boa, ou seja,praticamente sem riscos à saúde, desconsiderando os dias omissos de resultados.

Agora vou trabalhar com uma análise básica de exploração de dados, escolhendo a variável “Regular” como exemplo:

#Inserindo os dados e criando novo objeto, os números em sequencia representam respectivamente os dias do ano no período de 1995 a 2002.

IQAregContagem <- c(129.0, 139.0, 151.0, 101.0, 103.0, 16.0, 48.0, 96.0)

#Calculando a média
mean(IQAregContagem)

## [1] 97.875

#Examinando os dados
summary(IQAregContagem)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   84.00  102.00   97.88  131.50  151.00

Análise dos dados:

Foi observado que os dias do ano onde o IQA se apresentou regular, em média, para o período de monitoramento entre 1995 a 2002, foi de aproximadamente 98 dias do ano para contagem, sendo o mínimo observado no ano de 2000 e o máximo no ano de 1997.

Vou agora elaborar um gráfico de pizza para confirmar os dados acima:

IQAregContagem <- c(129.0, 139.0, 151.0, 101.0, 103.0, 16.0, 48.0, 96.0)

names(IQAregContagem) <- c("1995","1996","1997","1998","1999","2000","2001","2002")

porc<-round(IQAregContagem*100/sum(IQAregContagem),2) 
rotulos<-paste(names(IQAregContagem),"(",porc,"%)",sep="")
pie(IQAregContagem, main="Porcentagem de dias do ano com IQA regular em Contagem",labels=rotulos, cex=0.7, col=rainbow(8))

Considerações Finais:

Observa-se que o ano de 1997 foi o que mais obteve o número de dias com IQA regular e o ano 2000 com o menor número de dias, desconsiderando os dias omissos que podem de alguma forma afetar os valores monitorados. Em termos de unidade de medida, as concentrações de partículas inaláveis neste período foram detectadas entre 51 a 150 microgramas/m3.

___________________________________________________________________

Questão 2:

Identifique duas leis federais ou estaduais ou resoluções de órgãos federais ou estaduais que regulem uma questão ambiental utilizando estimação de intervalo de confiança. Descreva o parâmetro regulado cujo cálculo utilize um destes procedimentos estatísticos. Liste e descreva os termos estatísticos utilizados na regulamentação.

Solução:

Identifiquei duas legislações que utilizam os conceitos estatísticos para a determinaçãde padrões de qualidade:

Federal: Resolução CONAMA nº 03/1990 que estabelece os padrões de qualidade do ar;
Estadual: Deliberação Normativa Conjunta COPAM/CERH-MG nº 01/2008 que dispõe sobre a classificação dos corpos de água e diretrizes ambientais para o seu enquadramento, bem como estabelece as condições e padrões de lançamento de efluentes.

Realizando a análise das legislações ambientais:

Solução A:

Resolução CONAMA nº 03/1990 que estabelece os padrões de qualidade do ar

Para os efeitos da aplicação da Resolução são estabelecidos os seguintes conceitos:

Padrões Primários de Qualidade do Ar: são as concentrações de poluentes que, ultrapassadas, poderão afetar a saúde da população.
Padrões Secundários de Qualidade do Ar: são as concentrações de poluentes abaixo das quais se prevê o mínimo efeito adverso sobre o bem-estar da população, assim como o mínimo dano à fauna, à flora, aos materiais e ao meio ambiente em geral.

Os poluentes regulamentados por esta resolução são Materiais Particulados MP (partículas totais em suspensão, fumaça, partículas inaláveis), Dióxido de Enxofre (SO2), Monóxido de Carbono (CO), Ozônio (O3) e Dióxido de Nitrogênio (NO2).

A Resolução estabeleceu os seguintes Padrões de Qualidade do Ar:

1 - Partículas Totais em Suspensão (PTS)

Padrão Primário

Concentração média geométrica anual de 80 (oitenta) microgramas por metro cúbico de ar.
Concentração média de 24 (vinte e quatro) horas de 240 (duzentos e quarenta) microgramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano.

Padrão Secundário

Concentração média geométrica anual de 60 (sessenta) micro gramas por metro cúbico de ar.
Concentração média de 24 (vinte e quatro) horas de 150 (cento e cinqüenta) microgramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano.

2 - Fumaça (FMC)

Padrão Primário

Concentração média aritmética anual de 60 (sessenta) microgramas por metro cúbico de ar.
Concentração média de 24 (vinte e quatro) horas de 150 (cento e cinqüenta) microgramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano.

Padrão Secundário

Concentração média aritmética anual de 40 (quarenta) microgramas por metro cúbico de ar.
Concentração média de 24 (vinte e quatro) horas de 100 (cem) microgramas por metro cúbico de ar, que não deve ser excedida uma de urna vez por ano.

3 - Partículas Inaláveis (MP10)

Padrão Primário e Secundário

Concentração média aritmética anual de 50 (cinqüenta) microgramas por metro cúbico de ar.
Concentração média de 24 (vinte e quatro) horas de 150 (cento e cinqüenta) microgramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano.

4 - Dióxido de Enxofre (SO2)

Padrão Primário

Concentração média aritmética anual de 80 (oitenta) microgramas por metro cúbico de ar.
Concentração média de 24 (vinte e quatro) horas de 365 (trezentos e sessenta e cinco) microgramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano.

Padrão Secundário

Concentração média aritmética anual de 40 (quarenta) microgramas por metro cúbico de ar.
Concentração média de 24 (vinte e quatro) horas de,100 (cem) microgramas por metro cúbico de ar, que não deve ser excedida mais de urna vez por ano.

5 - Monóxido de Carbono (CO)

Padrão Primário e Secundário

Concentração média de 8 (oito) horas de 10.000 (dez mil) microgramas por metro cúbico de ar (9 ppm), que não deve ser excedida mais de uma vez por ano.
Concentração média de 1 (uma) hora de 40.000 (quarenta mil) microgramas por metro cúbico de ar (35 ppm), que não deve ser excedida mais de uma vez por ano.

6 - Ozônio (O3)

Padrão Primário e Secundário

Concentração média de 1 (uma) hora de 160 (cento e sessenta) microgramas por metro cúbico do ar, que não deve ser excedida mais de uma vez por ano.

7 - Dióxido de Nitrogênio (NO2)

Padrão Primário

Concentração média aritmética anual de 100 (cem) microgramas por metro cúbico de ar.
Concentração média de 1 (uma) hora de 320 (trezentos e vinte) microgramas por metro cúbico de ar.

Padrão Secundário

Concentração média aritmética anual de 100 (cem) microgramas por metro cúbico de ar.
Concentração média de 1 (uma) hora de 190 (cento e noventa) microgramas por metro cúbico de ar.

Dos poluentes listados acima vou escolher um deles para descrever os parâmetros estatísticos embutidos:

Parâmetro:Partículas Inaláveis (MP10)

O padrão primário e secundário define que a concentração média aritmética anual é de até 50 (cinqüenta) microgramas por metro cúbico de ar e a concentração média de 24 (vinte e quatro) horas é de 150 (cento e cinqüenta) microgramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano.

Termos utilizados:

Média aritmética anual: Até 50 microgramas/m3 de ar(µ01);
Média aritmética diária: Até 150 microgramas/m3 de ar (µ02)

Hipóteses aplicáveis a regulamentação do parâmetro para que sejam aceitas:

Ho = hipótese nula, ou seja, µ - µ01 = 0 ou µ = µ01/µ - µ02 = 0 ou µ = µ02
Ha1 = hipótese alternativa 1,ou seja, µ - µ01 < 0 ou µ < µ01
Ha2 = hipótese alternativa 2,ou seja, µ - µ02 < 0 ou µ < µ02

Sendo:

µ = a média amostral (valor obtido por ensaios laboratoriais) provenientes de amostragens.
µ0 = Padrão estipulado (valor padrão normativo).

Estatisticamente o que quer dizer? Bom, a forma que encontrei para resolver esta questão foi exemplificando os conceitos estatísticos com a norma supra.

Exemplo 1: Consideremos uma situação hipotética 1 sobre um monitoramento da qualidade do ar para o parâmetro partículas inaláveis em 12 meses de uma região, observando o padrão primário, onde em 11 meses obtivemos a concentração média máxima mensal de 50 microgramas/m3 de ar e 1 mês obtivemos uma concentração média de 73 microgramas/m3 de ar.

Vamos analisar os dados:

#Criando objeto:
Monitoramento <- c(50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 73)

#Verificando a quantidade de fatores
length(Monitoramento)

## [1] 12

#Calculando a média
mean(Monitoramento)

## [1] 51.91667

#Calculando o desvio padrão
sd(Monitoramento)

## [1] 6.639528

#Examinando os dados
summary(Monitoramento)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   50.00   50.00   50.00   51.92   50.00   73.00

#Criando um gráfico de linhas para melhor compreensão dos conceitos estatísticos
ano <- 1:12

Monitoramento <- c(50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 73)

Padraoprimario<- c(50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50)

mediamonitoramento <- c(51.91,51.91,51.91,51.91,51.91,51.91,51.91,51.91,51.91,51.91,51.91,51.91)

plot(ano, Monitoramento,type="o",main="Comparação entre concentração monitorada, média e padrão primário",xlab="ano",ylab="PI-microgramas/m3 de ar",col="blue",ylim=c(10,100)
lines(ano, Padraoprimario,col="red")
lines(ano,mediamonitoramento,col="green")
grid()
legend(7,100,c("Monitoramento","Padrão Primário","Média do Monitoramento"),cex=0.7, col =c("blue","red","green"), pch=rep(10,

#Realizando o teste de hipóteses e por intervalo de confiança
t.test(Monitoramento, alternative = c("two.sided"),mu=50.0, conf.level= 0.95)

## 
##  One Sample t-test
## 
## data:  Monitoramento
## t = 1, df = 11, p-value = 0.3388
## alternative hypothesis: true mean is not equal to 50
## 95 percent confidence interval:
##  47.69811 56.13522
## sample estimates:
## mean of x 
##  51.91667

Análise dos dados:Conforme pode ser observado,temos uma média amostral obtida na concentração de 51.91 microgramas/m3 de ar devido a diferença entre os valores mínimo e máximo respectivamente de 50 microgramas/m3 de ar e 73 microgramas/m3 de ar conforme a comando “summary”, o desvio padrão foi de 6.63 indicando uma varição expressiva do valor da média amostral(µ01) com o valor estipulado (µ01 = padrão do órgão ambiental), ou seja, a hipótese µ = µ01 não é verdadeira, pois µ > µ01.

Foi observado também no gráfico acima que para que a concentração média aritmética anual fosse no máximo de 50 microgramas/m3 de ar em todos os meses do ano deveria ter sido detectada a concentração média de 50 microgramas/m3.Tendo em vista que um mês de monitoramento o valor da concentração foi detectado acima de 50 microgramas/m3 comprometeu a manutenção do padrão de qualidade do ar primário, ou seja, o valor máximo (73 microgramas/m3 de ar) comprometeu a média que deveria estar abaixo ou igual ao valor estipulado (50 microgramas/m3 de ar).

Aplicando a fórmula do t.test foi possível verificar que a concentração média de 51.91 50 microgramas/m3 está abaixo de 50 microgramas/m3, portanto, novamente invalidamos a hipótese de µ = µ01 não é verdadeira, pois µ > µ01.

Exemplo 2:Consideremos agora uma situação hipotética 2 sobre o mesmo monitoramento da qualidade do ar agora considerando que os valores de concentração média máxima mensal foi de 50 microgramas/m3 de ar para todos os meses do ano.

Vamos analisar os dados:

#Criando objeto:
Monitoramento2 <- c(50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50)

#Verificando a quantidade de fatores
length(Monitoramento2)

## [1] 12

#Calculando a média
mean(Monitoramento2)

## [1] 50

#Examinando os dados
summary(Monitoramento2)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      50      50      50      50      50      50

#Calculando o desvio padrão
sd(Monitoramento2)

## [1] 0

#Criando um novo gráfico de linhas para melhor compreensão dos conceitos estatísticos
ano <- 1:12

Monitoramento2 <- c(50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0)

Padraoprimario<- c(50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50)

Mediamonitoramento2 <- c(50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0, 50.0)

plot(ano, Monitoramento2,type="o",main="Comparação entre concentração monitorada, média e padrão primário",xlab="ano",ylab="PI-microgramas/m3 de ar",col="blue",ylim=c(10,100)
lines(ano, Padraoprimario,col="red")
lines(ano,Mediamonitoramento2,col="green")
grid()
legend(7,100,c("Monitoramento","Padrão Primário","Média do Monitoramento"),cex=0.7, col =c("blue","red","green"), pch=rep(10,

Análise dos dados:Conforme pode ser observado,temos uma média amostral obtida na concentração de 50 microgramas/m3 de ar devido a diferença nula entre os valores mínimo e máximo conforme a comando “summary”, o desvio padrão foi de 0.0 indicando que não há varição do valor da média amostral(µ) com o valor estipulado (µ01 = padrão do órgão ambiental), ou seja, a hipótese µ = µ01 é verdadeira. Outra hipótese que poderia ser aceita é a que de µ < µ01 não exemplificada neste exercício.

Conforme pode ser observado no gráfico acima, para que a concentração média aritmética anual permaneça no valor máximo de 50 microgramas/m3 de ar conforme estabelecido pela Resolução CONAMA nº 03/1990 foi necessário que em todos os meses do ano a concentração média não excedesse o padrão de 50 microgramas/m3.

Solução B:

Deliberação Normativa Conjunta COPAM/CERH-MG nº 01/2008 que dispõe sobre a classificação dos corpos de água e diretrizes ambientais para o seu enquadramento, bem como estabelece as condições e padrões de lançamento de efluentes.

No artigo 29 da Deliberação estabelece que os efluentes de qualquer fonte poluidora somente poderão ser lançados, direta ou indiretamente, nos corpos de água desde que obedeçam as condições e padrões previstos no artigo, resguardadas outras exigências cabíveis:

O efluente não deverá causar ou possuir potencial para causar efeitos tóxicos aos organismos aquáticos no corpo receptor, de acordo com os critérios de toxicidade estabelecidos pelo órgão ambiental competente.
Os critérios de toxicidade previstos acima devem se basear em resultados de ensaios ecotoxicológicos padronizados, utilizando organismos aquáticos, e realizados no efluente.

As condições de lançamento de efluentes são:

I - pH entre 6,0 a 9,0;

II - temperatura: inferior a 40ºC, sendo que a variação de temperatura do corpo receptor não deverá exceder a 3ºC no limite da zona de mistura;

III - materiais sedimentáveis: até 1 mL/L em teste de 1 hora em cone Imhoff. Para o lançamento em lagos e lagoas, cuja velocidade de circulação seja praticamente nula, os materiais sedimentáveis deverão estar virtualmente ausentes;

IV - regime de lançamento com vazão máxima de até 1,5 vezes a vazão média do período de atividade diária do agente poluidor, exceto nos casos permitidos pela autoridade competente;

V - óleos e graxas:

óleos minerais: até 20 mg/L;
óleos vegetais e gorduras animais: até 50mg/L.

VI - ausência de materiais flutuantes;

VII – DBO: até 60 mg/L ou:

tratamento com eficiência de redução de DBO em no mínimo 60% e média anual igual ou superior a 70% para sistemas de esgotos sanitários e de percolados de aterros sanitários municipais;e
tratamento com eficiência de redução de DBO em no mínimo 75% e média anual igual ou superior a 85% para os demais sistemas.

VIII - DQO - até 180 mg/L ou:

tratamento com eficiência de redução de DQO em no mínimo 55% e média anual igual ou superior a 65% para sistemas de esgotos sanitários e de percolados de aterros sanitários municipais;
tratamento com eficiência de redução de DQO em no mínimo 70% e média anual igual ou superior a 75% para os demais sistemas;
Se tratar de efluentes de indústria têxtil, o padrão será de 250 mg/L;e
Se tratar de efluentes de fabricação de celulose Kraft branqueada, o padrão será de 15 kg de DQO/ tonelada de celulose seca ao ar (tSA) para novas unidades ou ampliação. Para as unidades existentes o padrão será de 20 Kg de DQO/ tonelada de celulose seca ao ar (tSA), média diária, e 15Kg de DQO/ tonelada de celulose seca ao ar (tSA), média anual.

IX – Substancias tensoativas que reagem com azul de metileno: até 2,0 mg/L de LAS, exceto para sistemas públicos de tratamento de esgotos sanitários;

X – Sólidos em suspensão totais até 100 mg/L, sendo 150 mg/L nos casos de lagoas de estabilização.

Observando os conceitos sobre testes de hipóteses e intervalo de confiança:

Considerando as hipóteses possíveis para aplicação da norma:

Ho = hipótese nula, ou seja, µ - µ0 = 0 ou µ = µ0
Ha1 = hipótese alternativa 1,ou seja, µ - µ0 ≠ 0 ou µ ≠ µ0
Ha2 = hipótese alternativa 2,ou seja, µ - µ0 < 0 ou µ < µ0
Ha3 = hipótese alternativa 3,ou seja, µ - µ0 > 0 ou µ > µ0
Ha4 = hipótese alternativa 4,ou seja, µ01 < µ < µ02

Sendo:

µ = a média amostral (valor obtido por ensaios laboratoriais) provenientes de amostragens.
µ0 = Padrão estipulado (valor padrão normativo).

Tomando 3 exemplos de parâmetros acima para exemplificação, pois os valores padrões sãoestabelecidos em condições distintas:

Potencial hidrogeônico (pH): valor entre 6,0 a 9,0;

Análise:Em um ensaio laboratorial, para atender a legislação o valor calculado pelos métodos empregados a hipótese a ser aceita é de que µ01 < µ < µ02, ou seja, para que o valor de pH esteja dentro do padrão de conformidade é necessário que o resultado esteja dentro do intervalo de 6 a 9.As hipóteses µ < µ01 e µ > µ02 não serão aceitas.

Temperatura (T): inferior a 40ºC

Análise:Em um ensaio laboratorial, para atender a legislação o valor calculado em campo as hipóteses a serem aceitas são de que µ < µ0 ou µ = µ0 para que o que o resultado esteja dentro do padrão de conformidade.A hipótese µ > µ0 não será aceita.

Demanda Bioquímica de Oxigênio (DBO): até 60 mg/L ou:

tratamento com eficiência de redução de DBO em no mínimo 60% e média anual igual ou superior a 70% para sistemas de esgotos sanitários e de percolados de aterros sanitários municipais;e
tratamento com eficiência de redução de DBO em no mínimo 75% e média anual igual ou superior a 85% para os demais sistemas.

Análise:

Padrão de até 60 mg/L: em um ensaio laboratorial, para atender a legislação o valor calculado em campo as hipóteses a serem aceitas são de que µ < µ0 ou µ = µ0 para que o que o resultado esteja dentro do padrão de conformidade.A hipótese µ > µ0 não será aceita.
Tratamento com eficiência de redução de DBO em no mínimo 60% (µ01) e média anual igual ou superior a 70% (µ02) para sistemas de esgotos sanitários e de percolados de aterros sanitários municipais: Calculando a eficiência de tratamento de sistemas com medições de concentrações de efluente bruto (entrada) e tratado (saída ou ponto de lançamento), é desejável, para que estes padrões sejam atendidos, que o teste de hipótese seja aceito para a condição de µ > µ01 e µ > µ02. As hipóteses µ < µ01 e µ < µ02 devem ser rejeitadas.
Tratamento com eficiência de redução de DBO em no mínimo 75% (µ03)e média anual igual ou superior a 85% (µ04) para os demais sistemas: Calculando a eficiência de tratamento de sistemas com medições de concentrações de efluente bruto (entrada) e tratado (saída ou ponto de lançamento), é desejável, para que estes padrões sejam atendidos, que o teste de hipótese seja aceito para a condição de µ > µ03 e µ > µ04. As hipóteses µ < µ03 e µ < µ04 devem ser rejeitadas.

___________________________________________________________________

Questão 3:

Defina:

(a) população: É o conjunto de todos os indivíduos (não necessariamente pessoas) ou objetos que apresentam uma característica em comum, no qual se interessa inferir estatisticamente.Também pode ser definida como o conjunto constituído por todos os indivíduos que representam pelo menos uma característica comum, cujo comportamento interessa analisar (inferir).

(b) amostra aleatória: É a representação de uma parte da população, já que quando estudamos uma população não temos acesso a todos os seus elementos.

Sobre a relação população x amostra:

Populaçaoxamostra

(c) dados aproximadamente normais: Quando, em uma análise exploratória de dados, os dados apresentem valores de desvio padrão (precisão dos dados) e viés (margem de erro) do valor amostral bem próximos aos valores estipulados (esperado). É possível observar se os dados são aproximadamente normais elaborando os gráficos tipo boxplot e ramo e folhas e observando de há ou não simetria nos gráficos plotados.Dados aproximadamente normais também podem ser observados quando o valor da média é proximo ao da mediana.

Abaixo um exemplo de gráfico que mostra, aparentemente, que os dados são aproximadamente normais:

Graficodistribuicaonormal

___________________________________________________________________

Questão 4:

A concentração medida de fósforo (P) para n = 20 amostras de águas residuais com uma concentração conhecida de 2 mg/L são:

1.8, 2.2, 2.1, 2.3, 2.1, 2.2, 2.1, 2.1, 1.8, 1.9, 2.4, 2.0, 1.9, 1.9, 2.2, 2.3, 2.2, 2.3, 2.1, 2.2

(a) Qual é o viés dos dados? Se não houvesse um valor conhecido o viés poderia ser calculado?

Solução:

#Inicialmente insere-se os dados no R:
Fosforo <- c(1.8, 2.2, 2.1, 2.3, 2.1, 2.2, 2.1, 2.1, 1.8, 1.9, 2.4, 2.0, 1.9, 1.9, 2.2, 2.3, 2.2, 2.3, 2.1, 2.2)

#Podemos já obter dados principais dos dados com a função summary
summary(Fosforo)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.800   1.975   2.100   2.105   2.200   2.400

#Para melhor visualização dos dados usamos o comando sort() para ordená-los
sort(Fosforo)

##  [1] 1.8 1.8 1.9 1.9 1.9 2.0 2.1 2.1 2.1 2.1 2.1 2.2 2.2 2.2 2.2 2.2 2.3
## [18] 2.3 2.3 2.4

#Desvio padrão em relação à media
sd(Fosforo)

## [1] 0.1731291

#Construindo o gráfico do tipo "caule e folhas" para observar a frequência dos dados
stem(Fosforo)

## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##   18 | 00000
##   20 | 000000
##   22 | 00000000
##   24 | 0

#Aumentando a escala
stem(Fosforo,scale=2)

## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##   18 | 00
##   19 | 000
##   20 | 0
##   21 | 00000
##   22 | 00000
##   23 | 000
##   24 | 0

#Observando os dados por meio do gráfico do tipo "boxplot"
boxplot(Fosforo, main="Gráfico Boxplot (Concentração de P)",ylab="mg/L",col="lightgre
abline(h = 1.975, col="blue", lwd=1) #Linha representativa do 1º Quartil
abline(h = 2.100, col="black",lwd=1) #Linha representativa da Mediana
abline(h = 2.105, col="green4",lwd=1) #Linha representativa da Média
abline(h = 2.200, col="red", lwd=1)  #Linha representativa do 3º Quartil

Resposta: Aplicando o comando summary, observa-se que o valor da média da amostra (linha verde) está bem próximo ao valor da mediana (linha preta) no gráfico boxplot, que apresenta distribuição dos dados aparentemente assimétrica, mesmo não sendo observado valores outliers.

O desvio padrão também foi observado em pequeno valor confirmando a proximidade da média à mediana, mas foi observado O viés de 0.105 mg/L. Pode-se estimar o valor do viés sem o valor conhecido,desde que, de acordo com o que eu percebi, o desvio padrão seja pequeno, considerando o valor decimal após a vírgula do resultado da média amostral.Para desvio padrão alto, não é possível estimar com precisão o valor antes da vírgula que vão depender dos valores máximos e mínimo dos dados, que podem afetar o valor da média amostral, ou seja, valores extremos afetam os valores da média e o valor viés, neste caso, não poderia ser calculado sem o valor conhecido.

(b) Existem várias medidas de precisão, calcule as seguintes

i. precisão dos dados (desvio-padrão)

Solução:

O desvio padrão mostra o quanto de variação ou “dispersão” do valor da mpedia amostral mean(P) existe em relação ao valor esperado (mu). Um baixo desvio padrão indica que os dados tendem a estar próximos da média e um desvio padrão alto indica que os dados estão espalhados por uma gama de valores.

#Obtendo o desvio padrão
sd(Fosforo)

## [1] 0.1731291

Resposta: Foi obtido o desvio padrão de 0.1731291 mg/L próximo à concentração conhecida de 2.0 mg/L.

ii. precisão (erro-padrão) da média amostral

Solução:

#Calculando o viés por método manual para conferência dos dados

#Conferindo o tamanho da amostra
length(Fosforo)

## [1] 20

#O cálculo da estatística de teste é dada pela fórmula dada em sala de aula:

#t(Fosforo) = (mean(Fosforo) - (mu))/(sd(Fosforo)/sqrt(20))

#Cálculo da média:
mean(Fosforo)

## [1] 2.105

#mu = 2.0 (concentração conhecida)

#Desvio padrão (Fosforo)
sd(Fosforo)

## [1] 0.1731291

#Cálculo da raiz quadrada de 20
sqrt(20)

## [1] 4.472136

#Retomando a fórmula de t(P):
(2.105-2.00)/(0.1731291/4.472136)

## [1] 2.712278

#temos o valor t=2.7123

#Conferindo o valor da margem de erro (viés)
(2.7123)*(sd(Fosforo)/sqrt(20))

## [1] 0.1050008

#Erro Padrão (Fosforo) é obtido pela fórmula:
sd(Fosforo)/sqrt(20)

## [1] 0.03871284

Resposta: De acordo com os cálculos realizados foi obtido um viés de 0.105 mg/L e erro padrão de 0.03871284 mg/L.

iii. estime um intervalo com 95% de confiança para a verdadeira concentração média. O intervalo de confiança estimado contem o valor de 2 mg/L? O que este resultado implica?

Solução:

#Realizando os testes de hipóteses com o intervalo de confiança de 95%
t.test(Fosforo, alternative = c("two.sided"),mu=2.0, conf.level= 0.95)

## 
##  One Sample t-test
## 
## data:  Fosforo
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
##  2.023973 2.186027
## sample estimates:
## mean of x 
##     2.105

#Realizando o teste de Wilcoxon
wilcox.test(Fosforo,mu=2.0,conf.int=TRUE)

## Warning in wilcox.test.default(Fosforo, mu = 2, conf.int = TRUE): cannot
## compute exact p-value with ties

## Warning in wilcox.test.default(Fosforo, mu = 2, conf.int = TRUE): cannot
## compute exact confidence interval with ties

## Warning in wilcox.test.default(Fosforo, mu = 2, conf.int = TRUE): cannot
## compute exact p-value with zeroes

## Warning in wilcox.test.default(Fosforo, mu = 2, conf.int = TRUE): cannot
## compute exact confidence interval with zeroes

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  Fosforo
## V = 157.5, p-value = 0.01164
## alternative hypothesis: true location is not equal to 2
## 95 percent confidence interval:
##  2.000049 2.200015
## sample estimates:
## (pseudo)median 
##       2.100042

#Calculando a amplitude do intervalo de confiança
r5 <- t.test(Fosforo,alternative=c("two.sided"),mu=2.0,conf.level=0.95)
r5$conf.int[2]-r5$conf.int[1]

## [1] 0.1620538

Resposta parcial 1: O intervalo de confiança de 95% (2.023973 mg/L a 2.186027 mg/L) não contém o valor esperado de 2.0 mg/L, bem como também não foi observado para o teste de Wilcoxon (2.000049 mg/L a 2.200015 mg/L). Este resultado implica que o intervalo de confiança considerado não validaram os resultados. Vou analisar outros intervalos (90% e 99%), para quer se há possibilidade de conter o valor esperado de 2.0 mg/L:

#Realizando os testes de hipóteses com o intervalo de confiança de 90%
t.test(Fosforo, alternative = c("two.sided"),mu=2.0, conf.level= 0.90)

## 
##  One Sample t-test
## 
## data:  Fosforo
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 90 percent confidence interval:
##  2.03806 2.17194
## sample estimates:
## mean of x 
##     2.105

#Calculando a amplitude do intervalo de confiança
r10 <- t.test(Fosforo,alternative=c("two.sided"),mu=2.0,conf.level=0.90)
r10$conf.int[2]-r10$conf.int[1]

## [1] 0.1338793

#Realizando os testes de hipóteses com o intervalo de confiança de 99%
t.test(Fosforo, alternative = c("two.sided"),mu=2.0, conf.level= 0.99)

## 
##  One Sample t-test
## 
## data:  Fosforo
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 99 percent confidence interval:
##  1.994245 2.215755
## sample estimates:
## mean of x 
##     2.105

#Calculando a amplitude do intervalo de confiança
r1 <- t.test(Fosforo,alternative=c("two.sided"),mu=2.0,conf.level=0.99)
r1$conf.int[2]-r1$conf.int[1]

## [1] 0.2215098

Resultado parcial 2: Foi observado que para o ic de 90% o valor esperado também não está contido nele (2.03806 mg/L a 2.17194 mg/L). Para que o valor esperado 2.0 mg/L esteja contido no ic, o mesmo deveria ser testado a 99%, assim a amplitude dos dados seriam maiores aumentando as chances de conter o valor esperado dentro do ic (1.994245 mg/L a 2.215755 mg/L), pois a amplitude dos dados foi superior (0.22) que os demais testes realizados. Ainda que o viés e o desvio padrão calculados foram observados em valores baixos, a hipótese para ic = 95% não é verdadeira.

___________________________________________________________________

Questão 5:

A variação aleatória é a matéria-prima da estatística. Quando observações são tomadas de uma variável ambiental,tais observações normalmente apresentam variação, em maior ou menor grau. Por exemplo, a Tabela 1 mostra os valores para tetraclorobenzeno-1,2,3,4 (TCCB), em partes por milhões para 47 amostras em locações diferente de uma região considerada não contaminada usada como uma referência para comparação com uma região possivelmente contaminada.

tabelaexercicio5

Claramente as medições apresentam variações, presumivelmente devido a variação natural em diferentes partes do local, além de algum erro analítico envolvido na medição das amostras. Como uma área do conhecimento, a principal preocupação da estatística é quantificar este tipo de variação.

(a) Descreva como você pode inserir estes dados para analisá-los no R.

Solução:

Para inserir no R precisamos criar o objeto para análise, concatenando os dados. Podemos também importar os dados no R de arquivos na extensão “.csv” ou “.txt”. Como se tratam de muitos dados, podemos usar a função length() para conferir o seu tamanho ou str() para observar a estrutura dos dados.

Vejamos:

#Inserir os dados no R
TCCB <- c(0.60, 0.50, 0.39, 0.84, 0.46, 0.39, 0.62, 0.67, 0.69, 0.81, 0.38, 0.79, 0.43, 0.57, 0.74, 0.27, 0.51, 0.35, 0.28, 0.45, 0.42, 1.14, 0.23, 0.72,0.63, 0.50, 0.29, 0.82, 0.54, 1.13, 0.56, 1.33, 0.56, 1.11, 0.57, 0.89, 0.28, 1.20, 0.76, 0.26, 0.34, 0.52, 0.42, 0.22, 0.33, 1.14, 0.48)

#Obtendo o tamanho total da amostra para conferir a tabela
length(TCCB)

## [1] 47

#Obtendo dados de estatística básica, bem mais completa que a finção summary()

#Instalando e ativando o pacote
library(fBasics)

## Warning: package 'fBasics' was built under R version 3.1.3

## Loading required package: timeDate

## Warning: package 'timeDate' was built under R version 3.1.3

## Loading required package: timeSeries

## Warning: package 'timeSeries' was built under R version 3.1.3

## 
## 
## Rmetrics Package fBasics
## Analysing Markets and calculating Basic Statistics
## Copyright (C) 2005-2014 Rmetrics Association Zurich
## Educational Software for Financial Engineering and Computational Science
## Rmetrics is free software and comes with ABSOLUTELY NO WARRANTY.
## https://www.rmetrics.org --- Mail to: info@rmetrics.org

basicStats(TCCB)

##                  TCCB
## nobs        47.000000
## NAs          0.000000
## Minimum      0.220000
## Maximum      1.330000
## 1. Quartile  0.390000
## 3. Quartile  0.750000
## Mean         0.598511
## Median       0.540000
## Sum         28.130000
## SE Mean      0.041373
## LCL Mean     0.515231
## UCL Mean     0.681791
## Variance     0.080452
## Stdev        0.283641
## Skewness     0.845167
## Kurtosis    -0.132653

(b) Quais valores máximo, mínimo, médio e mediano de TCCB da amostra?

Solução:

Com a função summary() podemos observar também a exploração dos dados:

#Obtendo os dados:
summary(TCCB)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.3900  0.5400  0.5985  0.7500  1.3300

Respostas: O valor mínimo é representado pela concentração de tetraclorobenzeno-1,2,3,4 (TCCB) de 0.22 partes por mil milhões e o máximo de 1.33 partes por mil milhões.

O valor médio das amostras é de 0.5985 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB).

O valor mediano das amostras é de 0.5400 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB).

(c) Calcule e o primeiro e o terceiro quartil e interprete os valores calculados.

Solução:

#Usando novamente a função summary()
summary(TCCB)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.3900  0.5400  0.5985  0.7500  1.3300

O valor do 1º quartil das amostras é de 0.3900 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB).

O valor do 3º quartil das amostras é de 0.7500 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB).

boxplot(TCCB,horizontal=TRUE,main="Relação Boxplot e IQR",xlab="Concentração TC
abline(v = 0.39, col="blue", lwd=3) #Linha representativa do 1º quartil
abline(v = 0.75, col="red", lwd=3)  #Linha representativa do 3º quartil
abline(v = 0.59, col="green4", lwd=3)  #Linha representativa da média
abline(v = 0.54, col="black", lwd=3)  #Linha representativa da mediana
grid()

#Identificando valor discrepante (outlier)
quantile(TCCB)

##   0%  25%  50%  75% 100% 
## 0.22 0.39 0.54 0.75 1.33

Resposta: O primeiro quartil é um valor tal que 75% dos dados ficam acima dele, e apenas 25% abaixo. O terceiro quartil é o valor tal que 25% dos dados ficam acima, e 75% abaixo.

Em análise complementar, observa-se no gráfico boxplot o valor discrepante outlier identificado no último quantil de 100% (1.33) que levou a média para cima da mediana e que o intervalo entre o 1º e o 3º quartil demonstra maior concentração de dados.

(d) Construa um histograma com uma linha de densidade sobreposta para os dados da amostra. Interprete.

Solução:

hist(TCCB,freq=F,breaks=12,col="lightgrey",xlab="Concentração de TCCB partes por mil milhões",ylab="Densidade",main="Com curva de Densidade Empíri
rug(jitter(TCCB))
lines(density(TCCB),col="red", lwd=2)
abline(v = 0.54, col="blue", lwd=3) #linha representativa da mediana
abline(v = 0.5985, col="green4", lwd=3) #linha representativa da média amostral

#Ordenando os dados para melhor visualização de frequência
sort(TCCB)

##  [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33

#Obtendo um gráfico de "caule" e folhas"" para analisar a frequência dos dados
stem(TCCB,scale=2)

## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##    2 | 2367889
##    3 | 345899
##    4 | 223568
##    5 | 001246677
##    6 | 02379
##    7 | 2469
##    8 | 1249
##    9 | 
##   10 | 
##   11 | 1344
##   12 | 0
##   13 | 3

Interpretação:A curva demonstra uma assimetria à direita na distribuição de dados com concentração dos mesmos à esquerda. As linhas verticais em preto entre o eixo x e o gráfico representam cada valor da amostra e a curva de densidade em vermelho demonstra que a maior frequência de valores se encontra entorno de 0.54 (mediana: concentração dos dados - linha vertical azul), tanto é que a média amostral foi de 0.5985 (linha vertical verde), onde obteve-se o maior pico da linha. Com o gráfico de caule e folhas é também possível observar a frequência dos dados, pois a probabilidade da média amostral estar entre 0.5 a 0.6 eram maiores.A linha de densidade empírica também demonstrou distribuição bimodal dos dados devido a lacuna de dados no intervalo de concentrações de 0.9 e 1.0, o que fez aparecer, mesmo em desproporção, outro pico de valores.

(e) Construa um histograma com uma linha de densidade sobreposta para os dados da amostra. Interprete.

Solução:

hist(TCCB,freq=F,breaks=12,col="lightgrey",xlab="Concentração de TCCB partes por mil milhões",ylab="Densidade",main="Com curva de Densidade Empíri
rug(jitter(TCCB))
lines(density(TCCB),col="blue", lwd=2)
abline(v = 0.54, col="red", lwd=3)
abline(v = 0.5985, col="green4", lwd=3)

#Ordenando os dados para melhor visualização de frequência
sort(TCCB)

##  [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33

#Obtendo um gráfico de ramo e folhas para analisar a frequência dos dados
stem(TCCB,scale=2)

## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##    2 | 2367889
##    3 | 345899
##    4 | 223568
##    5 | 001246677
##    6 | 02379
##    7 | 2469
##    8 | 1249
##    9 | 
##   10 | 
##   11 | 1344
##   12 | 0
##   13 | 3

Interpretação (questão repetida):A curva demonstra uma assimetria à direita na distribuição de dados com concentração dos mesmos à esquerda. As linhas verticais em preto entre o eixo x e o gráfico representam cada valor da amostra e a curva de densidade em azul demonstra que a maior frequência de valores se encontra entorno de 0.54 (mediana: concentração dos dados - linha vertical azul), tanto é que a média amostral foi de 0.5985 (linha vertical verde), onde obteve-se o maior pico da linha. Com o gráfico de caule e folhas é também possível observar a frequência dos dados, pois a probabilidade da média amostral estar entre 0.5 a 0.6 eram maiores.A linha de densidade empírica também demonstrou distribuição bimodal dos dados devido a lacuna de dados no intervalo de concentrações de 0.9 e 1.0, o que fez aparecer, mesmo em desproporção, outro pico de valores.

(f) Qual a medida do centro dos dados mais representativa para as medidas de TCCB? A média ou a mediana? Explique.

Solução:

A mediana, pois a média reflete o valor de todas as observações e se a distribuição dos dados for aproximadamente simétrica a média tem valor próximo ao da mediana.A mediana é mais utilizada do que a média como medida de localização, pois é menos sensível a alguns dados chamados de “outliers”, ou seja, aos valores muito maiores ou muito menores do que os restantes.No caso da distribuição dos dados de TCCB, observa-se valores extremos em termos de diferença, ou seja, mínimo de 0.22 e máximo de 1.33.

Resumindo, no histograma obtivo com curva de densidade empírica é forte a evidencia de assimetria nos dados, pois a média foi muito afetada pelos valores extremos. Neste caso, a mediana é o valor mais representativo do centro dos dados, pois ela não é afetada por valores extremos.

(g) Qual a medida da variabilidade dos dados mais representativa para as medidas de TCCB? O desvio-padrão ou o intervalo interquartil (IQR)? Explique.

Solução:

#Desvio padrão
sd(TCCB)

## [1] 0.2836408

#Intervalo Interquartil (IQR)
IQR(TCCB)

## [1] 0.36

No caso o desvio padrão só irá ser mais representativo se a média for boa, ou seja, se a distribuição dos dados for graficamente simétrica.

#Prefiro fazer horizontal conforme estudado em apostila de gráficos para ver melhor a distribuição dos dados
boxplot(TCCB,horizontal=TRUE,xlab="Concentração de TCCB em partes por mil milhões",col="lightblu
grid()

Resposta: No caso, a medida da variabilidade mais ideal seria o intervalo interquartil (IQR), porque a diferença entre o 3º quartil e 1º quartil me garantem 50% da probabilidade dos meus resultados. Da mesma forma que a mediana, o IQR não é afetado pelos valores extremos que originam a assimetria.

(h) A partir dos gráficos construídos, explique se há algum valor discrepante (outlier) na amostra.

Solução:

#Vou obter os quantis para que o valor de 100% que garanta exatamente o outlier da amostra
quantile(TCCB)

##   0%  25%  50%  75% 100% 
## 0.22 0.39 0.54 0.75 1.33

Resposta: De acordo com o gráfico boxplot construído acima percebe-se que a distribuição está enviesada para a direita (há o valor de 1.33 como “outlier”), a média tende a ser superior à mediana.

___________________________________________________________________

Questão 6:

Uma das ferramentas mais utilizadas em estatística são os testes de hipóteses, também chamados de teste de significância. Tais testes examinam a questão de saber se uma amostra de dados poderia razoavelmente ter surgido com base em um determinado pressuposto, que é chamado a hipótese nula.

Considere os dados da Tabela 1 com medidas de tetraclorobenzeno-1,2,3,4 (TCCB), em partes por mihões para 47 amostras em locações diferentes de uma região considerada não contaminada. Suponha-se que um nível médio de TCCB de 0.5 é considerado aceitável, e a questão seja saber se o nível médio de TCCB seja significativamente maior do que 0,5.

(a) Defina as hipóteses nula e alternativa para esta situação.

Solução:

Usando a letra grega µ para representar a média:

Para a hipótese nula, a média da amostra deve assumir o valor igual ao valor conhecido de 0.5 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB), devendo satisfazer a seguinte condição:

H0: Hipótese nula

µ-µ0=0 ou µ=µ0

Para a hipótese alternativa, a média amostral deve assumir o valor superior ao valor conhecido de 0.5 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB), devendo satisfazer a seguinte condição:

Ha: Hipótese alternativa
µ-µ0>0 ou µ>µ0

Ou seja:

H0: Hipótese nula (µ=0.5)
Ha: Hipótese alternativa (µ>0.5)

(b) Quais as condições devem ser satisfeitas pela amostra para que você possa responder a questão utilizando um procedimento de teste de hipóteses?

Solução:

Realizando o teste de hipóteses (método paramétrico):

t.test(TCCB,alternative=c("greater"),mu=0.5,conf.level=0.95)

## 
##  One Sample t-test
## 
## data:  TCCB
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
##  0.529059      Inf
## sample estimates:
## mean of x 
## 0.5985106

Realizando o teste de hipóteses (método não-paramétrico):

wilcox.test(TCCB,alternative=c("greater"),mu=0.5,conf.int=TRUE)

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact p-value with ties

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact confidence interval with ties

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact p-value with zeroes

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact confidence interval with zeroes

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  TCCB
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
##  0.5049733       Inf
## sample estimates:
## (pseudo)median 
##      0.5700434

Interpretação: A hipótese alternativa (µ>0.5) pode ser aceita para o intervalo de confiança de 95% nos testes aplicados

(c) Observando o histograma e o boxplot dos dados, você considera que os dados podem ser considerados aproximadamente normais?

Solução:

#Elaborando o histograma
hist(TCCB,freq=F,breaks=12,col="lightgrey",xlab="Concentração de TCCB partes por mil milhões",ylab="Densidade",main="Com curva de Densidade Empíri
rug(jitter(TCCB))
lines(density(TCCB),col="blue", lwd=2)
abline(v = 0.5, col="red", lwd=4)

#Elaborando o gráfico boxplot horizontal
boxplot(TCCB,horizontal=TRUE,xlab="Concentração de TCCB em partes por mil milhões",col="lightblu
grid()

#Ordenando as variáveis para simples conferência dos dados:
sort(TCCB)

##  [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33

summary(TCCB)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.3900  0.5400  0.5985  0.7500  1.3300

Resposta: Observando que a reta vermelha significa o valor médio considerado na questão 6 de 0.5. Observando os gráficos, os dados não podem ser considerados aproximadamente normais, devido ao outiler superior (representado pelo ponto no lado direito do gráfico - 1.33), e como a mediana representa o ponto central da base de dados o valor da média tende a ser superiores à mediana. Pode-se se observar que os valores extremos afetam o valor da média em relação a mediana caracterizando assim a aparência assimétrica.

(d) Quais os erros envolvidos em um procedimento de teste de hipóteses? Descreva-os e defina qual o erro é fixado pelo analista.

Solução:

Pesquisando da internet achei que os erros são do tipo I (H0 é verdadeira: rejeitando-a) ou II (H0 é falsa e aceita).O erro tipo I foi fixado pelo analista por estabelecer o nível de significância de 5%.

(e) Responda a questão utilizando um teste de hipótese baseado na distribuição t-Student e um nível de significância de 5%.

Solução:

#Testes de hipóteses: t-Student com valor alpha = 5%
t.test(TCCB, alternative = c("greater"),mu=0.5, conf.level= 0.95)

## 
##  One Sample t-test
## 
## data:  TCCB
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
##  0.529059      Inf
## sample estimates:
## mean of x 
## 0.5985106

i. Responda a questão comparando o valor calculado da estatística de teste com o valor crítico (quantil) da distribuição t-Student.

Solução: A hipótese alternativa de mu > 0.5 é verdadeira.

ii. Responda a questão interpretando o valor-p

Solução:

Interpretação:: Pode-se rejeitar a hipótese nula a 5% e aceitar a hipótese alternativa, pois o p-value foi calculado no valor menor que 5% (1.073%).

(f) Caso você, como um analista de dados ambientais, ficasse em dúvida sobre se as condições que devem ser satisfeitas pelo teste-t são satisfeitas pela amostra, qual outro procedimento de teste você poderia utilizar? Por que? O resultado deste outro procedimento é consistente com o resultado do teste t usando alpha = 5%.

Solução: O outro procedimento é a realização do Teste de Wilcoxon que substitui o t de Student para confirmar os dados (não-paramétrico).

wilcox.test(TCCB,alternative=c("greater"),mu=0.5,conf.int=TRUE)

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact p-value with ties

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact confidence interval with ties

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact p-value with zeroes

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact confidence interval with zeroes

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  TCCB
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
##  0.5049733       Inf
## sample estimates:
## (pseudo)median 
##      0.5700434

Conclusão: Este teste também confirmou o aceite da hipotese alternativa de mu > 0.5.

(g) Responda a questão utilizando uma estimativa por intervalo com 95% de confiança baseado na distribuição t-Student.

Solução:

#Realizando os testes de hipóteses: t-Student com α = 5%
t.test(TCCB, alternative = c("greater"),mu=0.5, conf.level= 0.95)

## 
##  One Sample t-test
## 
## data:  TCCB
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
##  0.529059      Inf
## sample estimates:
## mean of x 
## 0.5985106

Resposta; Valor p-value do t.test (1.073%) também abaixo do nível de significância de 5% validando a hipótese alternativa de mu > 0.5.

(h) Responda a questão utilizando uma estimativa por intervalo com 95% de confiança baseado no teste de Wilcoxon.

Solução:

#Realizando o teste de Wilcoxon
wilcox.test(TCCB,alternative=c("greater"),mu=0.5,conf.int=TRUE)

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact p-value with ties

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact confidence interval with ties

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact p-value with zeroes

## Warning in wilcox.test.default(TCCB, alternative = c("greater"), mu = 0.5,
## : cannot compute exact confidence interval with zeroes

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  TCCB
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
##  0.5049733       Inf
## sample estimates:
## (pseudo)median 
##      0.5700434

Resposta; Valor p-value do wilcox.test (4.36%) também abaixo do nível de significância de 5% validando a hipótese alternativa de mu > 0.5.

(i) Qual procedimento você considera mais adequado para responder a questão, um teste de hipótese ou uma estimativa por intervalo de confiança? Por que?

Solução:

Realizando o t-test com níveis de significância de 1% e 10%

#Realizando os testes de hipóteses: t-Student com α = 10%
t.test(TCCB, alternative = c("two.sided"),mu=0.5, conf.level= 0.90)

## 
##  One Sample t-test
## 
## data:  TCCB
## t = 2.381, df = 46, p-value = 0.02146
## alternative hypothesis: true mean is not equal to 0.5
## 90 percent confidence interval:
##  0.5290590 0.6679623
## sample estimates:
## mean of x 
## 0.5985106

#Realizando os testes de hipóteses: t-Student com α = 1%
t.test(TCCB, alternative = c("two.sided"),mu=0.5, conf.level= 0.99)

## 
##  One Sample t-test
## 
## data:  TCCB
## t = 2.381, df = 46, p-value = 0.02146
## alternative hypothesis: true mean is not equal to 0.5
## 99 percent confidence interval:
##  0.4873401 0.7096811
## sample estimates:
## mean of x 
## 0.5985106

Resposta: O mais adequado é intervalo de confiança, pois ele me dá a amplitude dos dados e as possiilidades de conter um valor esperado.

___________________________________________________________________

Questão 7:

O poder de um teste de hipóteses é a probabilidade de corretamente rejeitar a hipótese nula. Apesar dos diversos problemas envolvidos na utilização de testes de hipóteses, a análise do poder de um teste pode ser usada para responder uma pergunta fundamental em análise de dados, que é determinar o tamanho da amostra necessário para que se possa detectar com a confiabilidade desejada um efeito de um determinado tamanho.

A análise do poder também pode ser utilizada para calcular o tamanho mínimo do efeito que pode ser detectado em um experimento com um determinado tamanho de amostra, isto posto:

(a) Qual o tamanho de amostra necessário para se detectar um efeito padronizado igual a 0.1 com poder do teste de 80%, alpha = 5% para um teste ou intervalo de confiança que envolve apenas uma amostra.

Solução:

#Para utilizar o pacote PWR deve-se ativa-lo se não dá erro (no caso tive que instalar):
library(pwr)

## Warning: package 'pwr' was built under R version 3.1.3

#Usando as fórmulas passadas em sala de aula
pwr.t.test(d=0.1,sig.level=0.05,power=0.8,type=c("one.sample"))  #Para uma amostra

## 
##      One-sample t test power calculation 
## 
##               n = 786.8089
##               d = 0.1
##       sig.level = 0.05
##           power = 0.8
##     alternative = two.sided

Resposta: De acordo com os resultados obtidos o tamanho da amostra é de 786.8089.

(b) Se na situação anterior foi utilizado na realidade um tamanho de amostra igual a 20, qual o poder do teste? Neste caso, a confiabilidade do analista ter tomado a decisão correta foi alta ou baixa?

Solução:

pwr.t.test(n=20,d=0.1,sig.level=0.05,type=c("one.sample"))

## 
##      One-sample t test power calculation 
## 
##               n = 20
##               d = 0.1
##       sig.level = 0.05
##           power = 0.07094116
##     alternative = two.sided

Resposta: O poder obtido foi de 0.07094116 (7,09%). A confiabilidade do analista ter tomado a decisão correta foi baixa.

Exame 1: Análise de Dados

Júlio César G. Marques

Friday, April 24, 2015

1. Instruções

___________________________________________________________________

2. Questões

Questão 1:

___________________________________________________________________

Questão 2:

Solução A:

Solução B:

___________________________________________________________________

Questão 3:

___________________________________________________________________

Questão 4:

___________________________________________________________________

Questão 5:

___________________________________________________________________

Questão 6:

___________________________________________________________________

Questão 7:

_Fim

Exame 1: Análise de Dados

Júlio César G. Marques

Friday, April 24, 2015

1. Instruções

___________________________________________________________________

2. Questões

Questão 1:

___________________________________________________________________

Questão 2:

Solução A:

Solução B:

___________________________________________________________________

Questão 3:

___________________________________________________________________

Questão 4:

___________________________________________________________________

Questão 5:

___________________________________________________________________

Questão 6:

___________________________________________________________________

Questão 7:

_______________________________Fim______________________________

_Fim