QUESTÃO 01
Identifique um problema ambiental em sua comunidade ou relacionado ao seu trabalho e liste as variáveis (ou fatores) para as quais dados poderiam ser coletados para entender melhor esse problema.
Simulação de problema: Relação das doenças respiratórias identificadas em crianças e causadas por poluição atmosférica na Regional Petrovale, município de Betim, MG.
Descrição do problema: serão obtidos os dados diários de atendimentos por doenças respiratórias para crianças na Unidade de saúde dos bairros da Regional Petrovale, município de Betim, MG,Níveis diários de material particulado, fumaça, dióxido de nitrogênio e ozônio serão obtidos na Fundação Estadual de Meio Ambiente (FEAM). Dados diários de temperatura e umidade relativa do ar serão fornecidos pelo Instituto Nacional de Meteorologia (INEMET), através de estações meteorológicas instaladas na Regional.A seguir, seguem dados estabelecidos para partículas inaláveis pela FEAM, que serviral de referência para a elaboração deste estudo de caso fictício, referentes ao total de dias segundo a qualidade do ar em função do parâmetro Partículas Inaláveis (PM-10) em Betim, no período de 1995 – 2002.
Tabela 1: Total de dias segundo a qualidade do ar em função do parâmetro Partículas Inaláveis (PM-10), Betim, 1995 – 2002.
Variáveis: Para verificar a relação existente entre doenças respiratórias e poluição atmosférica, serão consideradas variáveis o número diário de atendimentos por doenças respiratórias em crianças e variações de partículas inalaveis.
Questão 02
Identifique duas leis federais ou estaduais ou resoluções de órgãos federais federais ou estaduais que regulem uma questão ambiental utilizando estimação de intervalo de confiança. Descreva o parâmetro regulado cujo cálculo utilize um destes procedimentos estatísticos. Liste e descreva os termos estatísticos utilizados na regulamentação.
Os padrões de qualidade do ar (PQAr), segundo a Organização Mundial da Saúde (OMS) (2005), variam de acordo com a abordagem adotada para balancear riscos à saúde, viabilidade técnica, considerações econômicas e fatores políticos e sociais, que por sua vez dependem do nível de desenvolvimento e da capacidade nacional de gerenciar a qualidade do ar.
No Brasil os padrões de qualidade do ar foram estabelecidos pela Resolução CONAMA nº 3/1990, divididos em padrões primários e secundários.
São padrões primários de qualidade do ar as concentrações de poluentes que, ultrapassadas, poderão afetar a saúde da população. Podem ser entendidos como níveis máximos toleráveis de concentração de poluentes atmosféricos, constituindo-se em metas de curto e médio prazo. São padrões secundários de qualidade do ar as concentrações de poluentes atmosféricos abaixo das quais se prevê o mínimo efeito adverso sobre o bem estar da população, assim como o mínimo dano à fauna e a flora, aos materiais e ao meio ambiente em geral. Podem ser entendidos como níveis desejados de concentração de poluentes, constituindo-se em meta de longo prazo.
Parâmetros regulamentados: partículas totais em suspensão, fumaça, partículas inaláveis, dióxido de enxofre, monóxido de carbono, ozônio e dióxido de nitrogênio.
Padrão Primário: concentração média geométrica anual de 80 (oitenta) microgramas por metro cúbico de ar.
2 - concentração média de 24 (vinte e quatro) horas de 240 (duzentos e quarenta) microgramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano.
Padrão Secundário: concentração média geométrica anual de 60 (sessenta) micro gramas por metro cúbico de ar. 2 - concentração média de 24 (vinte e quatro) horas, de 150 (cento e cinqüenta) micro-gramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano.
Fumaça a) Padrão Primário 1 - concentração média aritmética anual de 60 (sessenta) microgramas por metro cúbico de ar. 2 -concentração média de 24 (vinte e quatro) horas, de 150 (cento e cinqüenta) microgramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano. b) Padrão Secundário 1 - concentração média aritmética anual de 40 (quarenta) microgramas por metro cúbico de ar. 2 - concentração média de 24 (vinte e quatro) horas, de 100 (cem) microgramas por metro cúbico de ar, que não deve ser excedida uma de urna vez por ano.
Partículas Inaláveis a) Padrão Primário e Secundário 1 - concentração média aritmética anual de 50 (cinqüenta) microgramas por metro cúbico de ar. 2 - concentração média de 24 (vinte e quatro) horas de 150 (cento e cinqüenta) microgramas por metro cúbico de ar, que não deve ser excedida mais de uma vez por ano.
Dióxido de Enxofre
Monóxido de Carbono a) Padrão Primário e Secundário 1- concentração médio de 8 (oito) horas, de 10.000 (dez mil) microgramas por metro cúbico de ar (9 ppm), que não deve ser excedida mais de uma vez por ano. 2 - concentração média de 1 (uma) hora, de 40.000 (quarenta mil) microgramas por metro cúbico de ar (35 ppm), que não deve ser excedida mais de uma vez por ano.
Ozônio a) Padrão Primário e Secundário 1 - concentração média de 1 (uma) hora, de 160 (cento e sessenta) microgramas por metro cúbico do ar, que não deve ser excedida mais de uma vez por ano.
Dióxido de Nitrogênio a) Padrão Primário 1 - concentração média aritmética anual de 100 (cem) microgramas por metro cúbico de ar. 2 - concentração média de 1 (uma) hora de 320 (trezentos e vinte) microgramas por metro cúbico de ar. b) Padrão Secundário 1- concentração média aritmética anual de 100 (cem) microgramas por metro cúbico de ar. 2 - concentração média de 1 (uma) hora de 190 (cento e noventa) microgramas por metro cúbico de ar.
RESOLUÇÃO CONAMA 382/2006 - Estabelece os limites máximos de emissão de poluentes atmosféricos para fontes fixas e as correlações.
Definições referentes às unidades e forma obrigatória de expressão de resultados: a) Concentração: relação entre a massa de um poluente e o volume em que ele está contido (C = m/V), devendo ser sempre relatada em miligramas por normal metro cúbico (Nm3), isto é, referido às condições normais de temperatura e pressão (CNP), em base seca e, quando aplicável, na condição referencial de oxigênio estabelecida, utilizando-se sempre a notação - mg/Nm3, CNTP - Condições Normais de Temperatura e Pressão: Pressão = 1013 mBar (correspondente a 1 atmosfera ou 760 mmHg); Temperatura = 273 K (correspondente a 0°C).
conversão às condições referenciais de oxigênio: a conversão da concentração medida para a condição referencial de oxigênio é apresentada abaixo, não sendo aplicável quando ocorrer injeção de oxigênio puro no processo:
21-OR
CR = *CM
21-OM
sendo:
CR - Concentração do poluente corrigida para a condicao estabelecida nesta Resolução; OR - Percentagem de oxigênio de referência, conforme esta Resolução; estabelecida para cada fonte fixa de emissão; OM - Percentagem de oxigênio medido durante a amostragem; CM - Concentração do poluente determinada na amostra;
Considerando que na referida regional as emissões se referem à processos de refinarias de petróleo, seguem limites:
Quando houver impossibilidade de realização de medições individuais, de acordo com a metodologia normatizada ou equivalente aceita pelo órgão ambiental licenciador, estas poderão ser efetuadas no duto ou chaminé comum e os limites de emissão devem ser ponderados individualmente com as respectivas potências térmicas nominais das fontes em questão para o cálculo do novo limite de emissão resultante, conforme a equação a seguir:
QUESTÃO 03 Defina:
a) População: totalidade de elementos sob estudo, e que apresentam uma ou mais características em comum. Tomando por exemplo a questão 02, a população seria todas as crianças de 0 a 14 anos, atendidas de segunda à sexta feira na unidade de saúde da Regional Petrovale, município de Betim/MG, com problemas respiratórios causados por poluição, entre 1999 e 2000.Pode ser definida Por “N”. Por exemplo, N=122.
b) amostra aleatória: método estatístico em que todos os elementos da população têm a mesma probabilidade de pertencerem à amostra, ou seja, todos os elementos da população possuem probabilidade conhecida de serem escolhidos para fazer parte da amostra. Consiste em selecionar uma amostra “n” a partir de uma população “N”. Geralmente a seleção é feita sem reposição e cada amostra é feita unidade a unidade até que se atinja o número pré-determinado. Por exemplo, n=30% de N, ou seja, n=36,6, n=37.
As duas maneiras mais utilizadas de obter a amostra “n” são o método de sorteio, no qual são escolhidos um a um até que esteja completa a amostragem; e a tabela de números aleatórios, na qual serão sorteados até que seja satisfeita a solicitação da amostra.
Tomando como exemplo a questão 02, tem-se:
c) Dados aproximadamente normais: em uma análise exploratória, valores de desvio padrão (precisão) e viés (margem de erro) do valor amostral são bem próximos aos valores esperados ou estabelecidos (no caso da questão 02, dados estabelecidos pelo órgão ambiental, p.ex).Dados aproximadamente normais também podem ser observados quando o valor da média é proximo ao da mediana.
Estes dados são muito utilizados em estatística para uma Distribuição Normal. Esta é inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes valores consegue-se determinar qualquer probabilidade em uma distribuição Normal. Ainda, serve de aproximação para o cálculo de outras distribuições quando o número de observações fica grande. Esta distribuição parte da premissa de que “toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande. Conhecendo-se estes valores, é possível determinar qualquer probabilidade em uma distribuição Normal.
Ainda tomando como base o exemplo dado na Questão 02, a seguir um exemplo de gráfico histograma elaborado por Hair Jr et.al(2005), através de regressão linear simples, para interpretar distribuição e dados aproximadamente normais para a correlação entre poluição atmosférica e saúde da população:
Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras distribuições quando o número de observações fica grande. Essa importante propriedade provém do Teorema do Limite Central que diz que “toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande” (ver o teorema para um enunciado mais preciso).
Questão 4: A concentração médida de fósforo (P) para n = 20 amostras de águas residuais com uma concentração conhecida de 2 mg/L são: 1.8, 2.2, 2.1, 2.3, 2.1, 2.2, 2.1, 2.1, 1.8, 1.9, 2.4, 2.0, 1.9, 1.9, 2.2, 2.3, 2.2, 2.3, 2.1, 2.2.
(a) Qual é o viés dos dados? Se não houvesse um valor conhecido o viés poderia ser calculado?
#Inserindo os dados:
P <- c(1.8, 2.2, 2.1, 2.3, 2.1, 2.2, 2.1, 2.1, 1.8, 1.9, 2.4, 2.0, 1.9, 1.9, 2.2, 2.3, 2.2, 2.3, 2.1, 2.2)
#Examinando os dados
summary(P)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.800 1.975 2.100 2.105 2.200 2.400
#Ordenando o vetor do menor para o maior valor
sort(P)
## [1] 1.8 1.8 1.9 1.9 1.9 2.0 2.1 2.1 2.1 2.1 2.1 2.2 2.2 2.2 2.2 2.2 2.3
## [18] 2.3 2.3 2.4
#Calculando o desvio padrão
sd(P)
## [1] 0.1731291
#Análise dos dados através do gráfico do tipo ramo e folhas
stem(P,scale=2)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 18 | 00
## 19 | 000
## 20 | 0
## 21 | 00000
## 22 | 00000
## 23 | 000
## 24 | 0
#Análise dos dados através do gráfico boxplot
boxplot(P, vertical=TRUE, main="Gráfico tipo Boxplot",ylab="valor",col="pink"
Resposta:Através dos dados obtidos, foi possível perceber que a média amostral está próxima da mediana (1800-2100-2400), e o desvio padrão apresentou baixo valor (0.17). Estas aformações foram corroboradas pelo gráfico boxplot, com distribuição aparentemente simétrica. O viés estimado neste caso é de 0.105 mg/L.
Neste caso seria possível estimar o valor do viés sem o valor conhecido, uma vez queo desvio padrão foi baixo e próximo da média; como já citado anteriormente, em uma análise exploratória, valores de desvio padrão (precisão) e viés (margem de erro) do valor amostral são bem próximos aos valores esperados ou estabelecidos, e dados aproximadamente normais também podem ser observados quando o valor da média é proximo ao da mediana.
(b) Existem várias medidas de precisão, calcule as seguintes:
i. precisão dos dados (desvio-padrão)
#Calculando o desvio padrão
sd(P)
## [1] 0.1731291
Considerações: Valores baixos de desvio padrão podem indicar que os dados estão próximos da média. Este cálculo gerou valor baixo de de desvio padrão (0.17) indicando valor da média amostral (2.105 mg/L) bem próximo ao valor esperado (2.0 mg/L).
ii. precisão (erro-padrão) da média amostral:
#Obtendo o número de variáveis
length(P)
## [1] 20
#Variáveis necessárias: t(P), mean(P), sd(P) e sqrt(n) sendo n = 20
#Cálculo da estatística de teste:
#t(P) = (mean(P) - (mu))/(sd(P)/sqrt(20))
#Cálculo da média
mean(P)
## [1] 2.105
#mu = 2.0
#Cálculo do desvio padrão (P)
sd(P)
## [1] 0.1731291
#Cálculo da raiz quadrada de 20
sqrt(20)
## [1] 4.472136
#Fórmula de t(P):
(2.105-2.00)/(0.1731291/4.472136)
## [1] 2.712278
#t=2.7123
#Cálculo da margem de erro (viés)
(2.7123)*(sd(P)/sqrt(20))
## [1] 0.1050008
#viés= 0.105 mg/L
Resposta: O valor de precisão (erro-padrão) da média amostral equivale ao valor de viés, 0.105 mg/L.
iii. estime um intervalo com 95% de confiança para a verdadeira concentração média. O intervalo de confiança estimado contem o valor de 2mg/L? O que este resultado implica?
#Teste de hipóteses com o intervalo de confiança de 95%
t.test(P, alternative = c("two.sided"),mu=2.0, conf.level= 0.95)
##
## One Sample t-test
##
## data: P
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
## 2.023973 2.186027
## sample estimates:
## mean of x
## 2.105
#Teste de Wilcoxon
wilcox.test(P,mu=2.0,conf.int=TRUE)
## Warning in wilcox.test.default(P, mu = 2, conf.int = TRUE): cannot compute
## exact p-value with ties
## Warning in wilcox.test.default(P, mu = 2, conf.int = TRUE): cannot compute
## exact confidence interval with ties
## Warning in wilcox.test.default(P, mu = 2, conf.int = TRUE): cannot compute
## exact p-value with zeroes
## Warning in wilcox.test.default(P, mu = 2, conf.int = TRUE): cannot compute
## exact confidence interval with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: P
## V = 157.5, p-value = 0.01164
## alternative hypothesis: true location is not equal to 2
## 95 percent confidence interval:
## 2.000049 2.200015
## sample estimates:
## (pseudo)median
## 2.100042
#Amplitude do intervalo de confiança
r5 <- t.test(P,alternative=c("two.sided"),mu=2.0,conf.level=0.95)
r5$conf.int[2]-r5$conf.int[1]
## [1] 0.1620538
#Teste de hipóteses com o intervalo de confiança de 90%
t.test(P, alternative = c("two.sided"),mu=2.0, conf.level= 0.90)
##
## One Sample t-test
##
## data: P
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 90 percent confidence interval:
## 2.03806 2.17194
## sample estimates:
## mean of x
## 2.105
#Amplitude do intervalo de confiança
r10 <- t.test(P,alternative=c("two.sided"),mu=2.0,conf.level=0.90)
r10$conf.int[2]-r10$conf.int[1]
## [1] 0.1338793
#Testes de hipóteses com o intervalo de confiança de 99%
t.test(P, alternative = c("two.sided"),mu=2.0, conf.level= 0.99)
##
## One Sample t-test
##
## data: P
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 99 percent confidence interval:
## 1.994245 2.215755
## sample estimates:
## mean of x
## 2.105
#Amplitude do intervalo de confiança
r1 <- t.test(P,alternative=c("two.sided"),mu=2.0,conf.level=0.99)
r1$conf.int[2]-r1$conf.int[1]
## [1] 0.2215098
Questão 5: A variação aleatória é a matéria-prima da estatística. Quando observações são tomadas de uma variável ambiental,tais observações normalmente apresentam variação, em maior ou menor grau. Por exemplo, a Tabela 1 mostra os valores para tetraclorobenzeno-1,2,3,4 (TCCB), em partes por milhões para 47 amostras em locações diferente de uma região considerada não contaminada usada como uma referência para comparação com uma região possivelmente contaminada.
Claramente as medições apresentam variações, presumivelmente devido a variação natural em diferentes partes do local, além de algum erro analítico envolvido na medição das amostras. Como uma área do conhecimento, a principal preocupação da estatística é quantificar este tipo de variação.
(a) Descreva como você pode inserir estes dados para analisá-los no R.
Para inserir os dados no R é necessário criar o objeto da naálise, relacionando os dados, ou importar planilhas de dados em formato de arquivos com extensão “.csv” ou “.txt”.
#Inserindo os dados:
TCCB <- c(0.60, 0.50, 0.39, 0.84, 0.46, 0.39, 0.62, 0.67, 0.69, 0.81, 0.38, 0.79, 0.43, 0.57, 0.74, 0.27, 0.51, 0.35, 0.28, 0.45, 0.42, 1.14, 0.23, 0.72,0.63, 0.5, 0.29, 0.82, 0.54, 1.13, 0.56, 1.33, 0.56, 1.11, 0.57, 0.89, 0.28, 1.20, 0.76, 0.26, 0.34, 0.52, 0.42, 0.22, 0.33, 1.14, 0.48)
#Conferindo o tamanho do objeto e estrutura dos dados:
length(TCCB)
## [1] 47
str(TCCB)
## num [1:47] 0.6 0.5 0.39 0.84 0.46 0.39 0.62 0.67 0.69 0.81 ...
(b) Quais valores máximo, mínimo, médio e mediano de TCCB da amostra?
#Examinando os dados
summary(TCCB)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
(c) Calcule e o primeiro e o terceiro quartil e interprete os valores calculados.
#Calculo utilizando a função summary()
summary(TCCB)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
#Obtendo o intervalo interquartil (IQR)
Q1 <-0.3900
Q3 <-0.7500
#IQR=
Q3 - Q1
## [1] 0.36
Assim:
O valor do 1º quartil das amostras é equivalente à 0.3900 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB).
O valor do 3º quartil das amostras é equivalente à 0.7500 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB).
Resposta: Com o cálculo dos quartis foi possível perceber que 75% dos valores amostrados ficam acima do valor do primeiro quartil, e 25% dos valores ficam acima do terceiro quartil. calculando-se o intervalos entre os quartis, concluiu-se que 50% dos valores amostrados estão no centro.
(d) Construa um histograma com uma linha de densidade sobreposta para os dados da amostra. Interprete-o.
#Confecção do histograma
hist(TCCB,freq=F,breaks=12,col="yellow",xlab="Concentração de TCCB partes por mil milhões",ylab="Densidade",main="Com curva de Densidade Empíri
rug(jitter(TCCB))
lines(density(TCCB),col="black", lwd=2)
#ordenando os dados
sort(TCCB)
## [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33
Resposta: As colunas em vertical representam valores de cada amostra e a linha de densidade em preto negrito atenta que a maior frequência de valores se encontra na faixa entre 00.4 e 0.6, ou seja, na faixa de 0.5, corroborando a média amostral de 0.5985. A ausência de concentração na faixa de 0.9 a 1.0 demonstrou falsa ausência de valores (ou de concentração), o que não ocorreu, atestando bimodalidade dos dados.
(f) Qual a medida do centro dos dados mais representativa para as medidas de TCCB? A média ou a mediana? Explique.
sd(TCCB)
## [1] 0.2836408
A mediana, uma vez que se apresenta menos sensível aos valores extremos (muito maiores ou muito menores) que levam à assimetria.A distribuição dos dados de TCCB apresenta números extremos para máximo e mínimo (0.22 e 1.33) e, neste caso, a mediana é um valor mais representativo do centro dos dados, uma vez que não pe afetada por valores extremos.
(g) Qual a medida da variabilidade dos dados mais representativa para as medidas de TCCB? O desvio-padrão ou o intervalo interquartil (IQR)? Explique.
#Calculo do desvio padrão
sd(TCCB)
## [1] 0.2836408
#Calculo do IQR
summary(TCCB)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
Q1 <-0.3900
Q3 <-0.7500
#IQR
Q3 - Q1
## [1] 0.36
#Verificando simetria dos dados através de gráfico boxplot
boxplot(TCCB,horizontal=TRUE,xlab="Concentração de TCCB em partes por mil milhões",col="lightgree
Resposta: Esta medida depende de como o desvio padrão é em relação a média, uma vez que ele é baseado na média; se a média não é boa, no caso de valores extremos para dados assimétricos, o desvio-padrão também não é bom em relação à variabilidade.Neste caso, a medida mais ideal será o intervalo interquartil, pois não é afetada pelos valores extremos que provocam a assimetria.
(h) A partir dos gráficos construídos, explique se há algum valor discrepante (outlier) na amostra.
summary(TCCB)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
Resposta: Sim, pois a maioria dos valores econtra-se distribuida para a direita, ou seja, valores maiores a partir do terceiro quartil em relação ao extremo,demonstrando distribuição enviesada. Ainda, a média tende a ser superior à mediana, demonstrando o fato.
Questão 6:
Uma das ferramentas mais utilizadas em estatística são os testes de hipóteses, também chamados de teste de significância. Tais testes examinam a questão de saber se uma amostra de dados poderia razoavelmente ter surgido com base em um determinado pressuposto, que é chamado a hipótese nula.
Considere os dados da Tabela 1 com medidas de tetraclorobenzeno-1,2,3,4 (TCCB), em partes por mihões para 47 amostras em locações diferentes de uma região considerada não contaminada. Suponha-se que um nível médio de TCCB de 0.5 é considerado aceitável, e a questão seja saber se o nível médio de TCCB seja significativamente maior do que 0,5.
(a) Defina as hipóteses nula e alternativa para esta situação.
Resposta:
Para a hipótese nula, a média amostral deve ter valor igual ao conhecido de 0.5 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB), atendendo à condição:
Para a hipótese alternativa, a média amostral deve ter valor maior que o conhecido de 0.5 partes por mil milhões de tetraclorobenzeno-1,2,3,4 (TCCB), atendendo à condição:
(b) Quais as condições devem ser satisfeitas pela amostra para que você possa responder a questão utilizando um procedimento de teste de hipóteses?
Resposta:
Ho = hipótese nula: µ = 0.5
Ha = hipótese alternativa: µ > 0.5
(c) Observando o histograma e o boxplot dos dados, você considera que os dados podem ser considerados aproximadamente normais?
#Elaborando o histograma
hist(TCCB, xlab="Concentração de TCCB em partes por mil milhões",col="lightgre
#Elaborando o gráfico boxplot
boxplot(TCCB,horizontal=TRUE,xlab="Concentração de TCCB em partes por mil milhões",col="gree
#Ordenando as variáveis:
sort(TCCB)
## [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33
summary(TCCB)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
Resposta: Os dados não podem ser considerados aproximadamente normais devido aos valores extremos afetarem o valor da média em relação a mediana, formando assimetria, demonstrada pelo gráfico.
(d) Quais os erros envolvidos em um procedimento de teste de hipóteses? Descreva-os e defina qual o erro é fixado pelo analista.
Resposta: Os erros envolvidos são em relação à desvio padrão e viés;
Desvio padrão:Representa precisão, demonstrando a dispersão em relação ao valor esperado. e viés (margem de erro)
Viés: Representa a margem de erro, demonstrando a diferença entre o valor conhecido e o verdadeiro valor amostral.
#Calculo do Desvio Padrão
sd(TCCB)
## [1] 0.2836408
#Calculo do Viés
#Número de variáveis
length(TCCB)
## [1] 47
#Variáveis necessárias: t(TCCB), mean(TCCB), sd(TCCB) e sqrt(n), n = 47
#Cálculo do teste t
#t(TCCB) = (mean(TCCB) - (mu))/(sd(TCCB)/sqrt(47))
#Cálculo da média
mean(TCCB)
## [1] 0.5985106
#mu = 0.5
#Cálculo do desvio padrão (TCCB)
sd(TCCB)
## [1] 0.2836408
#Cálculo da raiz quadrada de 20
sqrt(47)
## [1] 6.855655
#Teste t(TCCB)
(0.5985106-0.5)/(0.2836408/6.855655)
## [1] 2.381021
#t=2.381021
#Margem de erro (viés)
(2.381021)*(sd(TCCB)/sqrt(47))
## [1] 0.09851059
#margem de erro (viés)= 0.09851059 partes por milhões.
Resposta: como observado nos cálculos acima, o erro fixado pelo analista foi de 0.28 para o desvio padrão com margem de erro de 0.098.
(e) Responda a questão utilizando um teste de hipótese baseado na distribuição t-Student e um nível de significância de 5%.
#Teste de hipóteses t-Student com α = 5%
t.test(TCCB, alternative = c("two.sided"),mu=0.5, conf.level= 0.95)
##
## One Sample t-test
##
## data: TCCB
## t = 2.381, df = 46, p-value = 0.02146
## alternative hypothesis: true mean is not equal to 0.5
## 95 percent confidence interval:
## 0.5152306 0.6817907
## sample estimates:
## mean of x
## 0.5985106
i. Responda a questão comparando o valor calculado da estatística de teste com o valor crítico (quantil) da distribuição t-Student.
Resposta: Dentro do intervalo de confiança de 95% (0.5152306 e 0.6817907), a hipótese alternativa µ > 0.5 pode ser aceita.
ii. Responda a questão interpretando o valor-p
Resposta: A hipótese nula a 5% é rejeitada, uma vez que o valor-p foi obtido através de valor abaixo de 5%.
(f) Caso você, como um analista de dados ambientais, ficasse em dúvida sobre se as condições que devem ser satisfeitas pelo teste-t são satisfeitas pela amostra, qual outro procedimento de teste você poderia utilizar? Por que? O resultado deste outro procedimento é consistente com o resultado do teste t usando alpha = 5%.
Resposta: utilizando o teste de Wilcoxon, que corrobora os resultados obtidos, e o substitui quando os dados não atendem ao teste t.
(g) Responda a questão utilizando uma estimativa por intervalo com 95% de confiança baseado na distribuição t-Student.
Resposta:
#Teste de hipóteses t-Student com α = 5%
t.test(TCCB, alternative = c("two.sided"),mu=0.5, conf.level= 0.95)
##
## One Sample t-test
##
## data: TCCB
## t = 2.381, df = 46, p-value = 0.02146
## alternative hypothesis: true mean is not equal to 0.5
## 95 percent confidence interval:
## 0.5152306 0.6817907
## sample estimates:
## mean of x
## 0.5985106
(h) Responda a questão utilizando uma estimativa por intervalo com 95% de confiança baseado no teste de Wilcoxon.
#Teste de Wilcoxon
wilcox.test(TCCB,mu=0.5,conf.int=TRUE)
## Warning in wilcox.test.default(TCCB, mu = 0.5, conf.int = TRUE): cannot
## compute exact p-value with ties
## Warning in wilcox.test.default(TCCB, mu = 0.5, conf.int = TRUE): cannot
## compute exact confidence interval with ties
## Warning in wilcox.test.default(TCCB, mu = 0.5, conf.int = TRUE): cannot
## compute exact p-value with zeroes
## Warning in wilcox.test.default(TCCB, mu = 0.5, conf.int = TRUE): cannot
## compute exact confidence interval with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: TCCB
## V = 669.5, p-value = 0.08722
## alternative hypothesis: true location is not equal to 0.5
## 95 percent confidence interval:
## 0.4899446 0.6800063
## sample estimates:
## (pseudo)median
## 0.5700434
(i) Qual procedimento você considera mais adequado para responder a questão, um teste de hipótese ou uma estimativa por intervalo de confiança? Por que?
#Teste de hipótese t-Student com α = 10%
t.test(TCCB, alternative = c("two.sided"),mu=0.5, conf.level= 0.90)
##
## One Sample t-test
##
## data: TCCB
## t = 2.381, df = 46, p-value = 0.02146
## alternative hypothesis: true mean is not equal to 0.5
## 90 percent confidence interval:
## 0.5290590 0.6679623
## sample estimates:
## mean of x
## 0.5985106
#Teste de hipótese t-Student com α = 1%
t.test(TCCB, alternative = c("two.sided"),mu=0.5, conf.level= 0.99)
##
## One Sample t-test
##
## data: TCCB
## t = 2.381, df = 46, p-value = 0.02146
## alternative hypothesis: true mean is not equal to 0.5
## 99 percent confidence interval:
## 0.4873401 0.7096811
## sample estimates:
## mean of x
## 0.5985106
Resposta: O mais adequado é o teste de hipóteses, uma vez que a partir dele a inferência estatística dos dados amostrais serve como inferencia de todas as amostras, além de proporcionar aceitação ou rejeição da hipótese formulada.
Questão 07
O poder de um teste de hipóteses é a probabilidade de corretamente rejeitar a hipótese nula. Apesar dos diversos problemas envolvidos na utilização de testes de hipóteses, a análise do poder de um teste pode ser usada para responder uma pergunta fundamental em análise de dados, que é determinar o tamanho da amostra necessário para que se possa detectar com a confiabilidade desejada um efeito de um determinado tamanho.
A análise do poder também pode ser utilizada para calcular o tamanho mínimo do efeito que pode ser detectado em um experimento com um determinado tamanho de amostra, isto posto:
(a) Qual o tamanho de amostra necessário para se detectar um efeito padronizado igual a 0.1 com poder do teste de 80%, alpha = 5% para um teste ou intervalo de confiança que envolve apenas uma amostra.
#Ativando library(PWR)
library(pwr)
pwr.t.test(d=0.1,sig.level=0.05,power=0.8,type=c("one.sample"))
##
## One-sample t test power calculation
##
## n = 786.8089
## d = 0.1
## sig.level = 0.05
## power = 0.8
## alternative = two.sided
Resposta: amostra com n=786.8089.
(b) Se na situação anterior foi utilizado na realidade um tamanho de amostra igual a 20, qual o poder do teste? Neste caso, a confiabilidade do analista ter tomado a decisão correta foi alta ou baixa?
pwr.t.test(n=20,d=0.1,sig.level=0.05,type=c("one.sample"))
##
## One-sample t test power calculation
##
## n = 20
## d = 0.1
## sig.level = 0.05
## power = 0.07094116
## alternative = two.sided
Resposta: Power= 0.07094116, confiabilidade baixa, ou seja, de 7,09%.