Exame 1- Análise de Dados

1. Identifique um problema ambiental em sua comunidade ou relacionado ao seu trabalho e liste as variáveis (ou fatores) para as quais dados poderiam ser coletados para entender melhor esse problema.

O objetivo do meu trabalho é avaliar o comportamento, in vitro, de espécies vegetais hiperacumuladoras a diferentes concentrações de metais pesados que comumente ocorrem em solos contaminados pelas atividades mineradoras e de produção de cimento.

Neste caso, as variáveis avaliadas serão: espécie vegetal, tipo de metal pesado, concentração de metal pesado e resposta in vitro.

2. Identifique duas leis federais ou estaduais ou resoluções de órgãos federais ou estaduais que regulem uma questão ambiental utilizando estimação de intervalo de confiança. Descreva o parâmetro regulado cujo cálculo utilize um destes procedimentos estatísticos. Liste e descreva os termos estatísticos utilizados na regulamentação.

INSTRUÇÃO NORMATIVA IBAMA Nº 187, DE 10 DE SETEMBRO DE 2008

Define procedimentos e padrões de nomenclatura e coeficientes para indústrias consumidoras ou transformadoras de produtos e subprodutos florestais madeireiros de origem nativa, inclusive carvão vegetal.

Parâmetro: Coeficiente de rendimento volumétrico (CRV).

Análise Estatística:

-A Instrução Normativa utilizou estatística descritiva para determinação da média, da variância, do desvio padrão e do coeficiente de variação para cada espécie estudada.

-Para seleção de empresas que receberão inspeção industrial do IBAMA, o método de amostragem empregado será “Amostragem Estratificada”. (Separação da unidades da população em grupos não passíveis de sobreposição e a tomada de uma amostra de cada um.)

-Para determinação do tamanho ideal da amostra, para que o CRV determinado seja representativo da espécie e respectivo produto, deverá ser admitido um erro de 10% sobre o valor médio do CRV.

-O número de toras estudado deve ser sempre igual ou superior ao número determinado para o tamanho ideal da amostra.

-Determinar o intervalo de confiança ao nível de 95% de probabilidade com os limites inferior e superior que o CRV pode apresentar para determinada espécie.(nível de significância igual a 5%.)

RESOLUÇÃO No 420, DE 28 DE DEZEMBRO DE 2009

Dispõe sobre critérios e valores orientadores de qualidade do solo quanto à presença de substâncias químicas e estabelece diretrizes para o gerenciamento ambiental de áreas contaminadas por essas substâncias em decorrência de atividades antrópicas.

Parâmetros:carbono orgânico,pH em água, capacidade de troca catiônica (CTC) e teores de argila, silte, areia e de óxidos de alumínio,ferro e manganês.

Análise Estatística:

-Estações de amostragem serão feitas através de “Amostragem Aleatória Simples”. (Subconjunto de indivíduos seleccionado totalmente ao acaso a partir de um conjunto maior (população).)

-Os Valores de Referência de Qualidade (VQR) de cada substância poderá ser estabelecido com base no percentil 75 ou percentil 90 do universo amostral, retiradas previamente as anomalias. (Percentis são medidas que dividem a amostra em 100 partes, cada uma com uma percentagem de dados aproximadamente iguais)

-As anomalias deverão ser avaliadas em estudos específicos e interpretadas estatisticamente (outliers)

3. Defina:

a) população: Coleção, bem definida, de todos os objetos sob investigação, que apresentam uma ou mais características em comum.

b) amostra aleatória: Subconjunto de indivíduos seleccionado totalmente ao acaso a partir de um conjunto maior (população) por um processo que garanta que todos os indivíduos da população têm a mesma probabilidade de ser escolhidos para a amostra e que cada subconjunto possível de indivíduos (amostra) tem a mesma probabilidade de ser escolhido que qualquer outro subconjunto de indivíduos.

c) dados aproximadamente normais: São dados que, quando dispostos em uma curva de distribuição, apresentam forma semelhante a uma curva em sino, de forma que os dados se concentram em torno de uma média e se dispersam simetricamente a partir desse ponto central.

4. A concentração medida de fósforo (P) para n = 20 amostras de águas residuais com uma concentração conhecida de 2mg/L são:

1.8, 2.2, 2.1, 2.3, 2.1, 2.2, 2.1, 2.1, 1.8, 1.9, 2.4, 2.0, 1.9, 1.9, 2.2, 2.3, 2.2, 2.3, 2.1, 2.2

Resolução

Hipóteses:

Ho: A concentracão de fósforo (P) é igual a 2mg/L

Ha: A concentração de fósforo (P) é diferente de 2mg/L

P <- c(1.8, 2.2, 2.1, 2.3, 2.1, 2.2, 2.1, 2.1, 1.8, 1.9, 2.4, 2.0, 1.9, 1.9, 2.2, 2.3, 2.2, 2.3, 2.1, 2.2)

sort(P)    # Ordena os dados

##  [1] 1.8 1.8 1.9 1.9 1.9 2.0 2.1 2.1 2.1 2.1 2.1 2.2 2.2 2.2 2.2 2.2 2.3
## [18] 2.3 2.3 2.4

summary(P) # Fornece informações importantes

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.800   1.975   2.100   2.105   2.200   2.400

stem(P)    # Gráfico Ramo e Folhas

## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##   18 | 00000
##   20 | 000000
##   22 | 00000000
##   24 | 0

boxplot(P) # Gráfico de Caixa

Através da análise dos gráficos pode-se observar que os dados não apresentam uma distribuição normal. Tal conclusão pode ser obtida devido à assimetria observada.

Portanto, o teste mais indicado seria o Teste de Wilcoxon. Entretanto, faremos também o teste t para confirmação.

t-test:

Utilizou-se nível de significância (alfa) igual a 5%

t.test(P, alternative = c("two.sided"), mu = 2, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  P
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
##  2.023973 2.186027
## sample estimates:
## mean of x 
##     2.105

Teste de Wilcoxon

wilcox.test(P, mu = 2, conf.int = TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  P
## V = 157.5, p-value = 0.01164
## alternative hypothesis: true location is not equal to 2
## 95 percent confidence interval:
##  2.000049 2.200015
## sample estimates:
## (pseudo)median 
##       2.100042

(a) Qual é o viés dos dados? Se não houvesse um valor conhecido o viés poderia ser calculado?

O viés seria a diferença entre o valor esperado (média) e o valor verdadeiro (padrão). Quando não existe enviesamento, estas duas grandezas coincidem e o viés é nulo. O cálculo do viés nos fornece um resultado igual a 0.105mg/L. Portanto, há forte evidência de que o método utilizado para medição de fósforo apresenta um erro sistemático que pode conduzir a uma conclusão tendenciosa.

(b) Existem várias medidas de precisão, calcule as seguintes:

i. precisão dos dados (desvio-padrão)

sd(P)

## [1] 0.1731291

ii. precisão (erro-padrão) da média amostral

sd(P)/sqrt(length(P))

## [1] 0.03871284

iii. estime um intervalo com 95% de confiança para a verdadeira concentração média. O intervalo de confiança estimado contém o valor de 2 mg/L? O que este resultado implica?

Através da análise exploratória dos dados e dos testes aplicados, podemos perceber que, em ambos os casos, valor-p é menor do que o nível de significância, o que indica que a hipótese Ho deve ser rejeitada. Ou seja, a concentração média de fósforo nas amostras não é igual a 2mg/L.

Tal fato pode ser confirmado observando-se que o intervalo de confiança não contém o valor de 2mg/L. Ele se encontra um pouco abaixo do limite inferior. Isso indica que o método necessita ser ajustado para melhor adequação.

5. A variação aleatória é a matéria-prima da estatística. Quando observações são tomadas de uma variável ambiental, tais observações normalmente apresentam variação, em maior ou menor grau. Por exemplo, a Tabela 1 mostra os valores para tetraclorobenzeno-1,2,3,4 (TCCB), em partes por mil milhões para 47 amostras em locações diferentes de uma região considerada não contaminada usada como uma referência para comparação com uma região possivelmente contaminada.

Tabela 1: Medidas de TCCB em partes por mil milhões para 47 amostras colhidas em diferentes locais em um local não contaminado.

0.60 0.50 0.39 0.84 0.46 0.39 0.62 0.67 0.69 0.81 0.38 0.79 0.43 0.57 0.74 0.27 0.51 0.35 0.28 0.45 0.42 1.14 0.23 0.72 0.63 0.50 0.29 0.82 0.54 1.13 0.56 1.33 0.56 1.11 0.57 0.89 0.28 1.20 0.76 0.26 0.34 0.52 0.42 0.22 0.33 1.14 0.48

Claramente as medições apresentam variações, presumivelmente devido a variação natural em diferentes partes do local, além de algum erro analítico envolvido na medição das amostras. Como uma área do conhecimento, a principal preocupação da estatística é quantificar este tipo de variação.

(a) Descreva como você pode inserir estes dados para analisá-los no R.

TCCB <- c(0.60, 0.50, 0.39, 0.84, 0.46, 0.39, 0.62, 0.67, 0.69, 0.81, 0.38, 0.79, 0.43, 0.57, 0.74, 0.27, 0.51, 0.35, 0.28, 0.45, 0.42, 1.14, 0.23, 0.72, 0.63, 0.50, 0.29, 0.82, 0.54, 1.13, 0.56, 1.33, 0.56, 1.11, 0.57, 0.89, 0.28, 1.20, 0.76, 0.26, 0.34, 0.52, 0.42, 0.22, 0.33, 1.14, 0.48)

sort(TCCB) # Ordena os dados

##  [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33

(b) Quais valores máximo, mínimo, médio e mediano de TCCB da amostra?

summary(TCCB) # Fornece informações importantes.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.3900  0.5400  0.5985  0.7500  1.3300

Mínimo = 0.2200; Máximo = 1.3300; Médio = 0.5985; Mediano = 0.5400

(c) Calcule e o primeiro e o terceiro quartil e interprete os valores calculados.

Primeiro quartil(Q1) = 0.3900; valor que delimita os 25% menores valores do conjunto de dados ordenado.

Terceiro quartil(Q3) = 0.750, valor que delimita os 25% maiores valores do conjunto de dados ordenado.

Dessa forma, 50% dos dados amostrados estão entre Q1 e Q3.

(d) Construa um histograma com uma linha de densidade sobreposta para os dados da amostra. Interprete.

hist(TCCB, main = "TCCB", freq = FALSE, breaks = 12,
     xlab = "Concentracao de TCCB (ppm)", 
     ylab = "Frequencia", col = "grey")

lines(density(TCCB), col = "red", lwd = 2)        # Cria, no histograma, linha de densidade.

abline(v=mean(TCCB), lwd=3)                       # Cria linha, perpendicular ao eixo x, representativa da média.

abline(v=median(TCCB),col = "lightblue", lwd=3)   # Cria linha, perpendicular ao eixo x, representativa da mediana.

O gráfico de densidade é gerado como se fosse um histograma com uma classe móvel, isto é, a classe que tem uma certa amplitude, se move da esquerda para direita e em cada ponto estima a densidade probabilística da variável.

As colunas verticais representam classes de valores e a linha de densidade empírica (em vermelho) cria uma curva suave, valorizando as maiores frequências de valores.

Pode-se notar que há uma maior evidência de amostras no intervalo entre 0.4 e 0.6 ppm, valores que giram em torno da média amostral (0.5985ppm).

(f) Qual a medida do centro dos dados mais representativa para as medidas de TCCB? A média ou a mediana?Explique.

Avaliando a localização da média (traço preto) e da mediana (traço azul) no histograma, percebe-se que a mediana representa um ponto mais representativo das amostras. Isso porque a mediana não é tão sensível, como a média, às observações que são muito maiores do que as restantes (outliers).

(g) Qual a medida da variabilidade dos dados mais representativa para as medidas de TCCB? O desvio-padrão ou o intervalo interquartil (IQR)? Explique.

sd(TCCB)

## [1] 0.2836408

IQR(TCCB)

## [1] 0.36

Quanto maior essas variáveis, maior o variabilidade dos dados.

No entanto, informação que o desvio padrão dá sobre a variabilidade é em relação a média, que é muito sensível a observações muito grandes ou muito pequenas na amostra. Se a não é representativa o desvio padrão também não será.

Por outro lado, o IQR é definido como sendo a diferença entre os 1º e 3º quartis e trás informações de variabilidade em relação à mediana, sendo uma medida mais resistente a outliers.

Portanto, a medida da variabilidade mais representativa para os dados apresentados é o intervalo interquartil, uma vez que sofre menos influência de valores extremos.

(h) A partir dos gráficos construídos, explique se há algum valor discrepante (outlier) na amostra.

A análise do histograma nos mostra que entre as concentrações 0.9 e 1.1, nenhuma leitura foi observada. Isso indica que, possivelmente, os valores encontrados acima de 1.1 constituam outliers.

6. Uma das ferramentas mais utilizadas em estatística são os testes de hipóteses, também chamados de teste de significância. Tais testes examinam a questão de saber se uma amostra de dados poderia razoavelmente ter surgido com base em um determinado pressuposto, que é chamado a hipótese nula.

Considere os dados da Tabela 1 com medidas de tetraclorobenzeno-1,2,3,4 (TCCB), em partes por mil milhões para 47 amostras em locações diferente de uma região considerada não contaminada. Suponha-se que um nível médio de TCCB de 0,5 é considerado aceitável, e a questão seja saber se o nível médio de TCCB seja signivativamente maior do que 0,5.

(a) Defina as hipóteses nula e alternativa para esta situação.

Ho: Nível médio de TCCB é igual a 0,5ppm.

Ha: Nível medio de TCCB é maior que 0,5ppm.

(b) Quais as condições devem ser satisfeitas pela amostra para que você possa responder à questão utilizando um procedimento de teste de hipóteses?

A amostra deve apresentar dados com distribuição normal.

(c) Observando o histograma e o boxplot dos dados, você considera que os dados podem ser considerados aproximadamente normais?

hist(TCCB, main = "TCCB", freq = FALSE, breaks = 12,
     xlab = "Concentracao (ppm)", 
     ylab = "Frequencia", col = "grey")
lines(density(TCCB), col = "red", lwd = 2)

boxplot(TCCB)

A observação dos gráficos demonstra que os dados não apresentam uma distribuição normal. Tal conclusão pode ser obtida devido à assimetria observada.

(d) Quais os erros envolvidos em um procedimento de teste de hipóteses? Descreva-os e defina qual o erro é fixado pelo analista.

Os erros envolvidos no teste de hipóteses são: Erro tipo I e Erro tipo II.

O erro tipo I é a probabilidade de rejeitarmos a hipótese nula, quando ela é efetivamente verdadeira.

Já o erro tipo II é aceitar a hipótese nula, quando ela é falsa.

O erro fixado pelo analista é o erro tipo I, através do estabelecimento do nível de significância do teste.

(e) Responda a questão utilizando um teste de hipótese baseado na distribuição t-Student e um nível de significância de 5%.

t.test(TCCB, alternative = c("two.sided"), mu = 0.5, conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  TCCB
## t = 2.381, df = 46, p-value = 0.02146
## alternative hypothesis: true mean is not equal to 0.5
## 95 percent confidence interval:
##  0.5152306 0.6817907
## sample estimates:
## mean of x 
## 0.5985106

i. Responda a questão comparando o valor calculado da estatística de teste com o valor crítico (quantil) da distribuição t-Student

qt(0.975, 46)

## [1] 2.012896

qt(0.025,46)

## [1] -2.012896

Se o valor da estatística do teste cair dentro da região crítica, rejeita-se Ho. Ao rejeitar a hipótese nula (Ho) existe uma forte evidência de sua falsidade. Ao contrário, quando aceitamos, dizemos que não houve evidência amostral significativa no sentido de permitir a rejeição de Ho.

O valor calculado da estatística de teste (2.381) é maior do que o valor crítico da distribuição t-Student (2.012896). Dessa forma, a hipótese nula (Ho) deve ser rejeitada.

ii. Responda a questão interpretando o valor-p

Pela regra, se o valor-p for menor que o nível de significância (alfa), Ho deve ser rejeitada. Como nesse caso o valor-p encontrado foi de 0.02146 e o nível de significância utilizado foi de 0.05. Sendo assim, Ho deve ser rejeitada.

(f) Caso você, como um analista de dados ambientais, ficasse em dúvida sobre se as condições que devem ser satisfeitas pelo teste-t são satisfeitas pela amostra, qual outro procedimento de teste você poderia utilizar? Por que? O resultado deste outro procedimento é consistente com o resultado do teste t usando nível de significância = 5%?

Em caso de dúvida, o Teste de Wilcoxon poderia ser utilizado. Na verdade, ele seria o teste mais indicado para os dados apresentados, uma vez que o Teste de Wilcoxon é ideal para dados assimétricos, ou seja, que não apresentam distribuição normal.

wilcox.test(TCCB, mu = 0.5, conf.int = TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  TCCB
## V = 669.5, p-value = 0.08722
## alternative hypothesis: true location is not equal to 0.5
## 95 percent confidence interval:
##  0.4899446 0.6800063
## sample estimates:
## (pseudo)median 
##      0.5700434

Os resultados obtidos pelo Teste de Wilcoxon é consistente com o resultado obtido pelo teste t.

(g) Responda a questão utilizando uma estimativa por intervalo com 95% de confiança baseado na distribuição t-Student.

O intervalo de confiança é de 0.5152306 a 0.6817907.

(h) Responda a questão utilizando uma estimativa por intervalo com 95% de confiança baseado no teste de Wilcoxon.

O intervalo de confiança é de 0.4899446 a 0.6800063. (intervalo mais realista)

(i) Qual procedimento você considera mais adequado para responder a questão, um teste de hipótese ou uma estimativa por intervalo de confiança? Por que?

Uma estimativa por intervaldo de confiança é um procedimento mais adequado por trazer mais informação e ser mais fácil para se interpretar.

7. O poder de um teste de hipóteses é a probabilidade de corretamente rejeitar a hipótese nula. Apesar dos diversos problemas envolvidos na utilização de testes de hipóteses, a análise do poder de um teste pode ser usada para responder uma pergunta fundamental em análise de dados, que é determinar o tamanho da amostra necessário para que se possa detectar com a confiabilidade desejada um efeito de um determinado tamanho.

A análise do poder também pode ser utilizada para calcular o tamanho mínimo do efeito que pode ser detectado em um experimento com um determinado tamanho de amostra, isto posto:

(a) Qual o tamanho de amostra necessário para se detectar um efeito padronizado igual a 0.1 com poder do teste de 80%, alfa = 5% para um teste ou intervalo de confiança que envolve apenas uma amostra?

power.t.test(n=NULL, d = 0.1, sig.level = 0.05, alternative = "two.sided", power = 0.80, type=c("one.sample"))

## 
##      One-sample t test power calculation 
## 
##               n = 786.8109
##           delta = 0.1
##              sd = 1
##       sig.level = 0.05
##           power = 0.8
##     alternative = two.sided

O tamanho mínimo necessário da amostra é: n = 786.8109 (~ 787).

(b) Se na situação anterior foi utilizado na realidade um tamanho de amostra igual a 20, qual o poder do teste? Neste caso, a confiabilidade do analista ter tomado a decisão correta foi alta ou baixa?

power.t.test(n = 20, d = 0.1, sig.level = 0.05, power = NULL, alternative = "two.sided", type=c("one.sample"))

## 
##      One-sample t test power calculation 
## 
##               n = 20
##           delta = 0.1
##              sd = 1
##       sig.level = 0.05
##           power = 0.06241123
##     alternative = two.sided

Quanto maior o tamanho da amostra, maior o poder do teste. Neste caso, a confiabilidade do analista ter tomado a decisão correta foi muito baixa (6,24%).

Exame 1- Análise de Dados

Ludmila Godoi

24 de abril de 2015