Exame 01 - Análise de Dados

————————————————————————————————————————————————————————————————————————-

Base de dados: PENDRIVE (N:)

## [1] "N:/_IFMG/_MESTRADO/ANALISE_DE_DADOS/Exame01"

Apaga variáveis do ambiente R:

rm(list=ls())

Carregando bibliotecas R:

Biblioteca PWR:

#install.packages("pwr") 
library(pwr)

Biblioteca para Tabela de Distribuição de Frequências:

#install.packages("sm") # comando para instalação da biblioteca sm #
library("sm")

QUESTÕES:

Como descrito em meu Projeto de Mestrado (http://rpubs.com/Tatagiba/projeto_mestrado), podemos realizar Inferências Estatísticas sobre dados extraídos de documentos fiscais para licenciamento ambiental de operações das empresas do núcleo setorial de MANUTENÇAO automotiva. Por exemplo:

Volume coletado de resíduos sólidos CLASSE I e II - métrica de resíduos: tambores (200 kg)
Variação temporal: mensal (no caso em questão, podemos analisar os últimos 24 meses)
Número de elementos da amostra: empresas do núcleo (no caso em questão: 36)
Objetivo: Determinação do Intervalo de confiança a nível de 95% de probabilidade do volume total coletado visando garantir a negociação de futuros contratos com fornecedores.

1a. Legislação: INSTRUÇÃO NORMATIVA IBAMA Nº 187, DE 10 DE SETEMBRO DE 2008 (D.O.U. Nº 000 DE 10/09/08)

Define procedimentos e padrões de nomenclatura e coeficientes para indústrias consumidoras ou transformadoras de produtos e subprodutos florestais madeireiros de origem nativa, inclusive carvão vegetal.

3.8 - Análise estatística
3.8.1 - Estatística descritiva: Determinar a média, a variância, o desvio padrão e o coeficiente de variação para cada espécie estudada.
3.8.2 - Determinação do tamanho ideal da amostra: para que o CRV determinado seja representativo da espécie e respectivo produto, deverá ser determinado o tamanho ideal da amostra, admitindo-se um erro amostral de 10%. O número de toras estudado deve ser sempre igual ou superior ao número determinado para o tamanho ideal da amostra.
3.8.3 - Determinação do intervalo de confiança: determinar o intervalo de confiança ao nível de 95% de probabilidade com os limites inferior e superior que o CRV pode apresentar para determinada espécie.

Exemplo descritivo de espécie - Anexo VII:

2a. Legislação: RESOLUÇÃO CONJUNTA SEMAD/IEF Nº 1804, DE 11 DE JANEIRO DE 2013

Dispõe sobre os procedimentos para autorização da intervenção ambiental no Estado de Minas Gerais e dá outras providências.

ANEXO II: PLANO DE UTILIZAÇÃO PRETENDIDA COM INVENTÁRIO FLORESTAL - PUP

4 - Do Desmatamento. 4.1 - Planta planimétrica ou planialtimétrica da propriedade, contendo: 4.1.1 - Área total da propriedade. 4.1.2 - Área de Preservação Permanente e Reserva Legal. 4.1.3 - Área com cobertura vegetal nativa. 4.1.4 - Área a ser desmatada e sua localização. 4.1.5 - Área de pastagem, agricultura, reflorestamento, infraestrutura, hidrografia, rede viária e rede de alta tensão. 4.1.6 - Localização das unidades amostrais (planilha com as coordenadas dos vértices das parcelas). 4.1.7 - Localização, se for o caso, de Unidades de Conservação adjacentes ou inclusas à propriedade. 4.1.8 - Confrontantes. 4.1.9 - Coordenadas geográficas - UTM da área a ser desmatada e da Reserva Legal, informando o fuso, o Datum Horizontal e a identificação da carta.

4.2 - Inventário Florestal - Metodologia: Devem ser mensurados os indivíduos com DAP (diâmetro à altura do peito) maior ou igual à 5,0 cm.

4.2.1 - Relações volumétricas utilizadas. 4.2.1.1 - Definição do método de amostragem utilizado. 4.2.1.2 - Definição da intensidade amostral. 4.2.1.3 - Método de cubagem rigorosa utilizado e apresentação dos dados obtidos. 4.2.1.4 - Método utilizado para cálculo de estimativas de volume (equação volumétrica). 4.2.2 - Processo de amostragem. 4.2.2.1 - Descrição e justificativas do processo de amostragem utilizado. 4.2.2.2 - Tamanho e forma das unidades amostrais. 4.2.2.3 - Análise estrutural da floresta contendo: perfil da floresta, dados de abundância, dominância, frequência e índice de valor de importância.

4.3. - Análise dos dados estatísticos de amostragem.

4.3.1 - Estimativa da média volumétrica por unidade amostral/hectare em m3 e st. 4.3.2 - Estimativa do volume total da população em m3 e st. 4.3.3 - Variância. 4.3.4 - Desvio-padrão. 4.3.5 - Volume médio.

4.3.6 - Valor de “T” de student a 90% de probabilidade.

4.3.7 - Erro-padrão da média. 4.3.8 - Coeficiente de variação.

4.3.9 - Limite do erro de amostragem admissível de 10%, ao nível de 90% de probabilidade.

4.3.10 - Erro calculado de amostragem.

4.3.11 - Intervalos de confiança.

4.3.12 - Outros dados pertinentes. 4.3.2 - Listagem das espécies florestais (nome regional e nome científico). 4.3.2.1 - Número de árvores: por espécie, por classe diamétrica e por hectare. 4.3.2.2 - Área basal, volume e frequência: por espécie, por classe diamétrica, por unidade amostral e por hectare.

4.3.2.3 - Relatório final contendo tabela de DAP médio, área basal, altura média, número de árvores por hectare e volume em m3 e em st por parcela, por hectare e volume total em m3 e em st.8

4.4 - Sistema de exploração. 4.4.1 - Planejamento da exploração. 4.4.2 - Volume a ser explorado por classe de DAP, por espécie, por hectare e por talhão ao ano. 4.4.3 - Apresentação da metodologia das operações de exploração florestal quanto à derrubada, baldeio e transporte. 4.4.4 - Cronograma de execução das operações de exploração. 4.4.5 - Planta topográfica contendo a locação de talhões de exploração, estrutura de estradas, pátios de estocagem e baterias de fornos (se for o caso).

3a. Legislação: LEI MUNICIPAL Nº 2.701, DE 16 DE DEZEMBRO DE 2010

Objetivo: o presente laudo tem por objetivo determinar o justo valor de mercado de um terreno, com uma área de 1.039,00m2. Situa-se no prolongamento da Rua Dr. Álvaro Pessoa- Centro - Angra dos Reis-RJ, para atender a Procuradoria Geral do Município - com objetivo doar uma área do Município para o Ministério Público, construir a sua Sede.

Valor Final Encontrado para o imóvel:

V = R$ 620.000,00 (Seiscentos e Vinte Mil Reais).

Ressalvas e Princípios:

O presente laudo, obedeceu aos seguintes princípios:

O presente laudo está baseado nas normas nº 14.653-1 e 14.653-2 da ABNT;

O laudo apresenta todas as condições limitativas impostas pela metodologia aplicada, que afetam as análises, opiniões e suas conclusões;

O local foi devidamente inspecionado pelo subscritor e propiciou suas análises e conclusões;

Não há no presente trabalho qualquer inclinação pessoal, tendo sido o mesmo elaborado com estrita observância das normas técnicas e do código de ética profissional.

O profissional subscrito atende o disposto nos itens 6.1 a 6.7 da Parte I da Norma 14.653-1.

Características do Objeto:

Trata-se de um terreno plano em toda sua extensão e medindo de frente para a rua Castelo Branco 15,80m, mede pelo lado direito 73,92m confrontando com CIA DOCAS do Rio de Janeiro, pelo lado esquerdo mede 85,52m, confrontando com terras do Ministério da Marinha e pelos fundos mede 13,14m com canal do Rio do Choro, perfazendo um total de 1.039,00m2. O terreno é foreiro a União Federal e situa no prolongamento da Rua: Dr. Álvaro Pessoa - Enseadas de São Bento - Centro de Angra dos Reis.

Metodologia:

A NB-14.653-1/2 permite que se proceda a avaliação de imóveis pelo método comparativo. Serão utilizadas outras normas pertinentes ao objeto em tela.

Avaliação do Imóvel:

6.1 - Caracterização da Região:

O bairro onde se localiza o imóvel é o Centro da cidade e é de uso misto - comercial e residencial.

6.2 - Uso e Ocupação do Solo:, DE acordo com o Plano Diretor do Município, Lei Municipal nº 2091/09 o Centro está inserido na zona de desenvolvimento urbano - ZDU, destinado aos diversos tipos de uso, residencial, comercial, de serviços, institucionais, etc.

6.3 - Infra-estrutura Urbana:

No Centro estão contemplados os serviços de transporte coletivo, limpeza urbana, iluminação pública, abastecimento de água, telefonia, rede de transmissão de dados, de comunicação e televisão, possui todas as ruas pavimentadas com drenagem pluvial.

6.4 - Equipamentos Comunitários:

No Centro, estão implantados: Três Escolas Estaduais, Escolas Municipais, Postos de Saúde, Fórum, Câmara Municipal, Paço Municipal, Delegacia Federal, Delegacia Civil, Santa Casa Hospital e Maternidade, Mercado Municipal, Agências Bancárias além de Praças e quadras poliesportivas.

6.5 - Amostras:

As amostras coletadas referem-se todas a imóveis situados no bairro do Centro.

01 - Terreno em formato irregular com topografia acidentada de 541,00m², situado a Rua: Bruno Andréa, ao lado nº421 - Pq. das Palmeiras -Angra dos Reis. Valor do terreno para venda é de R$145.000,00, informações cedidas por Maete Imóveis. Tels.: (24) 3365-6632. O valor do m² do logradouro é de R$90,05, segundo a Planta de Valores do Município.

02 - Terreno em formato irregular com topografia acidentada 790,00m2, situado a Rua Bruno Andréa, ao,lado do nº464 - Pq. das Palmeiras - Angra dos Reis. Valor do terreno para venda é de R$ 190.000,00, informações cedidas por Agostinho Imóveis, Tels.: (24) 3377-3773. O valor do m² do logradouro é de R$90,05, segundo a Planta de Valores do Município.

03 - Terreno em formato irregular com topografia acidentada de 430,00m2, situado a Estrada do Marinas - Marinas - Angra dos Reis. Valor do terreno para venda é de R$ 265.000,00, informações cedidas por Marli Guimarães, Tels.: (24)8136-1230. O valor do m² do logradouro é de R$198,11, segundo a Planta de Valores do Município.

04 - Terreno plano em toda a sua extensão, de 720,00m2, situado a Av. Luigi Amendola - Balneário. Valor do terreno para venda é de R$ 265.000,00, informações cedidas por Carla Guimarães. O valor do m² do logradouro é de R$108,07, segundo a Planta de Valores do Município.

05 - Terreno plano em toda a sua extensão, perfazendo total de 805,00m2, situado a Av. Alm. Mq. De Leão, 316 - Centro. Valor do terreno para venda é R$220.000,00, informações cedidas pela proprietária Sra. Inês. Tels.: (24) 3365-2862. O valor do m² do logradouro é de R$108,02, segundo a Planta de Valores do Município.

Homogeneização das Amostras:

Os fatores de homogeneização utilizados, neste trabalho são os definidos pelo Instituto de Engenharia Legal - IEL, do Estado do Rio de Janeiro abaixo relacionados:

Fator Oferta ou de Comercialização - Fc compreendido no intervalo 1,00 > Fc > 0,80;

Fator Idade/Conservação - Fi/c compreendido no intervalo 1,00 > Fi/c > 0,80;

Fator Localização - Floc = Vr avaliando / valor elemento amostral, ou seja relação entre o valor venal atribuído pelo Setor de Cadastro Imobiliário da Prefeitura para fins de calculo do IPTU (Voi) e o valor venal unitário da amostra (Voa).

Fator de Área fornecido pela fórmula [área da amostra / área avaliando onde n = 0,25 quando a diferença for < 30% n = 0,125 quando a diferença for > 30%

Fator padrão Construtivo representado pela relação: CUB avaliando / CUB da amostra.

Quadro de homogeneização das amostras:

Cálculo do Xmenor e Xmaior:

Xmenor = | 702,40 - 538,71 | / 241,887588 = 0,68 < 1,65

Xmaior = | 1.130,05 - 702,40| / 241,887588 = 1,77 < 1,65

Como os extremos estão dentro do intervalo, todos os outros elementos também estarão.

Limites de Confiança:

Xmáx/min = X + Tc x (S / ??? n - 1 )

Onde: Tc é igual aos valores percentis para distribuição “t” de Student, com 3 graus de liberdade ( “n” = 5 elementos, " n-1 " da tabela = 4 ) e confiança de 80%, a tabela indica Tc = 1,53. Assim, Xmax/min = 702,40+1,53 x (241,887588 / ??? 4 ) = 702,40 + 185,04

Xmáx = 702,40 + 185,04 = 887,44 Xmin = 702,40 - 185,04 = 517,36

A amplitude do intervalo será Xmáx - X min, então: 887,44 - 517,36 = R$ 370,09 /m²

Dividindo a amplitude pelo número de classes (3), teremos:

370,09 3 = 123,36

A tomada de decisão deverá recair na classe em que o peso for maior.

A 1ª classe abrangerá os valores compreendidos entre Xmin e Xmax = 123,36

1ª classe 517,36 ————- 640,72

Neste intervalo o rol saneado apresenta quatro elementos X1= 621,38, X2 = 587,89, X3 = 633,97 e X5 = 538,71.

2ª classe 640,72 ————– 764,08

Neste intervalo o rol saneado não apresenta nenhum elemento

3ª classe 764,08 ————– 887,44

Neste intervalo o rol saneado não apresenta nenhum elemento

Assim teremos: Para a 1ª Classe peso 4 para o elemento X1,X2,X3 e X5

Média Ponderada = ((4x 621,38) + (4 x 587,89) + (4x 633,97) + (4x 538,71 )/ (4+4+4+4) = 595,49

Assim o valor unitário para o imóvel é de R$595,49 /m2

V = 595,49 x 1.039,00 = R$ 618.711,55

Considerando o arredondamento o valor da venda passa a ter o valor de: R$ 620.000,00 (Seiscentos e vinte Mil Reais).

Grau de Precisão: Conforme Tabela 6 da NB 14653-2, o grau de precisão da estimativa de valor que se utiliza do tratamento por fatores é dado através da amplitude do intervalo de confiança de 80% em torno do valor central da estimativa, obedecendo ao seguinte critério:

< 30% Grau III; entre 30 e 50% Grau II e > 50% Grau I, assim, como a amplitude do intervalo A = 370,09 e a média dos valores (valor central) = 702,40 o grau de precisão será dado pela relação A / X que será igual a (370,09 / 702,40 = 52,68%) portanto Grau I.

O profissional subscritor do presente laudo, possui curso de engenharia de avaliação promovido pelo CREA em 2007 e curso de capacitação em avaliação de imóveis da Escola de Contas do Tribunal de Contas do Estado do Rio de Janeiro, de 2007.

a) População: Uma população é um conjunto de elementos nos quais podem ser realizadas inferências estatísticas sobre suas características. Para isso, consideramos uma população finita, se retiramos os dados e não os retornamos para a origem ou infinita, se retiramos e devolvemos o dado ou amostra para sua origem.

b) Amostra: Uma amostra é um subconjunto de elementos retirados de uma população (segundo um método-padrão, de forma aleatória, finita ou infinita) para análise estatística de suas características. Quanto mais inferências estatísticas forem realizadas com amostras de uma mesma população, melhor será a qualidade dos dados e confiabilidade dos resultados sobre o conjunto total dos dados.

c) Dados aproximadamente normais: Os dados de uma amostra ou população podem ser considerados normais, quando ao serem analisados, resultam em uma média e um desvio-padrão simétricos, conforme a figura abaixo:

Regras:

n=20 amostras
media_populacao=2 mg/l
amostra=(1.8,2.2,2.1,2.3,2.1,2.2,2.1,2.1,1.8,1.9,2.4,2.0,1.9,1.9,2.2,2.3,2.2,2.3,2.1,2.2)

Desenvolvimento:

amostra<-c(1.8,2.2,2.1,2.3,2.1,2.2,2.1,2.1,1.8,1.9,2.4,2.0,1.9,1.9,2.2,2.3,2.2,2.3,2.1,2.2)

summary(amostra)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.800   1.975   2.100   2.105   2.200   2.400

stem(sort(amostra))

## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##   18 | 00000
##   20 | 000000
##   22 | 00000000
##   24 | 0

# Análise via boxplot:

boxplot(amostra,main="BOXPLOT P")

Resposta (4a):

Através de análise exploratória, observa-se que a amostra possui assimetria a esquerda. O viés dos dados é calculado pela diferença da média amostral e da média da população, sendo então: 2.105-2=0.105. Pelo exposto, caso não tenhamos a média da população, não haverá como calcular/referenciar o viés.

Desenvolvimento:

# Calculo do desvio padrao: (sd)
sd(amostra)

## [1] 0.1731291

# Aplicando t.test:

# Teste com alpha=5% Opção: two.sided - mu=0
t.test(amostra,alternative=c("two.sided"),mu=2,conf.level=0.95)

## 
##  One Sample t-test
## 
## data:  amostra
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
##  2.023973 2.186027
## sample estimates:
## mean of x 
##     2.105

# Cálculo da amplitude do IC:
r95<-t.test(amostra,alternative=c("two.sided"),mu=2,conf.level=0.95)
r95$conf.int[2]-r95$conf.int[1]

## [1] 0.1620538

# Teste de Wilcox
wilcox.test(amostra,mu=2,conf.int=TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  amostra
## V = 157.5, p-value = 0.01164
## alternative hypothesis: true location is not equal to 2
## 95 percent confidence interval:
##  2.000049 2.200015
## sample estimates:
## (pseudo)median 
##       2.100042

Definição de erro-padrão:

# Cálculo do erro-padrão:

sd(amostra)/sqrt(20)

## [1] 0.03871284

Respostas (4b):

i: O Desvio-padrão da amostra é de 0.17 mg/l.

ii: Conforme demonstrado pelo cálculo do erro-padrão, com média aritmética de 2.105, temos um intervalo de 2.105+-0.038 mg/l, ou seja, aproximadamente: 2.06 a 2.14 mg/l.

iii: Considerando a assimetria da amostra e analisando os resultados do testes: t.test e Wilcox, temos intervalos de confiança com amplitude entre: 2,00 à 2.20 (Wilcox). O valor de 2 mg/l está dentro do IC estimado e pode ser considerado válido como concentração média do valor de P (fósforo) nas águas residuais pesquisadas sob um índice de confiança de 95%.

Regras:

n=47 amostras
media_populacao=?
dpadrao_populacao=?
amostra=(0.60,0.50 0.39 0.84,0.46,0.39,0.62,0.67,0.69,0.81,0.38,0.79,0.43,0.57,0.74,0.27,0.51, 0.35,0.28,0.45,0.42,1.14,0.23,0.72,0.63,0.50,0.29,0.82,0.54,1.13,0.56,1.33,0.56,1.11, 0.57,0.89,0.28,1.20,0.76,0.26,0.34,0.52,0.42,0.22,0.33,1.14,0.48)

Desenvolvimento:

amostra<-c(0.60,0.50,0.39,0.84,0.46,0.39,0.62,0.67,0.69,0.81,0.38,0.79,0.43,0.57,0.74,0.27,0.51,0.35,
           0.28,0.45,0.42,1.14,0.23,0.72,0.63,0.50,0.29,0.82,0.54,1.13,0.56,1.33,0.56,1.11,0.57,0.89,
           0.28,1.20,0.76,0.26,0.34,0.52,0.42,0.22,0.33,1.14,0.48)

summary(amostra)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.3900  0.5400  0.5985  0.7500  1.3300

stem(amostra)

## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##    2 | 2367889345899
##    4 | 223568001246677
##    6 | 023792469
##    8 | 1249
##   10 | 1344
##   12 | 03

# Análise via histograma e boxplot:

par(mfrow=c(1,2))
hist(amostra,main="HISTOGRAMA TCCB")
boxplot(amostra,main="BOXPLOT TCCB")

# Calculo do desvio padrao: (sd)
sd(amostra)

## [1] 0.2836408

# Aplicando t.test:

# Teste com alpha=5% Opção: two.sided - mu=?
t.test(amostra,alternative=c("two.sided"),conf.level=0.95)

## 
##  One Sample t-test
## 
## data:  amostra
## t = 14.4661, df = 46, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  0.5152306 0.6817907
## sample estimates:
## mean of x 
## 0.5985106

# Cálculo da amplitude do IC:
r95<-t.test(amostra,alternative=c("two.sided"),conf.level=0.95)
r95$conf.int[2]-r95$conf.int[1]

## [1] 0.1665601

# Teste de Wilcox
wilcox.test(amostra,conf.int=TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  amostra
## V = 1128, p-value = 2.471e-09
## alternative hypothesis: true location is not equal to 0
## 95 percent confidence interval:
##  0.4899128 0.6699514
## sample estimates:
## (pseudo)median 
##       0.564998

Comentário (5):

É possivel e importante, quantificar os dados em questão via estatística. Observando a amostra de TCCB via análise exploratória gráfica, temos uma assimetria dos dados analisados e através do Teste de Wilcox, podemos definir um Intervalo de Confiança com nível de significância de 95%, por exemplo.

Resposta (5a):

Conforme desenvolvimento acima da questão 5, podemos observar a inserção das amostras em um vetor chamado amostra(), e os cálculos via comandos R que podem ser utilizados, inclusive nas soluções das questões do presente exame.

summary(amostra)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.3900  0.5400  0.5985  0.7500  1.3300

Dada uma amostra, considera-se que o 1º quartil é o valor tal que pelo menos 25% dos dados são não maiores do que ele e pelo menos 75% dos dados são não menores do que ele e o 3º quartil é o valor tal que pelo menos 75% dos dados são não maiores do que ele e pelo menos 25% dos dados são não menores do que ele.

sort(amostra)

##  [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33

quantile(amostra)

##   0%  25%  50%  75% 100% 
## 0.22 0.39 0.54 0.75 1.33

quartis<-summary(amostra)

q1<-quartis[2]

qqnorm(amostra)
qqline(amostra)
abline(h=quartis[2] , col="blue", lwd=3) #valor 1o. quartil
abline(h=quartis[3], col="red", lwd=3) # média aritmética
abline(h=quartis[4], col="yellow", lwd=3) # mediana
abline(h=quartis[5], col="blue", lwd=3) # valor 3o. quartil

Conclusão (5c):

Observa-se no intervalo entre o 1o. e 3o. quartil uma distribuição simétrica dos dados coletados.

hist(amostra, col = "grey", freq = FALSE,main="HISTOGRAMA TCCB")
lines(density(amostra), col="red", lwd=2)
rug(amostra)
abline(v = 0.54, col="blue", lwd=3)

Conclusão (5d):

Pode-se verificar que a distribuição dos dados na amostra é assimétrica a direita.

Questão repetida (vide anterior).

Observando o histograma da questão anterior, há uma assimetria nos dados. Sendo a média aritmética sensível aos valores extremos de uma amostra, considero mais representativo, utilizarmos o valor da MEDIANA, pois a mesma não será tão afetada pelos valores mais altos observados à direita no conjunto da amostra.

IQR(amostra)

## [1] 0.36

Sob a mesma análise na questão anterior, o desvio-padrão sobre interferência de valores extremos. Conforme gráfico anterior e cálculo dos intervalos inter-quartis, observa-se uma distribuição mais homogênea dos dados e por isso, mais representativa da medida de variabilidade.

boxplot(amostra)

max(amostra)

## [1] 1.33

Conclusão (5h):

Pela análise gráfica (boxplot) observa-se um outlier (superior) na amostra de valor: 1.33 mg/l.

Hipótese:

Hipótese nula: mio=0.5 mg/l
Hipótese alternativa: mi1>0.5

Analise exploratória:

stem(amostra)

## 
##   The decimal point is 1 digit(s) to the left of the |
## 
##    2 | 2367889345899
##    4 | 223568001246677
##    6 | 023792469
##    8 | 1249
##   10 | 1344
##   12 | 03

boxplot(amostra)

Testes de hipótese:

# Teste com alpha=5% Opção: greater - mu=0.5
t.test(amostra,alternative=c("greater"),mu=0.5,conf.level=0.95)

## 
##  One Sample t-test
## 
## data:  amostra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
##  0.529059      Inf
## sample estimates:
## mean of x 
## 0.5985106

# Teste de Wilcox
wilcox.test(amostra,alternative=c("greater"),mu=0.5,conf.int=TRUE)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  amostra
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
##  0.5049733       Inf
## sample estimates:
## (pseudo)median 
##      0.5700434

Conclusão (6b):

Via análise exploratória e com os resultados dos testes t.test e Wilcox com nível de significância de 95% para valores superiores a 0.5 mg/l, podemos rejeitar a hipótese nula.

Analisando o boxplot, observamos que em uma análise inter-quartil, temos uma distribuição normal dos dados, porém, no histograma, com todos os valores coletados, não pode ser considerado normal, devido a grande assimetria de valores extremos.

Conforme a tabela abaixo, temos dois tipos de erros: ERRO TIPO I: quando a hipotese nula é verdadeira e rejeitamos a mesma e ERRO TIPO II: quando a hipóteste nula é falsa e mesmo assim, não rejeitamos a mesma. O erro é definido pelo analista através da hipótese alternativa, sendo considerado um nível de significância para os cálculos de teste da hipótese.

summary(amostra)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.3900  0.5400  0.5985  0.7500  1.3300

i: Conforme já calculado na questão 6b, a hipótese nula será rejeitada via cálculo da distribuição t-student (t.test)

ii: O valor p-value ou valor-p encontrado: 0.01, rejeita a hipótese nula, pois há um forte indicativo de valores superiores a 0.5 mg/l.

Primeiramente, já utilizamos o teste de WILCOX para rejeitar a hipótese nula e o resultado foi positivo. Podemos ainda, utilizar um nível de significância maior, por exemplo: 1%.

# Teste com alpha=1% Opção: greater - mu=0.5
t.test(amostra,alternative=c("greater"),mu=0.5,conf.level=0.99)

## 
##  One Sample t-test
## 
## data:  amostra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 99 percent confidence interval:
##  0.4987933       Inf
## sample estimates:
## mean of x 
## 0.5985106

Resultado: O valor-p continua baixo (0.01073), similar ao nível de significância (0.01), reforçando a rejeição da hipótese nula.

# Teste com alpha=5% Opção: greater - mu=0.5
t.test(amostra,alternative=c("greater"),mu=0.5,conf.level=0.95)

## 
##  One Sample t-test
## 
## data:  amostra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
##  0.529059      Inf
## sample estimates:
## mean of x 
## 0.5985106

Resultado: O teste t-student, rejeita a hipótese nula, com valor-p abaixo do nível de significância.

# Teste de Wilcox
wilcox.test(amostra,alternative=c("greater"),mu=0.5,conf.int=TRUE)

## Warning in wilcox.test.default(amostra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with ties

## Warning in wilcox.test.default(amostra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with ties

## Warning in wilcox.test.default(amostra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with zeroes

## Warning in wilcox.test.default(amostra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with zeroes

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  amostra
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
##  0.5049733       Inf
## sample estimates:
## (pseudo)median 
##      0.5700434

Resultado: O teste de Wilcox, também rejeita a hipótese nula, com valor-p abaixo do nível de significância.

Considero os dois testes muito importantes e não-excludentes. Em primeira análise, prefiro utilizar o INTERVALO DE CONFIANÇA, no sentido de aceitar a análise e definir uma amplitude de resultados válidos para inferência estatística em uma populaçao.

PODER: Chance de detectar, como estatisticamente significante, um efeito especificado, se ele existir. Em geral, utiliza-se um poder de, no mínimo, 80%.

Desenvolvimento:

n=?
alfa=5%
Poder=80%
d=0.1

Para solução desse problema, utilizarei a função pwr para cálculo de n.

# Teste pwr para sig.level=.05
pwr.t.test(power=0.80,d=0.1,sig.level=.05,alternative="two.sided")

## 
##      Two-sample t test power calculation 
## 
##               n = 1570.733
##               d = 0.1
##       sig.level = 0.05
##           power = 0.8
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

Conclusão: Pelos parâmetros fornecidos, será preciso de uma amostra de 1571 elementos.

Desenvolvimento:

n=20
alfa=5%
Poder=?
d=0.1

Utilizando a função pwr:

# Teste pwr para sig.level=.05
pwr.t.test(n=20,d=0.1,sig.level=.05,alternative="two.sided")

## 
##      Two-sample t test power calculation 
## 
##               n = 20
##               d = 0.1
##       sig.level = 0.05
##           power = 0.06095912
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

Conclusão:

Pelo resultado da questão anterior já era previsto que o cálculo efetuado na presente questão resultaria um um PODER de estimativa baixo. Como confirmado, o valor de 0.06 indica que o tamanho da amostra resultará em uma baixa confiabilidade dos resultados da amostra (6%).

Exame 01 - Análise de Dados

Gustavo Tatagiba - Professor: Washington S.Silva.

24/04/2015