————————————————————————————————————————————————————————————————————————-
————————————————————————————————————————————————————————————————————————-
Base de dados: PENDRIVE (N:)
## [1] "N:/_IFMG/_MESTRADO/ANALISE_DE_DADOS/Exame01"
Apaga variáveis do ambiente R:
rm(list=ls())
Carregando bibliotecas R:
Biblioteca PWR:
#install.packages("pwr")
library(pwr)
Biblioteca para Tabela de Distribuição de Frequências:
#install.packages("sm") # comando para instalação da biblioteca sm #
library("sm")
————————————————————————————————————————————————————————————————————————-
QUESTÕES:
Como descrito em meu Projeto de Mestrado (http://rpubs.com/Tatagiba/projeto_mestrado), podemos realizar Inferências Estatísticas sobre dados extraídos de documentos fiscais para licenciamento ambiental de operações das empresas do núcleo setorial de MANUTENÇAO automotiva. Por exemplo:
————————————————————————————————————————————————————————————————————————-
1a. Legislação: INSTRUÇÃO NORMATIVA IBAMA Nº 187, DE 10 DE SETEMBRO DE 2008 (D.O.U. Nº 000 DE 10/09/08)
Define procedimentos e padrões de nomenclatura e coeficientes para indústrias consumidoras ou transformadoras de produtos e subprodutos florestais madeireiros de origem nativa, inclusive carvão vegetal.
Exemplo descritivo de espécie - Anexo VII:
2a. Legislação: RESOLUÇÃO CONJUNTA SEMAD/IEF Nº 1804, DE 11 DE JANEIRO DE 2013
Dispõe sobre os procedimentos para autorização da intervenção ambiental no Estado de Minas Gerais e dá outras providências.
ANEXO II: PLANO DE UTILIZAÇÃO PRETENDIDA COM INVENTÁRIO FLORESTAL - PUP
4 - Do Desmatamento. 4.1 - Planta planimétrica ou planialtimétrica da propriedade, contendo: 4.1.1 - Área total da propriedade. 4.1.2 - Área de Preservação Permanente e Reserva Legal. 4.1.3 - Área com cobertura vegetal nativa. 4.1.4 - Área a ser desmatada e sua localização. 4.1.5 - Área de pastagem, agricultura, reflorestamento, infraestrutura, hidrografia, rede viária e rede de alta tensão. 4.1.6 - Localização das unidades amostrais (planilha com as coordenadas dos vértices das parcelas). 4.1.7 - Localização, se for o caso, de Unidades de Conservação adjacentes ou inclusas à propriedade. 4.1.8 - Confrontantes. 4.1.9 - Coordenadas geográficas - UTM da área a ser desmatada e da Reserva Legal, informando o fuso, o Datum Horizontal e a identificação da carta.
4.2 - Inventário Florestal - Metodologia: Devem ser mensurados os indivíduos com DAP (diâmetro à altura do peito) maior ou igual à 5,0 cm.
4.2.1 - Relações volumétricas utilizadas. 4.2.1.1 - Definição do método de amostragem utilizado. 4.2.1.2 - Definição da intensidade amostral. 4.2.1.3 - Método de cubagem rigorosa utilizado e apresentação dos dados obtidos. 4.2.1.4 - Método utilizado para cálculo de estimativas de volume (equação volumétrica). 4.2.2 - Processo de amostragem. 4.2.2.1 - Descrição e justificativas do processo de amostragem utilizado. 4.2.2.2 - Tamanho e forma das unidades amostrais. 4.2.2.3 - Análise estrutural da floresta contendo: perfil da floresta, dados de abundância, dominância, frequência e índice de valor de importância.
4.3. - Análise dos dados estatísticos de amostragem.
4.3.1 - Estimativa da média volumétrica por unidade amostral/hectare em m3 e st. 4.3.2 - Estimativa do volume total da população em m3 e st. 4.3.3 - Variância. 4.3.4 - Desvio-padrão. 4.3.5 - Volume médio.
4.3.6 - Valor de “T” de student a 90% de probabilidade.
4.3.7 - Erro-padrão da média. 4.3.8 - Coeficiente de variação.
4.3.9 - Limite do erro de amostragem admissível de 10%, ao nível de 90% de probabilidade.
4.3.10 - Erro calculado de amostragem.
4.3.11 - Intervalos de confiança.
4.3.12 - Outros dados pertinentes. 4.3.2 - Listagem das espécies florestais (nome regional e nome científico). 4.3.2.1 - Número de árvores: por espécie, por classe diamétrica e por hectare. 4.3.2.2 - Área basal, volume e frequência: por espécie, por classe diamétrica, por unidade amostral e por hectare.
4.3.2.3 - Relatório final contendo tabela de DAP médio, área basal, altura média, número de árvores por hectare e volume em m3 e em st por parcela, por hectare e volume total em m3 e em st.8
4.4 - Sistema de exploração. 4.4.1 - Planejamento da exploração. 4.4.2 - Volume a ser explorado por classe de DAP, por espécie, por hectare e por talhão ao ano. 4.4.3 - Apresentação da metodologia das operações de exploração florestal quanto à derrubada, baldeio e transporte. 4.4.4 - Cronograma de execução das operações de exploração. 4.4.5 - Planta topográfica contendo a locação de talhões de exploração, estrutura de estradas, pátios de estocagem e baterias de fornos (se for o caso).
3a. Legislação: LEI MUNICIPAL Nº 2.701, DE 16 DE DEZEMBRO DE 2010
Objetivo: o presente laudo tem por objetivo determinar o justo valor de mercado de um terreno, com uma área de 1.039,00m2. Situa-se no prolongamento da Rua Dr. Álvaro Pessoa- Centro - Angra dos Reis-RJ, para atender a Procuradoria Geral do Município - com objetivo doar uma área do Município para o Ministério Público, construir a sua Sede.
Valor Final Encontrado para o imóvel:
V = R$ 620.000,00 (Seiscentos e Vinte Mil Reais).
Ressalvas e Princípios:
O presente laudo, obedeceu aos seguintes princípios:
O presente laudo está baseado nas normas nº 14.653-1 e 14.653-2 da ABNT;
O laudo apresenta todas as condições limitativas impostas pela metodologia aplicada, que afetam as análises, opiniões e suas conclusões;
O local foi devidamente inspecionado pelo subscritor e propiciou suas análises e conclusões;
Não há no presente trabalho qualquer inclinação pessoal, tendo sido o mesmo elaborado com estrita observância das normas técnicas e do código de ética profissional.
O profissional subscrito atende o disposto nos itens 6.1 a 6.7 da Parte I da Norma 14.653-1.
Características do Objeto:
Trata-se de um terreno plano em toda sua extensão e medindo de frente para a rua Castelo Branco 15,80m, mede pelo lado direito 73,92m confrontando com CIA DOCAS do Rio de Janeiro, pelo lado esquerdo mede 85,52m, confrontando com terras do Ministério da Marinha e pelos fundos mede 13,14m com canal do Rio do Choro, perfazendo um total de 1.039,00m2. O terreno é foreiro a União Federal e situa no prolongamento da Rua: Dr. Álvaro Pessoa - Enseadas de São Bento - Centro de Angra dos Reis.
Metodologia:
A NB-14.653-1/2 permite que se proceda a avaliação de imóveis pelo método comparativo. Serão utilizadas outras normas pertinentes ao objeto em tela.
Avaliação do Imóvel:
6.1 - Caracterização da Região:
O bairro onde se localiza o imóvel é o Centro da cidade e é de uso misto - comercial e residencial.
6.2 - Uso e Ocupação do Solo:, DE acordo com o Plano Diretor do Município, Lei Municipal nº 2091/09 o Centro está inserido na zona de desenvolvimento urbano - ZDU, destinado aos diversos tipos de uso, residencial, comercial, de serviços, institucionais, etc.
6.3 - Infra-estrutura Urbana:
No Centro estão contemplados os serviços de transporte coletivo, limpeza urbana, iluminação pública, abastecimento de água, telefonia, rede de transmissão de dados, de comunicação e televisão, possui todas as ruas pavimentadas com drenagem pluvial.
6.4 - Equipamentos Comunitários:
No Centro, estão implantados: Três Escolas Estaduais, Escolas Municipais, Postos de Saúde, Fórum, Câmara Municipal, Paço Municipal, Delegacia Federal, Delegacia Civil, Santa Casa Hospital e Maternidade, Mercado Municipal, Agências Bancárias além de Praças e quadras poliesportivas.
6.5 - Amostras:
As amostras coletadas referem-se todas a imóveis situados no bairro do Centro.
01 - Terreno em formato irregular com topografia acidentada de 541,00m², situado a Rua: Bruno Andréa, ao lado nº421 - Pq. das Palmeiras -Angra dos Reis. Valor do terreno para venda é de R$145.000,00, informações cedidas por Maete Imóveis. Tels.: (24) 3365-6632. O valor do m² do logradouro é de R$90,05, segundo a Planta de Valores do Município.
02 - Terreno em formato irregular com topografia acidentada 790,00m2, situado a Rua Bruno Andréa, ao,lado do nº464 - Pq. das Palmeiras - Angra dos Reis. Valor do terreno para venda é de R$ 190.000,00, informações cedidas por Agostinho Imóveis, Tels.: (24) 3377-3773. O valor do m² do logradouro é de R$90,05, segundo a Planta de Valores do Município.
03 - Terreno em formato irregular com topografia acidentada de 430,00m2, situado a Estrada do Marinas - Marinas - Angra dos Reis. Valor do terreno para venda é de R$ 265.000,00, informações cedidas por Marli Guimarães, Tels.: (24)8136-1230. O valor do m² do logradouro é de R$198,11, segundo a Planta de Valores do Município.
04 - Terreno plano em toda a sua extensão, de 720,00m2, situado a Av. Luigi Amendola - Balneário. Valor do terreno para venda é de R$ 265.000,00, informações cedidas por Carla Guimarães. O valor do m² do logradouro é de R$108,07, segundo a Planta de Valores do Município.
05 - Terreno plano em toda a sua extensão, perfazendo total de 805,00m2, situado a Av. Alm. Mq. De Leão, 316 - Centro. Valor do terreno para venda é R$220.000,00, informações cedidas pela proprietária Sra. Inês. Tels.: (24) 3365-2862. O valor do m² do logradouro é de R$108,02, segundo a Planta de Valores do Município.
Homogeneização das Amostras:
Os fatores de homogeneização utilizados, neste trabalho são os definidos pelo Instituto de Engenharia Legal - IEL, do Estado do Rio de Janeiro abaixo relacionados:
Fator Oferta ou de Comercialização - Fc compreendido no intervalo 1,00 > Fc > 0,80;
Fator Idade/Conservação - Fi/c compreendido no intervalo 1,00 > Fi/c > 0,80;
Fator Localização - Floc = Vr avaliando / valor elemento amostral, ou seja relação entre o valor venal atribuído pelo Setor de Cadastro Imobiliário da Prefeitura para fins de calculo do IPTU (Voi) e o valor venal unitário da amostra (Voa).
Fator de Área fornecido pela fórmula [área da amostra / área avaliando onde n = 0,25 quando a diferença for < 30% n = 0,125 quando a diferença for > 30%
Fator padrão Construtivo representado pela relação: CUB avaliando / CUB da amostra.
Quadro de homogeneização das amostras:
Cálculo do Xmenor e Xmaior:
Xmenor = | 702,40 - 538,71 | / 241,887588 = 0,68 < 1,65
Xmaior = | 1.130,05 - 702,40| / 241,887588 = 1,77 < 1,65
Como os extremos estão dentro do intervalo, todos os outros elementos também estarão.
Limites de Confiança:
Xmáx/min = X + Tc x (S / ??? n - 1 )
Onde: Tc é igual aos valores percentis para distribuição “t” de Student, com 3 graus de liberdade ( “n” = 5 elementos, " n-1 " da tabela = 4 ) e confiança de 80%, a tabela indica Tc = 1,53. Assim, Xmax/min = 702,40+1,53 x (241,887588 / ??? 4 ) = 702,40 + 185,04
Xmáx = 702,40 + 185,04 = 887,44 Xmin = 702,40 - 185,04 = 517,36
A amplitude do intervalo será Xmáx - X min, então: 887,44 - 517,36 = R$ 370,09 /m²
Dividindo a amplitude pelo número de classes (3), teremos:
370,09 3 = 123,36
A tomada de decisão deverá recair na classe em que o peso for maior.
A 1ª classe abrangerá os valores compreendidos entre Xmin e Xmax = 123,36
1ª classe 517,36 ————- 640,72
Neste intervalo o rol saneado apresenta quatro elementos X1= 621,38, X2 = 587,89, X3 = 633,97 e X5 = 538,71.
2ª classe 640,72 ————– 764,08
Neste intervalo o rol saneado não apresenta nenhum elemento
3ª classe 764,08 ————– 887,44
Neste intervalo o rol saneado não apresenta nenhum elemento
Assim teremos: Para a 1ª Classe peso 4 para o elemento X1,X2,X3 e X5
Média Ponderada = ((4x 621,38) + (4 x 587,89) + (4x 633,97) + (4x 538,71 )/ (4+4+4+4) = 595,49
Assim o valor unitário para o imóvel é de R$595,49 /m2
V = 595,49 x 1.039,00 = R$ 618.711,55
Considerando o arredondamento o valor da venda passa a ter o valor de: R$ 620.000,00 (Seiscentos e vinte Mil Reais).
Grau de Precisão: Conforme Tabela 6 da NB 14653-2, o grau de precisão da estimativa de valor que se utiliza do tratamento por fatores é dado através da amplitude do intervalo de confiança de 80% em torno do valor central da estimativa, obedecendo ao seguinte critério:
< 30% Grau III; entre 30 e 50% Grau II e > 50% Grau I, assim, como a amplitude do intervalo A = 370,09 e a média dos valores (valor central) = 702,40 o grau de precisão será dado pela relação A / X que será igual a (370,09 / 702,40 = 52,68%) portanto Grau I.
O profissional subscritor do presente laudo, possui curso de engenharia de avaliação promovido pelo CREA em 2007 e curso de capacitação em avaliação de imóveis da Escola de Contas do Tribunal de Contas do Estado do Rio de Janeiro, de 2007.
————————————————————————————————————————————————————————————————————————-
a) População: Uma população é um conjunto de elementos nos quais podem ser realizadas inferências estatísticas sobre suas características. Para isso, consideramos uma população finita, se retiramos os dados e não os retornamos para a origem ou infinita, se retiramos e devolvemos o dado ou amostra para sua origem.
b) Amostra: Uma amostra é um subconjunto de elementos retirados de uma população (segundo um método-padrão, de forma aleatória, finita ou infinita) para análise estatística de suas características. Quanto mais inferências estatísticas forem realizadas com amostras de uma mesma população, melhor será a qualidade dos dados e confiabilidade dos resultados sobre o conjunto total dos dados.
c) Dados aproximadamente normais: Os dados de uma amostra ou população podem ser considerados normais, quando ao serem analisados, resultam em uma média e um desvio-padrão simétricos, conforme a figura abaixo:
————————————————————————————————————————————————————————————————————————-
Regras:
Desenvolvimento:
amostra<-c(1.8,2.2,2.1,2.3,2.1,2.2,2.1,2.1,1.8,1.9,2.4,2.0,1.9,1.9,2.2,2.3,2.2,2.3,2.1,2.2)
summary(amostra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.800 1.975 2.100 2.105 2.200 2.400
stem(sort(amostra))
##
## The decimal point is 1 digit(s) to the left of the |
##
## 18 | 00000
## 20 | 000000
## 22 | 00000000
## 24 | 0
# Análise via boxplot:
boxplot(amostra,main="BOXPLOT P")
Resposta (4a):
Através de análise exploratória, observa-se que a amostra possui assimetria a esquerda. O viés dos dados é calculado pela diferença da média amostral e da média da população, sendo então: 2.105-2=0.105. Pelo exposto, caso não tenhamos a média da população, não haverá como calcular/referenciar o viés.
————————————————————————————————————————————————————————————————————————-
Desenvolvimento:
# Calculo do desvio padrao: (sd)
sd(amostra)
## [1] 0.1731291
# Aplicando t.test:
# Teste com alpha=5% Opção: two.sided - mu=0
t.test(amostra,alternative=c("two.sided"),mu=2,conf.level=0.95)
##
## One Sample t-test
##
## data: amostra
## t = 2.7123, df = 19, p-value = 0.01382
## alternative hypothesis: true mean is not equal to 2
## 95 percent confidence interval:
## 2.023973 2.186027
## sample estimates:
## mean of x
## 2.105
# Cálculo da amplitude do IC:
r95<-t.test(amostra,alternative=c("two.sided"),mu=2,conf.level=0.95)
r95$conf.int[2]-r95$conf.int[1]
## [1] 0.1620538
# Teste de Wilcox
wilcox.test(amostra,mu=2,conf.int=TRUE)
##
## Wilcoxon signed rank test with continuity correction
##
## data: amostra
## V = 157.5, p-value = 0.01164
## alternative hypothesis: true location is not equal to 2
## 95 percent confidence interval:
## 2.000049 2.200015
## sample estimates:
## (pseudo)median
## 2.100042
Definição de erro-padrão:
# Cálculo do erro-padrão:
sd(amostra)/sqrt(20)
## [1] 0.03871284
Respostas (4b):
i: O Desvio-padrão da amostra é de 0.17 mg/l.
ii: Conforme demonstrado pelo cálculo do erro-padrão, com média aritmética de 2.105, temos um intervalo de 2.105+-0.038 mg/l, ou seja, aproximadamente: 2.06 a 2.14 mg/l.
iii: Considerando a assimetria da amostra e analisando os resultados do testes: t.test e Wilcox, temos intervalos de confiança com amplitude entre: 2,00 à 2.20 (Wilcox). O valor de 2 mg/l está dentro do IC estimado e pode ser considerado válido como concentração média do valor de P (fósforo) nas águas residuais pesquisadas sob um índice de confiança de 95%.
————————————————————————————————————————————————————————————————————————-
Regras:
Desenvolvimento:
amostra<-c(0.60,0.50,0.39,0.84,0.46,0.39,0.62,0.67,0.69,0.81,0.38,0.79,0.43,0.57,0.74,0.27,0.51,0.35,
0.28,0.45,0.42,1.14,0.23,0.72,0.63,0.50,0.29,0.82,0.54,1.13,0.56,1.33,0.56,1.11,0.57,0.89,
0.28,1.20,0.76,0.26,0.34,0.52,0.42,0.22,0.33,1.14,0.48)
summary(amostra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
stem(amostra)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 2 | 2367889345899
## 4 | 223568001246677
## 6 | 023792469
## 8 | 1249
## 10 | 1344
## 12 | 03
# Análise via histograma e boxplot:
par(mfrow=c(1,2))
hist(amostra,main="HISTOGRAMA TCCB")
boxplot(amostra,main="BOXPLOT TCCB")
# Calculo do desvio padrao: (sd)
sd(amostra)
## [1] 0.2836408
# Aplicando t.test:
# Teste com alpha=5% Opção: two.sided - mu=?
t.test(amostra,alternative=c("two.sided"),conf.level=0.95)
##
## One Sample t-test
##
## data: amostra
## t = 14.4661, df = 46, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 0.5152306 0.6817907
## sample estimates:
## mean of x
## 0.5985106
# Cálculo da amplitude do IC:
r95<-t.test(amostra,alternative=c("two.sided"),conf.level=0.95)
r95$conf.int[2]-r95$conf.int[1]
## [1] 0.1665601
# Teste de Wilcox
wilcox.test(amostra,conf.int=TRUE)
##
## Wilcoxon signed rank test with continuity correction
##
## data: amostra
## V = 1128, p-value = 2.471e-09
## alternative hypothesis: true location is not equal to 0
## 95 percent confidence interval:
## 0.4899128 0.6699514
## sample estimates:
## (pseudo)median
## 0.564998
Comentário (5):
É possivel e importante, quantificar os dados em questão via estatística. Observando a amostra de TCCB via análise exploratória gráfica, temos uma assimetria dos dados analisados e através do Teste de Wilcox, podemos definir um Intervalo de Confiança com nível de significância de 95%, por exemplo.
Resposta (5a):
summary(amostra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
Dada uma amostra, considera-se que o 1º quartil é o valor tal que pelo menos 25% dos dados são não maiores do que ele e pelo menos 75% dos dados são não menores do que ele e o 3º quartil é o valor tal que pelo menos 75% dos dados são não maiores do que ele e pelo menos 25% dos dados são não menores do que ele.
sort(amostra)
## [1] 0.22 0.23 0.26 0.27 0.28 0.28 0.29 0.33 0.34 0.35 0.38 0.39 0.39 0.42
## [15] 0.42 0.43 0.45 0.46 0.48 0.50 0.50 0.51 0.52 0.54 0.56 0.56 0.57 0.57
## [29] 0.60 0.62 0.63 0.67 0.69 0.72 0.74 0.76 0.79 0.81 0.82 0.84 0.89 1.11
## [43] 1.13 1.14 1.14 1.20 1.33
quantile(amostra)
## 0% 25% 50% 75% 100%
## 0.22 0.39 0.54 0.75 1.33
quartis<-summary(amostra)
q1<-quartis[2]
qqnorm(amostra)
qqline(amostra)
abline(h=quartis[2] , col="blue", lwd=3) #valor 1o. quartil
abline(h=quartis[3], col="red", lwd=3) # média aritmética
abline(h=quartis[4], col="yellow", lwd=3) # mediana
abline(h=quartis[5], col="blue", lwd=3) # valor 3o. quartil
Conclusão (5c):
Observa-se no intervalo entre o 1o. e 3o. quartil uma distribuição simétrica dos dados coletados.
hist(amostra, col = "grey", freq = FALSE,main="HISTOGRAMA TCCB")
lines(density(amostra), col="red", lwd=2)
rug(amostra)
abline(v = 0.54, col="blue", lwd=3)
Conclusão (5d):
Pode-se verificar que a distribuição dos dados na amostra é assimétrica a direita.
Questão repetida (vide anterior).
Observando o histograma da questão anterior, há uma assimetria nos dados. Sendo a média aritmética sensível aos valores extremos de uma amostra, considero mais representativo, utilizarmos o valor da MEDIANA, pois a mesma não será tão afetada pelos valores mais altos observados à direita no conjunto da amostra.
IQR(amostra)
## [1] 0.36
Sob a mesma análise na questão anterior, o desvio-padrão sobre interferência de valores extremos. Conforme gráfico anterior e cálculo dos intervalos inter-quartis, observa-se uma distribuição mais homogênea dos dados e por isso, mais representativa da medida de variabilidade.
boxplot(amostra)
max(amostra)
## [1] 1.33
Conclusão (5h):
Pela análise gráfica (boxplot) observa-se um outlier (superior) na amostra de valor: 1.33 mg/l.
————————————————————————————————————————————————————————————————————————-
Hipótese:
Analise exploratória:
stem(amostra)
##
## The decimal point is 1 digit(s) to the left of the |
##
## 2 | 2367889345899
## 4 | 223568001246677
## 6 | 023792469
## 8 | 1249
## 10 | 1344
## 12 | 03
boxplot(amostra)
Testes de hipótese:
# Teste com alpha=5% Opção: greater - mu=0.5
t.test(amostra,alternative=c("greater"),mu=0.5,conf.level=0.95)
##
## One Sample t-test
##
## data: amostra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
## 0.529059 Inf
## sample estimates:
## mean of x
## 0.5985106
# Teste de Wilcox
wilcox.test(amostra,alternative=c("greater"),mu=0.5,conf.int=TRUE)
##
## Wilcoxon signed rank test with continuity correction
##
## data: amostra
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
## 0.5049733 Inf
## sample estimates:
## (pseudo)median
## 0.5700434
Conclusão (6b):
Via análise exploratória e com os resultados dos testes t.test e Wilcox com nível de significância de 95% para valores superiores a 0.5 mg/l, podemos rejeitar a hipótese nula.
Analisando o boxplot, observamos que em uma análise inter-quartil, temos uma distribuição normal dos dados, porém, no histograma, com todos os valores coletados, não pode ser considerado normal, devido a grande assimetria de valores extremos.
Conforme a tabela abaixo, temos dois tipos de erros: ERRO TIPO I: quando a hipotese nula é verdadeira e rejeitamos a mesma e ERRO TIPO II: quando a hipóteste nula é falsa e mesmo assim, não rejeitamos a mesma. O erro é definido pelo analista através da hipótese alternativa, sendo considerado um nível de significância para os cálculos de teste da hipótese.
summary(amostra)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.3900 0.5400 0.5985 0.7500 1.3300
i: Conforme já calculado na questão 6b, a hipótese nula será rejeitada via cálculo da distribuição t-student (t.test)
ii: O valor p-value ou valor-p encontrado: 0.01, rejeita a hipótese nula, pois há um forte indicativo de valores superiores a 0.5 mg/l.
Primeiramente, já utilizamos o teste de WILCOX para rejeitar a hipótese nula e o resultado foi positivo. Podemos ainda, utilizar um nível de significância maior, por exemplo: 1%.
# Teste com alpha=1% Opção: greater - mu=0.5
t.test(amostra,alternative=c("greater"),mu=0.5,conf.level=0.99)
##
## One Sample t-test
##
## data: amostra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 99 percent confidence interval:
## 0.4987933 Inf
## sample estimates:
## mean of x
## 0.5985106
Resultado: O valor-p continua baixo (0.01073), similar ao nível de significância (0.01), reforçando a rejeição da hipótese nula.
# Teste com alpha=5% Opção: greater - mu=0.5
t.test(amostra,alternative=c("greater"),mu=0.5,conf.level=0.95)
##
## One Sample t-test
##
## data: amostra
## t = 2.381, df = 46, p-value = 0.01073
## alternative hypothesis: true mean is greater than 0.5
## 95 percent confidence interval:
## 0.529059 Inf
## sample estimates:
## mean of x
## 0.5985106
Resultado: O teste t-student, rejeita a hipótese nula, com valor-p abaixo do nível de significância.
# Teste de Wilcox
wilcox.test(amostra,alternative=c("greater"),mu=0.5,conf.int=TRUE)
## Warning in wilcox.test.default(amostra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with ties
## Warning in wilcox.test.default(amostra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with ties
## Warning in wilcox.test.default(amostra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact p-value with zeroes
## Warning in wilcox.test.default(amostra, alternative = c("greater"), mu =
## 0.5, : cannot compute exact confidence interval with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: amostra
## V = 669.5, p-value = 0.04361
## alternative hypothesis: true location is greater than 0.5
## 95 percent confidence interval:
## 0.5049733 Inf
## sample estimates:
## (pseudo)median
## 0.5700434
Resultado: O teste de Wilcox, também rejeita a hipótese nula, com valor-p abaixo do nível de significância.
Considero os dois testes muito importantes e não-excludentes. Em primeira análise, prefiro utilizar o INTERVALO DE CONFIANÇA, no sentido de aceitar a análise e definir uma amplitude de resultados válidos para inferência estatística em uma populaçao.
————————————————————————————————————————————————————————————————————————-
PODER: Chance de detectar, como estatisticamente significante, um efeito especificado, se ele existir. Em geral, utiliza-se um poder de, no mínimo, 80%.
Desenvolvimento:
Para solução desse problema, utilizarei a função pwr para cálculo de n.
# Teste pwr para sig.level=.05
pwr.t.test(power=0.80,d=0.1,sig.level=.05,alternative="two.sided")
##
## Two-sample t test power calculation
##
## n = 1570.733
## d = 0.1
## sig.level = 0.05
## power = 0.8
## alternative = two.sided
##
## NOTE: n is number in *each* group
Conclusão: Pelos parâmetros fornecidos, será preciso de uma amostra de 1571 elementos.
Desenvolvimento:
Utilizando a função pwr:
# Teste pwr para sig.level=.05
pwr.t.test(n=20,d=0.1,sig.level=.05,alternative="two.sided")
##
## Two-sample t test power calculation
##
## n = 20
## d = 0.1
## sig.level = 0.05
## power = 0.06095912
## alternative = two.sided
##
## NOTE: n is number in *each* group
Conclusão:
Pelo resultado da questão anterior já era previsto que o cálculo efetuado na presente questão resultaria um um PODER de estimativa baixo. Como confirmado, o valor de 0.06 indica que o tamanho da amostra resultará em uma baixa confiabilidade dos resultados da amostra (6%).
————————————————————————————————————————————————————————————————————————-