A inferĂȘncia estatĂstica Ă© um ramo da estatĂstica que utiliza-se de artifĂcios matemĂĄticos para modelar uma população a partir de dados amostrais e obter resultados baseados em determinada confiabilidade desejada.
Como proceder para obter informaçÔes relevantes sobre um determinado problema?
Quando se faz uma amostragem de uma determinada população, estamos fazemos inferĂȘncia sobre a mesma, para um determinado o grau de incerteza.
O tamanho da amostra é proporcional ao tamanho da população?
NĂO, a precisĂŁo dos resultados obtidos atravĂ©s de uma amostra nĂŁo dependem, necessariamente, da proporção do tamanho da amostra em relação ao tramanho da população.
PrecisĂŁo: conjunto de dados com valores prĂłximos.
ExatidĂŁo: resultados prĂłximos ao desejado.
Entretando, na prĂĄtica o alvo muitas vezes nĂŁo Ă© visto, ou conhecidoâŠ.
Qual serĂĄ a melhor forma de avaliar a qualidade da estimativa?
ParĂąmetros:
EstatĂsticas:(Estimativas pontuais)
Normalmente, uma estimativa pontual nĂŁo oferece uma informação completa. NĂŁo sabemos quĂŁo perto da mĂ©dia da população estĂĄ a mĂ©dia da amostra. Por isso a implementação de um range de valores baseados no nĂvel de confiança no qual se deseja, se faz necessĂĄrio.
Definição de Intervalo de Confiança (IC): Dado um conjunto de amostras aleatórias \(x_{1},..., x_{n}\) de uma determinada população. Dado \(Y_{1} = f_{Y_{1}}(x_{1},...x_{n})\) e \(Y_{2} = f_{Y_{2}}(x_{1},...x_{n})\) dois parùmetros tais que \(Y_{2} > Y_{1}\), o intervalo entre esses parùemtros é dito intervalo de \(100\cdot(1-\alpha)\)% de confiança para Ξ \[P(Y_{1}<Ξ<Y_{2}) = 1-\alpha\]
Notação: \(IC(ÎŒ,1-\alpha) = (Y_{1}, Y_{2})\), onde \(Y_{1}\) e \(Y_{2}\) sĂŁo os limite inferior e superior respectivamente e \(1-\alpha\) Ă© o coeficiente (ou nĂvel) de confiança para o intervalo.
Para calcular o intervalo de confiança utilizamos a distribuição Normal Padrão ou a t-student, a depender do tamanho da amostra de dados coletada. Caso haja mais de 30 componentes, utilizamos a Normal Padrão, caso contrårio devemos usar a t-student.
Para se calcular o IC para a média populaconal, se o desvio padrão conhecido, deve-se:
\[\left (\bar{X}-Z_{\alpha/2}\cdot\frac{\sigma }{\sqrt{n}}, \bar{X}+Z_{\alpha/2}\cdot\frac{\sigma }{\sqrt{n}} \right )\]
Caso o \(\sigma\) seja desconhecido ou \(n<30\),
\[\left (\bar{X}-t_{n-1,\alpha/2}\cdot\frac{s }{\sqrt{n}}, \bar{X}+t_{n-1,\alpha/2}\cdot\frac{s }{\sqrt{n}} \right )\]
Supondo que \(X\) possui distribuição Binomial (n,p), então:
\[Z = \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\]
possui distribuição aproximada \(N(0,1)\).
Assim, o Intervalo de Confiança de \(p\) é dado por:
\[\left (\hat{p}-Z_{\alpha/2}\cdot\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+Z_{\alpha/2}\cdot\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right )\]
Sendo: \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) o desvio padrĂŁo da estimativa de \(p\).
Amostras independentes: \(\sigma_{1}\) e \(\sigma_{2}\) sĂŁo conhecidos
\[\left ( (\bar{x_{1}}-\bar{x_{2}})-Z_{\alpha /2}\cdot \sqrt{\frac{\sigma_{1}^{2} }{n_{1}}+\frac{\sigma_{2}^{2} }{n_{2}}}, (\bar{x_{1}}-\bar{x_{2}})+Z_{\alpha /2}\cdot \sqrt{\frac{\sigma_{1}^{2} }{n_{1}}+\frac{\sigma_{2}^{2} }{n_{2}}} \right )\]
Se o intervalo nĂŁo contĂ©m o valor zero, concluĂmos que hĂĄ diferença significaiva entre as mĂ©dias das duas mĂ©dias
Amostras independentes: \(\sigma_{1}\) e \(\sigma_{2}\) nĂŁo sĂŁo conhecidos
\[\left ( (\bar{x_{1}}-\bar{x_{2}})-t_{\alpha /2, n_{1}+n_{2}-2}\cdot s\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}, (\bar{x_{1}}-\bar{x_{2}})+t_{\alpha /2, n_{1}+n_{2}-2}\cdot s\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}} \right )\]
onde, \[s = \sqrt{\frac{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}\]
Se o intervalo nĂŁo contĂ©m o valor zero, concluĂmos que hĂĄ diferença significaiva entre as mĂ©dias das duas mĂ©dias
Amostras pareadas ou dependentes
Utilizada em estudo experimentais (Blocagem) ou estudos observacionais (pareamento) de forma a agrupar unidades em pares homogĂȘneos que podem estar relacionados com a resposta de interesse.
Intervalo de Confiança de \(\mu_{d} = \mu_{1} - \mu_{2}\) é dado por:
\[\left ( \bar{d} - t_{\alpha /2, n-1}\cdot \frac{s_{d}}{\sqrt{n}}, \bar{d} + t_{\alpha /2, n-1}\cdot \frac{s_{d}}{\sqrt{n}} \right )\]
onde, \[s_{d} = \sqrt{\frac{\sum_{k=1}^{n}(d_{i}-\bar{d})^{2}}{n-1}}\]
Intervalo de confiança para a diferença das médias
Tamanho da amostra para estimar a média
\[n = \left ( \frac{Z_{\alpha /2} \sigma}{\frac{A}{2}} \right )^{2}\]
\[n = \left ( \frac{t_{\alpha /2}s}{\frac{A}{2}} \right )^{2}\]
Passos:
Tamanho da amostra para estimar a proporção
\[n = \frac{Z_{\alpha /2}^{2}\cdot p(1-p)}{(\frac{A}{2})^{2}} \]
Passos:
O teste de hipótese é o método usado para decidir qual das duas proposiçÔes contraditórias estå correta:
Para se testar as hipĂłteses utiliza-se testes estatĂsticos
HipĂłtese | NĂŁo rejeita \(H_{0}\) | Rejeita \(H_{0}\) |
---|---|---|
\(H_{0}\) Ă© Verdadeira | Correta | Erro Tipo II |
\(H_{0}\) Ă© Falsa | Erro Tipo I | Correta |
HipĂłtese | NĂŁo rejeita \(H_{0}\) | Rejeita \(H_{0}\) |
---|---|---|
\(H_{0}\) Ă© Verdadeira | Correta | Incorreta |
\(H_{0}\) Ă© Falsa | Incorreta | Correta |
HipĂłtese | NĂŁo rejeita \(H_{0}\) | Rejeita \(H_{0}\) |
---|---|---|
\(H_{0}\) Ă© Verdadeira | \(1-\alpha\) | \(\beta\) |
\(H_{0}\) Ă© Falsa | \(\alpha\) | \(1-\beta\) |
Formulação das Hipóteses :
Unilateral
\(H_{0}:\mu = \mu_{0}\)
\(H_{1}:\mu > \mu_{0}\)
Representa uma hipĂłtese simples
Bilateral
\(H_{0}:\mu = \mu_{0}\)
\(H_{1}:\mu \neq \mu_{0}\)
Representa uma hipĂłtese composta
EstatĂstica do teste:
\[Z = \frac{\bar{X}-\mu }{\frac{\sigma }{\sqrt{n}}}\]
\[t = \frac{\bar{X}-\mu }{\frac{s }{\sqrt{n}}}\]
Dado o conjunto abaixo de Amostras aleatórias independentes das populaçÔes
Amostra 1 : \(x_{1}, x_{2}, ..., x_{n_{1}}\)
Amostra 2 : \(y_{1}, y_{2}, ..., y_{n_{2}}\)
Formulação das Hipóteses:
\(H_{0}:\mu_{1} = \mu_{2}\) ou \(\mu_{1} - \mu_{2} = 0\)
\(H_{A}: \mu_{1} > \mu_{2}\) ou \(\mu_{1} - \mu_{2} > 0\)
EstatĂstica do teste:
\[t = \frac{\bar{x}-\bar{y} }{s\sqrt{\frac{1}{n_{1}}+ \frac{1}{n_{2}}}}\]
\[s = \sqrt{\frac{\sum_{i=1}^{n_{1}} \left ( x_{i}-\bar{x} \right )^{2} +\sum_{i=1}^{n_{2}} \left ( y_{i}-\bar{y} \right )^{2} }{n_{1}-n_{2}-2}}\]
O nĂvel de significĂąncia Ă© entĂŁo calculado como a ĂĄrea Ă direita do valor \(t\) na distribuição \(t_{n_{1}+n_{2}-2}\). Se a hipĂłtese alternativa Ă© que as mĂ©dias sĂŁo diferentes, entĂŁo o nĂvel de significĂąncia Ă© a soma das ĂĄreas Ă direita de \(t\) e Ă esquerda de \(-t\), ou, de forma equivalente, duas vezes a ĂĄrea Ă direita de \(t\).
Dado o conjunto abaixo de Amostras pareadas
Amostra 1 : \(x_{1}, x_{2}, ..., x_{n_{1}}\)
Amostra 2 : \(y_{1}, y_{2}, ..., y_{n_{2}}\)
Diferença : \(d_{1}, d_{2}, ..., d_{n}\)
Formulação das Hipóteses:
\(H_{0}:\mu_{1} = \mu_{2}\) ou \(\mu_{1} - \mu_{2} = 0\) \(\rightarrow\) \(H_{0}: \mu_{d} = 0\)
\(H_{A}: \mu_{1} > \mu_{2}\) ou \(\mu_{1} - \mu_{2} > 0\) \(\rightarrow\) \(H_{A}: \mu_{d} > 0\)
EstatĂstica do teste:
\[\frac{\bar{D}}{\frac{s_{D}}{\sqrt{n}}}\]
Sendo,
\(\bar{D} = \frac{\sum_{i=1}^{n}D_{i}}{n}\) e \(s_{D} = \sqrt{\frac{\sum_{i=1}^{n}\left ( D_{i}-\bar{D} \right )^{2}}{n-1}}\)
O critério \(t\) tem distribuição \(t\)-Student com \((n-1)\) graus de liberdade.
Se a hipĂłtese alternativa Ă© que as mĂ©dias sĂŁo diferentes, entĂŁo o nĂvel de significĂąncia Ă© a soma das ĂĄreas Ă direita de \(t\) e Ă esquerda de \(-t\), ou, de forma equivalente, duas vezes a ĂĄrea Ă direita de \(t\).
Exemplo 1
Ă importante que as mĂĄscaras usadas pelos bombeiros sejam capazes de resistir a altas temperaturas, pois esses profissionais trabalham com frequĂȘncia em temperaturas de 90 a 260ÂșC. Em um teste de um tipo de mĂĄscara, 11 dos 55 equipamentos tiveram as lentes estouradas a 120ÂșC. Construa o IC de 95% para a proporção real de mĂĄscaras desse tipo, cujas lentes estourariam a 120ÂșC.
n = 55
alfa = 0.05
p = 11/55
Z = 1.96 # Tabela Z (Anexo I)
icminimo <- p - Z*sqrt((p*(1-p))/n)
icmaximo <- p + Z*sqrt((p*(1-p))/n)
IC <-c(icminimo, icmaximo)
Probabilidade:
print(p)
## [1] 0.2
Intervalo de Confiança:
print(IC)
## [1] 0.09428546 0.30571454
O que podemos inferir?
Exemplo 2
Duas mĂĄquinas sĂŁo usadas para envasar ĂĄgua destilada que Ă© utilizada em um laboratĂłrio. O desvio padrĂŁo do volume envasado pela mĂĄquina 1 Ă© conhecido e igual a 0,01 L e o da mĂĄquina 2 Ă© 0,015 L.
Uma amostra de \(n_{1}\) = 25 pacotes da måquina 1 e \(n_{2}\) = 20 pacotes da måquina 2 é retirada e o volume de cada pacote é medido encontrando-se médias de 1,04 e 1,07 para as måquinas 1 e 2, respectivamente.
Verifique, com base nas medidas realizadas, se as måquinas estão calibradas de forma diferente, ou seja, se o volume médio da måquina 1 é igual ao volume médio da måquina 2. (IC 95%, \(Z_{0,025}\) = 1,96)
desv1 = 0.010
desv2 = 0.015
n1 = 25
n2 = 20
media1 = 1.04
media2 = 1.07
Z = 1.96 #IC de 95% - Tabela Z (Anexo I)
icminimo = media1 - media2 - Z*(sqrt((desv1^2/n1 + desv2^2/n2)))
icmaximo = media1 - media2 + Z*(sqrt((desv1^2/n1 + desv2^2/n2)))
IC <- c(icminimo, icmaximo)
Intervalo de confiança para a diferença das médias
print(IC)
## [1] -0.03765404 -0.02234596
O que podemos inferir?
Exemplo 3
Em um posto agrĂcola, desejou-se testar o efeito de certo fertilizante na produção de trigo. Foram entĂŁo escolhidos 24 tratos de terreno de ĂĄreas iguais, metade dos quais foi tratado com o fertilizante, e a outra nĂŁo. Todas as outras condiçÔes foram mantidas iguais. A produção mĂ©dia de trigo nos tratos sem fertilizantes foi de 4,8 sacas, com desvio padrĂŁo 0,4, enquanto a dos canteiros tratados foi de 5,1 sacas com o desvio padrĂŁo de 0,36. Pode concluir que hĂĄ um aumento significativo da produção de trigo por causa do fertilizante, se forem adotados os nĂveis de significĂąncia:
n = 24
n1 = 12
n2 = 12
media1 = 4.8
desv1 = 0.4
media2 = 5.1
desv = 0.36
Z1 = 3.09 #Para IC 99%
Z2 = 1.65 #Para IC 90%
Intervalo de confiança de 99%
icminimo = media1 - media2 - Z1*(sqrt((desv1^2/n1 + desv2^2/n2)))
icmaximo = media1 - media2 + Z1*(sqrt((desv1^2/n1 + desv2^2/n2)))
IC <- c(icminimo, icmaximo)
print(IC)
## [1] -0.65705325 0.05705325
Intervalo de confiança de 90%
icminimo = media1 - media2 - Z2*(sqrt((desv1^2/n1 + desv2^2/n2)))
icmaximo = media1 - media2 + Z2*(sqrt((desv1^2/n1 + desv2^2/n2)))
IC <- c(icminimo, icmaximo)
print(IC)
## [1] -0.4906595 -0.1093405
O que podemos inferir?
Exemplo 4
A fim de testar a ocorrĂȘncia de estratificação num certo arenito, amostras foram coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-\(t\) verificar se as diferenças entre o tamanho mĂ©dio das partĂculas da base e do topo sĂŁo significativas ou nĂŁo.
Estratos | base | topo | d = t-b |
---|---|---|---|
1 | 2,81 | 3,12 | 0,32 |
2 | 3,95 | 4,13 | 0,18 |
3 | 3,75 | 3,88 | 0,13 |
4 | 2,68 | 2,91 | 0,23 |
5 | 3,25 | 3,65 | 0,36 |
6 | 3,90 | 4,20 | 0,30 |
7 | 3,30 | 3,12 | -0,18 |
Utilizando a função nativa do R (t.test):
base <- c(2.81, 3.95, 3.75, 2.68, 3.25, 3.90, 3.30)
topo <- c(3.12, 4.13, 3.88, 2.91, 3.65, 4.20, 3.12)
d <- c(0.32, 0.18, 0.13, 0.23, 0.36, 0.30, -0.18)
t.test(d)
##
## One Sample t-test
##
## data: d
## t = 2.7735, df = 6, p-value = 0.03227
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 0.02253943 0.36031771
## sample estimates:
## mean of x
## 0.1914286
O que podemos inferir?
Exemplo 5
Foram feitas vinte medidas do tempo total gasto para a precipitação de um sal, em segundos, num dado experimento, obtendo-se:
Dados: 13, 15, 12, 14, 17, 15, 16, 15, 14, 16, 17, 14, 16, 15, 15, 13, 14, 15, 16, 15
Pergunta-se se esses dados são suficientes para estimar o tempo médio gasto na precipitação com precisão de meio segundo e 95% de confiança. Caso negativo, qual o tamanho da amostra adicional necessåria?
dados <- c(13, 15, 12, 14, 17, 15, 16, 15, 14, 16, 17, 14, 16, 15, 15, 13, 14, 15, 16, 15)
n1 = length(dados)
desv = sd(dados)
Precisao = 0.5
t = 2.093 #IC 95% - Anexo II - tabela t-Student
n = (t*desv/(Precisao))
Quantidade de dados coletados:
print(n1)
## [1] 20
Quantidade de dados calculados (Tamanho Amostral)
print(n)
## [1] 5.478957
O que podemos inferir?
Exemplo 6
Deseja-se estimar a resistĂȘncia mĂ©dia de certo tipo de peça com precisĂŁo de 2kg e 95% de confiança. Desconhecendo-se a variabilidade dessa resistĂȘncia, roperam-se cinco peças, obtendo-se para elas os seguintes valores de sua resistĂȘncia (em kg): 50, 58, 52, 49, 55. Com base no resultado obtido, determinou-se que deveriam ser rompidas mais quinze peças, a fim de se conseguir o resultado desejado. Qual sua opiniĂŁo a respeito dessa conclusĂŁo?
dados <- c(50, 58, 52, 49, 55)
Precisao = 2
t = 2.093 #IC 95% - Anexo II - tabela t-Student
media = mean(dados)
desv = sd(dados)
n = (t*desv/Precisao)^2
Tamanho Amostral
print(n)
## [1] 15.00372
O que podemos inferir?
Exemplo 7
Deseja-se testar a resistĂȘncia ao impacto de um determinado componente de carro. Uma amostra de tamanho 37 foi submetida a um teste impacto, sendo que 24 destes apresentaram defeito. Que tamanho de amostra seria necessĂĄrio para uma amplitude de IC de 99% ser no mĂĄximo 0,10?
Amplitude = 0.10
Z = 1.96 #IC 95% - Anexo I - Tabelna Normal Padronizada
p = 24/37
n = (Z^2*p*(1-p))/(Amplitude)^2
Tamanho Amostral calculado
print(n)
## [1] 87.55144
O que podemos inferir?
Berthouex P. M., Brown L. C. (2002). Statistics for Environmental Engineers, Lewis Publishers, 2a edição.
Devore, J. L. (2006). Probabilidade e EstatĂstica para Engenharia e CiĂȘncias. Editora Thomson, 6a edição.
Hines, W.W., Montgomery, D.C., Goldsman, D. M., Borror, C. M. (2006). Probabilidade e EstatĂstica na Engenharia. Editora LTC, 4ÂȘ edição.
Lapponi, J. C. (2005). EstatĂstica usando Excel, Editora Campos, 4a edição.
Montgomery D. C., Runger G. C. (2003). Applied Statistics and Probabilities for Engineers. John Wiley & Sons, 3a edição.
Webter, A.L. (2006). EstatĂstica Aplicada Ă Administração e Economia. Editora McGraw-Hill.