INFERÊNCIA ESTATÍSTICA

A inferĂȘncia estatĂ­stica Ă© um ramo da estatĂ­stica que utiliza-se de artifĂ­cios matemĂĄticos para modelar uma população a partir de dados amostrais e obter resultados baseados em determinada confiabilidade desejada.

Como proceder para obter informaçÔes relevantes sobre um determinado problema?

Quando se faz uma amostragem de uma determinada população, estamos fazemos inferĂȘncia sobre a mesma, para um determinado o grau de incerteza.

O tamanho da amostra é proporcional ao tamanho da população?

NÃO, a precisão dos resultados obtidos através de uma amostra não dependem, necessariamente, da proporção do tamanho da amostra em relação ao tramanho da população.

Tipos de Erros

  • Erros aleatĂłriso: erros provocados de forma aleatĂłria ao se realizar uma medição. Implica em todas as medidas da amostra se distribuirem de maneira aleatĂłria em torno do valor verdadeiro.
  • Erros sistemĂĄticos: SĂŁo erros que sĂŁo cometidos da mesma forma ao realizar uma determinada medição. Implica em todas as medidas da amostra difererirem do valor verdadeiro por uma quantidade (ou sentido) constante.

PrecisĂŁo \(x\) ExatidĂŁo

  • PrecisĂŁo: conjunto de dados com valores prĂłximos.

  • ExatidĂŁo: resultados prĂłximos ao desejado.

Entretando, na prĂĄtica o alvo muitas vezes nĂŁo Ă© visto, ou conhecido
.

Qual serĂĄ a melhor forma de avaliar a qualidade da estimativa?

ParĂąmetros e EstatĂ­sticas

  • ParĂąmetros:

    • MĂ©dia: \(\mu = \frac{\sum_{i=1}^{N}X_{i}}{N}\)
    • Desvio padrĂŁo: \(\sigma = \sqrt{\frac{\sum_{i=1}^{N}\left ( X_{i}-\bar{X} \right )^{2}}{N}}\)
  • EstatĂ­sticas:(Estimativas pontuais)

    • MĂ©dia: \(\bar{x} = \frac{\sum_{i=1}^{n}x_{i}}{n}\)
    • Desvio padrĂŁo: \(s = \sqrt{\frac{\sum_{i=1}^{n}\left ( x_{i}-\bar{x} \right )^{2}}{n-1}}\)

Intervalo de Confiança

Normalmente, uma estimativa pontual não oferece uma informação completa. Não sabemos quão perto da média da população estå a média da amostra. Por isso a implementação de um range de valores baseados no nível de confiança no qual se deseja, se faz necessårio.

Definição de Intervalo de Confiança (IC): Dado um conjunto de amostras aleatórias \(x_{1},..., x_{n}\) de uma determinada população. Dado \(Y_{1} = f_{Y_{1}}(x_{1},...x_{n})\) e \(Y_{2} = f_{Y_{2}}(x_{1},...x_{n})\) dois parùmetros tais que \(Y_{2} > Y_{1}\), o intervalo entre esses parùemtros é dito intervalo de \(100\cdot(1-\alpha)\)% de confiança para Ξ \[P(Y_{1}<Ξ<Y_{2}) = 1-\alpha\]

Notação: \(IC(ÎŒ,1-\alpha) = (Y_{1}, Y_{2})\), onde \(Y_{1}\) e \(Y_{2}\) sĂŁo os limite inferior e superior respectivamente e \(1-\alpha\) Ă© o coeficiente (ou nĂ­vel) de confiança para o intervalo.

Para calcular o intervalo de confiança utilizamos a distribuição Normal Padrão ou a t-student, a depender do tamanho da amostra de dados coletada. Caso haja mais de 30 componentes, utilizamos a Normal Padrão, caso contrårio devemos usar a t-student.

Cálculo do intervalo de confiñnça para a MÉDIA

Para se calcular o IC para a média populaconal, se o desvio padrão conhecido, deve-se:

    1. Escolher o tamanho da amostra \(n\);
    1. Escolher o nĂ­vel de significĂąncia \((1-\alpha )\);
    1. Retirar a amostra e calcular a \(\bar{X}\);
    1. Calcular o valor do \(Z_{\alpha/2}\) para a partir da tabela \(N(0,1)\), ou métodos computacionais;
    1. Calcular,

    \[\left (\bar{X}-Z_{\alpha/2}\cdot\frac{\sigma }{\sqrt{n}}, \bar{X}+Z_{\alpha/2}\cdot\frac{\sigma }{\sqrt{n}} \right )\]

    Caso o \(\sigma\) seja desconhecido ou \(n<30\),

    \[\left (\bar{X}-t_{n-1,\alpha/2}\cdot\frac{s }{\sqrt{n}}, \bar{X}+t_{n-1,\alpha/2}\cdot\frac{s }{\sqrt{n}} \right )\]

Intervalo de confiñnça para a PROPORÇÃO

Supondo que \(X\) possui distribuição Binomial (n,p), então:

\[Z = \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\]

possui distribuição aproximada \(N(0,1)\).

Assim, o Intervalo de Confiança de \(p\) é dado por:

\[\left (\hat{p}-Z_{\alpha/2}\cdot\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+Z_{\alpha/2}\cdot\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \right )\]

Sendo: \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) o desvio padrĂŁo da estimativa de \(p\).

Intervalo de confiñnça para a DIFERENÇA DE DUAS MÉDIAS

Amostras independentes: \(\sigma_{1}\) e \(\sigma_{2}\) sĂŁo conhecidos

\[\left ( (\bar{x_{1}}-\bar{x_{2}})-Z_{\alpha /2}\cdot \sqrt{\frac{\sigma_{1}^{2} }{n_{1}}+\frac{\sigma_{2}^{2} }{n_{2}}}, (\bar{x_{1}}-\bar{x_{2}})+Z_{\alpha /2}\cdot \sqrt{\frac{\sigma_{1}^{2} }{n_{1}}+\frac{\sigma_{2}^{2} }{n_{2}}} \right )\]

Se o intervalo não contém o valor zero, concluímos que hå diferença significaiva entre as médias das duas médias

Amostras independentes: \(\sigma_{1}\) e \(\sigma_{2}\) nĂŁo sĂŁo conhecidos

\[\left ( (\bar{x_{1}}-\bar{x_{2}})-t_{\alpha /2, n_{1}+n_{2}-2}\cdot s\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}, (\bar{x_{1}}-\bar{x_{2}})+t_{\alpha /2, n_{1}+n_{2}-2}\cdot s\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}} \right )\]

onde, \[s = \sqrt{\frac{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}\]

Se o intervalo não contém o valor zero, concluímos que hå diferença significaiva entre as médias das duas médias

Amostras pareadas ou dependentes

Utilizada em estudo experimentais (Blocagem) ou estudos observacionais (pareamento) de forma a agrupar unidades em pares homogĂȘneos que podem estar relacionados com a resposta de interesse.

Intervalo de Confiança de \(\mu_{d} = \mu_{1} - \mu_{2}\) é dado por:

\[\left ( \bar{d} - t_{\alpha /2, n-1}\cdot \frac{s_{d}}{\sqrt{n}}, \bar{d} + t_{\alpha /2, n-1}\cdot \frac{s_{d}}{\sqrt{n}} \right )\]

onde, \[s_{d} = \sqrt{\frac{\sum_{k=1}^{n}(d_{i}-\bar{d})^{2}}{n-1}}\]

Intervalo de confiança para a diferença das médias

Estimativa do Tamanho Amostral

Tamanho da amostra para estimar a média

  • Para \(\sigma\) conhecido

\[n = \left ( \frac{Z_{\alpha /2} \sigma}{\frac{A}{2}} \right )^{2}\]

  • Para \(\sigma\) desconhecido

\[n = \left ( \frac{t_{\alpha /2}s}{\frac{A}{2}} \right )^{2}\]

Passos:

  1. Usar uma amostra piloto de tamanho \(n_{1}\)
  2. Substituir \(s\) (conhecido ou calculado) na equação acima;
  3. Se \(n > n_{1}\) completar a amostra para obter a precição desejada.

Tamanho da amostra para estimar a proporção

\[n = \frac{Z_{\alpha /2}^{2}\cdot p(1-p)}{(\frac{A}{2})^{2}} \]

Passos:

  1. Usar uma amostra piloto de tamanho \(n_{1}\)
  2. Calcular \(p\) e subistituir na equação acima;
  3. Se \(n > n_{1}\) completar a amostra para obter a precição desejada.

Teste de HipĂłteses

O teste de hipótese é o método usado para decidir qual das duas proposiçÔes contraditórias estå correta:

  • \(H_{0}\) (HipĂłtese nula)
  • \(H_{1}\) (HipĂłtese alternativa)

Para se testar as hipĂłteses utiliza-se testes estatĂ­sticos

Erros do teste estatĂ­stico

  • Tipo de erro
HipĂłtese NĂŁo rejeita \(H_{0}\) Rejeita \(H_{0}\)
\(H_{0}\) Ă© Verdadeira Correta Erro Tipo II
\(H_{0}\) Ă© Falsa Erro Tipo I Correta
  • DecisĂ”es
HipĂłtese NĂŁo rejeita \(H_{0}\) Rejeita \(H_{0}\)
\(H_{0}\) Ă© Verdadeira Correta Incorreta
\(H_{0}\) Ă© Falsa Incorreta Correta
  • Probabilidades
HipĂłtese NĂŁo rejeita \(H_{0}\) Rejeita \(H_{0}\)
\(H_{0}\) Ă© Verdadeira \(1-\alpha\) \(\beta\)
\(H_{0}\) Ă© Falsa \(\alpha\) \(1-\beta\)

Passo a passo

  1. Formular as hipĂłteses estatĂ­sticas;
  2. Fixar a probabilidade do erro tipo I;
  3. Calcular o tamanho da amostra necessĂĄria para detectar uma diferĂȘnça que se suspeita existente o que Ă© equivalente a fixar a probabilidade do erro tipo II;
  4. Apresentar a distribuição de probabilidade da estatística do teste;
  5. Estabelecer a(s) região(Ôes) de rejeição e aceitação (regiÔes críticas) do teste;
  6. Realizar o estudo, ou seja, coletar os dados e calcular a estatĂ­stica do teste;
  7. Confrontar a estatĂ­stica observada com a regiĂŁo crĂ­tica;
  8. Tomar a decisĂŁo;
  9. Elaborar a conclusĂŁo.

Teste para a Média

Formulação das Hipóteses :

  • Unilateral

    \(H_{0}:\mu = \mu_{0}\)

    \(H_{1}:\mu > \mu_{0}\)

    Representa uma hipĂłtese simples

  • Bilateral

    \(H_{0}:\mu = \mu_{0}\)

    \(H_{1}:\mu \neq \mu_{0}\)

    Representa uma hipĂłtese composta

EstatĂ­stica do teste:

\[Z = \frac{\bar{X}-\mu }{\frac{\sigma }{\sqrt{n}}}\]

\[t = \frac{\bar{X}-\mu }{\frac{s }{\sqrt{n}}}\]

Teste de hipĂłteses para a diferĂȘnça de duas mĂ©dias

Dado o conjunto abaixo de Amostras aleatórias independentes das populaçÔes

  • Amostra 1 : \(x_{1}, x_{2}, ..., x_{n_{1}}\)

  • Amostra 2 : \(y_{1}, y_{2}, ..., y_{n_{2}}\)

Formulação das Hipóteses:

  • \(H_{0}:\mu_{1} = \mu_{2}\) ou \(\mu_{1} - \mu_{2} = 0\)

  • \(H_{A}: \mu_{1} > \mu_{2}\) ou \(\mu_{1} - \mu_{2} > 0\)

EstatĂ­stica do teste:

\[t = \frac{\bar{x}-\bar{y} }{s\sqrt{\frac{1}{n_{1}}+ \frac{1}{n_{2}}}}\]

\[s = \sqrt{\frac{\sum_{i=1}^{n_{1}} \left ( x_{i}-\bar{x} \right )^{2} +\sum_{i=1}^{n_{2}} \left ( y_{i}-\bar{y} \right )^{2} }{n_{1}-n_{2}-2}}\]

O nível de significùncia é então calculado como a årea à direita do valor \(t\) na distribuição \(t_{n_{1}+n_{2}-2}\). Se a hipótese alternativa é que as médias são diferentes, então o nível de significùncia é a soma das åreas à direita de \(t\) e à esquerda de \(-t\), ou, de forma equivalente, duas vezes a årea à direita de \(t\).

Dado o conjunto abaixo de Amostras pareadas

  • Amostra 1 : \(x_{1}, x_{2}, ..., x_{n_{1}}\)

  • Amostra 2 : \(y_{1}, y_{2}, ..., y_{n_{2}}\)

  • Diferença : \(d_{1}, d_{2}, ..., d_{n}\)

Formulação das Hipóteses:

  • \(H_{0}:\mu_{1} = \mu_{2}\) ou \(\mu_{1} - \mu_{2} = 0\) \(\rightarrow\) \(H_{0}: \mu_{d} = 0\)

  • \(H_{A}: \mu_{1} > \mu_{2}\) ou \(\mu_{1} - \mu_{2} > 0\) \(\rightarrow\) \(H_{A}: \mu_{d} > 0\)

EstatĂ­stica do teste:

\[\frac{\bar{D}}{\frac{s_{D}}{\sqrt{n}}}\]

Sendo,

\(\bar{D} = \frac{\sum_{i=1}^{n}D_{i}}{n}\) e \(s_{D} = \sqrt{\frac{\sum_{i=1}^{n}\left ( D_{i}-\bar{D} \right )^{2}}{n-1}}\)

O critério \(t\) tem distribuição \(t\)-Student com \((n-1)\) graus de liberdade.

Se a hipótese alternativa é que as médias são diferentes, então o nível de significùncia é a soma das åreas à direita de \(t\) e à esquerda de \(-t\), ou, de forma equivalente, duas vezes a årea à direita de \(t\).

ExercĂ­cios

Exemplo 1

É importante que as mĂĄscaras usadas pelos bombeiros sejam capazes de resistir a altas temperaturas, pois esses profissionais trabalham com frequĂȘncia em temperaturas de 90 a 260ÂșC. Em um teste de um tipo de mĂĄscara, 11 dos 55 equipamentos tiveram as lentes estouradas a 120ÂșC. Construa o IC de 95% para a proporção real de mĂĄscaras desse tipo, cujas lentes estourariam a 120ÂșC.

  • Resolução:
n = 55
alfa = 0.05
p = 11/55
Z = 1.96 # Tabela Z (Anexo I)
icminimo <- p - Z*sqrt((p*(1-p))/n)
icmaximo <- p + Z*sqrt((p*(1-p))/n)
IC <-c(icminimo, icmaximo)

Probabilidade:

print(p)
## [1] 0.2

Intervalo de Confiança:

print(IC)
## [1] 0.09428546 0.30571454

O que podemos inferir?


Exemplo 2

Duas mĂĄquinas sĂŁo usadas para envasar ĂĄgua destilada que Ă© utilizada em um laboratĂłrio. O desvio padrĂŁo do volume envasado pela mĂĄquina 1 Ă© conhecido e igual a 0,01 L e o da mĂĄquina 2 Ă© 0,015 L.

Uma amostra de \(n_{1}\) = 25 pacotes da måquina 1 e \(n_{2}\) = 20 pacotes da måquina 2 é retirada e o volume de cada pacote é medido encontrando-se médias de 1,04 e 1,07 para as måquinas 1 e 2, respectivamente.

Verifique, com base nas medidas realizadas, se as måquinas estão calibradas de forma diferente, ou seja, se o volume médio da måquina 1 é igual ao volume médio da måquina 2. (IC 95%, \(Z_{0,025}\) = 1,96)

  • Resolução:
desv1 = 0.010
desv2 = 0.015

n1 = 25
n2 = 20

media1 = 1.04
media2 = 1.07

Z = 1.96 #IC de 95% - Tabela Z (Anexo I)

icminimo = media1 - media2 - Z*(sqrt((desv1^2/n1 + desv2^2/n2)))
icmaximo = media1 - media2 + Z*(sqrt((desv1^2/n1 + desv2^2/n2)))
IC <- c(icminimo, icmaximo)

Intervalo de confiança para a diferença das médias

print(IC)
## [1] -0.03765404 -0.02234596

O que podemos inferir?


Exemplo 3

Em um posto agrícola, desejou-se testar o efeito de certo fertilizante na produção de trigo. Foram então escolhidos 24 tratos de terreno de åreas iguais, metade dos quais foi tratado com o fertilizante, e a outra não. Todas as outras condiçÔes foram mantidas iguais. A produção média de trigo nos tratos sem fertilizantes foi de 4,8 sacas, com desvio padrão 0,4, enquanto a dos canteiros tratados foi de 5,1 sacas com o desvio padrão de 0,36. Pode concluir que hå um aumento significativo da produção de trigo por causa do fertilizante, se forem adotados os níveis de significùncia:

    1. 1%;
    1. 10%.
n = 24
n1 = 12
n2 = 12

media1 = 4.8
desv1 = 0.4

media2 = 5.1
desv = 0.36

Z1 = 3.09 #Para IC 99%
Z2 = 1.65 #Para IC 90%

Intervalo de confiança de 99%

icminimo = media1 - media2 - Z1*(sqrt((desv1^2/n1 + desv2^2/n2)))
icmaximo = media1 - media2 + Z1*(sqrt((desv1^2/n1 + desv2^2/n2)))
IC <- c(icminimo, icmaximo)
print(IC)
## [1] -0.65705325  0.05705325

Intervalo de confiança de 90%

icminimo = media1 - media2 - Z2*(sqrt((desv1^2/n1 + desv2^2/n2)))
icmaximo = media1 - media2 + Z2*(sqrt((desv1^2/n1 + desv2^2/n2)))
IC <- c(icminimo, icmaximo)
print(IC)
## [1] -0.4906595 -0.1093405

O que podemos inferir?


Exemplo 4

A fim de testar a ocorrĂȘncia de estratificação num certo arenito, amostras foram coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-\(t\) verificar se as diferenças entre o tamanho mĂ©dio das partĂ­culas da base e do topo sĂŁo significativas ou nĂŁo.

Estratos base topo d = t-b
1 2,81 3,12 0,32
2 3,95 4,13 0,18
3 3,75 3,88 0,13
4 2,68 2,91 0,23
5 3,25 3,65 0,36
6 3,90 4,20 0,30
7 3,30 3,12 -0,18

Utilizando a função nativa do R (t.test):

base <- c(2.81, 3.95, 3.75, 2.68, 3.25, 3.90, 3.30)
topo <- c(3.12, 4.13, 3.88, 2.91, 3.65, 4.20, 3.12)
d <- c(0.32, 0.18, 0.13, 0.23, 0.36, 0.30, -0.18)
t.test(d)
## 
##  One Sample t-test
## 
## data:  d
## t = 2.7735, df = 6, p-value = 0.03227
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  0.02253943 0.36031771
## sample estimates:
## mean of x 
## 0.1914286

O que podemos inferir?


Exemplo 5

Foram feitas vinte medidas do tempo total gasto para a precipitação de um sal, em segundos, num dado experimento, obtendo-se:

Dados: 13, 15, 12, 14, 17, 15, 16, 15, 14, 16, 17, 14, 16, 15, 15, 13, 14, 15, 16, 15

Pergunta-se se esses dados são suficientes para estimar o tempo médio gasto na precipitação com precisão de meio segundo e 95% de confiança. Caso negativo, qual o tamanho da amostra adicional necessåria?

dados <- c(13, 15, 12, 14, 17, 15, 16, 15, 14, 16, 17, 14, 16, 15, 15, 13, 14, 15, 16, 15)

n1 = length(dados)
desv = sd(dados)
Precisao = 0.5
t = 2.093 #IC 95% - Anexo II - tabela t-Student
n = (t*desv/(Precisao))

Quantidade de dados coletados:

print(n1)
## [1] 20

Quantidade de dados calculados (Tamanho Amostral)

print(n)
## [1] 5.478957

O que podemos inferir?


Exemplo 6

Deseja-se estimar a resistĂȘncia mĂ©dia de certo tipo de peça com precisĂŁo de 2kg e 95% de confiança. Desconhecendo-se a variabilidade dessa resistĂȘncia, roperam-se cinco peças, obtendo-se para elas os seguintes valores de sua resistĂȘncia (em kg): 50, 58, 52, 49, 55. Com base no resultado obtido, determinou-se que deveriam ser rompidas mais quinze peças, a fim de se conseguir o resultado desejado. Qual sua opiniĂŁo a respeito dessa conclusĂŁo?

dados <- c(50, 58, 52, 49, 55)
Precisao = 2
t = 2.093 #IC 95% - Anexo II - tabela t-Student
media = mean(dados)
desv = sd(dados)
n = (t*desv/Precisao)^2

Tamanho Amostral

print(n)
## [1] 15.00372

O que podemos inferir?


Exemplo 7

Deseja-se testar a resistĂȘncia ao impacto de um determinado componente de carro. Uma amostra de tamanho 37 foi submetida a um teste impacto, sendo que 24 destes apresentaram defeito. Que tamanho de amostra seria necessĂĄrio para uma amplitude de IC de 99% ser no mĂĄximo 0,10?

Amplitude = 0.10
Z = 1.96 #IC 95% - Anexo I - Tabelna Normal Padronizada
p = 24/37

n = (Z^2*p*(1-p))/(Amplitude)^2

Tamanho Amostral calculado

print(n)
## [1] 87.55144

O que podemos inferir?


SugestÔes de Bibliografia

  • Berthouex P. M., Brown L. C. (2002). Statistics for Environmental Engineers, Lewis Publishers, 2a edição.

  • Devore, J. L. (2006). Probabilidade e EstatĂ­stica para Engenharia e CiĂȘncias. Editora Thomson, 6a edição.

  • Hines, W.W., Montgomery, D.C., Goldsman, D. M., Borror, C. M. (2006). Probabilidade e EstatĂ­stica na Engenharia. Editora LTC, 4ÂȘ edição.

  • Lapponi, J. C. (2005). EstatĂ­stica usando Excel, Editora Campos, 4a edição.

  • Montgomery D. C., Runger G. C. (2003). Applied Statistics and Probabilities for Engineers. John Wiley & Sons, 3a edição.

  • Webter, A.L. (2006). EstatĂ­stica Aplicada Ă  Administração e Economia. Editora McGraw-Hill.

Anexo I - Tabela Z - Normal Padronizada

Anexo II - Tabela t-Student