30/07/2020

Inferência Estatística

Neste capítulo abordaremos situações em que o interesse está em obter informações da população a partir dos resultados de uma amostra. Como exemplo, consideremos uma indústria de produtos de cabelo que pretende investigar a aceitação, entre as mulheres, de seu novo produto tonalizante.

Conceitos

  • Parâmetros: é uma medida numérica, em geral desconhecida, que descreve uma característica de interesse da população. Por exemplo: \(\mu\) (média populacional), \(\omega\) (desvio-padrão populacional).

São geralmentes representados por letras gregas \(\Omega, \omega, \Pi, \pi, \Theta, \theta, \beta, \alpha\), etc.

  • Estatística: é qualquer valor calculado a partir de dados amostrais. Por exemplo: \(\bar{X}\) (média amostral), S (desvio-padrão amostral), etc.

Distribuição Normal

A distribuição normal conhecida também como distribuição gaussiana é sem dúvida a mais importante distribuição contínua.

Por exemplo: a altura de uma determinada população em geral segue uma distribuição normal.

\[f(x)=\frac{1}{\sqrt{2 \pi \sigma^2}} exp{[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2]}\]

Gráfico

Características

  • A média: fica no ponto central da curva;
  • Simétrica: em relação a média;

Pode ser calculada pela fórmula:

\[Z_i = \frac{x_i - \mu}{\sigma}\]

Por exemplo: Determine a área padronida entre \(P(-0.20 \leq Z \leq 1.93 )=\) \(P(Z \leq 1.93)-P(Z \leq -0.20)=0.9732 - 0.4207= 0.5525\)

Exemplo

Suponha que a espessura média de arruelas produzidas em uma fábrica tenha distribuição normal com média 11,15 mm e desvio padrão 2,238 mm. Qual a porcentagem de arruelas que tem espessura entre 8,70 mm e 14,70 mm?

O primeiro ponto fica assim: \(Z_1=\frac{8,70-11,15}{2,238}=-1,09\).

Verificando na tabela temos \(P(Z_1)=\).

O segundo ponto fica assim: \(Z_2=\frac{14,70-11,15}{2,238}=1,58\).

Verificando na tabela temos \(P(Z_2)=\).

Gráfico

Intervalo de confiança da Normal

Um teste com intervalo de confiança, usando a curva normal é dado pela fórmula: \[P(\bar{x}-z\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x}+z\frac{\sigma}{\sqrt{n}} )= 1- \alpha\]

Exemplo: Qual é o intervalo de confiança de 95%, para uma dist. normal de média 7 e desvio-padrão 2, com 100 elementos? \[P(7-1.98\frac{2}{\sqrt{100}} \leq \mu \leq 7+1,98\frac{2}{\sqrt{100}} )= 1- 0.05\]

Assim temos: \[P(6.604 \leq \mu \leq 7.396 )= 0.95\]

Intervalo de confiança do teste t

Um teste com intervalo de confiança, usando a dist. t é dado pela fórmula: \[(\bar{x}-t\frac{s}{\sqrt{n}} \leq \mu \leq \bar{x}+t\frac{s}{\sqrt{n}} )= 1- \alpha\]

Exemplo: Um centro de ortodontia deseja conhecer a estimativa do tempo médio que um membro da equipe gasta para atender a cada paciente. Suponha que uma amostra de 38 especialistas revelou que a média foi de 45 minutos com um desvio-padrão de 6 minutos. Determine um intervalo de 99% de confiança para o parâmetro.

\[(45-2.58\frac{6}{\sqrt{38}} \leq \mu \leq 45+2.58\frac{6}{\sqrt{38}} )= 1- 0.01\]

Assim temos: \[(42.46; 47.51)= 99\%\]

Teste de hipóteses

Os testes estatísticos são regras de decisões, vinculadas a um fenômeno da população, que nos possibilitam avaliar, com o auxílio de uma amostra, se determinadas hipóteses ( suposições, conjecturas, algo qualquer que um pesquisador esteja estabelecendo) podem ser rejeitadas, ou não.

A maior parte das ciências se utiliza da técnica Estatística denominada Teste de Hipóteses. Podemos citar algumas suposições: o dado de certo cassino é honesto; a propaganda de um produto vinculada na televisão surtiu o efeito desejado; uma ração desenvolvida para certo animal proporcionou um ganho maior de peso do que aquela já utilizada há anos; vale a pena trocar as máquinas desta indústria; qual medicamento é mais eficaz no tratamento de certa doença; a metodologia empregada na educação infantil está associada ao aprendizado; o candidato A está com uma intenção de votos superior ao adversário.

Tipos de Hipóteses

Hipótese Nula: é a que está sendo testada. Colhida uma amostra a fim de inferirmos a respeito do valor paramétrico \(\mu\), de um estimador.

\[H_0:\mu=1,71m\]

Sempre a hipótese nula deve ser uma afirmação.

Hipóteses Alternativas

É uma hipótese que deve ser necessariamente diferente da H0. Assim temos três contexto:

  • \(H_1: \mu \neq 1,71m\)
  • \(H_1: \mu < 1,71m\)
  • \(H_1: \mu > 1,71m\)

Bilateral (Bicaudal)

  • \(H_0:\mu=1,71m\) vs \(H_1: \mu \neq 1,71m\)

Note que o objetivo desse teste é decidir se a média populacional não difere de 1,71m, não importando se \(\mu\) será maior ou menor do que 1,71m.

Teste Unilateral à Direita:

  • \(H_0 : p = 0, 30\) vs \(H_11 : p > 0, 30\).

Esse teste tem por finalidade verificar se, por exemplo, a proporção verdadeira não só difere de 0,30, mas, também, necessariamente, se pé maior do que 0,30.

Objetivamente, poderíamos citar uma pesquisa que visa verificar se um determinado candidato a Reitor, conseguiu aumentar sua intenção de votos após a realização de um debate com seu adversário realizado pela televisão.

Teste Unilateral à Esquerda:

  • \(H_0 : \sigma^2 = 5\) vs \(H_1 : \sigma^2 < 5\).

Nesse contexto, visamos estabelecer uma Regra de Decisão para verificarmos se a variabilidade é menor do que 5.

Pois, por exemplo, se for menor do que 5, não seria recomendado investirmos num melhoramento genético.

Tipos de erros cometidos ao tomar uma decisão

Exemplo no R

##  x= 12 15 18 21 22 29 27 32 35
## 
##  y= 45 36 25 96 43 18 88 55 67

Bilateral

Teste de Hipotese para média

\(H_0: \bar{x}=\bar{y}\) vs \(H_0: \bar{x} \neq \bar{y}\)

## 
##  Welch Two Sample t-test
## 
## data:  x and y
## t = -3.1309, df = 9.3579, p-value = 0.01155
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -50.022386  -8.199836
## sample estimates:
## mean of x mean of y 
##  23.44444  52.55556

Unilateral

Teste de Hipotese

\(H_0: \bar{x}=\bar{y}\) vs \(H_0: \bar{x} > \bar{y}\)

## 
##  Welch Two Sample t-test
## 
## data:  x and y
## t = -3.1309, df = 9.3579, p-value = 0.9942
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -46.08126       Inf
## sample estimates:
## mean of x mean of y 
##  23.44444  52.55556

Unilateral

Teste de Hipotese

\(H_0: \bar{x}=\bar{y}\) vs \(H_0: \bar{x} < \bar{y}\)

## 
##  Welch Two Sample t-test
## 
## data:  x and y
## t = -3.1309, df = 9.3579, p-value = 0.005774
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf -12.14096
## sample estimates:
## mean of x mean of y 
##  23.44444  52.55556

Ir para o R

  • Abra o R

TESTE QUI-QUADRADO PARA TABELAS DE CONTINGÊNCIA

Tabelas de Contingência são tabelas de freqüências de dupla entrada, ou seja, tabelas de fequências envolvendo duas variáveis classificatórias, uma nas linhas e outra nas colunas.

Esses testes utilizados para testar a independência das variáveis da tabela (linhas e colunas). Na prática pode-se ter a tabela de frequências ou todos os registros, para então criar a tabela de frequências. O teste mais usado é o Teste Qui-Quadrado, que tem a pressuposição de que as frequências esperadas sejam \(\geq 5\).

Se a pressuposição não for satisfeita usa-se o Teste Exato de Fisher (Teste não paramétrico)

mx <- matrix(c(25,90,180,230,2,25,4,8), ncol=2, byrow=T)
mx
##      [,1] [,2]
## [1,]   25   90
## [2,]  180  230
## [3,]    2   25
## [4,]    4    8

chisq.test(mx)
## Warning in chisq.test(mx): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  mx
## X-squared = 29.907, df = 3, p-value = 1.444e-06
chisq.test(mx)$expected
## Warning in chisq.test(mx): Chi-squared approximation may be incorrect
##            [,1]       [,2]
## [1,]  43.023050  71.976950
## [2,] 153.386525 256.613475
## [3,]  10.101064  16.898936
## [4,]   4.489362   7.510638

Como a pressuposição para o teste qui-quadrado não foi satisfeita, analisamos os dados pelo Teste Exato de Fisher.

fisher.test(mx)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  mx
## p-value = 2.773e-07
## alternative hypothesis: two.sided

hist(mx)