14 Fevereiro, 2017

Inferência Estatística

  • Obter informções acerca da população com base nos elementos de uma amostra.

  • Pode ser feita através de duas técnicas:
    • Estimação: determinaçao de estimativas dos parâmetros populaicionais;
    • Teste de Hipóteses: tomada de decisão relativa ao valor de um parâmetro populacional.

Estimativa por Intervalo de Confiança

  • Intervalo determinado a partir de elementos amostrais, que se espera que contenham o valor de um determinado parâmetro com nível de confiança (1 - \(\alpha\))
  • Quanto menor for o comprimento do intervalo, maior será a sua precisão

Intervalo de Confiança para médias populacionais quando a variância é conhecida

  • \(z_{i} = \frac{\bar{x_{i}}-\mu}{\frac{\sigma}{\sqrt{n}}}\)

  • \(P\left ( -z_{\frac{\alpha}{2}} < z < z_{\frac{\alpha}{2}} \right ) = 1 - \alpha\)

\[P\left (-z_{\frac{\alpha}{2}} < \frac{\bar{x_{i}}-\mu}{\frac{\sigma}{\sqrt{n}}} < z_{\frac{\alpha}{2}} \right )\]

\[P\left ( \bar{x}-z_{\frac{\alpha}{2}}.\frac{\sigma}{\sqrt{n}} < \mu < \bar{x}+z_{\frac{\alpha}{2}}.\frac{\sigma}{\sqrt{n}} \right ) = 1 - \alpha\] \(\bar{x}\): é a média amostral

\(\sigma\): é o desvio padrão da população

\(n\): é o tamanho da amostra

Exemplo 1

A duração da vida de uma peça de equipamento é tal que o desvio padrão é de 5 horas. Foram amostradas aleatoriarmente cem dessas peças, obtendo-se uma média de 500 horas. Desejamos construir um intervalo de confiança para a verdadeira duração média da peça com um nível de 95% de confiança.

Intervalo de Confiança para médias populacionais quando a variância é desconhecida

  • \(t = \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}\) ; com (n-1) graus de liberdade

  • \(P\left (-t_{\frac{\alpha}{2},(n-1)} < t < t_{\frac{\alpha}{2},} \right ) = 1 - \alpha\)

\[P\left ( -t_{\frac{\alpha}{2},(n-1)} < \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}} < t_{\frac{\alpha}{2},(n-1)} \right )\]

\[P\left ( \bar{x}-t_{\frac{\alpha}{2},(n-1)}.\frac{s}{\sqrt{n}} < \mu < \bar{x}+t_{\frac{\alpha}{2},(n-1)}.\frac{s}{\sqrt{n}} \right ) = 1 - \alpha\] \(\bar{x}\): é a média amostral

\(s\): é o desvio padrão da amostra

\(n\): é o tamanho da amostra

Exemplo 2

Deseja-se construir um intervalo de confiança para a média populacional do tempo de uma determinada reação para nível de 95% de confiança. Foram realizados experimentos obtendo os seguintes resultados: 9, 8, 12, 7, 9, 6, 11, 6, 10, 9. Admitindo-se que o fenômeno segue a distribuição normal.

Intervalo de Confiança para a diferença entre duas médias amostrais

  • Quando se quer estimar a diferença, \(\mu_{1} - \mu_{2}\), entre as médias de duas populações
  • Se o intervalo não contém o valor zero, concluimos que há diferença significativa entre as médias das duas médias

Para desvios padrões populacionais conhecidos:

\[P\left ( (\bar{x_{1}}-\bar{x_{2}})-z_{\frac{\alpha}{2}}.\sqrt{\frac{\sigma_{1}^2}{n_{1}}+\frac{\sigma_{2}^2}{n_{2}}}\leq \mu_{1}-\mu{2} \leq (\bar{x_{1}}-\bar{x_{2}})+z_{\frac{\alpha}{2}}.\sqrt{\frac{\sigma_{1}^2}{n_{1}}+\frac{\sigma_{2}^2}{n_{2}}} \right ) = 1 - \alpha\]

Para desvios padrões populacionais desconhecidos:

\[P\left ( (\bar{x_{1}}-\bar{x_{2}})-t_{\frac{\alpha}{2},(n-1)}.s.\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}\leq \mu_{1}-\mu{2} \leq (\bar{x_{1}}-\bar{x_{2}})+t_{\frac{\alpha}{2},(n-1)}.s.\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}} \right ) = 1 - \alpha\] onde, \(s = \sqrt{\frac{(n_{1}-1).s_{1}^2+(n_{2}-1).s_{2}^2}{n_{1}+n_{2}-2}}\)

Exemplo 3

Foram realizados testes sobre a força de tração em duas classes diferentes de ligas de alumínio usadas na fabricação de aviões de transporte comerciais. Pela experiência passada com o processo de fabricação de ligas e pelo procedimento de teste, se supõem conhecidos os desvios padrões das forças de tração. Os dados obtidos são apresentados na tabela abaixo:

Se \(\mu_{1}\) e \(\mu_{2}\) representam as verdadeiras forças médias de tração para as duas classes de ligas, encontre um intervalo de confiança de 90% para a diferença das médias.

Teste de Hipóteses

  • Admite-se um valor hipotético para um parâmetro populacional e com base nas informações da amostra realizaremos um teste estatístico, para aceitar ou rejeitar o valor hipotético
  • Como a decisão para aceitar ou rejeitar a hipótese será tomada de acordo com elementos de uma amostra, fica evidente que a decisão estará sujeita a erros

Tipos de Hipóteses:

  • Hipótese nula \((H_{0})\): hipótese a ser testada
  • Hipótese alternativa \((H_{1})\): hipótese alternativa à hipótese nula

Tipos de Erros:

  • Tipo I: Rejeitar \(H_{0}\) quando ele for verdadeiro
  • Tipo II: Aceitar \(H_{0}\) quando ele for falso

A faixa de valores da variável de teste que leve a rejeição de \(H_{0}\) é denominada de Região Crítica. A faixa restante constituiu a Região de Aceitação.

Teste de Hipóteses

Exemplo aplicado

Dados:

  • Média populacional\((\mu)\) = 50
  • Desvio padrão populacional\((\sigma)\) = 4
  • Número de amostras\((n)\) = 25
  • Nivel de confiabilidade\((\alpha)\) = 5%

Temos,

\(\alpha = 0,05\), assim a probabilidade será \(0,5 - 0,05 = 0,450\)

Verificando o valor de \(z\) na Tabela encontramos \(z_{0,05}\) é \(-1,645\)

Teste de Hipóteses

Exemplo aplicado

Substituindo os valores na fómula, temos:

\[z = \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}=\frac{\bar{x}-50}{\frac{4}{\sqrt{25}}}=48,684\]

Portanto, se o valor observado pela média da amostra \(\bar{x}\) for inferior a \(48,684\), rejeitamos a hipótese nula \((H_{0})\) ao nível \(\alpha = 5\)% de significância.

Teste de hipótese para uma média populacional

Passo-a-passo

1 - Enunciar as hipóteses \(H_{0}\) e \(H_{1}\)

2 - Fixar o nível de significância \((\alpha)\)

3 - Com o auxílio das Tabelas e do \(\alpha\), determinar a região crítica e a região de aceitação

4 - Com os elementos amostrais, calcular o valor da variável do teste \((z\) ou \(t)\)

5 - Concluir pela aceitação ou rejeição de \(H_{0}\) comparando o valor obtido no passo 4 com as regiões crítica e de aceitação

Teste de hipótese para uma média populacional

Passo-a-passo

Passo1 : \(H_{0} : \mu = \mu_{0}\) e

  1. \(H_{1} : \mu \neq \mu_{0}\)
  2. \(H_{1} : \mu > \mu_{0}\)
  3. \(H_{1} : \mu < \mu_{0}\)

Passo2 : Fixar \(\alpha\).

  1. Se \(\sigma\) for conhecido \(\rightarrow\) utiliza-se a tabela \(z\)

  2. Se \(\sigma\) for desconhecido \(\rightarrow\) utiliza-se a tabela \(t\)

Passo3 : Tabela \((z\) ou \(t)\)

  1. \(z_{\frac{\alpha}{2}}\) ou \(t_{\frac{\alpha}{2},(n-1)}\)
  2. \(z_{\alpha}\) ou \(t_{\alpha}\)
  3. \(z_{\alpha}\) ou \(t_{\alpha}\)

Teste de hipótese para uma média populacional

Passo-a-passo

Passo4 : Substituir

\[z = \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\] ou \[t = \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}\]

Passo5 : Rejeita-se \(H_{0}\) se:

  1. \(\left | z \right | > z_{\frac{\alpha}{2}}\)
  2. \(z > z_{\alpha}\)
  3. \(z < z_{\alpha}\)

idem para \(t\)

Teste de hipótese para igualdade entre duas médias populacionais

Para vairâncias conhecidas

  • Teste de Hipótese

    1. \(H_{0}: \mu_{1} = \mu_{2}\) (\(\Delta\) = 0)
    2. \(H_{1}: \mu_{1} \neq \mu_{2}\) (testes unicaudais são permitidos)
  • Fixar \(\alpha\)

  • Calcula-se: \(z = \frac{(\bar{x_{1}}-\bar{x_{2}})-\Delta}{\sqrt{\frac{\sigma_{1}^2}{n_{1}}+\sigma_{2}^2}{n_{2}}}\)

  • Conclusão: Se \(\left | z \right | > z_{\frac{\alpha}{2}}\), rejeita \(H_{0}\)

Teste de hipótese para igualdade entre duas médias populacionais

Para vairâncias desconhecidas

  • Teste de Hipótese

    1. \(H_{0}: \mu_{1} = \mu_{2}\) (\(\Delta\) = 0)
    2. \(H_{1}: \mu_{1} \neq \mu_{2}\) (testes unicaudais são permitidos)
  • Fixar \(\alpha\)

  • Calcula-se: \(t = \frac{(\bar{x_{1}}-\bar{x_{2}})-\Delta}{s.\sqrt{\frac{n_{1}+n_{2}}{n_{1}.n_{2}}}}\) onde, \(s = \sqrt{\frac{(n_{1}-1).s_{1}^2+(n_{2}-1).s_{2}^2}{N_{1}+n_{2}-2}}\)

  • Conclusão: Se \(\left | t \right | > t_{\frac{\alpha}{2}}\), rejeita \(H_{0}\)

Exemplo 4

Um sistema de tratamento de gases na foi mudado com a expectativa de que a intervenção pudesse reduzir o nível de poluição em 25 unidades, sem alteração significativa da variabilidade do processo. Ou seja, deseja-se detectar se a média antes da intervenção e após a intervenção diferem em 25 unidades. As estimativas antes da intervenção são: média = 234,3 e desvio padrão = 58, baseados em uma amostra de tamanho igual a 10. O gerente de projeto deseja determinar, com 95% de confiança, se a redução de 25 unidades foi obtida.

Regressão Linear Simples

Modelo de regressão linear simples

\[y_{i}=\alpha+\beta.x_{i}+\varepsilon _{i}\] \(\alpha\): é o intercpto da reta

\(\beta\): é a inclinação da reta

\(\varepsilon\): é o erro aleatório de \(y\) para a observação \(i\)

Regressão Linear Simples

Método dos Mínimos Quadrados

  • Minimizar o erro \((Y_{real} - y_{previsto})\)
  • A soma de todos os erros é zero

Regressão Linear Simples

Método dos Mínimos Quadrados

Regressão: \(\bar{y} = a + b.\bar{x}\)

onde,

\[b = \frac{S_{xy}}{S_{xx}}\] e \[a = \bar{y} - b.\bar{x}\] sendo,

\(S_{xy}=\sum xy - \frac{\sum x.\sum y}{n}\) \(S_{xx}=\sum x^2 - \frac{(\sum x)^2}{n}\)

\(\bar{x}=\frac{\sum x}{n}\) \(\bar{y}=\frac{\sum y}{n}\)

Regressão Linear Simples

Coeficiente de correlação \(r\)

\[r_{xy}=\frac{S_{xy}}{\sqrt{S_{xy}.S_{yy}}}\]

\[S_{yy}=\sum y^2 - \frac{(\sum y)^2}{n}\]

Regressão Linear Múltipla

Modelo de Regressão Linear Múltipla

\[y_{i}=\alpha+\beta_{1}.x_{i}+\beta_{2}.x_{2}+...+\beta_{k}.x_{k}+\varepsilon_{i}\] \(y_{i}\): é a variável dependente

\(x_{i}\): é a variável independente

\(\beta_{i}\): é a determinação da contribuição da variável dependente \(x_{i}\)

\(\varepsilon_{i}\): é o erro aleatório de \(y\) para a observação \(i\)

Exemplo 5

Uma determinada franquia de fast-food resolveu analisar os seus dados de venda, buscando assim entender o perfil do négocio. Para isto utilizou-se de três variáveis indicadoras do total lucrado:

Sejam:

\(Y\) (R$ 1000) = vendas de uma loja

\(X_{1}\) (R$ 1000) = vendas da equipe de vendedores externos

\(X_{2}\) (100) = número de visitas realizadas pelos vendedores

\(X_{3}\) (R$ 1000) = vendas pela internet

Quais conclusões são posíveis de tirar acerca do perfil de vendas desta loja?

Resolução do problema

  1. CARREGANDO O BANCO DE DADOS
    • loja = read.delim2(file.choose())
  2. ESTUDO DA CORRELAÇÃO LINEAR ENTRE AS VARIÁVEIS

    2.1) Análise com base no índice de correlação
    • cor(loja)
    2.2) Análise com base nos gráficos de dispersão
    • plot(loja$ Y ~ loja$X1, type = "b", pch = 22)
    • plot(loja$ Y ~ loja$X2, type = "b", pch = 22)
    • plot(loja$ Y ~ log(loja$X3), type = "b", pch = 22)

Resolução do problema

  1. CONSTRUÇÃO DOS MODELOS

    3.1) Construa inicialmente um modelo contendo todas as variáveis preditoras
    • a = lm(loja$ Y ~ loja$ X1 + loja$ X2 + loja$ X3)
    • summary(a)
    3.2) Construa outro modelo utilizando apenas as variáveis indicadas pelo método
    • b = lm(loja$ Y ~ loja$ X1 + loja$ X2)
    • summary(b)

Resolução do problema

  1. ANÁLISES ADICIONAIS

    4.1) Análise dos valores preditos
    • loja$ predito = b$ fitted.values
    • plot(loja$ predito ~ loja$ Y, type = "p", pch = 22)
  2. ANÁLISE DOS RESÍDUOS (testando a normalidade dos residuos)
    • hist(b$ residuals)
    • shapiro.test(b$ residuals)
      • Teste de hipotese para normalidade, onde a hipotese nula é a propria normalidade.