MQA I - Resolução da Lista de Exercícios - Inferência (Prof. Franzé Costa)

Questão 01

1) Considere uma variável aleatória com distribuição normal de média 50 e variância 25. Indique:

a)o quantil correspondente à probabilidade de encontrar um valor aleatoriamente de 5% ou menos.

Dados: X ~ N(50, 25), temos:\(P(X \le 0.05)\)

## [1] 41.78

b) o quantil correspondente à probabilidade de encontrar um valor aleatoriamente de 1% ou mais.

Dados: X ~ N(50, 25), temos:\(P(X \ge 0.99)\)

## [1] 61.63

c) o quantil para médias amostrais (de amostras de tamanho 50) correspondente à probabilidade de encontrar um valor de média, de 5% ou menos.

Temos uma média amostral de modo que \(\bar{X}\) ~ \(N(50,{\frac{25}{50}})\). Assim, precisamos calcular \(P(\bar{X} < X_c|\mu=50) = 0,05\), ou seja, \(P(Z<Z_c)=0,05\).

## [1] 48.84

Questão 02

2) Considere as distribuições normal padrão \((N(0,1))\), t de Student com 10 graus de liberdade \((t_{10})\), qui-quadrada com 10 graus de liberdade (\(\chi^2_{10}\)), e F com 10 e 100 graus de liberdade (\(F_{10,100}\)). Para cada uma, determina os quantis de 95% (\(\alpha = 0,05\)), 97% (\(\alpha = 0,03\)) e de 99% (\(\alpha = 0,01\)) nas seguintes opções: (1) bilateral, com intervalo acima e abaixo dos quantis iguais em probabilidade; (2) unilateral à direita (ou seja, cobrindo uma área de 95%, 97% ou 99% até o quantil); (3) unilateral à esquerda (ou seja, cobrindo uma área de 95%, 97% ou 99% a partir do quantil). Sugestão: para cada distribuição, faça na tabela abaixo.

Distribuição Normal Padrão

Distribuição Normal
Intervalo
Bilateral
Unilateral à esquerda
Unilateral à direita
Z(a/2) Z(1-a/2) Z(a) Z(Inf) Z(0) Z(a)
0,95 -1.96 1.96 -1.64 1.64 1.64 -1.64
0,97 -2.17 2.17 -1.88 1.88 1.88 -1.88
0.99 -2.58 2.58 -2.33 2.33 2.33 -2.33

Distribuição t de Student

Distribuição t de Student
Intervalo
Bilateral
Unilateral à esquerda
Unilateral à direita
t(a/2) t(1-a/2) t(a) t(Inf) t(0) t(a)
0,95 -2.23 2.23 -1.81 1.81 1.81 -1.81
0,97 -2.53 2.53 -2.12 2.12 2.12 -2.12
0.99 -3.17 3.17 -2.76 2.76 2.76 -2.76

Distribuição Qui-Quadrado

Distribuição Qui-Quadrado
Intervalo
Bilateral
Unilateral à esquerda
Unilateral à direita
Chi(a/2) Chi(1-a/2) Chi(a) Chi(Inf) Chi(0) Chi(a)
0,95 3.25 20.48 3.94 18.31 18.31 3.94
0,97 2.84 22.02 3.41 19.92 19.92 3.41
0.99 2.16 25.19 2.56 23.21 23.21 2.56

Distribuição F

Distribuição F
Intervalo
Bilateral
Unilateral à esquerda
Unilateral à direita
F(a/2) F(1-a/2) F(a) F(Inf) F(0) F(a)
0,95 0.32 2.18 0.39 1.93 1.93 0.39
0,97 0.28 2.36 0.33 2.11 2.11 0.33
0.99 0.21 2.74 0.25 2.50 2.50 0.25

Questão 03

3) Suponha que uma população tem valores que seguem uma distribuição de Poisson com parâmetro 350.

a) Indique a probabilidade de que uma observação qualquer tenha valor de 318 ou menor.

## [1] 0.04447639

b) Indique a probabilidade de que uma observação qualquer tenha valor de 370 ou maior.

## [1] 0.1369437

c) Considere o seguinte critério de análise: se a probabilidade de aparecer um valor tão extremo quanto determinados valores dados for 0,05 ou menor, dizemos que o evento é improvável. Indique os quantis bilaterais e unilaterais à esquerda e à direita da distribuição acima. Em seguida, analise se os eventos indicados em (a) e (b) são improváveis ou não, segundo os critérios do item c.

Distribuição Poisson
Intervalo
Bilateral
Unilateral à esquerda
Unilateral à direita
Poi(0.025) Poi(0.975) Poi(0.05) Poi(0.95) Poi(0.95) Poi(0.05)
0,95 314 387 320 381 381 320

(a) Comentários: A probabilidade de que uma observação qualquer tenha valor de 318 ou menor só é possível considerando uma probabilidade menor do que 2.5%

(b) Comentários: A probabilidade de que uma observação qualquer seja valor de 370 ou maior é improvável.

Questão 04

4) Suponha novamente que uma população tem valores que seguem uma distribuição de Poisson com parâmetro 350.

a) Indique a probabilidade de que uma amostra de tamanho 20 tenha valor médio de 318 ou menor.

## [1] 1.009101e-14
## [1] 0.2415587

b) Indique a probabilidade de que uma amostra de tamanho 35 tenha valor médio de 318 ou menor.

## [1] 2.268508e-24
## [1] 0.1866948

c) Indique a probabilidade de que uma amostra de tamanho 20 tenha valor médio de 370 ou maior.

## [1] 8.724981e-07
## [1] 0.7584413

d) Indique a probabilidade de que uma amostra de tamanho 35 tenha valor médio de 370 ou maior.

## [1] 1.269814e-10
## [1] 0.3501144

e) Considere o seguinte critério de análise: se a probabilidade de aparecer um valor tão extremo quanto um determinado valor dado for 0,05 ou menor, dizemos que o evento é improvável; se for 0,01 ou menor, dizemos que o evento é muito raro; e se for menor que 0,001, dizemos que é muitíssimo raro. Neste sentido, classifique os eventos indicados de (a) até (d) (tome por referência o intervalo bilateral).

Questão 05

5) Variáveis aleatórias com distribuição exponencial possuem, além do processo convencional, ao menos mais duas formas de construção de intervalos de confiança para a média a partir de estatísticas amostrais. A seguir temos as formulações:

  • O intervalo clássico, baseado no Teorema do limite central, a seguir indicado (supomos a variância desconhecida, como ocorre na prática):

    \(IC(\mu;1-\alpha) = [\bar{X}+t_{(\alpha/2,n-1)}\frac{s}{\sqrt(n)};\bar{X}+t_{(1-\alpha/2,n-1)}\frac{s}{\sqrt(n)}\)

  • O intervalo adaptado com base na distribuição normal, a seguir indicado:

    \(IC(\mu;1-\alpha) = [\frac{\bar{X}\sqrt{n}}{\sqrt{n}+Z_{1-\alpha/2}};\frac{\bar{X}\sqrt{n}}{\sqrt{n}-Z_{1-\alpha/2}}]\)

  • O intervalo adaptado com base na distribuição qui-quadrada, abaixo indicado:

    \(IC(\mu;1-\alpha)=[\frac{2n\bar{X}}{\chi^2_{(1-\alpha/2, 2n)}};\frac{2n\bar{X}}{\chi^2_{(\alpha/2, 2n)}}]\)

Faça o que se pede: a) Pesquise sobre a distribuição de exponencial e suas medidas de valor esperado e de variância; analise ao menos uma variável do cotidiano cujos valores ‘podem ser governados’ por distribuições exponenciais.

A distribuição exponencial é um tipo de distribuição contínua de probabilidade, representada por um parâmetro \(\lambda\). É caracterizada por ter uma função de taxa de falha constante (única com esta propriedade). Tem sido usada extensivamente como um modelo para o tempo de vida de certos produtos e materiais. A variável aleatória \(X\) tem distribuição Exponencial com parâmetro \(\lambda\), com \(\lambda > 0\), se tiver função densidade de probabilidade dada por:

\[ f(x;\lambda) = \left \{ \begin{matrix} \lambda e^{-\lambda x}, & \mbox{se }x \ge \mbox{0} \\ 0, & \mbox{se }x < \mbox{ 0} \end{matrix} \right. \] Valor Esperado: \(E(X) = \frac{1}{\lambda}\).

Variância: \(Var(X) = \frac{1}{\lambda^2}\).

Falta de Memória: probabilidade de que seja necessário esperar, por exemplo, mais que 30 segundos até que o evento aconteça, dado que esse evento não aconteceu antes de 20 segundos, é a mesma de que esse evento ocorra depois dos 10 segundos iniciais.

Exemplos de Variáveis X com distribuição exponencial:

  • O tempo entre as avarias de um equipamento.
  • O tempo entre as chegadas de táxis a uma interseção movimentada.
  • O tempo entre as chegadas de aeronaves a um aeroporto específico.
  • A distância entre duas falhas sucessivas em uma fita magnética.
  • A distância entre grandes buracos em uma rodovia movimentada.

b) Gere no R 10000 amostras aleatórias de tamanho 10 de uma variável aleatória X~Exp(10), e construa os três intervalos de confiança de 95% da média, indicando, para cada um deles, o percentual de vezes em que o intervalo de confiança contém o valor populacional de média. Extraia a média dos LI’s e dos LS’s.

Para amostras com Tamanho = 10

MÉTODO CLÁSSICO

## [1] 0.9008
## [1] 0.03412319
## [1] 0.1661971

MÉTODO BASEADO NA DISTRIBUIÇÃO NORMAL

## [1] 0.9561
## [1] 0.06183507
## [1] 0.2634372

MÉTODO BASEADO NA DISTRIBUIÇÃO QUI-QUADRADA

## [1] 0.9531
## [1] 0.05862528
## [1] 0.2088676

c) Gere no R 10000 amostras aleatórias de tamanho 100 de uma variável aleatória X~Exp(10), e construa os três intervalos de confiança da média de 95%, indicando, para cada um deles, o percentual de vezes em que o intervalo de confiança contém o valor populacional. Extraia a média dos LI’s e dos LS’s e comente.

Para amostras com Tamanho = 100

MÉTODO CLÁSSICO

## [1] 0.9424
## [1] 0.08046598
## [1] 0.1198735

MÉTODO BASEADO NA DISTRIBUIÇÃO NORMAL

## [1] 0.9546
## [1] 0.08375423
## [1] 0.1245887

MÉTODO BASEADO NA DISTRIBUIÇÃO QUI-QUADRADA

## [1] 0.9552
## [1] 0.08310846
## [1] 0.1231131

d) Gere no R 10000 amostras aleatórias de tamanho 1000 de uma variável aleatória X~Exp(10), e construa os três intervalos de confiança da média de 95%, indicando, para cada um deles, o percentual de vezes em que o intervalo de confiança contém o valor populacional. Extraia a média dos LI’s e dos LS’s.

Para amostras com Tamanho = 1000 y

MÉTODO CLÁSSICO

## [1] 0.9511
## [1] 0.0938076
## [1] 0.1062115

MÉTODO BASEADO NA DISTRIBUIÇÃO NORMAL

## [1] 0.9521
## [1] 0.09417277
## [1] 0.1066177

MÉTODO BASEADO NA DISTRIBUIÇÃO QUI-QUADRADA

## [1] 0.9516
## [1] 0.09408935
## [1] 0.1065095

e) Comente os resultados de b a d. Algum intervalo parece mais apropriado nos diferentes tamanhos de amostra?

Resumo dos Resultados.

Resumo Distribuição Exponencial
Clássico
Normal
Qui-Quadrado
Acerto LI LS Acerto LI LS Acerto LI LS
Amostra Dez 0.90 0.03 0.17 0.96 0.06 0.26 0.95 0.06 0.21
Amostra Cem 0.94 0.08 0.12 0.95 0.08 0.12 0.96 0.08 0.12
Amostra Mil 0.95 0.09 0.11 0.95 0.09 0.11 0.95 0.09 0.11

Comentários:

f) É razoável esperar que quando o tamanho da amostra cresça os intervalos dos três métodos se aproximem até se sobreporem. Isto ocorre? Explique.

Questão 06

6) Variáveis aleatórias com distribuição de Poisson possuem ao menos 3 formas de construção de intervalos de confiança para a média, a saber:

a) Pesquise sobre a distribuição Poisson e indique suas medidas de valor esperado e de variância; analise ao menos uma variável do cotidiano cujos valores ‘podem ser governados’ por distribuições Poisson.

A distribuição de Poisson é uma distribuição de probabilidade de variável aleatória discreta que expressa a probabilidade de uma série de eventos ocorrer num certo período de tempo se estes eventos ocorrem independentemente de quando ocorreu o último evento. Consideremos uma variáveis aleatórias N que representea o número de ocorrências discretas de um certo fenômeno durante um intervalo de tempo de determinada duração.

A probabilidade de que existam exactamente k ocorrências (k sendo um inteiro não negativo, k = 0, 1, 2, …) é dada por:

\(f(k;\lambda)= \frac{e^{-\lambda}\lambda^k}{k!}\)

onde: e é base do logaritmo natural (\(e = 2.71828...\)); \(k!\) é o fatorial de k; \(\lambda\) é um número real, igual ao número esperado de ocorrências num dado intervalo de tempo.

Exemplo: Se o evento ocorre a uma média de 4 minutos, e estamos interessados no número de eventos que ocorrem num intervalo de 10 minutos, usariámos como modelo a distribuição de Poisson com \(\lambda = 10/4 = 2.5\).

Valor Esperado: \(E[X]=\lambda\)

Variância: \(Var(X) =\lambda\)

b) Gere no R 10000 amostras aleatórias de tamanho 10 de uma variável aleatória X~Pois(5), e construa ostrês intervalos de confiança de 95% da média, indicando, para cada um deles, o percentual de vezes em que o intervalo de confiança contém o valor populacional de média. Extraia a média dos LI’s e dos LS’s.

Para amostras com Tamanho = 10

MÉTODO CLÁSSICO

## [1] 0
## [1] 7.816739
## [1] 12.20216

MÉTODO BASEADO NA DISTRIBUIÇÃO NORMAL

## [1] 0
## [1] 6.179455
## [1] 26.32646

MÉTODO BASEADO NA DISTRIBUIÇÃO QUI-QUADRADA

## [1] 0
## [1] 5.858686
## [1] 20.87307

c) Gere no R 10000 amostras aleatórias de tamanho 100 de uma variável aleatória X~Pois(5), e construa os três intervalos de confiança da média de 95%, indicando, para cada um deles, o percentual de vezes em que o intervalo de confiança contém o valor populacional. Extraia a média dos LI’s e dos LS’s.

Para amostras com Tamanho = 100

MÉTODO CLÁSSICO

## [1] 0
## [1] 9.370004
## [1] 10.62043

MÉTODO BASEADO NA DISTRIBUIÇÃO NORMAL

## [1] 0
## [1] 8.35723
## [1] 12.43181

MÉTODO BASEADO NA DISTRIBUIÇÃO QUI-QUADRADA

## [1] 0
## [1] 8.292794
## [1] 12.28457

d) Gere no R 10000 amostras aleatórias de tamanho 1000 de uma variável aleatória X~Pois(10), e construa os três intervalos de confiança de 95% da média, indicando, para cada um deles, o percentual de vezes em que o intervalo de confiança contém o valor populacional de média. Extraia a média dos LI’s e dos LS’s.

Para amostras com Tamanho = 1000

MÉTODO CLÁSSICO

## [1] 0
## [1] 9.802129
## [1] 10.19443

MÉTODO BASEADO NA DISTRIBUIÇÃO NORMAL

## [1] 0
## [1] 9.414756
## [1] 10.65891

MÉTODO BASEADO NA DISTRIBUIÇÃO QUI-QUADRADA

## [1] 0
## [1] 9.406416
## [1] 10.6481

e) Comente os resultados de b a d. Algum intervalo parece mais apropriado nos diferentes tamanhos de amostra?

Resumo Distribuição Poisson
Clássico
Normal
Qui-Quadrado
Acerto LI LS Acerto LI LS Acerto LI LS
Amostra Dez 0 7.82 12.20 0 6.18 26.33 0 5.86 20.87
Amostra Cem 0 9.37 10.62 0 8.36 12.43 0 8.29 12.28
Amostra Mil 0 9.80 10.19 0 9.41 10.66 0 9.41 10.65

f) É razoável esperar que quando o tamanho da amostra cresça os intervalos dos três métodos se aproximem até se sobreporem. Isto ocorre? Explique.

Questão 07

7) Considere a formulação mostrada para o intervalo de confiança para a variância.

a) Gere no R 10000 amostras de tamanho 8 de uma variável aleatória X com distribuição normal X~(40,10), e para cada amostra calcule os limites superiores e inferiores do intervalo de confiança da variância populacional de 95%, e verifique o percentual de vezes em que o intervalo gerado contém o valor verdadeiro.

## [1] 0.9488
## [1] 43.70406
## [1] 414.1284

b) Repita o mesmo procedimento acima para amostras de tamanho 1000. Analise e compare com os resultados do item a.

## [1] 0.9509
## [1] 91.77323
## [1] 109.3768

c) Repita os procedimentos a e b para amostras extraídas de uma variável aleatória H com distribuição Poisson H~Poisson(50) (a variância é 50). Analise os resultados considerando que a variável aleatória H é bastante simétrica (sugestão para visualização: gere uma amostra aleatória de tamanho 100000 de H e veja seu histograma).

POISSON - TAM =8

## [1] 0.947
## [1] 21.67063
## [1] 205.3453

POISSON - TAM = 1000

## [1] 0.9516
## [1] 45.87525
## [1] 54.67487

d) Repita os procedimentos a e b para amostras extraídas de uma variável aleatória Y com distribuição exponencial Y~Exp(0,5) (a variância é 0,25). Analise os resultados considerando que a variável aleatória Y é fortemente assimétrica (sugestão para visualização: gere uma amostra aleatória de tamanho 100000 de Y e veja seu histograma).

EXPONENCIAL - TAM = 8

## [1] 0.7864
## [1] 1.75157
## [1] 16.59743

EXPONENCIAL - TAM = 1000

## [1] 0.6781
## [1] 3.67417
## [1] 4.378935

e) Repita os procedimentos a e b para amostras extraídas de duas variáveis aleatórias Z1 e Z2 com distribuição Bernoulli Z1~Bernoulli(0,30) e Z2~Bernoulli(0,10). Comente os resultados considerando que a variável aleatória Z somente possui valores 0 ou 1 e as variações de 0,10 e 0,30.

BERNOULLI - Z1 TAM 8

## [1] 0.3813
## [1] 0.0390579
## [1] 0.3701026

BERNOULLI - Z1 TAM 1000

## [1] 0.7092
## [1] 0.08260374
## [1] 0.09844848

BERNOULLI - Z2 TAM 8

## [1] 0.9426
## [1] 0.09152386
## [1] 0.8672565

BERNOULLI - Z2 TAM 1000

## [1] 0.9978
## [1] 0.1927355
## [1] 0.2297054

f) Analise os resultados da comparação do desempenho do intervalo de confiança para a variância populacional considerando as quatro distribuições mostradas e suas variações, em particular considerando o nível de assimetria de cada distribuição.

Resumo Distribuição
Normal
Poisson
Exponencial
Bernoulli Z1
Bernoulli Z2
(N8) (N1000) (N8) (N1000) (N8) (N1000) (N8) (N1000) (N8) (N1000)
ACERTO 0.95 0.95 0.95 0.95 0.79 0.68 0.38 0.71 0.94 1.00
LI 43.70 91.77 21.67 45.88 1.75 3.67 0.04 0.08 0.09 0.19
LS 414.13 109.38 205.35 54.67 16.60 4.38 0.37 0.10 0.87 0.23

Questão 08

8) Dizemos que um estimador é mais eficiente que outro quando sua variância é menor. Nesse caso, considere a seguinte situação: O valor esperado (ou seja, sua média) de uma distribuição uniforme contínua \(X~Uniforme(a,b)\) é dado pela média aritmética simples dos dois parâmetros \((E(X) = (a+b)/2\). Quando trabalhamos com amostras, temos ao menos cinco possíveis estimadores, que são:

  1. a média amostral simples;
  2. a média amostral aparada (escolha um nível)
  3. a mediana amostral;
  4. a média aritmética simples do mínimo e do máximo amostrais;
  5. a média aritmética simples do primeiro e do nono decis.

Simule no R a extração de 5000 amostras de tamanhos 10 e 100 (por exemplo, uma uniforme entre 0 a 100), e em cada amostra estime a média pelos cinco métodos, e aponta, para os dois tamanhos de amostra, qual é o estimador mais eficiente.

Estimador Eficiênte

Distribuição Uniforme

## [1] 50.05247
## [1] 82.19006
## [1] 50.06297
## [1] 107.91
## [1] 50.07742
## [1] 186.4256
## [1] 50.01044
## [1] 36.35383
## [1] 100.1311
## [1] 272.1921