Estatística Descritiva

A tabela a seguir apresenta as proporções do número de apendicectomias de emergência realizadas mensalmente em um certo hospital (dados coletados ao longo de alguns anos).

Número de Apendicectomias Proporção
0 0.05
1 0.17
2 0.10
3 0.02
4 0.17
5 0.14
6 0.15
7 0.20
  • Qual a proporção de meses em que menos do que 2 apendicetocmias de emergência foram realizadas?
  • Qual a proporção de meses em que mais do que 5 apendicetocmias de emergência foram realizadas?

Os dados a seguir apresentam o tipo sanguíneo de 50 doadores de sangue:

“A” “A” “O” “A” “O” “O” “A” “O” “O” “A” “O” “A” “B” “O” “A” “O” “O” “O” “O” “A” “B” “AB” “O” “A” “O” “O” “A” “A” “O” “O” “O” “A” “O” “A” “O” “O” “A” “A” “O” “O” “O” “O” “O” “A” “O” “O” “AB” “AB” “A” “O”

Utilize estes dados e preencha a tabela de distribuição de frequências a seguir.

Tipo Sanguíneo Frequência
  • A
  • B
  • AB
  • O

O link a seguir apresenta o gráfico de casos confirmados por faixa etária: Desconsidere os casos “sem informação”. A tolerância de erro para a correção é ±0.01.

  • Qual a proporção de casos abaixo de 80 anos?
  • Qual a proporção de casos entre 10 e 49 anos?
O que representa a largura de cada barra no histograma? Escolha uma opção:
  • A média das observações pertencentes ao intervalo representado pela barra.
  • O número de observações no intervalo representado pela barra.
  • A amplitude dos valores no intervalo representado pela barra.
  • O número de intervalos do histograma.
O que representa a altura de cada barra do histograma? Escolha uma opção:
  • A mediana das observações pertencentes ao intervalo representado pela barra.
  • O número de observações no intervalo representado pela barra.
  • O número de intervalos do histograma.
  • A amplitude das observações no intervalo representado pela barra.
Em uma certa classe, a altura (em centímetros) dos alunos foi medida e representada através do histograma abaixo. A tolerância de erro para a correção é ±0.
  • Quantos alunos têm mais do que 155 cm de altura?
  • Quantos alunos têm altura acima de 160 mas menor ou igual a 180?
  • O número de intervalos do histograma.
  • Quantos alunos têm altura no intervalo (145,160]?

Probabilidade

Variáveis Aleatórias Discretas

Calcule as probabilidades a seguir.
  • 𝑃(𝑋= 4), 𝑋∼Binomial(𝑛= 15,𝑝= 0.6).
  • 𝑃(𝑋≥ 3), 𝑋∼Binomial(𝑛= 15,𝑝= 0.6).
  • 𝑃(𝑌= 0), 𝑌∼Binomial(𝑛= 5,𝑝= 0.7).
  • 𝑃(𝑌< 1), 𝑌∼Binomial(𝑛= 5,𝑝= 0.7).
  • 𝑃(𝑍= 9), 𝑍∼Binomial(𝑛= 14,𝑝= 0.3).
  • 𝑃(𝑍 ≤ 1), 𝑍∼Binomial(𝑛= 14,𝑝= 0.3).
  • 𝑃(𝑊 = 0), 𝑊∼Binomial(𝑛= 6,𝑝= 0.4).
  • 𝑃(𝑊 > 4), 𝑊∼Binomial(𝑛= 6,𝑝= 0.4).
dbinom(x = 4, size = 15, prob = 0.6 ) # item a
## [1] 0.007419892
pbinom(q = 2, size = 15, prob = 0.6, lower.tail = FALSE) # item b
## [1] 0.9997211
dbinom(x = 0, size = 5, prob = 0.7) # item c
## [1] 0.00243
pbinom(q = 0, size = 5, prob = 0.7) # item d
## [1] 0.00243
dbinom(x = 9, size = 14, prob = 0.3) # item e
## [1] 0.00662286
pbinom(q = 1, size = 14, prob = 0.3) # item f
## [1] 0.04747562
dbinom(x = 0, size = 6, prob = 0.4) # item g
## [1] 0.046656
pbinom(q = 4, size = 6, prob = 0.4, lower.tail = FALSE) # item h
## [1] 0.04096
Cada pendrive produzido por certa fábrica tem probabilidade 0.07 de ser defeituoso, independente dos demais pendrives produzidos. A fábrica vende os pendrives em pacotes contendo 30 e oferece devolver o dinheiro ao cliente que comprar um pacote e este contiver pelo menos um pendrive defeituoso.
  • Qual a probabilidade da fábrica ter que devolver o dinheiro ao cliente? Tolerância da correção é ±0.01.
  • Se um cliente comprar 3 pacotes, qual é a probabilidade de que tenha que receber o dinheiro de volta por exatamente 2 deles? Tolerância da correção é ±0.01.
  • A variável aleatória discreta(v.a.d.) \(X\) é a ocorrência de pendrives defeituosos em um pacote contendo 30 deles com \(p = 0.07\)(chance de ser defeituoso,“sucesso”). Assim \(X\) pode ser aproximado por uma binomial em que \(X \in \{0,..,30\}\). Formalizando:
    \[ X \sim Bin(n = 30,p = 0.07) \] A fábrica só não devolve dinheiro se nenhum pendrive falhar em um pacote, em todos os outros casos ela devolve. Assim por pacote: \[ \mathbb{P}(X > 0) = 1-\mathbb{P}(X = 0)=1-\binom{n}{X=0}p^0(1-p)^{n-0}= 1-\binom{30}{0}0.07^0(0.93)^{30}\]

    #primeira forma
    1-dbinom(0,15,0.07)
    ## [1] 0.6632991
    #segunda forma
    pbinom(0,15, 0.07, lower.tail = FALSE)
    ## [1] 0.6632991
  • No caso do cliente comprar 3 pacotes, a chance ter reembolso é do item anterior \(p= 0.8866325\). Sendo Y a chance de reembolso pelo pacote, temos : \[ Y \sim Bin(n=3,p=0.8866325) \] Neste caso \(n=3\), queremos saber \(\mathbb{P}(Y=2)\): \[\mathbb{P}(Y=2) = \binom{n}{Y=2}p^2(1-p)^{n-2} =\binom{3}{2}0.8866325^2 0.1133675^{1} \]

    #primeira forma
    choose(3,2)*0.8866325^2*(1-0.8866325)
    ## [1] 0.2673604
    #segunda forma
    dbinom(2,3, 0.8866325)
    ## [1] 0.2673604

Num jogo de dados, você paga R$25 e lança 3 dados. Se sair o número 1 em apenas um dos dados, você ganha R$25. Se sair o número 1 em dois dos dados, você ganha R$55. Se sair o número 1 em todos os três dados, você ganha R$65. Calcule o lucro líquido esperado de uma jogada. Tolerância da correção é ±0.5.

  • Temos X como sendo uma v.a.d. que contam a ocorrência do número em 3 dados. Formamente: \[X\sim Bin(n,p)\] Neste caso \(n=3\)(dados) e a chance de sucesso \(p=1/6\). Assim: \[ p_1=\mathbb{P}(X=1) = \binom{3}{1}\frac{1}{6}^1 \left( 1-\frac{1}{6}\right)^{3-1}= 0.3472222\] \[p_2=\mathbb{P}(X=2) = \binom{3}{2}\frac{1}{6}^2 \left( 1-\frac{1}{6}\right)^{3-2}=0.06944444\] \[p_3=\mathbb{P}(X=3) = \binom{3}{3}\frac{1}{6}^3 \left( 1-\frac{1}{6}\right)^{3-3}=0.00462963\]

    p1 <- dbinom(x = 1, size = 3, prob =1/6)
    p2 <- dbinom(x = 2, size = 3, prob =1/6)
    p3 <- dbinom(x = 3, size = 3, prob =1/6)
    p1;p2;p3
    ## [1] 0.3472222
    ## [1] 0.06944444
    ## [1] 0.00462963
  • Chamamos de Y uma variável discreta que assumi os seguintes valores com suas respectivas probabilidades:

    \[Y = -25;p = 1\] \[Y = 25;p = p_1\] \[Y = 55;p = p_2\] \[Y = 65;p = p_3\]

    Assim o Lucro Líquido(LL: Esperança da variável Y) será:

    \[LL =\mathbb{E}[Y]= -25 + 25\times p_1 + 55\times p_2+ 65\times p_3\]

    prob <-c(1, p1, p2, p3)
    Y <-c(-25, 25, 55, 65)
    sum(Y*prob)
    ## [1] -12.19907
Uma técnica cirúrgica é aplicada em 8 pacientes. Você soube que há 76% de chance de sucesso. Encontre a probabilidade de que a cirurgia seja um sucesso para
  • Exatamente 4 pacientes.
  • No mínimo 4 pacientes.
  • Menos que 4 pacientes.
  • A variável aleatória discreta(v.a.d.) \(X\) é a quantidade de pacientes que obtém sucesso após o procedimento sendo n = 8 e \(p = 0.76\)(sucesso de cada paciente). Assim \(X\) pode ser aproximado por uma binomial em que \(X \in \{0,..,8\}\). Formalizando:
    \[ X \sim Bin(n,p) \] Neste caso \(n=8\), queremos saber \(\mathbb{P}(X = 4)\): \[\mathbb{P}(X=4) = \binom{n}{X=4}p^2(1-p)^{n-4} =\binom{8}{4}0.76^4 (1-0.76)^{8-4} =0.07748139 \]

    dbinom(x = 4,size = 8, prob = 0.76 )
    ## [1] 0.07748139
  • \(\mathbb{P}(X \ge 4)\): \[\mathbb{P}(X \ge 4) = \sum^{8}_{k=4}\binom{n}{X=k}p^k(1-p)^{n-k} = \] \[=\binom{8}{4}0.76^4 (1-0.76)^{8-4}+\binom{8}{5}0.76^5 (1-0.76)^{8-5}+\binom{8}{6}0.76^6 (1-0.76)^{8-6}+\] \[ + \binom{8}{7}0.76^4 (1-0.76)^{8-7}+\binom{8}{8}0.76^8 (1-0.76)^{8-8} = 0.9770452\]

    # 1º Forma
    pbinom(q = 3,size = 8, prob = 0.76, lower.tail =  FALSE)
    ## [1] 0.9770452
    # 2º Forma
    choose(8,4)*(0.76^4)*((1-.76)^(4))+
      choose(8,5)*(0.76^5)*((1-.76)^(3))+
      choose(8,6)*(0.76^6)*((1-.76)^(2))+
      choose(8,7)*(0.76^7)*((1-.76)^(1))+
      choose(8,8)*(0.76^8)*((1-.76)^(0))
    ## [1] 0.9770452
    # 3º Forma
    sum(dbinom(4:8, 8, 0.76))
    ## [1] 0.9770452
  • \(\mathbb{P}(X < 4)\): \[\mathbb{P}(X < 4) = \sum^{3}_{k=0}\binom{n}{X=k}p^k(1-p)^{n-k} = \] \[=\binom{8}{0}0.76^0 (1-0.76)^{8-0}+\binom{8}{1}0.76^1 (1-0.76)^{8-1}+\binom{8}{2}0.76^2 (1-0.76)^{8-2}+ \] \[ + \binom{8}{3}0.76^3 (1-0.76)^{8-3}= 1 - \mathbb{P(X \ge 4)} =0.02295478 \]

    # 1º Forma
    pbinom(q = 3,size = 8, prob = 0.76 )
    ## [1] 0.02295478
    # 2º Forma
    choose(8,0)*(0.76^0)*((1-.76)^(8))+
      choose(8,1)*(0.76^1)*((1-.76)^(7))+
      choose(8,2)*(0.76^2)*((1-.76)^(6))+
      choose(8,3)*(0.76^3)*((1-.76)^(5))
    ## [1] 0.02295478
    #3º Forma
    sum(dbinom(0:3, 8, 0.76))
    ## [1] 0.02295478
Seja 𝑋 uma variável aleatória que segue uma distribuição Geométrica com 𝑝 igual a 0.6 e valores possíveis 1,2,3,….
  • 𝑃(𝑋=1)
  • 𝑃(1≤𝑋<5)
  • 𝑃(𝑋>2|𝑋≤5)
  • 𝑃(𝑋≥2)
p <- 0.6
dgeom( x = 0, prob = p) #item a
## [1] 0.6
pgeom( q = 3, prob = p) # item b
## [1] 0.9744
pgeom( q = 1, prob = p, lower.tail = FALSE) - pgeom(q = 4, prob = p, lower.tail = FALSE) # item c
## [1] 0.14976
pgeom( q =0, prob = p, lower.tail = FALSE) #item d
## [1] 0.4
Considere o seguinte experimento: lançam-se dois dados honestos e observa-se a soma dos resultados.
  • Qual a probabilidade de se observar um 11?
  • Encontre a probabilidade de que sejam necessários menos do que 15 lançamentos para observar um 11 pela primeira vez.
  • Encontre a probabilidade de que sejam necessários mais do que 15 lançamentos para observar um 11 pela primeira vez.
  • Encontre o número médio de lançamentos necessários para se observar um 11 pela primeira vez

Seja X a v.a.d. tal que \(X = X_1 + X_2\), onde \(X_k \sim U(n)\) para \(k={1,2}\)sendo os dados v.a.d. de distribuição uniforme com parâmetro \(n=6\), assim os valores \(X_k \in \{1,..,6\}\) com (\(k={1,2}\)).

  • \[\mathbb{P}(X=11) = \mathbb{P}(X_1=5)\mathbb{P}(X_2=6)+\mathbb{P}(X_1=6)\mathbb{P}(X_2=5)\] \[= \frac{1}{6}\frac{1}{6}+ \frac{1}{6}\frac{1}{6} = \frac{1}{18}=0.05555556\]
  • Para modelar este problema consideramos X como sendo uma v.d.a. de distribuição geométrica, ou seja, temos: \[X \sim Geom(p = 1/18)\] Assim,temos para ocorrência de um sucesso em menos de 15 lançamentos: \[\mathbb{P}(X < 15)=\mathbb{P}(X \le 14) =\sum^{13}_{k=0} \left(1 - \frac{1}{18}\right)^{k}\frac{1}{18} = 0.5507689 \]

    #sucesso em menos do que 15, significa que no máximo vão ter 14 lançamentos
    # sendo o máximo de fracassos 13, logo:
    pgeom(q=13, prob =1/18)
    ## [1] 0.5507689
  • Analogamente, reescrevemos e usamos a probabilidade complementar e o resultado do item anterior: \[\mathbb{P}(X > 15) = 1 - \mathbb{P}(X \le 15) = 1-\left[\mathbb{P}(X \le 14)+\mathbb{P}(X = 15)\right] = \] \[\mathbb{P}(X > 15) = 1-\left[ 0.5507689 + \left(1-\frac{1}{18}\right)^{14}\frac{1}{18} \right] =1-(0.5507689+0.02495728)= 0.4242738 \]

    # 1°forma
    1- pgeom(q = 14, prob = 1/18)
    ## [1] 0.4242738
    #2° forma
    pgeom(q = 14, prob = 1/18, lower.tail = FALSE)
    ## [1] 0.4242738
    #3° forma
    1- (pgeom(q = 13, prob = 1/18) + dgeom(x = 14, prob = 1/18))
    ## [1] 0.4242738
  • Usamos a esperança de uma v.a.d. de distribuição geométrica com paramêtro p, dado por: \[\mathbb{E}[X] = \left\lceil\frac{1}{p}\right\rceil\] \[\mathbb{E}[X] = \left\lceil\dfrac{18}{1}\right\rceil=18\]
Um obstetra afirma, após avaliação minuciosa do estado de saúde de um casal, que a chance de uma gravidez ser bem-sucedida a partir da implantação de um embrião congelado é 0.25. O casal quer muito ter um filho e decide repetir o procedimento de implantação de embrião até que a gravidez seja bem-sucedida.
  • Qual a probabilidade da mulher conseguir ter um filho na quarta tentativa?
  • Qual a probabilidade da mulher conseguir ter um filho antes da quarta tentativa?
  • Qual a probabilidade da mulher conseguir ter um filho na segunda, terceira ou quarta tentativa?
O número de tentativas até que se tenha sucesso com a gravidez é uma variável aleatória discreta, G, de distribuição geométrica com parâmetro \(p = 0.25\), sendo escrito: \[G \sim Geom( p = 0.25)\] \[G \in \{1, 2, \dots\}\] \[\mathbb{P}(G =x) = (1-p)^{x-1}p\]
  • \[\mathbb{P}(G = 4) = (1-0.25)^{4-1}\times 0.25=0.75^3 \times 0.25 =0.1054688\] No R temos que a variável associada esta contando a quantidade de insucessos, logo devemos subtrair uma unidade. Assim se \(G = 4\), devemos buscar no R o valor \(x = 3\)

    p <- 0.25 # chance de sucesso
    dgeom(x = 3, prob = p)
    ## [1] 0.1054688
  • \[\mathbb{P}(G < 4) = \mathbb{P}(G \le 3) = \mathbb{F}(3)=\sum_{x=1}^{3}{(1-p)^{x-1}p}\] \[\mathbb{P}(G < 4) =(1-p)^2p+(1-p)p+p=0.578125\]

    pgeom(q = 2, prob = p)
    ## [1] 0.578125
  • \[\mathbb{P}(1 < G \le 4) = \mathbb{F}(4)- \mathbb{F}(1) = \sum_{k=1}^{4}{(1-p)^{k-1}p} -(1-p)^0p =\left(\sum_{k=1}^{4}{(1-p)^{k-1}} -1\right)p \] \[\mathbb{P}(1 < G \le 4) =p(1 + (1-p)^2 + (1-p)^3+ (1-p)^4 - 1)\] \[\mathbb{P}(1 < G \le 4) = p((1-p)^2 + (1-p)^3+ (1-p)^4-p)=0.4335938\] Analogamente ao anterior realizando a transformação adequada, temos:

    p <- 0.25
    pgeom(q = 3 , prob = p)- pgeom(q = 0, prob = p)
    ## [1] 0.4335938

Suponha que uma loja envie ao cliente uma mensagem com as promoções da semana via WhatsApp. A probabilidade de que a venda para um cliente se realize após o envio da mensagem é 0.59. Assume-se que essa probabilidade seja mantida, independente do total de semanas que a loja já tenha enviado as promoções para o cliente. Encontre a probabilidade de que a primeira venda para um cliente só ocorra após o envio das promoções por 2 semanas seguidas.

Conside a v.a.d. \(E \in \{1, 2, \dots\}\), correspondendo a semana em que a venda ocorre após a k-ésima mensagem(\(E=k\)). Nossa v.a.d. \(E\) possui distribuição de probabilidade geométrica, assim: \[E \sim Geom(p = 0.59)\] \[\mathbb{P}(E = x) = (1-p)^{x-1}p\] Desejamos conhecer a probabilidade da primeira venda ocorra após o envio de duas mensagens, logo tivemos um fracassos e o sucesso ocorre na semana da segunda mensagem, logo \(E =2\). Portanto: \[\mathbb{P}(E=2) = p(1-p) \] No R temos que lidamos com a quantidade de insucessos(\(Q\)), assim \(\mathbb{P}(E = 2) = \mathbb{P}(Q =1)\), logo o código em R fica:

dgeom(x=1, prob = 0.59)
## [1] 0.2419
Uma empresa fabrica um tipo de tomada que são embalados em lotes de 15 unidades. Para aceitar o lote enviado por essa fábrica, o controle de qualidade da empresa tomou o seguinte procedimento: sorteia-se um lote e desse lote selecionam-se 5 tomadas para teste, sem reposição. Se for constatado no máximo 1 tomadas defeituosas, aceita-se o lote fornecido pela fábrica. Se o lote sorteado tiver 4 peças defeituosas, responda as seguintes perguntas.
  • Qual a probabilidade de que nenhuma tomada na amostra seja defeituosa?
  • Qual a probabilidade de se aceitar o lote?
  • Qual o número esperado de tomadas defeituosas na amostra?
  • Qual a variância do número de tomadas defeituosas na amostra?
Seja X nossa v.a.d que tem distribuição hipergeométrica com paramêtros m = 4(ruins/bolas brancas), n = 15-4=11 (boas/bolas pretas) e k = 5 (tamanho da amostra): \[X \sim Hiper(m, n, k)\] Sendo o tamanho do lote(equivale formulação do modelo usando a quantidade de bolas brancas e pretas em uma urna): \[N=m+n\] \[\mathbb{P}(X=x|m,n,k)= \large{\frac{\binom{m}{x}\binom{n}{k-x}}{\binom{N}{k}}}\]
  • Substituindo os valores, temos: \[\mathbb{P}(X=0|m=4,n=11,k=5)=\large{\frac{\binom{4}{0}\binom{11}{5-0}}{\binom{15}{5}}}= 0.1538462\]

    #1°forma
    dhyper(x=5,m=11, n=4, k=5)
    ## [1] 0.1538462
    #2° forma
    dhyper(x=0, m=4, n=11, k=5)
    ## [1] 0.1538462
    #3°forma
    m = 11    # não defeituosas
    n = 4     # defeituosa
    k = 5     # tamanho da amostra
    N = m + n # tamanho do lote
    x = 5     # quantidade de não defeituosas
    choose(m, x)*choose(n, k-x)/choose(N, k)
    ## [1] 0.1538462
    #4°forma
    m = 4     # defeituosas
    n = 11    # não defeituosa
    k = 5     # tamanho da amostra
    N = m + n # tamanho do lote
    x = 0     # quantidade de defeituosas
    choose(m, x)*choose(n, k-x)/choose(N, k)
    ## [1] 0.1538462
  • Aceitar o lote equivale a encontrar apenas uma peça defeituosa na amostra, logo: \[\mathbb{P}(X \le 1|m=4,n=11,k=5)=\large{\sum_{i=0}^{1}\frac{\binom{4}{i}\binom{11}{k-i}}{\binom{15}{5}}}=\large{\frac{\binom{10}{0}\binom{5}{5-0}}{\binom{15}{5}}} + \large{\frac{\binom{10}{1}\binom{5}{5-1}}{\binom{15}{5}}}=0.5934066\]

    #1° forma
    phyper(q=1,m=4, n=11, k=5)
    ## [1] 0.5934066
    #2° forma
    dhyper(x=0,m=4, n=11, k=5)+dhyper(x=1,m=4, n=11, k=5)
    ## [1] 0.5934066
  • Usando a primeira formulação na resolução, temos que a esperança de uma v.a.d. de distribuição hipergeométrica de parâmetros m,n e k é: \[\mathbb{E}[X]=\frac{m \times k}{N}=\frac{4 \times 5}{15}= 1.333333\]
  • Usando a primeira formulação na resolução, temos que a variância de uma v.a.d. de distribuição hipergeométrica de parâmetros m,n e k é: \[\mathbb{Var}[X]=\frac{m \times n \times k \times (N-k)}{N^2 \times (N-1)}=\frac{11 \times 4 \times 5 \times (15-5)}{15^2 \times (15-1)}=0.6984127\]

Entre os 17 programadores de uma empresa, 10 são do sexo masculino. A empresa decide sortear 2 programadores para fazer um curso avançado de programação. Qual é a probabilidade de termos 1 programadores do sexo masculino entre os 2 sorteados?

Semelhante ao clássico problema da urna contendo N bolas, sendo m brancas e n pretas, realizando k retiradas sem reposição, a quantidade de bolas brancas segue uma distribuição hipergeométrica de paramêtros m,n e k. Neste problema bolas branca equivale ao sexo masculino e bola preta ao feminino, nosso k é o número de vagas para o curso, neste caso k=2. \[\mathbb{P}(X=x|m,n,k)= \large{\frac{\binom{m}{x}\binom{n}{k-x}}{\binom{N}{k}}}\] \[\mathbb{P}(X = 1|m=10,n=7,k=2)= \large{\frac{\binom{10}{1}\binom{7}{2-1}}{\binom{17}{2}}}=0.5147059\]

dhyper(x = 1, m = 10, n = 7, k = 2)
## [1] 0.5147059
Suponha que o número de falhas em um cabo de fibra ótica siga uma distribuição de Poisson. A média de falhas por 30 metros de cabo é 2.1.
  • Qual a probabilidade de encontrarmos exatamente 6 falhas em 220m de cabo?
  • Encontre a probabilidade de encontrarmos mais do que 3 falhas em 130m de cabo?.
  • A variável aleatória discreta(v.a.d.) X é número de falhas ao longo do comprimento do cabo de fibra ótica(\(t\)), sendo que esta ocorrência tem natureza aproximado pela distribuição de Poisson. \[ X \sim Pois(\lambda t ) \] \[ \mathbb{P}(X = x | \lambda t) = \frac{\lambda t ^xe^{-\lambda t}}{x!} \] Temos \(t=180\) m(equivale ao comprimento do cabo) e \(\lambda = \frac{2.2}{50}\)(taxa de falha em um comprimento conhecido), logo \(\lambda t = 7.92\). Resultando:

    #item a
    lambda <- 2.2/50
    t <- 180
    x <- 8
    dpois(x, lambda*t)
    ## [1] 0.1395303
  • \(\lambda t = 0.044\times 120= 5.28\) \[ \mathbb{P}(X \ge 3| \lambda t = 5.28) = 1- \mathbb{P}(X < 3| \lambda t = 5.28) = 1-(\mathbb{P}(X = 0)+\mathbb{P}(X = 1)+\mathbb{P}(X = 2)+\mathbb{P}(X = 3))\] \[ \mathbb{P}(X > 3| \lambda t = 5.28) = 1-(\mathbb{P}(X = 0)+\mathbb{P}(X = 1)+\mathbb{P}(X = 2) + \mathbb{P}(X = 3)) = 1 - \sum_{x=0}^{3}{ \frac{e^{-\lambda t}\lambda t^x }{x!}}\] \[ \mathbb{P}(X > 3| \lambda t = 5.28) = 1 - \left(\frac{e^{- 5.28}\times 5.28^0}{0!}+\frac{e^{- 5.28}\times 5.28^1}{1!}+\frac{e^{- 5.28}\times 5.28^2}{2!}+\frac{e^{- 5.28}\times 5.28^3}{3!}\right)\]

    #item b
    1-exp(-5.28)*(5.28^0/factorial(0)+5.28^1/factorial(1)+5.28^2/factorial(2)+5.28^3/factorial(3))
    ## [1] 0.7721026
    #ou de outra forma
    ppois(q = 3, lambda = 5.28, lower = FALSE)
    ## [1] 0.7721026

Variáveis Aleatórias Contínuas

Você está no shopping e precisa retornar uma ligação urgente, mas seu celular está praticamente sem bateria. Você encontra um ponto de recarga, mas alguém chega para usá-lo primeiro do que você. Suponha que a duração média, em minutos, de uma recarga no shopping seja 10 e que o tempo de recarga no shopping siga uma distribuição exponencial.

A tolerância de erro para a correção é ±0.005.
  • Qual a probabilidade de que você tenha que esperar menos do que 10 minutos para começar a recarregar?
  • Qual a probabilidade de que você tenha que esperar entre 10 e 11 minutos para começar a recarregar?

X: é uma variável aleatória contínua que mede o tempo de espera que podemos esperar para carregar nosso celular em um shopping \[ X \sim Exp(\lambda )\] Para \(x\) \(\ge\) 0 , temos a densidade de probabilidade de uma v.a.c. de distribuição exponencial sendo: \[f(x) = \begin{cases} \lambda e^{-\lambda x}, & \mbox{para } x\ge 0 \\ 0, & \mbox{caso contrário } x<0 \end{cases} \]

A função acumulada:

\[\mathbb{F}(X= x) = \mathbb{P}(X\le x) =\begin{cases} 1- e^{-\lambda x}, & \mbox{para } x\ge 0 \\ 0, & \mbox{caso contrário } x<0 \end{cases} \]
  • Temos como obter o parâmetro \(\lambda\) da distribuição da v.a.c. X: \[\mathbb{E}(X) = \frac{1}{\lambda}=10\] \[\therefore \lambda = 0.1\] \[\mathbb{P}(X < 10 | \lambda = 0.1) = \mathbb{P}(X \le 10 | \lambda = 0.1) =\mathbb{F}(X=10)\] \[\mathbb{F}(X=10)= 1 - e^{-\lambda x}= 1- e^{\frac{1}{10} \times 10}= 0.6321206\] Pelo R:

    pexp(q = 10, rate = 0.1)
    ## [1] 0.6321206
  • No intervalo não nos preocupamos com os extremos serem abertos ou fechados, pois a probabilidade de uma variável contínua em um ponto é nula, logo podemos fechar os extremos do intervalos ou deixa-los em aberto: \[\mathbb{P}(10 \le X < 11)= \mathbb{P}(10 < X \le 11)= \mathbb{P}(10 < X < 11) =\mathbb{P}(10 \le X \le 11) = \mathbb{F}(X=11) - \mathbb{F}(X=10)=\] \[\mathbb{P}(10 \le X \le 11) =1- e^{\frac{1}{10} \times 11}- \left(1- e^{\frac{1}{10} \times 10}\right)=0.03500836\]

    Pelo R:

    pexp(q = 11, rate = 0.1)-pexp(q = 10, rate = 0.1)
    ## [1] 0.03500836

Cedo ou tarde, as máquinas falham. Suponha que o tempo de falha (em unidades de mil horas) de uma certa máquina seja uma variável aleatória com distribuição exponencial de parâmetro 𝜆.

A experiência mostra que a probabilidade de que o tempo de falha de uma certa máquina exceda 11 mil horas é 0.56.

A tolerância de erro para a correção dos itens é ±0.01 e ±1, respectivamente.
  • Calcule o valor do parâmetro 𝜆.
  • Usando o parâmetro 𝜆 determinado no item anterior, calcule o tempo \(x_0\) tal que a probabilidade de que o tempo de falha seja menor do que \(x_0\) mil horas seja 0.11. Arredonde sua resposta para o maior inteiro mais próximo.

X: é uma variável aleatória contínua que mede o tempo de funcionamento de uma máquina antes dela vir a falhar. \[ X \sim Exp(\lambda )\] Para \(x\) \(\ge\) 0 , temos a densidade de probabilidade de uma v.a.c. de distribuição exponencial sendo: \[f(x) = \begin{cases} \lambda e^{-\lambda x}, & \mbox{para } x\ge 0 \\ 0, & \mbox{caso contrário } x<0 \end{cases} \]

A função acumulada: \[\mathbb{F}(X= x) = \mathbb{P}(X\le x) =\begin{cases} 1- e^{-\lambda x}, & \mbox{para } x\ge 0 \\ 0, & \mbox{caso contrário } x<0 \end{cases} \]
  • A unidade de \(X\) é em mil horas, temos:
    \[\mathbb{P}(X > 11) = 1 - \mathbb{P}(X < 11)=0.56 = 1-(1 - e^{-\lambda \times 11})\]

    \[e^{-\lambda \times 11} = 0.56 \iff ln(e^{-\lambda \times 11}) = ln(0.56) \iff \lambda = -\frac{1}{11}\times ln(0.56) \] \[\therefore \lambda = 0.05271077\]

    lambda <- -log(0.56)/11
    ##testando P(X>11|lambda)
    pexp(q = 11, rate = lambda, lower.tail = FALSE)
    ## [1] 0.56
  • \[\mathbb{P}(X < x_0) = 0.11 \] \[1-e^{-\lambda x_0} = 0.11 \iff e^{- \lambda x_0}=0.89 \iff ln(e^{- \lambda x_0})=ln(0.89) \iff\] \[\iff x_0=-\frac{ln(0.89)}{\lambda}\] \[\therefore x_0 = 2.210816\] O maior inteiro mais próximo como resposta será: \[\lceil x_0 \rceil= 3\]
A densidade de uma variável aleatória 𝑋 é dada por 𝑓(𝑥)=\(bx^4\), se 𝑥∈[0,𝑐], e 𝑓(𝑥)=0 caso contrário. Sabe-se que 𝐸(𝑋)=0.55.
  • Encontre 𝑏. A tolerância de erro para a correção é ±0.5.
  • Encontre 𝑐. A tolerância de erro para a correção é ±0.1.
  • Calcule 𝑃(0≤𝑋≤𝑐/3). A tolerância de erro para a correção é ±0.01.
  • Calcule 𝑉𝑎𝑟(𝑋). A tolerância de erro para a correção é ±0.01.
(b):

Temos que a integral imprópria da \(f(x)\), densidade de probabilidade da variável aleatória contínua, será:

\[\int_{-\infty}^{+\infty}{f(x)dx = 1}\] Como 𝑥∈[0,𝑐], resumimos: \[\int_{0}^{c}{f(x)dx = 1}\] \[\int_{0}^{c}{bx^4dx = 1} \iff \tfrac{1}{5} bx^5 \Big|_0^c=1 \iff \tfrac{1}{5} bc^5 -\tfrac{1}{5} b(0)^5=1\] \[\tfrac{1}{5} bc^5 =1 \tag{1}\] Utilizando a esperança da variável X encontraremos uma segunda equação que permita determinar o termo b com a expressão acima: \[\mathbb{E}[X] = \mu_X= \int_{-\infty}^{+\infty}{x.f(x)dx}\] \[\mathbb{E}[X] = \int_{0}^{c}{x(bx^4)}dx=0.55 \iff \int_{0}^{c}{bx^5}dx=0.55 \iff \tfrac{1}{6} bx^6 \Big|_0^c=0.55 \iff \]

\[\tfrac{1}{6} bc^6 =0.55 \tag{2} \] De \(\frac{(2)}{(1)}\), temos: \[\frac{5}{6}c=0.55\] \[\therefore c =0.66\] (a):

Substituindo c em (1), temos:

\[\tfrac{1}{5} b(0.66)^5 =1 \] \[\therefore b =39.9255 \]

(c):

Com os valores de b e c conhecidos, calculamos a seguinte acumula:

\[\mathbb{F}(X=c/3)=\mathbb{P}(X \le c/3)=\int_{0}^{c/3}{bx^4}dx \iff \tfrac{1}{5} bx^5 \Big|_0^{c/3}=\tfrac{1}{5} b(c/3)^5 \] \[\therefore \mathbb{F}(X=c/3)=\tfrac{1}{5} b(c/3)^5=0.004115227 \]

(d):

A variância será:

\[\mathbb{Var}[X] = \sigma^2_X=\mathbb{E}[(X- \mu_X)^2]=\int_{-\infty}^{+\infty}{(x- \mu_X)}^2f(x)dx \]

Conhecendo a média(\(\mu_X\)=0.55) do enunciado, temos: \[\mathbb{Var}[X] = \int_{0}^{c}{(x-0.55)}^2bx^4dx= 0.008642857 \] Usando o R para resolver numericamente a integral:

c <- 0.55*6/5
b <- 5/c^5
mu <- 0.55
fx <- function(x){
  b*x^4
}
gx <- function(x){
  (x-mu)^2*fx(x)
}
integrate(gx, lower = 0, upper = c)$value
## [1] 0.008642857
Seja 𝑍 uma v.a. com distribuição normal padrão, ou seja, 𝑍∼Normal(𝜇=0,𝜎2=1). Calcule as probabilidades a seguir.
  • 𝑃(𝑍≤−0.4)
  • 𝑃(𝑍≤−0.15)
  • 𝑃(𝑍>−0.35)
  • 𝑃(𝑍<−0.78)
  • 𝑃(𝑍<−0.23)
  • 𝑃(𝑍<0.95)
  • 𝑃(𝑍=−0.38)
pnorm(q= -0.4)                        # item a
## [1] 0.3445783
pnorm(q = -0.15)                      # item b
## [1] 0.4403823
pnorm(q = -0.35, lower.tail = FALSE)  # item c
## [1] 0.6368307
pnorm(q = -0.78)                      # item d
## [1] 0.2176954
pnorm(q = -0.23)                      # item e
## [1] 0.4090459
pnorm(q = 0.95)                       # item f
## [1] 0.8289439
# item g: probabilidade em um ponto é nula para v.a.c.
Seja 𝑍 uma v.a. com distribuição normal padrão, ou seja, 𝑍∼Normal(𝜇=0,\(𝜎^2\)=1). Calcule as probabilidades a seguir.
  • 𝑃(−1.85<𝑍<−0.12)
  • 𝑃(−0.69<𝑍<−0.39)
  • 𝑃(−1.86<𝑍<0.91)
  • 𝑃(−0.18<𝑍<0.67
  • 𝑃(−1.26<𝑍<1.11)
  • 𝑃(0<𝑍<1.23)
pnorm(q = -0.12) - pnorm(q = -1.85)    #item a
## [1] 0.4200848
pnorm(q = -0.39) - pnorm(q = -0.69)    #item b
## [1] 0.1031712
pnorm(q = 0.91) - pnorm(q = -1.86)     #item c
## [1] 0.787146
pnorm(q = 0.67) - pnorm(q = -0.18)     #item d
## [1] 0.3199948
pnorm(q = 1.11) - pnorm(q = -1.26)     #item e
## [1] 0.7626658
pnorm(q = 1.23) - pnorm(q = 0)         #item f
## [1] 0.3906514
Seja 𝑋∼Normal(𝜇=7,\(𝜎^2\)=4). Calcule as probabilidades a seguir.
  • 𝑃(5.81<𝑋<6.27)
  • 𝑃(5.75<𝑋<6.42)
  • 𝑃(6.45<𝑋<8.85)
pnorm(q = 6.27, mean = 7, sd =2) - pnorm(q = 5.81, mean = 7, sd =2) #item a
## [1] 0.08163397
pnorm(q = 6.42, mean = 7, sd =2) - pnorm(q = 5.75, mean = 7, sd =2) #item b
## [1] 0.1199226
pnorm(q = 8.85, mean = 7, sd =2) - pnorm(q = 6.45, mean = 7, sd =2) #item c
## [1] 0.4308589
Seja 𝑍∼Normal(0,1). Encontre 𝑧 nas expressões a seguir.
  • 𝑃(𝑍>𝑧)=0.8904
  • 𝑃(𝑍>𝑧)=0.0809
  • 𝑃(𝑍<𝑧)=0.1607
  • 𝑃(𝑍<𝑧)=0.6577
  • 𝑃(|𝑍|>𝑧)=0.418
  • 𝑃(|𝑍|>𝑧)=0.1477
  • 𝑃(|𝑍|<𝑧)=0.1351
  • 𝑃(|𝑍|<𝑧)=0.2577
qnorm(p = 0.8904, lower.tail = FALSE)                     # item a
## [1] -1.228658
qnorm(p = 0.0809, lower.tail = FALSE)                     # item b
## [1] 1.399043
qnorm(p = 0.1607)                                         # item c
## [1] -0.991585
qnorm(p = 0.6577)                                         # item d
## [1] 0.4061941
qnorm(p = 0.418/2, lower.tail = FALSE)                    # item e
## [1] 0.8098959
qnorm(p = 0.1477/2, lower.tail = FALSE)                   # item f
## [1] 1.447703
qnorm(p = (1-0.1351)/2, lower.tail = FALSE)               # item g
## [1] 0.17014
qnorm(p = (1-0.2577)/2, lower.tail = FALSE)               # item h
## [1] 0.3288091

Suponha que o tempo que um aluno gasta para ir de casa até a UNICAMP segue aproximadamente uma distribuição Normal com média 41 minutos e desvio padrão 10 minutos. Se este aluno tem uma prova às 8:00 e quer ter 90% de certeza de que não vai chegar atrasado, quantos minutos antes da prova ele deverá sair de casa?

Arredonde para o maior inteiro.

\[X \sim \mathcal{N}(\mu = 41, \sigma=10)\] \[\mathbb{P}(X \le x) = 0.90\]

qnorm(p = 0.90, mean = 41, sd = 10)
## [1] 53.81552

Assim: \[\therefore \lceil x \rceil=54\] Logo ele deve sair com 54 minutos de antecedência.

A pontuação em um exame de admissão em uma determinada universidade segue a distribuição normal com média 387 e desvio padrão 73.
  • Se apenas os candidatos cujas notas estão entre as 23% melhores são admitidos, qual a nota de corte para admissão nesta universidade?
  • Se apenas os candidatos cujas notas estão entre as 9% melhores são admitidos, qual a nota de corte para admissão nesta universidade?
\[X \sim \mathcal{N}(\mu = 387, \sigma=73)\]
  • 23% melhores: \[\mathbb{P}(X \ge x) = 0.23\]

    qnorm(p = 0.23, lower.tail = FALSE, mean = 387, sd = 73)
    ## [1] 440.9358
  • 9% melhores: \[\mathbb{P}(X \ge x) = 0.09\]

    qnorm(p = 0.09, lower.tail = FALSE, mean = 387, sd = 73)
    ## [1] 484.8751
A bateria do seu velho carro precisa ser trocada imediatamente, mas você ainda quer percorrer mais 30000 km antes de vender seu velho carro. Você tem que escolher entre duas marcas de bateria (𝐴 e 𝐵), que custam o mesmo preço. Após grande pesquisa, você descobriu que a duração das baterias da marca 𝐴 segue a distribuição normal com média 37000 km e desvio padão 6000 km e que entre as baterias da marca 𝐵 a distribuição normal com média 32000 km e desvio padão 5000 km.
  • Qual a probabilidade da bateria da marca 𝐴 durar pelo menos 30000 km? A tolerância da correção é 0.05.
  • Qual a probabilidade da bateria da marca 𝐵 durar pelo menos 30000 km? A tolerância da correção é 0.05.
  • Se tudo o que importa para você é que a bateria dure pelo menos 30000 km, qual marca você deve comprar? Responda 1 para 𝐴 ou 2 para 𝐵. A tolerância da correção é 0.
Sejam as v.a.c. \(X_A\) e \(X_B\) em milhares de km: \[X_A \sim \mathcal{N}(\mu =37, \sigma=6)\] \[X_B \sim \mathcal{N}(\mu =32, \sigma=5)\]
  • A probabilidade buscada é traduzida como:

    \[\mathbb{P}[X_A > 30| \mathcal{N}(37,6)]\]

    pnorm(q = 30, mean = 37, sd = 6, lower.tail = FALSE)
    ## [1] 0.8783275
  • A probabilidade buscada é traduzida como:

    \[\mathbb{P}[X_B > 30| \mathcal{N}(32,5)]\]

    pnorm(q = 30, mean = 32, sd = 5, lower.tail = FALSE)
    ## [1] 0.6554217
  • Devemos comprar a bateria A, logo: 1

Distribuição Amostral

Nos Estados Unidos, 37% das pessoas admitem bisbilhotar nos armários de banheiro de outras pessoas. Você seleciona aleatoriamente 230 pessoas nos EUA e lhes pergunta se eles bisbilhotam no armário do banheiro de outras pessoas. Qual é a probabilidade de que pelo menos 75 digam sim? Use a aproximação da binomial pela normal.

(A tolerância da correção é ±0.05)

Seja \(p\)=0.37 o valor do parâmetro populacional, que mede a fração da população que admite bisbilhotar nos armários e banheiros de outras pessoas, X é uma v.a.d. que mede a quantidade de pessoas que dizem sim e n = 230 é o tamanho da amostra. Temos:

\[X \sim Bin(n=230, p=0.37)\]
Condições para aplicar a aproximação normal para a binomial:
1.As respostas dadas são independentes entre si;
2.\(np=230\times 0.73=167.9 > 10;\)
3.\(np(1-p)=230\times 0.73 \times 0.27=45.33 > 10 .\)

Satisfeito as condições anteriores podemos aplicar a aproximação, assim: \[\mu = np=85.1 \\ \sigma^2 = np(1-p)=53.613\] A expressão “pelo menos” indica que será: \[\mathbb{P}(X \ge 75|p=0.37, n=230)=\sum_{k=75}^{230} \binom{230}{k}p^{k}(1-p)^{230-k}\] Vai ser aproximado pela normal: \[\mathbb{P}(X \ge 75|p=0.37, n=230)\approx \mathbb{P}(X \ge 75|\mathcal{N}(\mu=85.1, \sigma = 7.32209)) \] Podendo ser transformado para normal padrão: \[Z_{lim}=\frac{75-85.1}{7.32209}=-1.379388\] \[\mathbb{P}(X\ge 75|p=0.37, n=230)\approx \mathbb{P}(Z \ge Z_{lim} |\mathcal{N}(\mu=0, \sigma = 1))=\\ =1-\mathbb{P}(Z < Z_{lim} |\mathcal{N}(\mu=0, \sigma = 1))=0.9161124 \]

p <- 0.37 ; n <- 230
mu <- n*p; sigma_2 <-n*p*(1-p)
X <- 75
Z_lim <-(X - mu)/sqrt(sigma_2)
1-pnorm(Z_lim)
## [1] 0.9161124
#ou
pnorm(Z_lim, lower.tail = FALSE)
## [1] 0.9161124

O tempo de vida de uma determinada espécie de inseto é uma variável aleatória que pode ser modelada usando uma distribuição exponencial com parâmetro λ= 1/19 dias.

  • Quantos dias em média essa espécie de inseto sobrevive?
  • Qual a variância do tempo de vida dessa espécie de inseto?
  • Qual a probabilidade de que um inseto dessa espécie sobreviva pelo menos 19 dias?
  • Se você coletar uma amostra aleatória de tamanho 600 dentre os insetos dessa espécie e calcular a média, qual o valor esperado desta média amostral?
  • Se 46% dos insetos dessa espécie sobrevivem no máximo t dias, qual o valor de t?
  • Você coleta uma amostra aleatória de tamanho 130 dentre os insetos dessa espécie e calcula a média. Você repete este procedimento 600 vezes. O histograma a seguir representa a distribuição das médias amostrais. O desvio-padrão destas 600 médias amostrais será próximo a qual valor?
  • Considere uma amostra aleatória de 130 insetos dessa espécie. Qual o percentil 46 da distribuição da média amostral do tempo de vida desses insetos?

Seja X uma v.a.c.(variável aletória contínua) que mede o tempo de vida em dias de uma determinada espécie de inseto. A função densidade de distribuição de probabilidade(conhecido como pdf(probability density function)) é dado pelo modelo de distribuição exponencial. Logo:

\[X \sim Exp(\lambda)\]

  • A média será dada pela esperança de X. A mesma é dada em um distribuição exponencial como: \[\mathbb{E}[X]=\frac{1}{\lambda}=19\] Média de 19 dias.
  • A variança desta distribuição exponencial é: \[\mathbb{Var}[X]=\frac{1}{\lambda^2}=361\] Variância de 361 \({dias}^2\).
  • \[\mathbb{P}(X \ge 19)=1-F(x=19)=\\ =1-\int_0^{19}{\lambda e^{-\lambda x}dx}=1-e^{\lambda t}\Big|_0^{x=19}=1-(1-e^{-19\times \big(\frac{1}{19}\big)})=\\ =e^{-1}= 0.3678794\]

    #item c
    exp(-1);
    ## [1] 0.3678794
    ## outra forma
    pexp(q=19, rate = 1/19, lower.tail = FALSE)
    ## [1] 0.3678794
  • Considerando que temos uma amostra aletória de tamanho n=600, esperamos que a média amostral \(\overline{X}\) tenha como valor esperado a esperança de X, ou seja: \[\mathbb{E}[\overline{X}]=\mathbb{E}[X]=\mu= \frac{1}{\lambda}=19\]

  • \[\mathbb{P}(X \le t) =0.46\] \[\int_0^t \lambda e^{-\lambda t}= 0.46 \implies 1-e^{-t\times 1/19}=0.46 \iff e^{-t\times 1/19}=0.54 \iff \\ \iff ln(e^{-t\times 1/19})=ln(0.54) \iff \frac{-t}{19}=ln(0.54) \iff\\ \iff t= -19\times ln(0.54)\\ \therefore t = 11.70754\]

    #item e
     -19*log(0.54);
    ## [1] 11.70754
    #outra forma
    qexp(p = 0.46, rate = 1/19)
    ## [1] 11.70754
  • O desvio padrão das médias amostrais será: \[S=\Big(\frac{\sigma^2}{n}\Big)^{1/2}=\Big(\frac{1/ \lambda^2}{n}\Big)^{1/2}=\Big(\frac{1}{n\lambda^2}\Big)^{1/2}=\frac{19}{\sqrt{130}}\\ \therefore S= 1.66641\]

    #item f
    lambda <- 1/19; n_f <- 130; 
    sigma <- 1/(lambda);
    S <- sigma/sqrt(n_f)
    S
    ## [1] 1.66641
  • A média amostral do tempo de vida insetos é uma v.a.c. que tem uma distribuição normal de acordo com o TLC(Teorema do Limite Central), sendo os parâmetros dados pela distribuição exponencial, logo:

    \[\overline{X} \sim N\Big(\mu=1/\lambda, \sigma=\sqrt{\frac{1/\lambda^2}{n}}\Big)\] A função densidade de probabilidade da normal tem a forma analítica: \[f(x|\mu, \sigma) =\frac{1}{\sqrt{2\pi\sigma^2}}e^{\frac{-(x-\mu)^2}{2\sigma^2}},\: -\infty <x< +\infty \]

    Nosso problema é expresso: \[ \mathbb{P}(\overline{X} \le t|\mu, \sigma) = \alpha=0.46\\ \int_{-\infty}^{x=t}f(x)dx=0.46\]

    \[ F(t) =\mathbb{P}(\overline{X} \le t)= \frac{1}{\sqrt{2\pi \sigma^2}}\int_{-\infty}^{t}{e^{\frac{-(x-\mu)}{2\sigma^2}}dx}=0.46\\ \] A forma analítica complexa é reduzida pela transformação para a normal padrão permitindo o uso de tabelas: \[ Z_{\alpha}= \frac{t-\mu}{\sigma} \sim \mathcal{N}(0,1) \]

    Assim a forma analítica que encontramos em tabelas, por curiosidade fica: \[ F(t) =\mathbb{P}\Big(Z \le \frac{t-\mu}{\sigma}\Big)= \phi(Z=Z_{\alpha})=\alpha\\ \phi(Z_{\alpha})=\frac{1}{\sqrt{2\pi }}\int_{-\infty}^{\frac{(t-\mu)}{\sigma}}{e^{\frac{-z^2}{2}}dz}=0.46 \] Efetivamente quando usamos alguma tabela com normal padrão, estamos lidando com a função inversa, \(\phi^{-1}(\alpha)\). Sendo o nosso valor encontrado na tabela normal padrão: \[ Z_{\alpha}=\phi^{-1}(0.46)=-0.1004337 \]

    Finalmente encontrado o valor na forma padrão basta realizar a transformação:

    \[ t= Z_{\alpha}\times\sigma + \mu=\frac{-0.1004337 \times 19}{\sqrt{130}}+19=18.83264 \]

    #item g
    Z_alpha <- qnorm(p = 0.46)
    t<- Z_alpha*S+(1/lambda)
    t
    ## [1] 18.83264
Passageiros participantes de um programa de milhagens de uma companhia aérea acumulam em média 18 mil milhas por ano com desvio padrão 9 mil milhas por ano. Durante uma promoção, a companhia aérea decide escolher 50 participantes do programa de milhagens e dar um bônus de R$10,00 para cada 1000 milhas percorridas.
  • Qual a probabilidade de que o total de bonificações fique entre 8500 e 9000 reais?
  • Qual a probabilidade de que o total de bonificações fique acima de 10500 reais?
  • População

    X é a v.a.c. que mede a quantidade em milhares de milhas por ano de um passageiro, esta tem distribuição normal parâmetros \(\mu_x=18\)(em milhares de milhas por ano) e \(\sigma_X=9\)(em milhares de milhas por ano) \[X \sim \mathcal{N}(\mu_X, \sigma_X)\] Amostra

    O bônus é concedido a uma amostra aleatória da população, sendo seu tamanho \(n=50\). Seja uma B uma v.a.c definida como segue:

    \[B = 10X_1+10X_2+ \dots + 10X_{50}= \sum_{i=1}^{50}{10X_i}\] Uma somatória de variáveis aleatórias contínuas de distribuição normal também tem uma distribuição normal, logo: \[B \sim \mathcal{N}(\mu_B, \sigma_B)\] Sendo: \[\mu_B= \mathbb{E}[B]=\mathbb{E}\Big[\sum_{i=1}^{50}{10X_i}\Big]\\ =10\sum_{i=1}^{50}{\mathbb{E}[X_i}]=10\times 50 \times \mu_X=9000\\ \therefore \mu_X=9000\]

    \[\sigma_B^2= \mathbb{Var}[B]=\mathbb{Var}\Big[\sum_{i=1}^{50}{10X_i}\Big]\\ =10^2\sum_{i=1}^{50}{\mathbb{Var}[X_i}]=10^2\times 50 \times \sigma_X^2=10^2(25^22)9^2\\ \therefore \sigma_X=450\sqrt{2}\] Vamos converter na normal padrão nosso intervalo para uso da tabela: \[\mathbb{P}(8500 \le B \le 9000)= \mathbb{P}\Big(\frac{8500-9000}{450\sqrt{2}} \le Z \le \frac{9000-9000}{450\sqrt{2}} \Big) =\\ =\mathbb{P}(-0.7856742 \le Z \le 0)=\phi(0)-\phi(-0.7856742)=\\ 0.5-0.2160292=0.2839708\\ \therefore \mathbb{P}(8500 \le B \le 9000)=0.2839708\]

    mu <- 9000
    sigma <- 450*sqrt(2)
    Binf <- 8500
    Bsup <- 9000
    Zinf <- (Binf-mu)/sigma
    Zsup <- (Bsup-mu)/sigma
    pnorm(Zsup)- pnorm(Zinf)
    ## [1] 0.2839708
  • Analogamente:

    \[\mathbb{P}(B \ge 10500)= \mathbb{P}\Big( Z \ge \frac{10500-9000}{450\sqrt{2}} \Big) =\\ =\mathbb{P}(Z \ge 2.357023)=1-\mathbb{P}(Z \le 2.357023)=\\ =1-\phi(2.357023)=1-0.9907889= 0.009211063\\ \therefore \mathbb{P}(B \ge 10500)=0.2839708\]

    mu <- 9000
    sigma <- 450*sqrt(2)
    B <- 10500
    Z <- (B-mu)/sigma
    #1° Forma
    1-pnorm(Z)
    ## [1] 0.009211063
    #2° Forma
    pnorm(Z,lower.tail = FALSE)
    ## [1] 0.009211063
O histograma apresenta a distribuição de uma variável contínua de interesse de uma certa população. Assume-se que a variável pode ser modelada usando a distribuição uniforme com parâmetros 40 e 57.
  • Se você coletar uma amostra aleatória de tamanho 550 desta população e calcular a média, qual o valor esperado desta média amostral?
  • Você coleta uma amostra aleatória de tamanho 100 desta população e calcula a média. Você repete este procedimento 550 vezes. O desvio-padrão destas 550 médias amostrais será próximo a qual valor?
  • A esperença da média amostral é igual a média da população, logo:

    \[\mathbb{E}[\overline{X}]=\mu_X\\ X \sim Unif(a=40, b=57) \implies\\ \implies \mathbb{E}[X]=\mu_x= \frac{b+a}{2}=\frac{57+40}{2}\\ \therefore \mu_X=48.5\;\;\;\;\;\;\;\therefore\mathbb{E}[X]=48.5 \]
  • O desvio padrão amostral, \(S_{\overline{X}}\), será:

    \[ S_{\overline{X}}=\sqrt{\mathbb{Var}[\overline{X}]}=\sqrt{\frac{\sigma_X^2}{n}}=\frac{\sigma_X}{\sqrt{n}}\] Onde n é o tamanho da amostra, neste caso n=100.

    O desvio padrão populacional, \(\sigma_X\), será na uniforme contínua:

    \[\sigma_X^2=\mathbb{Var}[X]=\frac{(b-a)^2}{12}=\frac{(57-40)^2}{12}\\ \sigma_X^2=24.08333 \implies \sigma_X=\sqrt{24.08333}=4.907477\]

    Finalmente, subtituindo:

    \[ S_{\overline{X}}=\frac{\sigma_X}{\sqrt{n}}=\frac{4.907477}{\sqrt{100}}=0.490748\]

O histograma a seguir apresenta a distribuição das distâncias de casa até a Unicamp entre todos os alunos do primeiro ano. Assume-se que a distância pode ser modelada usando a distribuição exponencial e sabe-se que a média é 4km.
  • Se você coletar uma amostra aleatória de tamanho 500 dentre os alunos do primeiro ano e calcular a média, qual o valor esperado desta média amostral? Arredonde para 2 casas decimais.

  • 95% dos alunos estão a uma distância de no máximo C da Unicamp. Qual o valor de C?

  • Você coleta uma amostra aleatoria de tamanho 120 dentre os alunos do primeiro ano e calcula a média. Você repete este procedimento 500 vezes e o histograma representando a distribuição dessas médias amostrais é apresentado a seguir. O desvio padrão destas 500 médias amostrais será próximo a qual valor? Arredonde para 2 casas decimais.

  • Considere uma amostra aleatória de 120 alunos do primeiro ano. Qual o percentil 95 da distribuição da média amostral da distância de casa até a Unicamp?

  • \(X\) é uma v.a.c. com distribuição exponencial de parâmetro \(\lambda=1/\mu_X=1/4\). Podendo ser escrito:

    \[X \sim Exp(\lambda=0.25)\\ \mathbb{E}[X]= 1/\lambda= \mu_X=4\]

    \(\overline{X}\) é uma v.a.c. definido como média amostral. A esperança dela é exatamente igual a média populacional, logo:

    \[\mathbb{E}[\overline{X}]=\mathbb{E}\Big[\frac{1}{n}\sum^n_{i=1}{X_i}\Big]=\\=\frac{1}{n}\sum^n_{i=1}\mathbb{E}[{X_i}]=\frac{1}{n}\sum^n_{i=1}\mu_X=\\=\frac{n}{n}\mu_X=\mu_X\\ \therefore \mathbb{E}[\overline{X}]=\mu_X=4\]

  • \[\mathbb{P}[X \le C] =F(C)=0.95\]

    Como X tem distribuição exponencial vamos integrar a função densidade de probalidade \(f(x)\) para encontrar sua acumulada, \(F(C)\), assim:

    \[f(x)= \lambda e^{-\lambda x}\\ F(C)= \int_{0}^{C}f(x)dx=\int_{0}^{C}\lambda e^{-\lambda x}dx= \\ =-e^{-\lambda x}\Big|_{x=0}^C=-e^{-\lambda C}-(-e^0)=1-e^{-\lambda C}=0.95\\ e^{-\lambda C}=1-0.95 \implies -\lambda C= ln(0.05)\\ \therefore C= \frac{-1}{\lambda}ln(0.05)=11.98293\]
  • \[S_{\overline{X}}^2= \mathbb{Var}[\overline{X}]=\mathbb{Var}\Big[\frac{1}{n}\sum_{i=1}^{n}{X_i}\Big]=\frac{1}{n^2}\sum_{i=1}^{n}\mathbb{Var}[X_i]=\\ =\frac{1}{n^2}\sum_{i=1}^{n}\frac{1}{\lambda^2}=\frac{1}{n \lambda^2}\\ \therefore S^2_{\overline{X}}=\frac{1}{n \lambda^2} \implies \therefore S_{\overline{X}}=\frac{1}{\sqrt{n} \lambda}=\frac{4}{\sqrt{120}}=0.3651484 \]
  • Para a amostra podemos usar o fato que a média amostral tem distribuição normal, usando o TLC, com parâmetros \(\mu_{\overline{X}}=\mu_X=1/\lambda\) e \(S=\sigma_{\overline{X}}=\frac{\sigma_{X}}{\sqrt{n}}=\frac{1}{\lambda\sqrt{n}}\)(advindos da distribuição exponencial). Assim:

    \[\overline{X} \sim \mathcal{N}(\mu_{\overline{X}}=1/\lambda, \sigma_{\overline{X}}=1/\lambda\sqrt{n})\\ \mathbb{P}(\overline{X} \le C) = 0.95 \] Da normal padrão sabemos:

    qnorm(0.95)
    ## [1] 1.644854

    Assim, realimos a transformação: \[Z=\frac{C-\mu}{\sigma/\sqrt{n}} \implies C= \mu+Z\frac{\sigma}{\sqrt{n}}\\ C= 4+1.644854\times \frac{4}{\sqrt{120}}=4.600616\]

Um importante indicador da função pulmonar é o volume expiratório forçado (VEF): o volume de ar que uma pessoa consegue expirar em um segundo. A Dra. Roseli deseja medir o VEF em uma amostra aleatória de mulheres de uma certa população de interesse e usar a média obtida na amostra para estimar a média da população de interesse.

Seja 𝐸 o evento indicando que a média amostral está entre ±88 ml da média da população. Suponha que o VEF na população de interesse segue a distribuição normal com média 2750 ml e desvio padrão 350 ml.
  • Encontre a probabilidade do evento 𝐸 ocorrer quando o tamanho amostral é 16.
  • Encontre a probabilidade do evento 𝐸 ocorrer quando o tamanho amostral é 39.
  • Você precisa utilizar o Teorema Central do Limite no cálculo do item anterior? Responda 1 para “sim” ou 2 para “não”.
  • Como a probabilidade do evento 𝐸 ocorrer está relacionada com o tamanho amostral, isto é, se o tamanho amostral aumenta, a probabilidade do evento 𝐸 ocorrer aumenta, diminuiu ou permanece a mesma? Responda: “aumenta”, “diminui”, “permanece”.
  • Encontre a probabilidade do evento 𝐸 ocorrer quando o tamanho amostral é 16, mas a média populacional é 2550ml.
  • Encontre a probabilidade do evento 𝐸 ocorrer quando o tamanho amostral é 39, mas a média populacional é 2550ml.
  • Como a probabilidade do evento 𝐸 ocorrer está relacionada com a média populacional, considerando tamanho amostral fixo? Por exemplo, se a média populacional aumenta, mas o tamanho amostral é o mesmo, a probabilidade do evento 𝐸 ocorrer aumenta, diminuiu ou permanece a mesma? Responda: 1 para “aumenta”, 2 para “diminui” ou 3 para “permanece”.

    Dado:

    População

    X é uma v.a.c. de distribuição normal que mede o volume expiratório forçado(VEF, em ml) em um certa população. \[X \sim \mathcal{N}(\mu_X=2750, \sigma_X=350)\]
  • Amostra A(\(n_A=16\))

    A média amostral A será:

    \[\overline{X}_A \sim N\Big(\mu_X, \frac{\sigma_X}{n_A}\Big)\]

    A margem de erro(\(ME=\)±88ml) pode ser expressa:

    \[ME = Z_A\frac{\sigma_X}{\sqrt(n_A)}\]

    Sendo \(Z_A\):

    \[ Z_A = \frac{\Big(\mu_X- \overline{X} \Big)}{\sigma_{\overline{X}}} = \frac{ME}{\sigma_X/\sqrt{n_A}} \\ Z_A=1.005714\]

    Logo: \[\mathbb{P}(|Z| \le Z_A)= \mathbb{P}(-Z_A \le Z \le Z_A)=\\ =\mathbb{P}(Z_A)- \mathbb{P}(-Z_A)= \mathbb{P}(Z_A)-(1-\mathbb{P}(Z_A)=\\ =2\mathbb{P}(Z_A)-1\\ \mathbb{P}(|Z| \le Z_A)=2 \times 0.8427235-1=0.685447\]

    sigma_X <- 350
    n_A <- 16
    sigma_Xbar_A <- sigma_X/sqrt(n_A)
    ME <- 88
    Z_A <-ME/(sigma_Xbar_A)
    Z_A
    ## [1] 1.005714
    2*pnorm(Z_A)-1
    ## [1] 0.685447
  • Amostra B(\(n_B=39\))

    A média amostral B será: \[\overline{X}_B \sim N\Big(\mu_X, \frac{\sigma_X}{\sqrt{n_B}}\Big)\] Analogamente ao item anterior:

    A margem de erro(\(ME=\)±88ml) pode ser expressa:

    \[ME = Z_B\frac{\sigma_X}{\sqrt{n_B}}\]

    Sendo \(Z_B\):

    \[Z_B= \frac{\Big(\mu_X- \overline{X} \Big)}{\sigma_{\overline{X}}}=\frac{ME}{\sigma_X/\sqrt{n_B}}\\ Z_B=1.570171\]

    Logo:

    \[\mathbb{P}(|Z| \le Z_B)= \mathbb{P}(-Z_B \le Z \le Z_B)=\\ =\mathbb{P}(Z_B)- \mathbb{P}(-Z_B)= \mathbb{P}(Z_B)-(1-\mathbb{P}(Z_B))=\\ =2\mathbb{P}(Z_B)-1\\ \mathbb{P}(|Z| \le Z_B)=2 \times0.9418123 -1=0.8836246\]

    sigma_X <- 350
    n_B <- 39
    sigma_Xbar_B <- sigma_X/sqrt(n_B)
    ME <- 88
    Z_B <-ME/(sigma_Xbar_B)
    Z_B
    ## [1] 1.570171
    2*pnorm(Z_B)-1
    ## [1] 0.8836246
  • 2: não precisa, mas pode ser usado. Sem ele podemos derivar o resultado uma vez que nossa variável aleatória contínua média amostral(\(\overline{X}\)) depende de outras variáveis aleatórias contínuas, \(X_i\) tal que para qualquer \(i\)-ésimo da população que componha nossa amostra, ele tem distribuição normal. Logo, uma soma de v.a.c. de distribuição normal produz outra v.a.c. de distribuição normal.

    O TLC é bastante forte e usado quando a distribuição da população original não é normal. Assim, para uma amostra de tamanho suficientemente grande, temos assintoticamente que a média amostral é uma variável aletória contínua de distribuição normal com parâmetro(\(\mu_X, \sigma_X/\sqrt{n}\)).

  • 1: aumenta, pois como a probabilidade buscada depende do valor de Z(\(\mathbb{P}(|Z| \le Z_c)= 2\mathbb{P}(Z_c)-1\)), quanto maior ele for maior será a probabilidade. Logo se aumentamos o tamanho da amostra, consequentemente dimunuimos o denominador que por suas vez aumenta o valor de Z.

  • Como a expressão da margem de erro independe da média, temos que a resposta é igual ao item a:

    \[ Z_E=Z_A \\ \mathbb{P}(|Z| \le Z_E)=0.685447 \]
  • Como a expressão da margem de erro independe da média, temos que a resposta é igual ao item b:

    \[ Z_F=Z_B \\ \mathbb{P}(|Z| \le Z_F)=0.8836246 \]
  • 3: permanece constante, pois como vimos indenpende da média populacional.

Inferência: uma população

Uma pesquisa foi divulgada mostrando que 57% moradores de certa cidade achavam ser necessário que motoristas acima de 65 anos fizessem todas as provas práticas de direção novamente. A pesquisa foi feita a partir de uma amostra aleatória de 627 de moradores da cidade.
  • Qual o limite inferior do intervalo de confiança de 99%? A tolerância de erro para a correção dos itens é ±0.015.
  • Qual o limite superior do intervalo de confiança de 99%? A tolerância de erro para a correção dos itens é ±0.015.
  • Baseando-se no intervalo de confiança obtido acima, qual a margem de erro da estimativa obtida na amostra para estimar a proporção, dentre todos os moradores da cidade, que concorda que o exame deve ser refeito após 65 anos? Responda em porcentagem, por exemplo, se a margem de erro é 2.2%, responda 2.2. A tolerância de erro para a correção dos itens é ±0.15.
  • Baseando-se no intervalo de confiança obtido acima, você acredita que a pesquisa esteja indicando que menos do que 52% dos moradores da cidade acredita que o exame deva ser refeito? Responda 1 para “sim” ou 0 para “não”. A tolerância de erro para a correção dos itens é ±0.

    Temos a proporção amostral, tamanho da amostra e o grau de confiança:

    \[ \hat{p}=0.57\:\;\;\;n=627\:\;\;\; \gamma = 99\% \]

    Sabemos que:

    \[ \hat{p} \sim \mathcal{N}\Big(p, \sqrt{\frac{p(1-p)}{n}}\Big) \]

    Para o intervalo de confiança usamos a proporção amostral(\(\hat{p}\)) como uma estimativa para nosso parâmetro populacional(proporção da população, \(p\)).

    \[ \alpha= 1 - \gamma \rightarrow \alpha/2 = \frac{1-\gamma}{2}\\ IC(p= \hat{p} ,\gamma) = \Big[\hat{p}- z^{\star}_{\alpha/2}\frac{s}{\sqrt{n}};\;\; \hat{p}+ z^{\star}_{\alpha/2}\frac{s}{\sqrt{n}}\Big] \\ \alpha= 1 - .99 \rightarrow \alpha/2 = 0.005\\ IC(p= \hat{p} , 0.99) = \Big[\hat{p}- z^{\star}_{0.005}\sqrt{\frac{p(1-p)}{n}};\;\; \hat{p}+ z^{\star}_{0.005}\sqrt{\frac{p(1-p)}{n}}\Big] \]
  • Assim:

    \[ p_{inf}= \hat{p}-z^{\star}_{0.005}\times \frac{s}{\sqrt{n}} \\ p_{inf}= \hat{p}-z^{\star}_{0.005}\times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\\ p_{inf}= 0.57-2.575829 \times \sqrt{\frac{0.57 \times(1-0.57)}{627}}\\ \therefore p_{inf}=0.5190722 \]
  • Assim:

    \[ p_{sup}= \hat{p}+z^{\star}_{0.005}\times \frac{s}{\sqrt{n}} \\ p_{sup}= \hat{p}+z^{\star}_{0.005}\times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\\ p_{sup}= 0.57+2.575829 \times \sqrt{\frac{0.57 \times(1-0.57)}{627}}\\ \therefore p_{sup}=0.5952131 \]
  • Temos: \[ ME = z^{\star}_{0.005}\times \frac{s}{\sqrt{n}}\\ ME = z^{\star}_{0.005}\times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\\ ME = 2.575829 \times \sqrt{\frac{0.57\times(1-0.57)}{627}}\\ ME = 0.05092781\\ \therefore ME_{\%}=5.09\% \]
  • 1: esta, pois 52% esta dentro do intervalo de confiança. \[52\% \in IC_{\%}(\hat{p}_{\%} = 57\%,\gamma_{\%} = 99\%)=[51.91\%, 62.09\%]\]
  • No R ficaria:

    #dados do enunciado
    p_hat <- 0.57
    n <- 627
    gama <- .99 #grau de confiança
    p_d <-.52 #item d
    #resolução
    alpha <- 1 - gama 
    s <- sqrt(p_hat*(1-p_hat)) #desvio padrão amostral
    z_star <- qnorm(alpha/2+gama)
    ME <- z_star*s/sqrt(n)
    p_inf <- p_hat - ME
    p_sup <- p_hat + ME
    p_inf    #item a
    ## [1] 0.5190722
    p_sup    #item b
    ## [1] 0.6209278
    ME
    ## [1] 0.05092781
    ME*100 #item c em %
    ## [1] 5.092781
    ifelse(p_d >= p_inf & p_d <= p_sup, 1, 0) #item d
    ## [1] 1

Algumas incosistências foram encontradas no gabarito oficial

Suponha que você esteja interessado em estimar a proporção de funcionários fumantes em uma empresa. Você coletou uma amostra aleatória de 100 funcionários, dentre os quais 26 fumam.

  • Qual a estimativa da proporção de fumantes da empresa? A tolerância de erro para a correção é ±0.015
  • Qual o limite inferior do intervalo de confiança de 90%? A tolerância de erro para a correção é ±0.015.
  • Qual o limite superior do intervalo de confiança de 90%? A tolerância de erro para a correção é ±0.015.
  • Baseando-se no intervalo encontrado, qual a margem de erro da estimativa obtida na amostra para estimar a proporção, dentre todos os funcionários da empresa, que são fumantes? Responda em porcentagem, por exemplo, se a margem de erro é 2.2%, responda 2.2. A tolerância de erro para a correção é ±0.1
  • Qual o tamanho amostral necessário se você quisesse reduzir sua margem de erro para 6%, mantendo o mesmo nível de confiança? Utilize a informações da sua amostra já coletada. A tolerância de erro para a correção é ±2.
  • Qual o tamanho amostral necessário se você quisesse a margem de erro em 6% mantendo o mesmo nível de confiança, mas ainda não tivesse coletado nenhum dado? A tolerância de erro para a correção é ±2.
  • A estimativa da proporção de fumantes da empresa(\(p\)) será a proporção amostral(\(\hat{p}\)): \[\hat{p}= \frac{26}{100}=0.26\]
  • \[\gamma_{\%}=90\% \rightarrow {\alpha/2}_{\%}=5\% \] \[IC_{inf}=\hat{p}-z_{\alpha/2}^{\star}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] \[ IC_{inf}=0.26-z_{0.05}^{\star}\sqrt{\frac{0.26(1-0.26)}{100}}\\ IC_{inf}=0.26-1.644854\sqrt{\frac{0.26(1-0.26)}{100}}\\ \therefore IC_{inf}=0.1878511 \]
  • \[IC_{sup}=\hat{p}+z_{\alpha/2}^{\star}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] \[ IC_{sup}=0.26+z_{0.05}^{\star}\sqrt{\frac{0.26(1-0.26)}{100}}\\ IC_{sup}=0.26+1.644854\sqrt{\frac{0.26(1-0.26)}{100}}\\ \therefore IC_{sup}=0.3321489 \]
  • A margem de erro será: \[ ME=z_{0.05}^{\star}\sqrt{\frac{0.26(1-0.26)}{100}}\\ ME=1.644854\sqrt{\frac{0.26(1-0.26)}{100}}\\ \therefore ME_{\%}=ME\times 100\%= 7.214891 \]
  • Para a nova margem de erro, o tamanho da amostra será: \[ n = \frac{z_{\alpha/2}^2\hat{p}(1-\hat{p})}{ME^2}\\ n = \Big\lceil\frac{1.644854^2 \times 0.26\times(1-0.26)}{(0.06)^2}\Big\rceil\\ \therefore n = 145 \]

    gama <-.90 # grau de confiança
    alpha <- 1- gama 
    phat <-26/100 # proporção amostral
    ME <-0.06 # Margem de Erro
    n <- qnorm(gama+alpha/2)^2*phat*(1-phat)/ME^2
    ceiling(n)
    ## [1] 145
  • Neste item não temos uma amostra inicial que permita ser usada como estimativa para a proporção populacional, logo vamos usar uma estimativa conservadora(\(p_{\dagger}=1/2\)), assim: \[ n = \frac{z_{\alpha/2}^2p_{\dagger}(1-p_{\dagger})}{ME^2}\\ n = \Big\lceil\frac{1.644854^2 \times 0.5\times(1-0.5)}{(0.06)^2}\Big\rceil\\ \therefore n_{\dagger} = 188 \]

    gama <-.90 # grau de confiança
    alpha <- 1- gama 
    pcon <-0.5 # proporção amostral
    ME <-0.06 # Margem de Erro
    ncon <- qnorm(gama+alpha/2)^2*pcon*(1-pcon)/ME^2
    ceiling(ncon) # n conservador
    ## [1] 188
Você trabalha para uma agência de defesa do consumidor e quer encontrar a média de custo de reparos de máquina de lavar. Como parte de seu estudo, você seleciona aleatoriamente 481 custos de reparos e descobre que a média é $107. O desvio-padrão da amostra é $20.64. Construa um intervalo de confiança de 99% para a média do custo de reparos da população.
  • Qual o limite inferior do intervalo de confiança de 99% para a média do custo de reparos da população?
  • Qual o limite superior do intervalo de confiança de 99% para a média do custo de reparos da população?

    Não conhecemos o desvio padrão populacional, logo usamos a distribuição t-student. Contudo, como o tamanho da amostra é grande, podemos aproximar pela distribuição normal: \[\bar{X} \sim \mathcal{N}\Big(\hat{x}=107, \frac{s}{\sqrt{n}}=\frac{20.64}{\sqrt{481}}\Big)\] \[IC(\mu, \gamma)= \Big[\hat{x} \pm \frac{s}{\sqrt{n}}\Big]\]

    xhat <- 107
    s <- 20.64
    n <-  481
    conf.level <- .99
    list(
      xhat-qnorm(conf.level+(1-conf.level)/2)*s/sqrt(n),
      xhat+qnorm(conf.level+(1-conf.level)/2)*s/sqrt(n))
    ## [[1]]
    ## [1] 104.5759
    ## 
    ## [[2]]
    ## [1] 109.4241
  • \[IC_{inf}(\mu, \gamma)= \hat{x} - \frac{s}{\sqrt{n}}\\ IC_{inf}(\mu, .99)=104.5759 \]
  • \[IC_{sup}(\mu, \gamma)= \hat{x} + \frac{s}{\sqrt{n}}\\ IC_{sup}(\mu, .99)=109.4241 \]

Um membro do DCE está interessado em estimar o número típico de créditos semestrais por aluno em um certo curso da Unicamp. Ele então coleta uma amostra aleatória de tamanho 20 a partir de uma lista de todos os alunos do curso, (à qual ele teve acesso através do GDE). O histograma a seguir mostra a distribuição do número de créditos de cada aluno amostrado.

Ele usou o software R e calculou também algumas estatísticas para os dados, apresentadas abaixo.

min max median mean
24.22 29.45 26.86 26.77
SE.mean CI.mean.0.95 var std.dev coef.var
0.31339 0.65593 1.96424 1.40151 0.05235

Uma administradora de um hospital deseja melhorar o tempo de espera do pronto-socorro e o primeiro passo é estimar o tempo médio de espera. Ela coleta uma amostra aleatória com 540 pacientes e determina o tempo (em minutos) entre a chegada até o paciente ser visto por um médico. O intervalo de confiança de 95% construído usando a amostra é 94.411 a 99.202 minutos, calculado usando a aproximação pela normal.

Responda verdadeiro/falso para as afirmações a seguir.
  • Este intervalo de confiança não é válido, pois não sabemos se a distribuição dos tempos de esperas na população de interesse (todos os pacientes do hospital) é normal.
  • Com 95% de confiança, o tempo médio de espera para os 540 pacientes amostrados está entre 94.411 e 99.202 minutos.
  • Com 95% de confiança, o tempo médio de espera para todos os pacientes do hospital está entre 94.411 e 99.202 minutos.
  • Se pudéssemos repetir esta amostragem de 540 pacientes diversas vezes, em cerca de 95% dessas repetições a média amostral estaria entre 94.411 e 99.202 minutos.
  • Um intervalo de confiança de 99% teria, em geral, menor comprimento do que o intervalo de confiança de 95%.
  • A margem de erro é 2.395 e a média amostral é 96.807.
  • Para diminuir a margem de erro do intervalo de confiança de 95% para a metade do que é agora, seria preciso dobrar o tamanho da amostra.

Um pesquisador está estudando a resistência de um certo material sob determinadas condições. Ele sabe que essa variável segue distribuição normal com variância igual a 9 unidades. Foi extraída uma amostra aleatória de tamanho 13 obtendo-se os seguintes valores:

9
12
12
11
13
9
12
10
14
12
11
9
11
Calcule o intervalo de confiança para a resistência média com um nı́vel de confiança de 95%.
  • Qual a estimativa da resistência média?
  • Qual o limite inferior do intervalo de confiança de 95%?
  • Qual o limite superior do intervalo de confiança de 95%?
  • Baseando-se no intervalo encontrado, qual a margem de erro da estimativa obtida na amostra para estimar a resistência média?
  • Qual o tamanho amostral necessário se o pesquisador quisesse uma margem de erro de 1, mantendo o mesmo nível de confiança?
  • Construa um intervalo de confiança de 95% considerando por um momento que variância seja desconhecida. Qual o limite superior do intervalo obtido?

Em uma amostra de 54 adultos selecionados aleatoriamente de uma cidade, encontrou-se 22 adultos expostos a um certo tipo de vírus da gripe. Encontre o valor-p para testar a afirmação de que a porcentagem de adultos na cidade que foram expostos a esse tipo de vírus é 55%.

A tolerância de erro para a correção é ±0.002.

Uma notícia no jornal diz que 45% dos pais brasileiros não ajudam as esposas com os filhos. Um pesquisador acredita que esta proporção é na verdade ainda maior em uma certa cidade do interior. O pesquisador coleta então uma amostra aleatória de 234 pais da cidade do interior, e observa que 123 deles não ajudam as esposas com os filhos. Encontre o p-valor para testar a hipótese do pesquisador.

A tolerância de erro para a correção é ±0.002.

O fabricante de um certo produto diz que cerca de 29% das unidades apresentam defeito. Um consumidor acusou o fabricante, dizendo que mais de 29% das unidades fabricadas apresentam defeito. Para confirmar sua acusação, o consumidor usou uma amostra de tamanho 68, onde 48% das peças eram defeituosas.

Seja p a proporção real de peças defeituosas.

  • Dentre as opções listadas, qual a hipótese nula apropriada para esta polêmica? Responda 1, 2, 3 ou 4.

    1 H0:p=0.29

    2 H0:p≠0.29

    3 H0:p>0.29

    4 H0:p<0.29

  • Dentre as opções listadas, qual a hipótese alternativa apropriada para esta polêmica? Responda 1, 2, 3 ou 4.

    1 H0:p=0.29

    2 H0:p≠0.29

    3 H0:p>0.29

    4 H0:p<0.29

  • Construa o teste de hipótese. Qual o valor observado da estatística do teste? A tolerância de erro para a correção é ±0.01.
  • Calcule o valor de p. A tolerância de erro para a correção é ±0.001.
  • Para um nível de significância 0.05, temos evidência para rejeitar o argumento do fabricante? Responda 1 para sim e 2 para não.

Acredita-se que um item custe menos no Ebay do que na Amazon. Você está interessado neste problema e, para simplificar, irá avaliar esta afirmação para um único produto: video game Mario Kart para Nintendo Wii. Num certo período da sua avaliação, a Amazon vendia este produto por $46.99.

  • Dentre as opções listadas, qual a hipótese nula apropriada para a pesquisa? Denote por μ o valor médio do produto no Ebay. Responda 1, 2, 3 ou 4.

    1 H0:μ=46.99

    2 H0:μ>46.99

    3 H0:μ<46.99

    4 H0:μ≠46.99

  • Dentre as opções listadas, qual a hipótese alternativa apropriada para a pesquisa? Denote por μ o valor médio do produto no Ebay. Responda 1, 2, 3 ou 4.

    1 Ha:μ=46.99

    2 Ha:μ>46.99

    3 Ha:μ<46.99

    4 Ha:μ≠46.99

  • Após definir as hipóteses, você coletou o preço final do produto em 40 anúncios do Ebay. Os dados estão apresentados no histograma abaixo.

    O software R foi usado para calcular algumas estatísticas para os dados, apresentadas abaixo.

    mean 47.11
    var 24.625
    std.dev 4.962
    min 31.19
    max 54.88
    SE.mean 0.785
    Obs: “mean” (média), “std.dec” (desvio-padrão), “SE.mean” (erro padrão da média). Portanto, entre os leilões finalizados amostrados do Ebay, a média de preço do video game é 47.11. Considerando a variabilidade associada a esta estatística (erro padrão), a média amostral traz evidências contra a hipótese nula? Construa um teste de hipótese, assumindo que a amostra do Ebay foi aleatória. Qual o valor da estatística do teste? A tolerância de erro para a correção é ±0.01.
  • Qual o valor crítico do teste, considerando nível de significância 1%? A tolerância de erro para a correção é ±0.01.
  • Você encontrou evidência contra a hipótese nula, considerando nível de significância 1%? Responda 1 para “sim” ou 2 para “não”.
Para se adequar a padrões internacionais, o engenheiro de processo em uma indústria de papéis quer assegurar que a produção de papelão esteja sob controle, produzindo folhas de papelão com peso médio de 720 Dentre as opções listadas, qual a hipótese alternativa apropriada para indicar o processo de produção fora do controle? Responda 1, 2, 3 ou 4.
  • Dentre as opções listadas, qual a hipótese nula apropriada para indicar o processo de produção sob controle? Denote por μ o peso médio em (g/m2). Responda 1, 2, 3 ou 4.

    1 H0:μ=720

    2 H0:μ>720

    3 H0:μ<720

    4 H0:μ≠720

  • Dentre as opções listadas, qual a hipótese alternativa apropriada para indicar o processo de produção fora do controle? Responda 1, 2, 3 ou 4.

    1 H0:μ=720

    2 H0:μ>720

    3 H0:μ<720

    4 H0:μ≠720

  • Para conferir se o processo de produção está sob controle, decide-se medir o peso numa amostra aleatória de 13 folhas. Ao final da experiência, obtém-se uma média amostral de 743.1 g/m2 e uma variância de 1618 (g/m2)2. O engenheiro quer então utilizar os dados desta amostra para decidir se o processo está ou não sob controle. A produção de papelão é complexa e envolve várias etapas, mas, para obter resultados práticos, o engenheiro assume que os pesos das folhas se ajustam bem a uma distribuição Normal de probabilidade. Construa um teste de hipótese. Qual o valor da estatística do teste? A tolerância de erro para a correção é ±0.01.
  • Qual o valor crítico do teste, considerando nível de significância 1%? A tolerância de erro para a correção é ±0.01.
  • Para um nível de significância 0.01, temos evidência para rejeitar que o processo está sob controle? Responda 1 para “sim” ou 2 para “não”.
Dados históricos indicam que o consumo diário residencial de água em certa cidade tem média 1900 litros e desvio-padrão 150 litros. Para verificar se o consumo permanece assim, 270 residências foram selecionadas ao acaso e, entre elas, o consumo médio diário foi de 1904. Os dados da amostra estão consistentes com os dados históricos? Faça um teste de hipótese. Use nível de significância 0.05.
  • Qual o valor da estatística do teste? Tolerância de correção ±0.015.
  • Qual o valor absoluto do valor crítico do teste? Tolerância de correção ±0.015.
  • Qual é o p-valor do teste? Tolerância de correção ±0.015.
  • Há evidências para rejeitar a hipótese nula? Responda 1 para “sim” ou 2 para “não”.

Inferência: duas populações

Regressão Linear Simples e ANOVA

Acredita-se que quanto maior a quantidade de álcool na sangue dos indivíduos menor a capacidade de reação. Para avaliar isso, 10 indivíduos participaram de um estudo no qual consumiram diferentes quantidades de álcool. Os níveis de álcool foram calculados como percentagem do peso corporal (x). Posteriormente, os indivíduos foram submetidos a um estímulo e foi determinado o tempo de reação em segundos (y). Os dados coletados são os seguintes:

Indivíduo x y
1 0.20 0.62
2 0.09 0.36
3 0.15 0.55
4 0.11 0.36
5 0.09 0.42
6 0.07 0.27
7 0.15 0.48
8 0.17 0.59
9 0.11 0.45
10 0.09 0.36
Ajuste um modelo regressão linear simples de y em função de x e responda às perguntas à seguir.
  • Qual é a estimativa do intercepto do modelo? (Tolerância de erro na correção: ±0.01)
  • Qual a estimativa do coeficiente angular/inclinação do modelo? (Tolerância de erro na correção: ±0.01)
  • Qual a estimativa do erro padrão do coeficiente angular/inclinação? (Tolerância de erro na correção: ±0.01)
  • Teste a hipótese que o coeficiente angular/inclinação é igual a zero. Use nível de significância de 1%. Responda 1 se “Rejeita H0” ou 2 se “Não rejeita H0”.
  • Estime o tempo de reação esperado quando x=0.16. (Tolerância de erro na correção: ±0.02)
  • Estime σ. (Tolerância de erro na correção: ±0.01)
  • Calcule o R2. (Tolerância de erro na correção: ±0.01)

O pesquisador tem interesse em comparar 3 procedimentos (métodos) para medir o conteúdo de magnésio em um determinado componente químico. Cada procedimento foi utilizado em 4 amostras obtendo os seguintes resultados:

Método 1: 77.2, 82.29, 77.32, 78.84.

Método 2: 77.69, 70.17, 71.91, 70.7.

Método 3: 83.6, 80.42, 83.89, 83.61.

  • Calcule a estatística F do teste ANOVA. Arredonde sua resposta final em duas casas decimais.
  • Teste a hipótese que a média fornecida pelos três métodos é a mesma. Use nível de significância de 5%. Responda 1 para Rejeita H0 ou 2 para Não rejeita H0.

Aderência, Homogeneidade e Independência

Num experimento genético, espera-se que os genótipos BC, Bc, bC e bc ocorram, segundo um certo modelo genético, com frequências relativas nas razões 9:3:3:1.

O experimento forneceu os seguintes resultados:

Genótipo BC Bc bC bc
Frequência Observada 92 35 18 12
  • Qual é a probabilidade do genótipo BC, segundo o modelo genético? Tolerância ±0.005.
  • Qual é a probabilidade do genótipo Bc, segundo o modelo genético? Tolerância ±0.005.
  • Qual é a probabilidade do genótipo bC, segundo o modelo genético? Tolerância ±0.005.
  • Qual é a probabilidade do genótipo bc, segundo o modelo genético? Tolerância ±0.005.
  • Os dados contradizem o modelo genético ou as diferenças observadas podem ser explicadas em termos da variação amostral? Faça o teste apropriado e use nível de significância de 0.5%. Qual a estatística do teste? Tolerância ±0.02.
  • Qual o valor crítico do teste, considerando o nível de significância 0.5%? Tolerância ±0.02.
  • Você rejeita a hipótese de que a distribuição das frequências observadas dos genótipos no experimento seguem o modelo genético, considerando nível de significância 0.5%? Responda 1 para “sim” ou 2 para “não”.

Vitaminas pré-natal e autismo. Para estudar a associação entre o uso de vitaminas pré-natal e autismo, pesquisadores realizaram um estudo retrospecitvo e entrevistaram as mães de uma amostra aleatória de 254 crianças de 24 a 60 meses com autismo e conduziu outra amostra aleatória separada de 226 mães de crianças com desenvolvimento típico para verificar quantas haviam usado vitaminas pré-natal durante os três meses antes da gravidez (período periconcepcional).

A tabela abaixo mostra o número de mães em cada grupo que usaram ou não vitaminas pré-natal.

Autismo Desenvolvimento Típico Total
Uso de vitaminas 138 154 292
Sem uso de vitaminas 116 72 188
Total 254 226 480

Para este estudo, a hipótese nula é que não existe associação entre o uso de vitaminas pré-natal e autismo.

    Se a hipótese nula for verdadeira, quantas mães você esperaria que tivessem tomado vitaminas pré-natal no grupo de crianças com desenvolvimento típico? Tolerância da correção ±0.01.
  • Com base na descrição do estudo, qual o teste de hipótese mais apropriado? Responda 1 para teste de independência ou 2 para teste de homogeneidade.
  • Se a hipótese nula for verdadeira, quantas mães você esperaria que tivessem tomado vitaminas pré-natal no grupo de crianças com autismo? Tolerância da correção ±0.01.
  • Qual o valor da estatística do teste? Tolerância da correção ±0.01.
  • Qual o valor crítico do teste, caso o nível de significância seja 10%? Tolerância da correção ±0.01
  • Você rejeita a hipótese de que não existe associação entre o uso de vitaminas pré-natal e austimo, considerando um nível de significância 10%? Responda 1 para sim ou 2 para não.