1 CONHECENDO OS DADOS


1.1 DataSet do projeto

Pesquisa Nacional por Amostra de Domicílios - 2015

A Pesquisa Nacional por Amostra de Domicílios - PNAD investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

Variáveis utilizadas

Renda

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

Idade

Idade do morador na data de referência em anos.

Altura (elaboração própria)

Altura do morador em metros.

UF

Código Descrição
11 Rondônia
12 Acre
13 Amazonas
14 Roraima
15 Pará
16 Amapá
17 Tocantins
21 Maranhão
22 Piauí
23 Ceará
24 Rio Grande do Norte
25 Paraíba
26 Pernambuco
27 Alagoas
28 Sergipe
29 Bahia
31 Minas Gerais
32 Espírito Santo
33 Rio de Janeiro
35 São Paulo
41 Paraná
42 Santa Catarina
43 Rio Grande do Sul
50 Mato Grosso do Sul
51 Mato Grosso
52 Goiás
53 Distrito Federal

Sexo

Código Descrição
0 Masculino
1 Feminino

Anos de Estudo

Código Descrição
1 Sem instrução e menos de 1 ano
2 1 ano
3 2 anos
4 3 anos
5 4 anos
6 5 anos
7 6 anos
8 7 anos
9 8 anos
10 9 anos
11 10 anos
12 11 anos
13 12 anos
14 13 anos
15 14 anos
16 15 anos ou mais
17 Não determinados
Não aplicável

Cor

Código Descrição
0 Indígena
2 Branca
4 Preta
6 Amarela
8 Parda
9 Sem declaração

Observação

Os seguintes tratamentos foram realizados nos dados originais:

    1. Foram eliminados os registros onde a Renda era inválida (999 999 999 999);
    1. Foram eliminados os registros onde a Renda era missing;
    1. Foram considerados somente os registros das Pessoas de Referência de cada domicílio (responsável pelo domicílio).

Configurações

Carregando o pacote ggplot2

library(ggplot2)

Fazendo a configuração para os gráficos

options(repr.plot.width = 7, repr.plot.height = 4)

Importando dataset do projeto

dados <- read.csv('dados.csv')
head(dados, 5)
##   UF Sexo Idade Cor Anos.de.Estudo Renda   Altura
## 1 11    0    23   8             12   800 1.603808
## 2 11    1    23   2             12  1150 1.739790
## 3 11    1    35   8             15   880 1.760444
## 4 11    0    46   2              6  3500 1.783158
## 5 11    1    47   8              9   150 1.690631

2 DISTRIBUIÇÕES DE PROBABILIDADE


Problema


Em um concurso para preencher uma vaga de cientista de dados temos um total de 10 questões de múltipla escolha com 3 alternativas possíveis em cada questão. Cada questão tem o mesmo valor. Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova vale 10 pontos e a nota de corte seja 5, obtenha a probabilidade deste candidato acertar 5 questões e também a probabilidade deste candidato passar para a próxima etapa do processo seletivo.

2.1 Distribuição Binomial


Um evento binomial é caracterizado pela possibilidade de ocorrência de apenas duas categorias. Estas categorias somadas representam todo o espaço amostral, sendo também mutuamente excludentes, ou seja, a ocorrência de uma implica na não ocorrência da outra.

Em análises estatísticas o uso mais comum da distribuição binomial é na solução de problemas que envolvem situações de sucesso e fracasso.

\[P(k)=\binom{n}{k} p^k q^{n-k}\]

Onde:

\(p\) = probabilidade de sucesso

\(q = (1 - p)\) = probabilidade de fracasso

\(n\) = número de eventos estudados

\(k\) = número de eventos desejados que tenham sucesso

O valor esperado ou a média da distribuição binomial é igual ao número de experimentos realizados multiplicado pela chance de ocorrência do evento.

\[\mu = n \times p\] ### Desvio padrão da distribuição binomial

O desvio padrão é o produto entre o número de experimentos, a probabilidade de sucesso e a probabilidade de fracasso.

\[\sigma = \sqrt{n \times p \times q}\]

Combinações

Número de combinações de \(n\) objetos, tomados \(k\) a cada vez, é:

\[C_{k}^{n} = \binom{n}{k} = \frac{n!}{k!(n - k)!}\]

Onde

\[n! = n\times(n-1)\times(n-2)\times...\times(2)\times(1)\] \[k! = k\times(k-1)\times(k-2)\times...\times(2)\times(1)\]

Por definição

\[0! = 1\]

Documentações:

Exemplo: Mega Sena

Em um volante de loteria da Mega Sena temos um total de 60 números para escolher onde a aposta mínima é de seis números. Você que é curiosa(o) resolve calcular a probabilidade de se acertar na Mega Sena com apenas um jogo. Para isso precisamos saber quantas combinações de seis números podem ser formadas com os 60 números disponíveis.

\[C_{6}^{60} = \binom{60}{6} = \frac{60!}{6!(60 - 6)!}\] Primeiramente iremos ver quantos bilhetes (combinações) poderemos ter combinando 6 números dentro dos 60 possíveis.

combinacoes <- choose(60,6)
combinacoes
## [1] 50063860

Agora vamos ver a probabilidade de um acerto dentro dessas opções:

probabilidade <- 1/combinacoes
sprintf("A probabilidade é de %s", probabilidade*100) 
## [1] "A probabilidade é de 1.99744885831816e-06"

Ou seja, a probabilidade é de 0,000001%.

Exercício do Capítulo:

  • 1 Suponha que acabamos de criar um jogo de loteria, chamado Show de Prêmios do ADS. Nesse novo jogo, o apostador marca 20 números, dentre os 25 disponíveis no bilhete, e pode ganhar até 1 milhão de reais. Determine qual o número de combinações possíveis desse experimento (espaço amostral) e a probabilidade de se ganhar o prêmio jogando apenas um bilhete (considere apenas quinze casas decimais).

Solução

combinacoes = choose(25, 20)
probabilidade = 1 / combinacoes

sprintf('Combinações = %d e Probabilidade = %0.15f', combinacoes, probabilidade)
## [1] "Combinações = 53130 e Probabilidade = 0.000018821757952"

Exemplo: Concurso para cientista de dados

Em um concurso para preencher uma vaga de cientista de dados temos um total de 10 questões de múltipla escolha com 3 alternativas possíveis em cada questão. Cada questão tem o mesmo valor. Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova vale 10 pontos e a nota de corte seja 5, obtenha a probabilidade deste candidato acertar 5 questões e também a probabilidade deste candidato passar para a próxima etapa do processo seletivo.

Qual o número de ensaios (\(n\))?

n <- 10
n
## [1] 10

Os ensaios são independentes?

Sim. A opção escolhida em uma questão não influencia em nada a opção escolhida em outra questão.

Somente dois resultados são possíveis em cada ensaio?

Sim. O candidato tem duas possibilidades, ACERTA ou ERRAR uma questão.

Qual a probabilidade de sucesso (\(p\))?

numero_de_alternativas_por_questao <- 3
p <- 1 / numero_de_alternativas_por_questao
p
## [1] 0.3333333

Qual a probabilidade de fracasso (\(q\))?

q <- 1 - p
q
## [1] 0.6666667

Qual o total de eventos que se deseja obter sucesso (\(k\))?

k <- 5
k
## [1] 5

Solução 1

probabilidade <- choose(n, k) * (p ** k) * (q ** (n - k))
probabilidade
## [1] 0.1365645

Solução 2

Documentações:

dbinom(x=k, size=n, prob = p)
## [1] 0.1365645

Obter a probabilidade do candidato passar

\[P(acertar > 4) = P(5) + P(6) + P(7) + P(8) + P(9) + P(10)\] Logo, vamos calcular a probabilidade de cada uma das alternativas e somá-las:

dbinom(x = 5, size = n, prob = p) + 
dbinom(x = 6, size = n, prob = p) + 
dbinom(x = 7, size = n, prob = p) + 
dbinom(x = 8, size = n, prob = p) + 
dbinom(x = 9, size = n, prob = p) + 
dbinom(x = 10, size = n, prob = p)
## [1] 0.2131281

Existe um segundo método, onde a soma pode ser feita imediamente:

sum(dbinom(x = 5:10, size = n, prob = p))
## [1] 0.2131281

Ou neste método que calcula a diferença entre a soma de probabilidades:

pbinom(q = 4, size = n, prob = p, lower.tail = F)
## [1] 0.2131281

Exercício do Capítulo:

  • 1 As alternativas abaixo descrevem as características básicas de um experimento binomial. Marque as alternativas que estão corretas.
  1. Somente dois resultados são possíveis:

  2. Realização de \(n\) ensaios idênticos

  3. Ensaios são dependentes

  4. A probabilidade de sucesso é representada por \(p\) e a de fracasso por \(1 + p = q\). Estas probabilidades não se modificam de ensaio para ensaio

  • 2 Um dado de seis faces, não viciado, é lançado para o alto quatro vezes. Utilizando a distribuição binomial, obtenha a probabilidade de o dado cair com um número par voltado para cima duas vezes.

Solução:

p = 1 / 2   # Probabilidade de sair um número PAR
n = 4       # Total de lançamentos
k = 2       # Total de sucessos (número PAR voltado para cima)

dbinom(x = k, size = n, prob = p)
## [1] 0.375
  • 3 Um dado de seis faces, perfeitamente equilibrado, é lançado para o alto dez vezes. Utilizando a distribuição binomial, obtenha a probabilidade de o dado cair com o número 5 voltado para cima pelo menos três vezes.

Solução:

p = 1 / 6    # Probabilidade de sair o número CINCO
n = 10       # Total de lançamentos

pbinom(q = 2, size = n, prob = p, lower.tail = F)
## [1] 0.2247732

Exemplo: Gincana

Uma cidade do interior realiza todos os anos uma gincana para arrecadar fundos para o hospital da cidade. Na última gincana se sabe que a proporção de participantes do sexo feminino foi de 60%. O total de equipes, com 12 integrantes, inscritas na gincana deste ano é de 30. Com as informações acima responda: Quantas equipes deverão ser formadas por 8 mulheres?

A probabilidade de sucesso, ou seja, de ter uma mulher no grupo é dada pela experiência anterior:

p <- 0.6
p
## [1] 0.6

Agora vamos declara o número integrantes por equipes:

n <- 12
n
## [1] 12

Agora vamos declarar o número de sucessos desejado:

k <- 8
k
## [1] 8

Agora vamos calcular a probabilidade:

probabilidade <- dbinom(x = k, size = n, prob = p)
probabilidade
## [1] 0.2128409

Agora, com a probabilidade é só determinar as equipes.

equipes <- 30 * probabilidade
equipes
## [1] 6.385228

Logo, em média teremos 6 equipes com esta característica.

Exercícios do Capítulo:

    1. Suponha que a probabilidade de se contrair o novo Coronavírus seja de 70%. Em um grupo de 1500 famílias, com 5 pessoas cada, quantas podemos esperar que tenham apenas dois contaminados?

Solução:

p <- 0.7
n <- 5
k <- 2
N <- 1500

probabilidade <- dbinom(k, n, p)

media <- probabilidade * N

round(media)
## [1] 198

Problema


Um restaurante recebe em média 20 pedidos por hora. Qual a chance de que, em determinada hora escolhida ao acaso, o restaurante receba 15 pedidos?

Este tipo de problema que aborda a teoria de filas é resolvido com o problema de Poisson e passaremos a abordá-lo a parti de agora.

2.2 Distribuição Poisson


É empregada para descrever o número de ocorrências em um intervalo de tempo ou espaço específico. Os eventos são caracterizados pela possibilidade de contagem dos sucessos, mas a não possibilidade de contagem dos fracassos.

Como exemplos de processos onde podemos aplicar a distribuição de Poisson temos a determinação do número de clientes que entram em uma loja em determinada hora, o número de carros que chegam em um drive-thru de uma lanchonete na hora do almoço, a determinação do número de acidentes registrados em um trecho de estrada etc.

\[P(k) = \frac{e^{-\mu}(\mu)^k}{k!}\]

Onde:

\(e\) = constante cujo valor aproximado é 2,718281828459045

\(\mu\) = representa o número médio de ocorrências em um determinado intervalo de tempo ou espaço

\(k\) = número de sucessos no intervalo desejado

Experimento Poisson

  1. A probabilidade de uma ocorrência é a mesma em todo o intervalo observado.

  2. O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos.

  3. A probabilidade de uma ocorrência é a mesma em intervalos de igual comprimento.

Média da distribuição Poisson

\[\mu\] ### Desvio padrão da distribuição Poisson

\[\sigma = \sqrt{\mu}\]

Documentações:

Vamos agora ver a constante de Euller:

exp(1)
## [1] 2.718282

Exercício do Capítulo:

  • 1 As alternativas abaixo descrevem as características básicas de um experimento Poisson. Marque as alternativas que estão corretas.
  1. A probabilidade de uma ocorrência é a mesma em todo o intervalo observado; (correto)

  2. A probabilidade de uma ocorrência é a mesma em intervalos de qualquer comprimento; (falso)

  3. O número de ocorrências em determinado intervalo é dependente do número de ocorrências em outros intervalos; (falso)

  4. O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos (correto)

Exemplo: Delivery

Um restaurante recebe em média 20 pedidos por hora. Qual a chance de que, em determinada hora escolhida ao acaso, o restaurante receba 15 pedidos?

Qual o número médio de ocorrências por hora (\(\mu\))?

media <- 20
media
## [1] 20

Qual o número de ocorrências que queremos obter no período (\(k\))?

k <- 15
k
## [1] 15

Solução 1

probabilidade <- ((exp(1) ** (-media)) * (media ** k)) / (factorial(k))
probabilidade
## [1] 0.05164885

Solução 2

Documentações:

probabilidade <- dpois(x = k, lambda = media)
probabilidade
## [1] 0.05164885

Exercício do Capítulo:

  • 1 O número médio de clientes que entram em uma padaria por hora é igual a 20. Obtenha a probabilidade de, na próxima hora, entrarem exatamente 25 clientes.

Solução:

media <- 20
k <- 25

probabilidade <- dpois(x = k, lambda = media)
sprintf("%0.2f%%", probabilidade * 100)
## [1] "4.46%"

Problema


Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma distribuição aproximadamente normal, com média 1,70 e desvio padrão de 0,1. Com estas informações obtenha o seguinte conjunto de probabilidades:

A. probabilidade de uma pessoa, selecionada ao acaso, ter menos de 1,80 metros.

B. probabilidade de uma pessoa, selecionada ao acaso, ter entre 1,60 metros e 1,80 metros.

C. probabilidade de uma pessoa, selecionada ao acaso, ter mais de 1,90 metros.

Este tipo de problema é resolvido com a Distribuição Normal. Iremos abordar ela a partir do próximo capítulo:

2.3 Distribuição Normal


A distribuição normal é uma das mais utilizadas em estatística. É uma distribuição contínua, onde a distribuição de frequências de uma variável quantitativa apresenta a forma de sino e é simétrica em relação a sua média.

Características importantes

  1. É simétrica em torno da média;

  2. A área sob a curva corresponde à proporção 1 ou 100%;

  3. As medidas de tendência central (média, mediana e moda) apresentam o mesmo valor;

  4. Os extremos da curva tendem ao infinito em ambas as direções e, teoricamente, jamais tocam o eixo \(x\);

  5. O desvio padrão define o achatamento e largura da distribuição. Curvas mais largas e mais achatadas apresentam valores maiores de desvio padrão;

  6. A distribuição é definida por sua média e desvio padrão;

  7. A probabilidade sempre será igual à área sob a curva, delimitada pelos limites inferior e superior.

\[f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]

Onde:

\(x\) = variável normal

\(\sigma\) = desvio padrão

\(\mu\) = média

A probabilidade é obtida a partir da área sob a curva, delimitada pelos limites inferior e superior especificados. Um exemplo pode ser visto na figura abaixo.

Para obter a área acima basta calcular a integral da função para os intervalos determinados. Conforme equação abaixo:

\[P(L_i<x<L_s) = \int_{L_i}^{L_s}\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]

Onde:

\(x\) = variável normal

\(\sigma\) = desvio padrão

\(\mu\) = média

\(L_i\) = limite inferior

\(L_s\) = limite superior

Tabelas padronizadas

As tabelas padronizadas foram criadas para facilitar a obtenção dos valores das áreas sob a curva normal e eliminar a necessidade de solucionar integrais definidas.

Para consultarmos os valores em uma tabela padronizada basta transformarmos nossa variável em uma variável padronizada \(Z\).

Esta variável \(Z\) representa o afastamento em desvios padrões de um valor da variável original em relação à média.

\[Z = \frac{x-\mu}{\sigma}\]

Onde:

\(x\) = variável normal com média \(\mu\) e desvio padrão \(\sigma\)

\(\sigma\) = desvio padrão

\(\mu\) = média

Documentações:

Construindo tabela normal padronizada

Z <- seq(0, 3.99, by=0.01)
probabilidade <- pnorm(Z)
tabela_normal_padronizada <- matrix(probabilidade, ncol=10, byrow=TRUE)
colnames(tabela_normal_padronizada) <- format(seq(0.00, 0.09, by=0.01))
rownames(tabela_normal_padronizada) <- format(seq(0.00, 3.90, by=0.10), digits = 2, nsmall = 2)
tabela_normal_padronizada
##           0.00      0.01      0.02      0.03      0.04      0.05      0.06
## 0.00 0.5000000 0.5039894 0.5079783 0.5119665 0.5159534 0.5199388 0.5239222
## 0.10 0.5398278 0.5437953 0.5477584 0.5517168 0.5556700 0.5596177 0.5635595
## 0.20 0.5792597 0.5831662 0.5870644 0.5909541 0.5948349 0.5987063 0.6025681
## 0.30 0.6179114 0.6217195 0.6255158 0.6293000 0.6330717 0.6368307 0.6405764
## 0.40 0.6554217 0.6590970 0.6627573 0.6664022 0.6700314 0.6736448 0.6772419
## 0.50 0.6914625 0.6949743 0.6984682 0.7019440 0.7054015 0.7088403 0.7122603
## 0.60 0.7257469 0.7290691 0.7323711 0.7356527 0.7389137 0.7421539 0.7453731
## 0.70 0.7580363 0.7611479 0.7642375 0.7673049 0.7703500 0.7733726 0.7763727
## 0.80 0.7881446 0.7910299 0.7938919 0.7967306 0.7995458 0.8023375 0.8051055
## 0.90 0.8159399 0.8185887 0.8212136 0.8238145 0.8263912 0.8289439 0.8314724
## 1.00 0.8413447 0.8437524 0.8461358 0.8484950 0.8508300 0.8531409 0.8554277
## 1.10 0.8643339 0.8665005 0.8686431 0.8707619 0.8728568 0.8749281 0.8769756
## 1.20 0.8849303 0.8868606 0.8887676 0.8906514 0.8925123 0.8943502 0.8961653
## 1.30 0.9031995 0.9049021 0.9065825 0.9082409 0.9098773 0.9114920 0.9130850
## 1.40 0.9192433 0.9207302 0.9221962 0.9236415 0.9250663 0.9264707 0.9278550
## 1.50 0.9331928 0.9344783 0.9357445 0.9369916 0.9382198 0.9394292 0.9406201
## 1.60 0.9452007 0.9463011 0.9473839 0.9484493 0.9494974 0.9505285 0.9515428
## 1.70 0.9554345 0.9563671 0.9572838 0.9581849 0.9590705 0.9599408 0.9607961
## 1.80 0.9640697 0.9648521 0.9656205 0.9663750 0.9671159 0.9678432 0.9685572
## 1.90 0.9712834 0.9719334 0.9725711 0.9731966 0.9738102 0.9744119 0.9750021
## 2.00 0.9772499 0.9777844 0.9783083 0.9788217 0.9793248 0.9798178 0.9803007
## 2.10 0.9821356 0.9825708 0.9829970 0.9834142 0.9838226 0.9842224 0.9846137
## 2.20 0.9860966 0.9864474 0.9867906 0.9871263 0.9874545 0.9877755 0.9880894
## 2.30 0.9892759 0.9895559 0.9898296 0.9900969 0.9903581 0.9906133 0.9908625
## 2.40 0.9918025 0.9920237 0.9922397 0.9924506 0.9926564 0.9928572 0.9930531
## 2.50 0.9937903 0.9939634 0.9941323 0.9942969 0.9944574 0.9946139 0.9947664
## 2.60 0.9953388 0.9954729 0.9956035 0.9957308 0.9958547 0.9959754 0.9960930
## 2.70 0.9965330 0.9966358 0.9967359 0.9968333 0.9969280 0.9970202 0.9971099
## 2.80 0.9974449 0.9975229 0.9975988 0.9976726 0.9977443 0.9978140 0.9978818
## 2.90 0.9981342 0.9981929 0.9982498 0.9983052 0.9983589 0.9984111 0.9984618
## 3.00 0.9986501 0.9986938 0.9987361 0.9987772 0.9988171 0.9988558 0.9988933
## 3.10 0.9990324 0.9990646 0.9990957 0.9991260 0.9991553 0.9991836 0.9992112
## 3.20 0.9993129 0.9993363 0.9993590 0.9993810 0.9994024 0.9994230 0.9994429
## 3.30 0.9995166 0.9995335 0.9995499 0.9995658 0.9995811 0.9995959 0.9996103
## 3.40 0.9996631 0.9996752 0.9996869 0.9996982 0.9997091 0.9997197 0.9997299
## 3.50 0.9997674 0.9997759 0.9997842 0.9997922 0.9997999 0.9998074 0.9998146
## 3.60 0.9998409 0.9998469 0.9998527 0.9998583 0.9998637 0.9998689 0.9998739
## 3.70 0.9998922 0.9998964 0.9999004 0.9999043 0.9999080 0.9999116 0.9999150
## 3.80 0.9999277 0.9999305 0.9999333 0.9999359 0.9999385 0.9999409 0.9999433
## 3.90 0.9999519 0.9999539 0.9999557 0.9999575 0.9999593 0.9999609 0.9999625
##           0.07      0.08      0.09
## 0.00 0.5279032 0.5318814 0.5358564
## 0.10 0.5674949 0.5714237 0.5753454
## 0.20 0.6064199 0.6102612 0.6140919
## 0.30 0.6443088 0.6480273 0.6517317
## 0.40 0.6808225 0.6843863 0.6879331
## 0.50 0.7156612 0.7190427 0.7224047
## 0.60 0.7485711 0.7517478 0.7549029
## 0.70 0.7793501 0.7823046 0.7852361
## 0.80 0.8078498 0.8105703 0.8132671
## 0.90 0.8339768 0.8364569 0.8389129
## 1.00 0.8576903 0.8599289 0.8621434
## 1.10 0.8789995 0.8809999 0.8829768
## 1.20 0.8979577 0.8997274 0.9014747
## 1.30 0.9146565 0.9162067 0.9177356
## 1.40 0.9292191 0.9305634 0.9318879
## 1.50 0.9417924 0.9429466 0.9440826
## 1.60 0.9525403 0.9535213 0.9544860
## 1.70 0.9616364 0.9624620 0.9632730
## 1.80 0.9692581 0.9699460 0.9706210
## 1.90 0.9755808 0.9761482 0.9767045
## 2.00 0.9807738 0.9812372 0.9816911
## 2.10 0.9849966 0.9853713 0.9857379
## 2.20 0.9883962 0.9886962 0.9889893
## 2.30 0.9911060 0.9913437 0.9915758
## 2.40 0.9932443 0.9934309 0.9936128
## 2.50 0.9949151 0.9950600 0.9952012
## 2.60 0.9962074 0.9963189 0.9964274
## 2.70 0.9971972 0.9972821 0.9973646
## 2.80 0.9979476 0.9980116 0.9980738
## 2.90 0.9985110 0.9985588 0.9986051
## 3.00 0.9989297 0.9989650 0.9989992
## 3.10 0.9992378 0.9992636 0.9992886
## 3.20 0.9994623 0.9994810 0.9994991
## 3.30 0.9996242 0.9996376 0.9996505
## 3.40 0.9997398 0.9997493 0.9997585
## 3.50 0.9998215 0.9998282 0.9998347
## 3.60 0.9998787 0.9998834 0.9998879
## 3.70 0.9999184 0.9999216 0.9999247
## 3.80 0.9999456 0.9999478 0.9999499
## 3.90 0.9999641 0.9999655 0.9999670

A tabela acima fornece a área sob a curva entre \(-\infty\) e \(Z\) desvios padrão acima da média. Lembrando que por se tratar de valores padronizados temos \(\mu = 0\).

Exercício do Capítulo:

  • 1 Suponha que temos uma variável X, que segue uma distribuição normal com média 190 e desvio padrão 15. Considerando a tabela padronizada, Qual seria o valor da área sob a curva normal (probabilidade) para um valor de X igual a 200? Lembre-se que, para consultarmos os valores em uma tabela padronizada, basta transformarmos a nossa variável em uma variável padronizada Z.

Solução:

Alternativa correta! Com a transformação, obtemos um Z igual a 0,67. Para consultar na tabela, basta localizar o valor que se encontra no cruzamento entre a linha de valor 0,60 e a coluna de valor 0,07.

Exemplo: Qual sua altura?

Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma distribuição aproximadamente normal, com média 1,70 e desvio padrão de 0,1. Com estas informações obtenha o seguinte conjunto de probabilidades:

A. probabilidade de uma pessoa, selecionada ao acaso, ter menos de 1,80 metros.

B. probabilidade de uma pessoa, selecionada ao acaso, ter entre 1,60 metros e 1,80 metros.

C. probabilidade de uma pessoa, selecionada ao acaso, ter mais de 1,90 metros.

Problema A - Identificação da área sob a curva

Obter a variável padronizada \(Z\)

Atribuindo a média

media <- 1.7
media
## [1] 1.7

Atribuindo o desvio padrão

desvio_padrao <- 0.1
desvio_padrao
## [1] 0.1

Encontrando o valor de \(Z\)

Z <- (1.8 - media) / desvio_padrao
Z
## [1] 1

Solução 1 - Utilizando tabela

probabilidade <- 0.8413447
probabilidade
## [1] 0.8413447

Solução 2 - Utilizando função

pnorm(Z)
## [1] 0.8413447

Exercício do Capítulo

  • 1 A aplicação de uma prova de estatística em um concurso apresentou um conjunto de notas normalmente distribuídas. Verificou-se que o conjunto de notas tinha média 70 e desvio padrão de 5 pontos. Qual a probabilidade de um aluno, selecionado ao acaso, ter nota menor que 85?

Solução

Xe <- 85
mediae <- 70
desvio_padraoe <- 5

Ze <- (Xe - mediae) / desvio_padraoe
round(pnorm(Ze), 7)
## [1] 0.9986501

Problema B - Identificação da área sob a curva

Obter a variável padronizada \(Z\)

media <- 1.7
desvio_padrao = 0.1
Z_inferior <- (1.6 - media) / desvio_padrao
round(Z_inferior, 2)
## [1] -1
Z_superior <- (1.8 - media) / desvio_padrao
round(Z_superior, 2)
## [1] 1

Solução 1 - Utilizando tabela

probabilidade <- (0.8413447 - 0.5) * 2
probabilidade
## [1] 0.6826894

Solução 2 - Utilizando função

probabilidade <- 0.8413447 - (1 - 0.8413447)
probabilidade
## [1] 0.6826894
probabilidade <- pnorm(Z_superior) - pnorm(Z_inferior)
probabilidade
## [1] 0.6826895

Exercício do capítulo:

  • 1 O faturamento diário de um motorista de aplicativo segue uma distribuição aproximadamente normal, com média R$ 300,00 e desvio padrão igual a R$ 50,00. Obtenha as probabilidades de que, em um dia aleatório, o motorista ganhe:

Entre R$ 250,00 e R$ 350,00

Entre R$ 400,00 e R$ 500,00

Solução 1

# 1. entre R$ 250,00 e R$ 350,00
mediae <- 300
desvio_padraoe <- 50
Z_inferiore = (250 - mediae) / desvio_padraoe
Z_superiore = (350 - mediae) / desvio_padraoe

probabilidadee <- pnorm(Z_superiore) - pnorm(Z_inferiore)
round(probabilidadee, 4)
## [1] 0.6827

Solucão 2

# 2. entre R$ 400,00 e R$ 500,00
mediae <- 300
desvio_padraoe <- 50
Z_inferiore = (400 - mediae) / desvio_padraoe
Z_superiore = (500 - mediae) / desvio_padraoe

probabilidadee <- pnorm(Z_superiore) - pnorm(Z_inferiore)
round(probabilidadee, 4)
## [1] 0.0227
  • 2 Os pesos dos lutadores de uma academia de MMA, com 500 atletas, são normalmente distribuídos, com média igual a 80,5 kg e desvio padrão igual a 12,2 kg. Encontre o número de atletas dessa academia que se enquadram na categoria peso leve, que vai de 65,7 kg até 70,3 kg.

Solução

Ne <- 500
mediae <- 80.5
desvio_padraoe <- 12.2
Z_inferiore = (65.7 - mediae) / desvio_padraoe
Z_superiore = (70.3 - mediae) / desvio_padraoe

probabilidadee <- pnorm(Z_superiore) - pnorm(Z_inferiore)
ne <- Ne * probabilidadee
round(ne)
## [1] 45

Problema C - Identificação da área sob a curva

Obter a variável padronizada \(Z\)

media <- 1.7
desvio_padrao = 0.1
Z <- (1.9 - media) / desvio_padrao
Z
## [1] 2

Solução 1 - Utilizando tabela

probabilidade <- 1 - 0.9772499
probabilidade
## [1] 0.0227501

Solução 2 - Utilizando função

probabilidade <- 1 - pnorm(Z)
probabilidade
## [1] 0.02275013
probabilidade <- pnorm(-Z)
probabilidade
## [1] 0.02275013

Exercícios do Capítulo

  • 1 O Inmetro verificou que as lâmpadas incandescentes da fabricante XPTO apresentam uma vida útil normalmente distribuída, com média igual a 720 dias e desvio padrão igual a 30 dias. Calcule a probabilidade de uma lâmpada escolhida ao acaso durar:
  1. Entre 650 e 750 dias
  2. Mais que 800 dias
  3. Menos que 700 dias

Solução a

mediae <- 720
desvio_padraoe <- 30

# 1. entre 650 e 750 dias

Z_inferiore = (650 - mediae) / desvio_padraoe
Z_superiore = (750 - mediae) / desvio_padraoe

probabilidadee <- pnorm(Z_superiore) - pnorm(Z_inferiore)
round(probabilidadee, 4)
## [1] 0.8315

Solução b

# 2. mais que 800 dias

Ze = (800 - mediae) / desvio_padraoe

probabilidadee <- pnorm(-Ze)
round(probabilidadee, 4)
## [1] 0.0038

Solução c

# 3. menos que 700 dias

Ze = (700 - mediae) / desvio_padraoe

probabilidadee <- pnorm(Ze)
round(probabilidadee, 4)
## [1] 0.2525
  • 2 Utilizando a tabela padronizada ou o ferramental disponibilizado pelo R, encontre a área sob a curva normal para os valores de Z abaixo:
  1. \(0 < Z < 1,23\)
  2. \(Z > 2,14\)
  3. \(-1,56 < Z < 1,48\)
  4. \(Z < -0,78\)

Solução

  • 3 O tempo para concluir uma prova de concurso público se distribui normalmente, com uma média de 80 minutos e desvio padrão de 10 minutos. Suponha que uma das salas de prova tenha 60 candidatos e que a duração da prova seja de 90 minutos. Quantos candidatos você acha que não conseguirão concluir a prova no tempo determinado?

Observação: Utilize a função round() para arredondar o resultado obtido.

Solução:

3 AMOSTRAGEM


3.1 População e Amostra


População

Conjunto de todos os elementos de interesse em um estudo. Diversos elementos podem compor uma população, por exemplo: pessoas, idades, alturas, carros etc.

Com relação ao tamanho, as populações podem ser limitadas (populações finitas) ou ilimitadas (populações infinitas).

Populações finitas

Permitem a contagem de seus elementos. Como exemplos temos o número de funcionário de uma empresa, a quantidade de alunos em uma escola etc.

Populações infinitas

Não é possível contar seus elementos. Como exemplos temos a quantidade de porções que se pode extrair da água do mar para uma análise, temperatura medida em cada ponto de um território etc.

Quando os elementos de uma população puderem ser contados, porém apresentando uma quantidade muito grande, assume-se a população como infinita..

Amostra

Subconjunto representativo da população.

Os atributos numéricos de uma população como sua média, variância e desvio padrão, são conhecidos como parâmetros. O principal foco da inferência estatística é justamente gerar estimativas e testar hipóteses sobre os parâmetros populacionais utilizando as informações de amostras.

3.2 Quando utilizar uma amostra?


Populações infinitas

O estudo não chegaria nunca ao fim. Não é possível investigar todos os elementos da população.

Testes destrutivos

Estudos onde os elementos avaliados são totalmente consumidos ou destruídos. Exemplo: testes de vida útil, testes de segurança contra colisões em automóveis.

Resultados rápidos

Pesquisas que precisam de mais agilidade na divulgação. Exemplo: pesquisas de opinião, pesquisas que envolvam problemas de saúde pública.

Custos elevados

Quando a população é finita mas muito numerosa, o custo de um censo pode tornar o processo inviável.

Exercícios do Capítulo

  • 1 Sobre amostras e população, avalie as afirmativas abaixo:
  1. Quando os elementos de uma população puderem ser contados, mas apresentando uma quantidade muito grande, assume-se a população como infinita V
  2. Estudos envolvendo populações infinitas devem ser realizados com a utilização de amostras V 3)Amostra é um subconjunto qualquer de uma população F

Quais afirmativas estão corretas?

  • 2 Dentre as alternativas abaixo, quais mostram situações onde a utilização de um processo de amostragem é necessário?
  1. Medição da quantidade média de açúcar nas latas de refrigerante de determinado fabricante C
  2. Medição da quantidade de coliformes fecais nas águas da praia de Copacabana C
  3. Medição dos pesos dos alunos de uma sala de aula
  4. Medição dos níveis de colesterol no sangue de um paciente C

3.3 Amostragem Aleatória Simples


É uma das principais maneiras de se extrair uma amostra de uma população. A exigência fundamental deste tipo de abordagem é que cada elemento da população tenha a mesma chance de ser selecionado para fazer parte da amostra.

Documentações:

#install.packages('dplyr')
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Primeiro, vamos compreender quantas linhas de dados temos no nosso dataset.

nrow(dados)
## [1] 76840

Agora vamos ver a média de renda do nosso dataset

mean(dados$Renda)
## [1] 2000.383

Vamos gerar nossa amostra dentro do Dataset

set.seed(2811)
amostra <- sample_n(dados, 1000)

Aqui temos a quantidade de amostras selecionadas para o novo Dataset

nrow(amostra)
## [1] 1000

Agora vamos comparar a média da amostra com a média do Dataset original

mean(amostra$Renda)
## [1] 1884.602

Vamos ver a representatividade de outra variável denro do Dataset original.

prop.table(table(dados$Sexo))
## 
##         0         1 
## 0.6929984 0.3070016

Agora vamos comparar a mesma vaiável dentro do novo Dataset

prop.table(table(amostra$Sexo))
## 
##     0     1 
## 0.679 0.321

3.4 Amostragem Estratificada


É uma melhoria do processo de amostragem aleatória simples. Neste método é proposta a divisão da população em subgrupos de elementos com características similares, ou seja, grupos mais homogêneos. Com estes subgrupos separados, aplica-se a técnica de amostragem aleatória simples dentro de cada subgrupo individualmente.

3.5 Amostragem por Conglomerados


Também visa melhorar o critério de amostragem aleatória simples. Na amostragem por conglomerados são também criados subgrupos, porém não serão homogêneas como na amostragem estratificada. Na amostragem por conglomerados os subgrupos serão heterogêneos, onde, em seguida, serão aplicadas a amostragem aleatória simples ou estratificada.

Um exemplo bastante comum de aplicação deste tipo de técnica é na divisão da população em grupos territoriais, onde os elementos investigados terão características bastante variadas.

Exercício do Capítulo

  • 1 Sobre as técnicas de amostragem, avalie as alternativas abaixo e marque as corretas.
  1. Na amostragem por conglomerados, os subgrupos separados da população não precisam ser homogêneos
  2. O principal foco da inferência estatística é justamente gerar estimativas e testar hipóteses sobre os parâmetros amostrais, utilizando as informações da população
  3. Na amostragem aleatória simples, separamos a população em subgrupos de elementos com características similares e depois realizamos a seleção da amostra
  4. A exigência fundamental de um processo de amostragem aleatória simples é que cada elemento da população tenha as mesmas chances de ser selecionado para fazer parte da amostra

4 ESTIMAÇÃO


Problema

Suponha que os pesos dos sacos de arroz de uma indústria alimentícia se distribuem aproximadamente como uma normal de desvio padrão populacional igual a 150 g. Selecionada uma amostra aleatório de 20 sacos de um lote específico, obteve-se um peso médio de 5.050 g. Construa um intervalo de confiança para a média populacional assumindo um nível de significância de 5%.

É a forma de se fazer suposições generalizadas sobre os parâmetros de uma população tendo como base as informações de uma amostra.

  • Parâmetros são os atributos numéricos de uma população, tal como a média, desvio padrão etc.

  • Estimativa é o valor obtido para determinado parâmetro a partir dos dados de uma amostra da população.

4.1 Teorema do limite central


O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproximam de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para \(n\) maior ou igual a 30.

\[\sigma_\bar{x} = \frac{\sigma}{\sqrt{n}}\]

O desvio padrão das médias amostrais é conhecido como erro padrão da média

Documentações:

Entendendo o Teorema do Limite Central

Vamos fazer uma amostragem de para exemplificar o teorema. Neste caso, serão 1500 amostras com 2000 valores cada.

n <- 2000
total_de_amostras <- 1500

Construindo o dataframe das amostas:

for (i in 1:total_de_amostras){
    if(i==1){
        amostras <- data.frame('Amostra_1' = sample(dados$Idade, n))
    }else{
        amostras[paste('Amostra_', i)] <- sample(dados$Idade, n)
    }
}
##amostras

Para não ficar complicada a apresentação neste livro, retiramos a apresentação da #amostras. Mas para efetio de visualização, recomendamos que possa deixa-lo aparente, retirando # que comenta a linha.

Agora vamos encontrar as médias de cada uma das amostras.

##colMeans(amostras)

Devido a mesma situação de visualização, comentamos a apresentação do resultado. #colMeans(amostras)

O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para n maior ou igual a 30.

Para testar esta primeira parte, iremos fazer um histograma das médias amostrais.

hist(
    x = colMeans(amostras),
    main = 'Histograma das Idades Médias',
    xlab = 'Idades',
    ylab = 'Frequências'
)

Veja que se assemelha muito a uma distribuição normal.

O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para n maior ou igual a 30.

Vamos agora verificar as duas médias e comparar:

Dados brutos:

mean(dados$Idade)
## [1] 44.07142

Amostras

mean(colMeans(amostras))
## [1] 44.06931

Veja que praticamente ambos tem o mesmo valor.

O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para n maior ou igual a 30.

\[\sigma_\bar{x} = \frac{\sigma}{\sqrt{n}}\]

Vamos verificar a expressão acima:

Desvio padrão da amostra:

sd(colMeans(amostras))
## [1] 0.2769366

Desvio padrão dos dados brutos pela raiz quadrada do número de amostras

sd(dados$Idade) / sqrt(n)
## [1] 0.2790743

Observe novamente a proximidade destes dois valores.

4.2 Níveis de confiança e significância


O nível de confiança (\(1 - \alpha\)) representa a probabilidade de acerto da estimativa. De forma complementar o nível de significância (\(\alpha\)) expressa a probabilidade de erro da estimativa.

O nível de confiança representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo. Quando fixamos em uma pesquisa um nível de confiança de 95%, por exemplo, estamos assumindo que existe uma probabilidade de 95% dos resultados da pesquisa representarem bem a realidade, ou seja, estarem corretos.

O nível de confiança de uma estimativa pode ser obtido a partir da área sob a curva normal como ilustrado na figura abaixo.

4.3 Erro inferencial


O erro inferencial é definido pelo desvio padrão das médias amostrais \(\sigma_\bar{x}\) e pelo nível de confiança determinado para o processo.

\[e = z \frac{\sigma}{\sqrt{n}}\]

Exercício do Capítulo:

  • 1 Sobre os níveis de confiança e significância, avalie as afirmativas abaixo:
  1. O nível de confiança \((1 - \aplha)\) representa a probabilidade de acerto da estimativa. De forma complementar, o nível de significância \((\alpha)\) expressa a probabilidade de erro da estimativa C

  2. O nível de confiança representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo C

  3. O nível de confiança de uma estimativa pode ser obtido a partir da área sob a curva normal, como ilustrado na figura abaixo: C

Quais afirmativas estão corretas? 1,2 & 3

4.4 Intervalos de confiança


Intevalo de confiança para a média da população

Com desvio padrão populacional conhecido

\[\mu = \bar{x} \pm z\frac{\sigma}{\sqrt{n}}\]

Com desvio padrão populacional desconhecido

\[\mu = \bar{x} \pm z\frac{s}{\sqrt{n}}\]

Exemplo:

Suponha que os pesos dos sacos de arroz de uma indústria alimentícia se distribuem aproximadamente como uma normal de desvio padrão populacional igual a 150 g. Selecionada uma amostra aleatório de 20 sacos de um lote específico, obteve-se um peso médio de 5.050 g. Construa um intervalo de confiança para a média populacional assumindo um nível de significância de 5%.

Média amostral

media_amostral <- 5050
media_amostral
## [1] 5050

Nível de significância (\(\alpha\))

significancia <- 0.05
significancia
## [1] 0.05

Nível de confiança (\(1 - \alpha\))

confianca <- 1 - significancia
confianca
## [1] 0.95

Obtendo \(z\)

tabela_normal_padronizada[17:26, ]
##           0.00      0.01      0.02      0.03      0.04      0.05      0.06
## 1.60 0.9452007 0.9463011 0.9473839 0.9484493 0.9494974 0.9505285 0.9515428
## 1.70 0.9554345 0.9563671 0.9572838 0.9581849 0.9590705 0.9599408 0.9607961
## 1.80 0.9640697 0.9648521 0.9656205 0.9663750 0.9671159 0.9678432 0.9685572
## 1.90 0.9712834 0.9719334 0.9725711 0.9731966 0.9738102 0.9744119 0.9750021
## 2.00 0.9772499 0.9777844 0.9783083 0.9788217 0.9793248 0.9798178 0.9803007
## 2.10 0.9821356 0.9825708 0.9829970 0.9834142 0.9838226 0.9842224 0.9846137
## 2.20 0.9860966 0.9864474 0.9867906 0.9871263 0.9874545 0.9877755 0.9880894
## 2.30 0.9892759 0.9895559 0.9898296 0.9900969 0.9903581 0.9906133 0.9908625
## 2.40 0.9918025 0.9920237 0.9922397 0.9924506 0.9926564 0.9928572 0.9930531
## 2.50 0.9937903 0.9939634 0.9941323 0.9942969 0.9944574 0.9946139 0.9947664
##           0.07      0.08      0.09
## 1.60 0.9525403 0.9535213 0.9544860
## 1.70 0.9616364 0.9624620 0.9632730
## 1.80 0.9692581 0.9699460 0.9706210
## 1.90 0.9755808 0.9761482 0.9767045
## 2.00 0.9807738 0.9812372 0.9816911
## 2.10 0.9849966 0.9853713 0.9857379
## 2.20 0.9883962 0.9886962 0.9889893
## 2.30 0.9911060 0.9913437 0.9915758
## 2.40 0.9932443 0.9934309 0.9936128
## 2.50 0.9949151 0.9950600 0.9952012

Econtrando a metade da confiança:

0.95 / 2
## [1] 0.475

Encontrando o lado positivo da área:

0.5 + (0.95 / 2)
## [1] 0.975

Observando a tabela e determinando o valor de \(z\)

1.9 + 0.06
## [1] 1.96

Refazendo utilizando a biblioteca do R

z <- qnorm(0.975)
z
## [1] 1.959964

Valores de \(z\) para os níveis de confiança mais utilizados

Nível de
confiança
Valor da área sob
a curva normal
\(z\)
90% 0,95 1,645
95% 0,975 1,96
99% 0,995 2,575

Obtendo \(\sigma_\bar{x}\)

desvio_padrao <- 150
desvio_padrao
## [1] 150

Obtendo \(n\)

n <- 20
n
## [1] 20

Obtendo a raiz de \(n\)

raiz_de_n <- sqrt(n)
raiz_de_n
## [1] 4.472136

Obtendo \(\sigma\)

sigma <- desvio_padrao / raiz_de_n
sigma
## [1] 33.54102

Obtendo \(e\)

e <- z * sigma
e
## [1] 65.73919

Solução 1 - Calculando o intervalo de confiança para a média

intervalo <- c(
    media_amostral - e,
    media_amostral + e
)
intervalo
## [1] 4984.261 5115.739

Solução 2 - Calculando o intervalo de confiança para a média

Documentações:

Instalação do pacote DescTools

https://cran.r-project.org

library(DescTools)
MeanCI(x = 5050, sd = sigma, type = 'norm', conf.level = 0.95, sides = 'two.sided')
##     mean   lwr.ci   upr.ci 
## 5050.000 4984.261 5115.739

Vamos agora fazer o mesmo cálculo para o dataframe original:

mean(dados$Idade) - (z * (sd(dados$Idade) / sqrt(nrow(dados))))
## [1] 43.98318
mean(dados$Idade) + (z * (sd(dados$Idade) / sqrt(nrow(dados))))
## [1] 44.15967
sigma <- sd(dados$Idade) / sqrt(nrow(dados))

Exercicio do capítulo:

  • 1 Para estimar o valor médio gasto por cada cliente de uma grande rede de fast food, foi selecionada uma amostra de 50 clientes. Assumindo que o valor do desvio padrão da população seja de R$ 6,00 e que essa população se distribui normalmente, obtenha a margem de erro desta estimativa, para um nível de confiança de 95%.

Solução:

n <- 50
desvio_padrao <- 6
nivel_confianca <- 0.95
probabilidade <- 0.5 + (nivel_confianca / 2)
Z <- qnorm(probabilidade)

e <- Z * (desvio_padrao / sqrt(n))
round(e, 2)
## [1] 1.66
  • 2 Uma amostra aleatória simples de 1976 itens de uma população normalmente distribuída, com desvio padrão igual a 11, resultou em uma média amostral de 28. Qual o intervalo de confiança de 90% para a média populacional?

Solução:

n <- 1976
desvio_padrao <- 11
media_amostral <- 28
nivel_confianca <- 0.9
p <- 0.5 + (nivel_confianca / 2)
Z <- qnorm(p)

round( media_amostral - ( Z * ( desvio_padrao / sqrt(n) ) ), 2 )
## [1] 27.59
round( media_amostral + ( Z * ( desvio_padrao / sqrt(n) ) ), 2 )
## [1] 28.41

5 CÁLCULO DO TAMANHO DA AMOSTRA


Problema

Estamos estudando o rendimento mensal dos chefes de domicílios no Brasil. Nosso supervisor determinou que o erro máximo em relação a média seja de R\(\$\) 100,00. Sabemos que o desvio padrão populacional deste grupo de trabalhadores é de R\(\$\) 3.323,39. Para um nível de confiança de 95%, qual deve ser o tamanho da amostra de nosso estudo?

5.1 Variáveis quantitativas e população infinita


\[e = z \frac{\sigma}{\sqrt{n}}\]

Com desvio padrão conhecido

\[n = \left(z\frac{\sigma}{e}\right)^2\]

Com desvio padrão desconhecido

\[n = \left(z\frac{s}{e}\right)^2\]

Onde:

\(z\) = variável normal padronizada

\(\sigma\) = desvio padrão populacional

\(s\) = desvio padrão amostral

\(e\) = erro inferencial

Observações

  1. O desvio padrão (\(\sigma\) ou \(s\)) e o erro (\(e\)) devem estar na mesma unidade de medida.

  2. Quando o erro (\(e\)) for representado em termos percentuais, deve ser interpretado como um percentual relacionado à média.

Exemplo: Rendimento médio

Estamos estudando o rendimento mensal dos chefes de domicílios no Brasil. Nosso supervisor determinou que o erro máximo em relação a média seja de R\(\$\) 100,00. Sabemos que o desvio padrão populacional deste grupo de trabalhadores é de R\(\$\) 3.323,39. Para um nível de confiança de 95%, qual deve ser o tamanho da amostra de nosso estudo?

Obtendo \(z\)

z <- qnorm(0.5+(0.95/2))
z
## [1] 1.959964

Obtendo \(\sigma\)

sigma <- 3323.39
sigma
## [1] 3323.39

Obtendo \(e\)

e <- 100
e
## [1] 100

Obtendo \(n\)

n <- (z * (sigma / e)) ** 2
round(n)
## [1] 4243

Logo, para satisfazer as condições estabelecidas, precisaremos de uma amostra com 4243 participantes.

Exercício do Capítulo:

  • 1 O valor do gasto médio dos clientes de uma loja de conveniência é de R$ 45,50. Assumindo que o desvio padrão dos gastos é igual a R$ 15,00, qual deve ser o tamanho da amostra para estimarmos a média populacional, com um nível de significância de 10%? Considere que o erro máximo aceitável seja de 10%.

Solução:

z <- qnorm(0.5+(0.90/2))
sigma <- 15
e <- 45*0.1
n <- (z * (sigma /e))**2
round(n)
## [1] 30
  • 2 Uma amostra com 40 cupons fiscais, coletados aleatoriamente em um shopping center, apresentou um desvio padrão do total pago igual a R$ 42,00. A associação de lojistas precisa estimar a média populacional das vendas, com um erro máximo igual a R$ 6,00 e empregando um nível de confiança igual a 90%. Qual o tamanho da amostra a analisar?

Solução:

z <- qnorm(0.5+(0.90/2))
sigma <- 42
e <- 6
n <- (z * (sigma /e))**2
round(n)
## [1] 133

Problema

Em um lote de 10.000 latas de refrigerante foi realizada uma amostra aleatória simples de 100 latas e foi obtido o desvio padrão amostral do conteúdo das latas igual a 12 ml. O fabricante estipula um erro máximo sobre a média populacional de apenas 5 ml. Para garantir um nível de confiança de 95% qual o tamanho de amostra deve ser selecionado para este estudo?

Sempre que formos querer saber a quantidade de amostras /

5.2 Variáveis quantitativas e população finita


Com desvio padrão conhecido

\[n = \frac{z^2 \sigma^2 N}{z^2 \sigma^2 + e^2(N-1)}\]

Com desvio padrão desconhecido

\[n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}\]

Onde:

\(N\) = tamanho da população

\(z\) = variável normal padronizada

\(\sigma\) = desvio padrão populacional

\(s\) = desvio padrão amostral

\(e\) = erro inferencial

Exemplo: Indústria de refrigerantes

Em um lote de 10.000 latas de refrigerante foi realizada uma amostra aleatória simples de 100 latas e foi obtido o desvio padrão amostral do conteúdo das latas igual a 12 ml. O fabricante estipula um erro máximo sobre a média populacional de apenas 5 ml. Para garantir um nível de confiança de 95% qual o tamanho de amostra deve ser selecionado para este estudo?

Obtendo \(N\)

N <- 10000
N
## [1] 10000

Obtendo \(z\)

z <- qnorm((0.5 + (0.95 / 2)))
z
## [1] 1.959964

Obtendo \(s\)

s <- 12
s
## [1] 12

Obtendo \(e\)

e <- 5
e
## [1] 5

Obtendo \(n\)

\[n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}\]

n <- ((z ** 2) * (s ** 2) * (N)) / (((z ** 2) * (s ** 2)) + ((e ** 2) * (N - 1)))
round(n)
## [1] 22

Veja que interessante, apenas 22 latas de refrigerante podem garantir a confiança na análise amostral das 10000 latas. Isso representa uma economia significativa nos custos de controle de qualidade da empresa.

Exercícios do Capítulo:

  • 1 Um fabricante de farinha verificou em uma amostra aleatória formada por 200 sacos de 25 kg de um lote formado por 2.000 sacos apresentou um desvio padrão amostral do peso igual a 480 g. Considerando um erro máximo associado à média populacional igual a 0,3 kg e um nível de confiança igual a 95%, qual o tamanho de amostra deveria ser selecionado para obtermos uma estimativa confiável do parâmetro populacional?

Solução:

N <- 2000
s <- 480
e <- 300
z <- qnorm(0.5+(0.95/2))
n <- ((z ** 2) * (s ** 2) * (N)) / (((z ** 2) * (s ** 2)) + ((e ** 2) * (N - 1)))
round(n)
## [1] 10

6 Aplicação no DataSet


Exemplo: Rendimento médio

Estamos estudando o rendimento mensal dos chefes de domicílios com renda até R\(\$\) 5.000,00 no Brasil. Nosso supervisor determinou que o erro máximo em relação a média seja de R\(\$\) 10,00. Sabemos que o desvio padrão populacional deste grupo de trabalhadores é de R\(\$\) 1.082,79 e que a média populacional é de R\(\$\) 1.426,54. Para um nível de confiança de 95%, qual deve ser o tamanho da amostra de nosso estudo? Qual o intervalo de confiança para a média considerando o tamanho de amostra obtido?

Construindo o dataset conforme especificado pelo problema

renda_5000 <- dados[dados$Renda <= 5000, ]

Calculando o desvio padrão:

sigma <- sd(renda_5000$Renda)
sigma
## [1] 1082.795

Calculando a média:

media <- mean(renda_5000$Renda)
media
## [1] 1426.537

Calculando o tamanho da amostra

z <- qnorm(.975)
e <- 10
n <- (z * (sigma / e)) ** 2
round(n)
## [1] 45039

Calculando o intervalo de confiança para a média

limite_inferior <- mean(renda_5000$Renda) - (z * (sd(renda_5000$Renda) / sqrt(n)))
limite_superior <- mean(renda_5000$Renda) + (z * (sd(renda_5000$Renda) / sqrt(n)))

Verificando os limites:

sprintf("Liminte Inferior = %s, Média = %s e Limite Superior - %s", round(limite_inferior,2), round(media,2), round(limite_superior,2))
## [1] "Liminte Inferior = 1416.54, Média = 1426.54 e Limite Superior - 1436.54"

Realizando uma prova gráfica

library(ggplot2)
tamanho_simulacao = 1000
medias <- c()

for(i in 1:tamanho_simulacao){
    medias <- c(medias, mean(sample_n(renda_5000, n)$Renda))
}
medias <- data.frame(medias)

ggplot(data = medias, aes(x = c(1:tamanho_simulacao), y = medias)) + 
    geom_point(size = 1.5, stroke = 0) + 
    geom_hline(yintercept = media, color = 'green') + 
    geom_hline(yintercept = limite_inferior, color = 'red') + 
    geom_hline(yintercept = limite_superior, color = 'red')

Neste gráfico a linha verde é a média, e as duas vermelhas estabelecem o intervalo de confiança.Veja que dentro das amostras estabelecidas, podemos com toda a certeza confiar que 95% dos dados selecionados estão dentro do intervalo de confiaça estabelecido no entorno da média.

REFERÊNCIAS

BENGFORT, B.; KIM, J. Análise de dados com Hadoop: Uma introdução para Cientista de Dados. 1ª Edição. São Paulo - SP: Novatec, 2016.

BRUCE, P.; BRUCE, A. Estatística para Cientista de Dados: 50 conceitos iniciais. 1ª Edição. Rio de Janeiro - RJ: Alta Books, 2019.

DIAS, Rodrigo fernando. Estaística com R. Alura. 2022. disponível em: https://cursos.alura.com.br/course/estatistica-r-frequencias-medidas

GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining: Conceitos, técnicas, orientações e aplicações. 2ª Edição. Rio de Janeiro - RJ: ELSEVIER, 2015.

HADLEY, W.; GARRETT, G. R para Data Science: Importe, arrume, transforme, visualize e modele dados. 1ª Edição. Rio de Janeiro - RJ: Alta Books, 2019.

MUELLER, J. P.; MASSARON, L. Aprendizado de Máquina para leigos. 1ª Edição. Rio de Janeiro - RJ: Alta Books, 2019.

OLIVEIRA, Francisco Estevam Martins de. Estatistica e Probabilidade - Exercicios Resolvidos e Propostos, 3ª edição. [Digite o Local da Editora]: Grupo GEN, 2017. E-book. ISBN 9788521633846. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788521633846/. Acesso em: 06 abr. 2023.

ROSS, Sheldon. Probabilidade. [Digite o Local da Editora]: Grupo A, 2010. E-book. ISBN 9788577806881. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788577806881/. Acesso em: 06 abr. 2023.

UCS - Universidade Caxias do Sul. Big Data: o que é, para que serve, como aplicar e exemplos. Disponível em: https://ead.ucs.br/blog/big-data Acesso em: 12, setembro de 2022.

TAULLI, T. Introdução à Inteligência Artificial: Uma abordagem não técnica. 1ª Edição. São Paulo - SP: Novatec, 2020.