A Pesquisa Nacional por Amostra de Domicílios - PNAD investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.
Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.
Idade do morador na data de referência em anos.
Altura do morador em metros.
| Código | Descrição |
|---|---|
| 11 | Rondônia |
| 12 | Acre |
| 13 | Amazonas |
| 14 | Roraima |
| 15 | Pará |
| 16 | Amapá |
| 17 | Tocantins |
| 21 | Maranhão |
| 22 | Piauí |
| 23 | Ceará |
| 24 | Rio Grande do Norte |
| 25 | Paraíba |
| 26 | Pernambuco |
| 27 | Alagoas |
| 28 | Sergipe |
| 29 | Bahia |
| 31 | Minas Gerais |
| 32 | Espírito Santo |
| 33 | Rio de Janeiro |
| 35 | São Paulo |
| 41 | Paraná |
| 42 | Santa Catarina |
| 43 | Rio Grande do Sul |
| 50 | Mato Grosso do Sul |
| 51 | Mato Grosso |
| 52 | Goiás |
| 53 | Distrito Federal |
| Código | Descrição |
|---|---|
| 0 | Masculino |
| 1 | Feminino |
| Código | Descrição |
|---|---|
| 1 | Sem instrução e menos de 1 ano |
| 2 | 1 ano |
| 3 | 2 anos |
| 4 | 3 anos |
| 5 | 4 anos |
| 6 | 5 anos |
| 7 | 6 anos |
| 8 | 7 anos |
| 9 | 8 anos |
| 10 | 9 anos |
| 11 | 10 anos |
| 12 | 11 anos |
| 13 | 12 anos |
| 14 | 13 anos |
| 15 | 14 anos |
| 16 | 15 anos ou mais |
| 17 | Não determinados |
| Não aplicável |
| Código | Descrição |
|---|---|
| 0 | Indígena |
| 2 | Branca |
| 4 | Preta |
| 6 | Amarela |
| 8 | Parda |
| 9 | Sem declaração |
Os seguintes tratamentos foram realizados nos dados originais:
Carregando o pacote ggplot2
library(ggplot2)
Fazendo a configuração para os gráficos
options(repr.plot.width = 7, repr.plot.height = 4)
dados <- read.csv('dados.csv')
head(dados, 5)
## UF Sexo Idade Cor Anos.de.Estudo Renda Altura
## 1 11 0 23 8 12 800 1.603808
## 2 11 1 23 2 12 1150 1.739790
## 3 11 1 35 8 15 880 1.760444
## 4 11 0 46 2 6 3500 1.783158
## 5 11 1 47 8 9 150 1.690631
Em um concurso para preencher uma vaga de cientista de dados temos um total de 10 questões de múltipla escolha com 3 alternativas possíveis em cada questão. Cada questão tem o mesmo valor. Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova vale 10 pontos e a nota de corte seja 5, obtenha a probabilidade deste candidato acertar 5 questões e também a probabilidade deste candidato passar para a próxima etapa do processo seletivo.
Um evento binomial é caracterizado pela possibilidade de ocorrência de apenas duas categorias. Estas categorias somadas representam todo o espaço amostral, sendo também mutuamente excludentes, ou seja, a ocorrência de uma implica na não ocorrência da outra.
Em análises estatísticas o uso mais comum da distribuição binomial é na solução de problemas que envolvem situações de sucesso e fracasso.
\[P(k)=\binom{n}{k} p^k q^{n-k}\]
Onde:
\(p\) = probabilidade de sucesso
\(q = (1 - p)\) = probabilidade de fracasso
\(n\) = número de eventos estudados
\(k\) = número de eventos desejados que tenham sucesso
O valor esperado ou a média da distribuição binomial é igual ao número de experimentos realizados multiplicado pela chance de ocorrência do evento.
\[\mu = n \times p\] ### Desvio padrão da distribuição binomial
O desvio padrão é o produto entre o número de experimentos, a probabilidade de sucesso e a probabilidade de fracasso.
\[\sigma = \sqrt{n \times p \times q}\]
Número de combinações de \(n\) objetos, tomados \(k\) a cada vez, é:
\[C_{k}^{n} = \binom{n}{k} = \frac{n!}{k!(n - k)!}\]
Onde
\[n! = n\times(n-1)\times(n-2)\times...\times(2)\times(1)\] \[k! = k\times(k-1)\times(k-2)\times...\times(2)\times(1)\]
Por definição
\[0! = 1\]
Em um volante de loteria da Mega Sena temos um total de 60 números para escolher onde a aposta mínima é de seis números. Você que é curiosa(o) resolve calcular a probabilidade de se acertar na Mega Sena com apenas um jogo. Para isso precisamos saber quantas combinações de seis números podem ser formadas com os 60 números disponíveis.
\[C_{6}^{60} = \binom{60}{6} = \frac{60!}{6!(60 - 6)!}\] Primeiramente iremos ver quantos bilhetes (combinações) poderemos ter combinando 6 números dentro dos 60 possíveis.
combinacoes <- choose(60,6)
combinacoes
## [1] 50063860
Agora vamos ver a probabilidade de um acerto dentro dessas opções:
probabilidade <- 1/combinacoes
sprintf("A probabilidade é de %s", probabilidade*100)
## [1] "A probabilidade é de 1.99744885831816e-06"
Ou seja, a probabilidade é de 0,000001%.
Solução
combinacoes = choose(25, 20)
probabilidade = 1 / combinacoes
sprintf('Combinações = %d e Probabilidade = %0.15f', combinacoes, probabilidade)
## [1] "Combinações = 53130 e Probabilidade = 0.000018821757952"
Em um concurso para preencher uma vaga de cientista de dados temos um total de 10 questões de múltipla escolha com 3 alternativas possíveis em cada questão. Cada questão tem o mesmo valor. Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova vale 10 pontos e a nota de corte seja 5, obtenha a probabilidade deste candidato acertar 5 questões e também a probabilidade deste candidato passar para a próxima etapa do processo seletivo.
n <- 10
n
## [1] 10
Sim. A opção escolhida em uma questão não influencia em nada a opção escolhida em outra questão.
Sim. O candidato tem duas possibilidades, ACERTA ou ERRAR uma questão.
numero_de_alternativas_por_questao <- 3
p <- 1 / numero_de_alternativas_por_questao
p
## [1] 0.3333333
q <- 1 - p
q
## [1] 0.6666667
k <- 5
k
## [1] 5
probabilidade <- choose(n, k) * (p ** k) * (q ** (n - k))
probabilidade
## [1] 0.1365645
\[P(acertar > 4) = P(5) + P(6) + P(7) + P(8) + P(9) + P(10)\] Logo, vamos calcular a probabilidade de cada uma das alternativas e somá-las:
dbinom(x = 5, size = n, prob = p) +
dbinom(x = 6, size = n, prob = p) +
dbinom(x = 7, size = n, prob = p) +
dbinom(x = 8, size = n, prob = p) +
dbinom(x = 9, size = n, prob = p) +
dbinom(x = 10, size = n, prob = p)
## [1] 0.2131281
Existe um segundo método, onde a soma pode ser feita imediamente:
sum(dbinom(x = 5:10, size = n, prob = p))
## [1] 0.2131281
Ou neste método que calcula a diferença entre a soma de probabilidades:
pbinom(q = 4, size = n, prob = p, lower.tail = F)
## [1] 0.2131281
Somente dois resultados são possíveis:
Realização de \(n\) ensaios idênticos
Ensaios são dependentes
A probabilidade de sucesso é representada por \(p\) e a de fracasso por \(1 + p = q\). Estas probabilidades não se modificam de ensaio para ensaio
Solução:
p = 1 / 2 # Probabilidade de sair um número PAR
n = 4 # Total de lançamentos
k = 2 # Total de sucessos (número PAR voltado para cima)
dbinom(x = k, size = n, prob = p)
## [1] 0.375
Solução:
p = 1 / 6 # Probabilidade de sair o número CINCO
n = 10 # Total de lançamentos
pbinom(q = 2, size = n, prob = p, lower.tail = F)
## [1] 0.2247732
Uma cidade do interior realiza todos os anos uma gincana para arrecadar fundos para o hospital da cidade. Na última gincana se sabe que a proporção de participantes do sexo feminino foi de 60%. O total de equipes, com 12 integrantes, inscritas na gincana deste ano é de 30. Com as informações acima responda: Quantas equipes deverão ser formadas por 8 mulheres?
A probabilidade de sucesso, ou seja, de ter uma mulher no grupo é dada pela experiência anterior:
p <- 0.6
p
## [1] 0.6
Agora vamos declara o número integrantes por equipes:
n <- 12
n
## [1] 12
Agora vamos declarar o número de sucessos desejado:
k <- 8
k
## [1] 8
Agora vamos calcular a probabilidade:
probabilidade <- dbinom(x = k, size = n, prob = p)
probabilidade
## [1] 0.2128409
Agora, com a probabilidade é só determinar as equipes.
equipes <- 30 * probabilidade
equipes
## [1] 6.385228
Logo, em média teremos 6 equipes com esta característica.
Solução:
p <- 0.7
n <- 5
k <- 2
N <- 1500
probabilidade <- dbinom(k, n, p)
media <- probabilidade * N
round(media)
## [1] 198
Um restaurante recebe em média 20 pedidos por hora. Qual a chance de que, em determinada hora escolhida ao acaso, o restaurante receba 15 pedidos?
Este tipo de problema que aborda a teoria de filas é resolvido com o problema de Poisson e passaremos a abordá-lo a parti de agora.
É empregada para descrever o número de ocorrências em um intervalo de tempo ou espaço específico. Os eventos são caracterizados pela possibilidade de contagem dos sucessos, mas a não possibilidade de contagem dos fracassos.
Como exemplos de processos onde podemos aplicar a distribuição de Poisson temos a determinação do número de clientes que entram em uma loja em determinada hora, o número de carros que chegam em um drive-thru de uma lanchonete na hora do almoço, a determinação do número de acidentes registrados em um trecho de estrada etc.
\[P(k) = \frac{e^{-\mu}(\mu)^k}{k!}\]
Onde:
\(e\) = constante cujo valor aproximado é 2,718281828459045
\(\mu\) = representa o número médio de ocorrências em um determinado intervalo de tempo ou espaço
\(k\) = número de sucessos no intervalo desejado
A probabilidade de uma ocorrência é a mesma em todo o intervalo observado.
O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos.
A probabilidade de uma ocorrência é a mesma em intervalos de igual comprimento.
\[\mu\] ### Desvio padrão da distribuição Poisson
\[\sigma = \sqrt{\mu}\]
A probabilidade de uma ocorrência é a mesma em todo o intervalo observado; (correto)
A probabilidade de uma ocorrência é a mesma em intervalos de qualquer comprimento; (falso)
O número de ocorrências em determinado intervalo é dependente do número de ocorrências em outros intervalos; (falso)
O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos (correto)
Um restaurante recebe em média 20 pedidos por hora. Qual a chance de que, em determinada hora escolhida ao acaso, o restaurante receba 15 pedidos?
media <- 20
media
## [1] 20
k <- 15
k
## [1] 15
probabilidade <- ((exp(1) ** (-media)) * (media ** k)) / (factorial(k))
probabilidade
## [1] 0.05164885
probabilidade <- dpois(x = k, lambda = media)
probabilidade
## [1] 0.05164885
Solução:
media <- 20
k <- 25
probabilidade <- dpois(x = k, lambda = media)
sprintf("%0.2f%%", probabilidade * 100)
## [1] "4.46%"
Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma distribuição aproximadamente normal, com média 1,70 e desvio padrão de 0,1. Com estas informações obtenha o seguinte conjunto de probabilidades:
A. probabilidade de uma pessoa, selecionada ao acaso, ter menos de 1,80 metros.
B. probabilidade de uma pessoa, selecionada ao acaso, ter entre 1,60 metros e 1,80 metros.
C. probabilidade de uma pessoa, selecionada ao acaso, ter mais de 1,90 metros.
Este tipo de problema é resolvido com a Distribuição Normal. Iremos abordar ela a partir do próximo capítulo:
A distribuição normal é uma das mais utilizadas em estatística. É uma distribuição contínua, onde a distribuição de frequências de uma variável quantitativa apresenta a forma de sino e é simétrica em relação a sua média.
É simétrica em torno da média;
A área sob a curva corresponde à proporção 1 ou 100%;
As medidas de tendência central (média, mediana e moda) apresentam o mesmo valor;
Os extremos da curva tendem ao infinito em ambas as direções e, teoricamente, jamais tocam o eixo \(x\);
O desvio padrão define o achatamento e largura da distribuição. Curvas mais largas e mais achatadas apresentam valores maiores de desvio padrão;
A distribuição é definida por sua média e desvio padrão;
A probabilidade sempre será igual à área sob a curva, delimitada pelos limites inferior e superior.
\[f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]
Onde:
\(x\) = variável normal
\(\sigma\) = desvio padrão
\(\mu\) = média
A probabilidade é obtida a partir da área sob a curva, delimitada pelos limites inferior e superior especificados. Um exemplo pode ser visto na figura abaixo.
Para obter a área acima basta calcular a integral da função para os intervalos determinados. Conforme equação abaixo:
\[P(L_i<x<L_s) = \int_{L_i}^{L_s}\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]
Onde:
\(x\) = variável normal
\(\sigma\) = desvio padrão
\(\mu\) = média
\(L_i\) = limite inferior
\(L_s\) = limite superior
As tabelas padronizadas foram criadas para facilitar a obtenção dos valores das áreas sob a curva normal e eliminar a necessidade de solucionar integrais definidas.
Para consultarmos os valores em uma tabela padronizada basta transformarmos nossa variável em uma variável padronizada \(Z\).
Esta variável \(Z\) representa o afastamento em desvios padrões de um valor da variável original em relação à média.
\[Z = \frac{x-\mu}{\sigma}\]
Onde:
\(x\) = variável normal com média \(\mu\) e desvio padrão \(\sigma\)
\(\sigma\) = desvio padrão
\(\mu\) = média
Z <- seq(0, 3.99, by=0.01)
probabilidade <- pnorm(Z)
tabela_normal_padronizada <- matrix(probabilidade, ncol=10, byrow=TRUE)
colnames(tabela_normal_padronizada) <- format(seq(0.00, 0.09, by=0.01))
rownames(tabela_normal_padronizada) <- format(seq(0.00, 3.90, by=0.10), digits = 2, nsmall = 2)
tabela_normal_padronizada
## 0.00 0.01 0.02 0.03 0.04 0.05 0.06
## 0.00 0.5000000 0.5039894 0.5079783 0.5119665 0.5159534 0.5199388 0.5239222
## 0.10 0.5398278 0.5437953 0.5477584 0.5517168 0.5556700 0.5596177 0.5635595
## 0.20 0.5792597 0.5831662 0.5870644 0.5909541 0.5948349 0.5987063 0.6025681
## 0.30 0.6179114 0.6217195 0.6255158 0.6293000 0.6330717 0.6368307 0.6405764
## 0.40 0.6554217 0.6590970 0.6627573 0.6664022 0.6700314 0.6736448 0.6772419
## 0.50 0.6914625 0.6949743 0.6984682 0.7019440 0.7054015 0.7088403 0.7122603
## 0.60 0.7257469 0.7290691 0.7323711 0.7356527 0.7389137 0.7421539 0.7453731
## 0.70 0.7580363 0.7611479 0.7642375 0.7673049 0.7703500 0.7733726 0.7763727
## 0.80 0.7881446 0.7910299 0.7938919 0.7967306 0.7995458 0.8023375 0.8051055
## 0.90 0.8159399 0.8185887 0.8212136 0.8238145 0.8263912 0.8289439 0.8314724
## 1.00 0.8413447 0.8437524 0.8461358 0.8484950 0.8508300 0.8531409 0.8554277
## 1.10 0.8643339 0.8665005 0.8686431 0.8707619 0.8728568 0.8749281 0.8769756
## 1.20 0.8849303 0.8868606 0.8887676 0.8906514 0.8925123 0.8943502 0.8961653
## 1.30 0.9031995 0.9049021 0.9065825 0.9082409 0.9098773 0.9114920 0.9130850
## 1.40 0.9192433 0.9207302 0.9221962 0.9236415 0.9250663 0.9264707 0.9278550
## 1.50 0.9331928 0.9344783 0.9357445 0.9369916 0.9382198 0.9394292 0.9406201
## 1.60 0.9452007 0.9463011 0.9473839 0.9484493 0.9494974 0.9505285 0.9515428
## 1.70 0.9554345 0.9563671 0.9572838 0.9581849 0.9590705 0.9599408 0.9607961
## 1.80 0.9640697 0.9648521 0.9656205 0.9663750 0.9671159 0.9678432 0.9685572
## 1.90 0.9712834 0.9719334 0.9725711 0.9731966 0.9738102 0.9744119 0.9750021
## 2.00 0.9772499 0.9777844 0.9783083 0.9788217 0.9793248 0.9798178 0.9803007
## 2.10 0.9821356 0.9825708 0.9829970 0.9834142 0.9838226 0.9842224 0.9846137
## 2.20 0.9860966 0.9864474 0.9867906 0.9871263 0.9874545 0.9877755 0.9880894
## 2.30 0.9892759 0.9895559 0.9898296 0.9900969 0.9903581 0.9906133 0.9908625
## 2.40 0.9918025 0.9920237 0.9922397 0.9924506 0.9926564 0.9928572 0.9930531
## 2.50 0.9937903 0.9939634 0.9941323 0.9942969 0.9944574 0.9946139 0.9947664
## 2.60 0.9953388 0.9954729 0.9956035 0.9957308 0.9958547 0.9959754 0.9960930
## 2.70 0.9965330 0.9966358 0.9967359 0.9968333 0.9969280 0.9970202 0.9971099
## 2.80 0.9974449 0.9975229 0.9975988 0.9976726 0.9977443 0.9978140 0.9978818
## 2.90 0.9981342 0.9981929 0.9982498 0.9983052 0.9983589 0.9984111 0.9984618
## 3.00 0.9986501 0.9986938 0.9987361 0.9987772 0.9988171 0.9988558 0.9988933
## 3.10 0.9990324 0.9990646 0.9990957 0.9991260 0.9991553 0.9991836 0.9992112
## 3.20 0.9993129 0.9993363 0.9993590 0.9993810 0.9994024 0.9994230 0.9994429
## 3.30 0.9995166 0.9995335 0.9995499 0.9995658 0.9995811 0.9995959 0.9996103
## 3.40 0.9996631 0.9996752 0.9996869 0.9996982 0.9997091 0.9997197 0.9997299
## 3.50 0.9997674 0.9997759 0.9997842 0.9997922 0.9997999 0.9998074 0.9998146
## 3.60 0.9998409 0.9998469 0.9998527 0.9998583 0.9998637 0.9998689 0.9998739
## 3.70 0.9998922 0.9998964 0.9999004 0.9999043 0.9999080 0.9999116 0.9999150
## 3.80 0.9999277 0.9999305 0.9999333 0.9999359 0.9999385 0.9999409 0.9999433
## 3.90 0.9999519 0.9999539 0.9999557 0.9999575 0.9999593 0.9999609 0.9999625
## 0.07 0.08 0.09
## 0.00 0.5279032 0.5318814 0.5358564
## 0.10 0.5674949 0.5714237 0.5753454
## 0.20 0.6064199 0.6102612 0.6140919
## 0.30 0.6443088 0.6480273 0.6517317
## 0.40 0.6808225 0.6843863 0.6879331
## 0.50 0.7156612 0.7190427 0.7224047
## 0.60 0.7485711 0.7517478 0.7549029
## 0.70 0.7793501 0.7823046 0.7852361
## 0.80 0.8078498 0.8105703 0.8132671
## 0.90 0.8339768 0.8364569 0.8389129
## 1.00 0.8576903 0.8599289 0.8621434
## 1.10 0.8789995 0.8809999 0.8829768
## 1.20 0.8979577 0.8997274 0.9014747
## 1.30 0.9146565 0.9162067 0.9177356
## 1.40 0.9292191 0.9305634 0.9318879
## 1.50 0.9417924 0.9429466 0.9440826
## 1.60 0.9525403 0.9535213 0.9544860
## 1.70 0.9616364 0.9624620 0.9632730
## 1.80 0.9692581 0.9699460 0.9706210
## 1.90 0.9755808 0.9761482 0.9767045
## 2.00 0.9807738 0.9812372 0.9816911
## 2.10 0.9849966 0.9853713 0.9857379
## 2.20 0.9883962 0.9886962 0.9889893
## 2.30 0.9911060 0.9913437 0.9915758
## 2.40 0.9932443 0.9934309 0.9936128
## 2.50 0.9949151 0.9950600 0.9952012
## 2.60 0.9962074 0.9963189 0.9964274
## 2.70 0.9971972 0.9972821 0.9973646
## 2.80 0.9979476 0.9980116 0.9980738
## 2.90 0.9985110 0.9985588 0.9986051
## 3.00 0.9989297 0.9989650 0.9989992
## 3.10 0.9992378 0.9992636 0.9992886
## 3.20 0.9994623 0.9994810 0.9994991
## 3.30 0.9996242 0.9996376 0.9996505
## 3.40 0.9997398 0.9997493 0.9997585
## 3.50 0.9998215 0.9998282 0.9998347
## 3.60 0.9998787 0.9998834 0.9998879
## 3.70 0.9999184 0.9999216 0.9999247
## 3.80 0.9999456 0.9999478 0.9999499
## 3.90 0.9999641 0.9999655 0.9999670
A tabela acima fornece a área sob a curva entre \(-\infty\) e \(Z\) desvios padrão acima da média. Lembrando que por se tratar de valores padronizados temos \(\mu = 0\).
Solução:
Alternativa correta! Com a transformação, obtemos um Z igual a 0,67. Para consultar na tabela, basta localizar o valor que se encontra no cruzamento entre a linha de valor 0,60 e a coluna de valor 0,07.
Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma distribuição aproximadamente normal, com média 1,70 e desvio padrão de 0,1. Com estas informações obtenha o seguinte conjunto de probabilidades:
A. probabilidade de uma pessoa, selecionada ao acaso, ter menos de 1,80 metros.
B. probabilidade de uma pessoa, selecionada ao acaso, ter entre 1,60 metros e 1,80 metros.
C. probabilidade de uma pessoa, selecionada ao acaso, ter mais de 1,90 metros.
Atribuindo a média
media <- 1.7
media
## [1] 1.7
Atribuindo o desvio padrão
desvio_padrao <- 0.1
desvio_padrao
## [1] 0.1
Encontrando o valor de \(Z\)
Z <- (1.8 - media) / desvio_padrao
Z
## [1] 1
probabilidade <- 0.8413447
probabilidade
## [1] 0.8413447
pnorm(Z)
## [1] 0.8413447
Solução
Xe <- 85
mediae <- 70
desvio_padraoe <- 5
Ze <- (Xe - mediae) / desvio_padraoe
round(pnorm(Ze), 7)
## [1] 0.9986501
media <- 1.7
desvio_padrao = 0.1
Z_inferior <- (1.6 - media) / desvio_padrao
round(Z_inferior, 2)
## [1] -1
Z_superior <- (1.8 - media) / desvio_padrao
round(Z_superior, 2)
## [1] 1
probabilidade <- (0.8413447 - 0.5) * 2
probabilidade
## [1] 0.6826894
probabilidade <- 0.8413447 - (1 - 0.8413447)
probabilidade
## [1] 0.6826894
probabilidade <- pnorm(Z_superior) - pnorm(Z_inferior)
probabilidade
## [1] 0.6826895
Entre R$ 250,00 e R$ 350,00
Entre R$ 400,00 e R$ 500,00
Solução 1
# 1. entre R$ 250,00 e R$ 350,00
mediae <- 300
desvio_padraoe <- 50
Z_inferiore = (250 - mediae) / desvio_padraoe
Z_superiore = (350 - mediae) / desvio_padraoe
probabilidadee <- pnorm(Z_superiore) - pnorm(Z_inferiore)
round(probabilidadee, 4)
## [1] 0.6827
Solucão 2
# 2. entre R$ 400,00 e R$ 500,00
mediae <- 300
desvio_padraoe <- 50
Z_inferiore = (400 - mediae) / desvio_padraoe
Z_superiore = (500 - mediae) / desvio_padraoe
probabilidadee <- pnorm(Z_superiore) - pnorm(Z_inferiore)
round(probabilidadee, 4)
## [1] 0.0227
Solução
Ne <- 500
mediae <- 80.5
desvio_padraoe <- 12.2
Z_inferiore = (65.7 - mediae) / desvio_padraoe
Z_superiore = (70.3 - mediae) / desvio_padraoe
probabilidadee <- pnorm(Z_superiore) - pnorm(Z_inferiore)
ne <- Ne * probabilidadee
round(ne)
## [1] 45
media <- 1.7
desvio_padrao = 0.1
Z <- (1.9 - media) / desvio_padrao
Z
## [1] 2
probabilidade <- 1 - 0.9772499
probabilidade
## [1] 0.0227501
probabilidade <- 1 - pnorm(Z)
probabilidade
## [1] 0.02275013
probabilidade <- pnorm(-Z)
probabilidade
## [1] 0.02275013
- Entre 650 e 750 dias
- Mais que 800 dias
- Menos que 700 dias
Solução a
mediae <- 720
desvio_padraoe <- 30
# 1. entre 650 e 750 dias
Z_inferiore = (650 - mediae) / desvio_padraoe
Z_superiore = (750 - mediae) / desvio_padraoe
probabilidadee <- pnorm(Z_superiore) - pnorm(Z_inferiore)
round(probabilidadee, 4)
## [1] 0.8315
Solução b
# 2. mais que 800 dias
Ze = (800 - mediae) / desvio_padraoe
probabilidadee <- pnorm(-Ze)
round(probabilidadee, 4)
## [1] 0.0038
Solução c
# 3. menos que 700 dias
Ze = (700 - mediae) / desvio_padraoe
probabilidadee <- pnorm(Ze)
round(probabilidadee, 4)
## [1] 0.2525
- \(0 < Z < 1,23\)
- \(Z > 2,14\)
- \(-1,56 < Z < 1,48\)
- \(Z < -0,78\)
Solução
Observação: Utilize a função round() para arredondar o resultado obtido.
Solução:
Conjunto de todos os elementos de interesse em um estudo. Diversos elementos podem compor uma população, por exemplo: pessoas, idades, alturas, carros etc.
Com relação ao tamanho, as populações podem ser limitadas (populações finitas) ou ilimitadas (populações infinitas).
Permitem a contagem de seus elementos. Como exemplos temos o número de funcionário de uma empresa, a quantidade de alunos em uma escola etc.
Não é possível contar seus elementos. Como exemplos temos a quantidade de porções que se pode extrair da água do mar para uma análise, temperatura medida em cada ponto de um território etc.
Quando os elementos de uma população puderem ser contados, porém apresentando uma quantidade muito grande, assume-se a população como infinita..
Subconjunto representativo da população.
Os atributos numéricos de uma população como sua média, variância e desvio padrão, são conhecidos como parâmetros. O principal foco da inferência estatística é justamente gerar estimativas e testar hipóteses sobre os parâmetros populacionais utilizando as informações de amostras.
O estudo não chegaria nunca ao fim. Não é possível investigar todos os elementos da população.
Estudos onde os elementos avaliados são totalmente consumidos ou destruídos. Exemplo: testes de vida útil, testes de segurança contra colisões em automóveis.
Pesquisas que precisam de mais agilidade na divulgação. Exemplo: pesquisas de opinião, pesquisas que envolvam problemas de saúde pública.
Quando a população é finita mas muito numerosa, o custo de um censo pode tornar o processo inviável.
- Quando os elementos de uma população puderem ser contados, mas apresentando uma quantidade muito grande, assume-se a população como infinita V
- Estudos envolvendo populações infinitas devem ser realizados com a utilização de amostras V 3)Amostra é um subconjunto qualquer de uma população F
Quais afirmativas estão corretas?
- Medição da quantidade média de açúcar nas latas de refrigerante de determinado fabricante C
- Medição da quantidade de coliformes fecais nas águas da praia de Copacabana C
- Medição dos pesos dos alunos de uma sala de aula
- Medição dos níveis de colesterol no sangue de um paciente C
É uma das principais maneiras de se extrair uma amostra de uma população. A exigência fundamental deste tipo de abordagem é que cada elemento da população tenha a mesma chance de ser selecionado para fazer parte da amostra.
#install.packages('dplyr')
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Primeiro, vamos compreender quantas linhas de dados temos no nosso dataset.
nrow(dados)
## [1] 76840
Agora vamos ver a média de renda do nosso dataset
mean(dados$Renda)
## [1] 2000.383
Vamos gerar nossa amostra dentro do Dataset
set.seed(2811)
amostra <- sample_n(dados, 1000)
Aqui temos a quantidade de amostras selecionadas para o novo Dataset
nrow(amostra)
## [1] 1000
Agora vamos comparar a média da amostra com a média do Dataset original
mean(amostra$Renda)
## [1] 1884.602
Vamos ver a representatividade de outra variável denro do Dataset original.
prop.table(table(dados$Sexo))
##
## 0 1
## 0.6929984 0.3070016
Agora vamos comparar a mesma vaiável dentro do novo Dataset
prop.table(table(amostra$Sexo))
##
## 0 1
## 0.679 0.321
É uma melhoria do processo de amostragem aleatória simples. Neste método é proposta a divisão da população em subgrupos de elementos com características similares, ou seja, grupos mais homogêneos. Com estes subgrupos separados, aplica-se a técnica de amostragem aleatória simples dentro de cada subgrupo individualmente.
Também visa melhorar o critério de amostragem aleatória simples. Na amostragem por conglomerados são também criados subgrupos, porém não serão homogêneas como na amostragem estratificada. Na amostragem por conglomerados os subgrupos serão heterogêneos, onde, em seguida, serão aplicadas a amostragem aleatória simples ou estratificada.
Um exemplo bastante comum de aplicação deste tipo de técnica é na divisão da população em grupos territoriais, onde os elementos investigados terão características bastante variadas.
- Na amostragem por conglomerados, os subgrupos separados da população não precisam ser homogêneos
- O principal foco da inferência estatística é justamente gerar estimativas e testar hipóteses sobre os parâmetros amostrais, utilizando as informações da população
- Na amostragem aleatória simples, separamos a população em subgrupos de elementos com características similares e depois realizamos a seleção da amostra
- A exigência fundamental de um processo de amostragem aleatória simples é que cada elemento da população tenha as mesmas chances de ser selecionado para fazer parte da amostra
Suponha que os pesos dos sacos de arroz de uma indústria alimentícia se distribuem aproximadamente como uma normal de desvio padrão populacional igual a 150 g. Selecionada uma amostra aleatório de 20 sacos de um lote específico, obteve-se um peso médio de 5.050 g. Construa um intervalo de confiança para a média populacional assumindo um nível de significância de 5%.
É a forma de se fazer suposições generalizadas sobre os parâmetros de uma população tendo como base as informações de uma amostra.
Parâmetros são os atributos numéricos de uma população, tal como a média, desvio padrão etc.
Estimativa é o valor obtido para determinado parâmetro a partir dos dados de uma amostra da população.
O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproximam de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para \(n\) maior ou igual a 30.
\[\sigma_\bar{x} = \frac{\sigma}{\sqrt{n}}\]
O desvio padrão das médias amostrais é conhecido como erro padrão da média
Vamos fazer uma amostragem de para exemplificar o teorema. Neste caso, serão 1500 amostras com 2000 valores cada.
n <- 2000
total_de_amostras <- 1500
Construindo o dataframe das amostas:
for (i in 1:total_de_amostras){
if(i==1){
amostras <- data.frame('Amostra_1' = sample(dados$Idade, n))
}else{
amostras[paste('Amostra_', i)] <- sample(dados$Idade, n)
}
}
##amostras
Para não ficar complicada a apresentação neste livro, retiramos a apresentação da #amostras. Mas para efetio de visualização, recomendamos que possa deixa-lo aparente, retirando # que comenta a linha.
Agora vamos encontrar as médias de cada uma das amostras.
##colMeans(amostras)
Devido a mesma situação de visualização, comentamos a apresentação do resultado. #colMeans(amostras)
O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para n maior ou igual a 30.
Para testar esta primeira parte, iremos fazer um histograma das médias amostrais.
hist(
x = colMeans(amostras),
main = 'Histograma das Idades Médias',
xlab = 'Idades',
ylab = 'Frequências'
)
Veja que se assemelha muito a uma distribuição normal.
O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para n maior ou igual a 30.
Vamos agora verificar as duas médias e comparar:
Dados brutos:
mean(dados$Idade)
## [1] 44.07142
Amostras
mean(colMeans(amostras))
## [1] 44.06931
Veja que praticamente ambos tem o mesmo valor.
O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para n maior ou igual a 30.
\[\sigma_\bar{x} = \frac{\sigma}{\sqrt{n}}\]
Vamos verificar a expressão acima:
Desvio padrão da amostra:
sd(colMeans(amostras))
## [1] 0.2769366
Desvio padrão dos dados brutos pela raiz quadrada do número de amostras
sd(dados$Idade) / sqrt(n)
## [1] 0.2790743
Observe novamente a proximidade destes dois valores.
O nível de confiança (\(1 - \alpha\)) representa a probabilidade de acerto da estimativa. De forma complementar o nível de significância (\(\alpha\)) expressa a probabilidade de erro da estimativa.
O nível de confiança representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo. Quando fixamos em uma pesquisa um nível de confiança de 95%, por exemplo, estamos assumindo que existe uma probabilidade de 95% dos resultados da pesquisa representarem bem a realidade, ou seja, estarem corretos.
O nível de confiança de uma estimativa pode ser obtido a partir da área sob a curva normal como ilustrado na figura abaixo.
O erro inferencial é definido pelo desvio padrão das médias amostrais \(\sigma_\bar{x}\) e pelo nível de confiança determinado para o processo.
\[e = z \frac{\sigma}{\sqrt{n}}\]
O nível de confiança \((1 - \aplha)\) representa a probabilidade de acerto da estimativa. De forma complementar, o nível de significância \((\alpha)\) expressa a probabilidade de erro da estimativa C
O nível de confiança representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo C
O nível de confiança de uma estimativa pode ser obtido a partir da área sob a curva normal, como ilustrado na figura abaixo:
C
Quais afirmativas estão corretas? 1,2 & 3
\[\mu = \bar{x} \pm z\frac{\sigma}{\sqrt{n}}\]
\[\mu = \bar{x} \pm z\frac{s}{\sqrt{n}}\]
Suponha que os pesos dos sacos de arroz de uma indústria alimentícia se distribuem aproximadamente como uma normal de desvio padrão populacional igual a 150 g. Selecionada uma amostra aleatório de 20 sacos de um lote específico, obteve-se um peso médio de 5.050 g. Construa um intervalo de confiança para a média populacional assumindo um nível de significância de 5%.
media_amostral <- 5050
media_amostral
## [1] 5050
significancia <- 0.05
significancia
## [1] 0.05
confianca <- 1 - significancia
confianca
## [1] 0.95
tabela_normal_padronizada[17:26, ]
## 0.00 0.01 0.02 0.03 0.04 0.05 0.06
## 1.60 0.9452007 0.9463011 0.9473839 0.9484493 0.9494974 0.9505285 0.9515428
## 1.70 0.9554345 0.9563671 0.9572838 0.9581849 0.9590705 0.9599408 0.9607961
## 1.80 0.9640697 0.9648521 0.9656205 0.9663750 0.9671159 0.9678432 0.9685572
## 1.90 0.9712834 0.9719334 0.9725711 0.9731966 0.9738102 0.9744119 0.9750021
## 2.00 0.9772499 0.9777844 0.9783083 0.9788217 0.9793248 0.9798178 0.9803007
## 2.10 0.9821356 0.9825708 0.9829970 0.9834142 0.9838226 0.9842224 0.9846137
## 2.20 0.9860966 0.9864474 0.9867906 0.9871263 0.9874545 0.9877755 0.9880894
## 2.30 0.9892759 0.9895559 0.9898296 0.9900969 0.9903581 0.9906133 0.9908625
## 2.40 0.9918025 0.9920237 0.9922397 0.9924506 0.9926564 0.9928572 0.9930531
## 2.50 0.9937903 0.9939634 0.9941323 0.9942969 0.9944574 0.9946139 0.9947664
## 0.07 0.08 0.09
## 1.60 0.9525403 0.9535213 0.9544860
## 1.70 0.9616364 0.9624620 0.9632730
## 1.80 0.9692581 0.9699460 0.9706210
## 1.90 0.9755808 0.9761482 0.9767045
## 2.00 0.9807738 0.9812372 0.9816911
## 2.10 0.9849966 0.9853713 0.9857379
## 2.20 0.9883962 0.9886962 0.9889893
## 2.30 0.9911060 0.9913437 0.9915758
## 2.40 0.9932443 0.9934309 0.9936128
## 2.50 0.9949151 0.9950600 0.9952012
Econtrando a metade da confiança:
0.95 / 2
## [1] 0.475
Encontrando o lado positivo da área:
0.5 + (0.95 / 2)
## [1] 0.975
Observando a tabela e determinando o valor de \(z\)
1.9 + 0.06
## [1] 1.96
Refazendo utilizando a biblioteca do R
z <- qnorm(0.975)
z
## [1] 1.959964
| Nível de confiança |
Valor da área sob a curva normal |
\(z\) |
|---|---|---|
| 90% | 0,95 | 1,645 |
| 95% | 0,975 | 1,96 |
| 99% | 0,995 | 2,575 |
desvio_padrao <- 150
desvio_padrao
## [1] 150
Obtendo \(n\)
n <- 20
n
## [1] 20
Obtendo a raiz de \(n\)
raiz_de_n <- sqrt(n)
raiz_de_n
## [1] 4.472136
Obtendo \(\sigma\)
sigma <- desvio_padrao / raiz_de_n
sigma
## [1] 33.54102
e <- z * sigma
e
## [1] 65.73919
intervalo <- c(
media_amostral - e,
media_amostral + e
)
intervalo
## [1] 4984.261 5115.739
library(DescTools)
MeanCI(x = 5050, sd = sigma, type = 'norm', conf.level = 0.95, sides = 'two.sided')
## mean lwr.ci upr.ci
## 5050.000 4984.261 5115.739
Vamos agora fazer o mesmo cálculo para o dataframe original:
mean(dados$Idade) - (z * (sd(dados$Idade) / sqrt(nrow(dados))))
## [1] 43.98318
mean(dados$Idade) + (z * (sd(dados$Idade) / sqrt(nrow(dados))))
## [1] 44.15967
sigma <- sd(dados$Idade) / sqrt(nrow(dados))
Solução:
n <- 50
desvio_padrao <- 6
nivel_confianca <- 0.95
probabilidade <- 0.5 + (nivel_confianca / 2)
Z <- qnorm(probabilidade)
e <- Z * (desvio_padrao / sqrt(n))
round(e, 2)
## [1] 1.66
Solução:
n <- 1976
desvio_padrao <- 11
media_amostral <- 28
nivel_confianca <- 0.9
p <- 0.5 + (nivel_confianca / 2)
Z <- qnorm(p)
round( media_amostral - ( Z * ( desvio_padrao / sqrt(n) ) ), 2 )
## [1] 27.59
round( media_amostral + ( Z * ( desvio_padrao / sqrt(n) ) ), 2 )
## [1] 28.41
Estamos estudando o rendimento mensal dos chefes de domicílios no Brasil. Nosso supervisor determinou que o erro máximo em relação a média seja de R\(\$\) 100,00. Sabemos que o desvio padrão populacional deste grupo de trabalhadores é de R\(\$\) 3.323,39. Para um nível de confiança de 95%, qual deve ser o tamanho da amostra de nosso estudo?
\[e = z \frac{\sigma}{\sqrt{n}}\]
\[n = \left(z\frac{\sigma}{e}\right)^2\]
\[n = \left(z\frac{s}{e}\right)^2\]
Onde:
\(z\) = variável normal padronizada
\(\sigma\) = desvio padrão populacional
\(s\) = desvio padrão amostral
\(e\) = erro inferencial
O desvio padrão (\(\sigma\) ou \(s\)) e o erro (\(e\)) devem estar na mesma unidade de medida.
Quando o erro (\(e\)) for representado em termos percentuais, deve ser interpretado como um percentual relacionado à média.
Estamos estudando o rendimento mensal dos chefes de domicílios no Brasil. Nosso supervisor determinou que o erro máximo em relação a média seja de R\(\$\) 100,00. Sabemos que o desvio padrão populacional deste grupo de trabalhadores é de R\(\$\) 3.323,39. Para um nível de confiança de 95%, qual deve ser o tamanho da amostra de nosso estudo?
z <- qnorm(0.5+(0.95/2))
z
## [1] 1.959964
sigma <- 3323.39
sigma
## [1] 3323.39
e <- 100
e
## [1] 100
n <- (z * (sigma / e)) ** 2
round(n)
## [1] 4243
Logo, para satisfazer as condições estabelecidas, precisaremos de uma amostra com 4243 participantes.
Solução:
z <- qnorm(0.5+(0.90/2))
sigma <- 15
e <- 45*0.1
n <- (z * (sigma /e))**2
round(n)
## [1] 30
Solução:
z <- qnorm(0.5+(0.90/2))
sigma <- 42
e <- 6
n <- (z * (sigma /e))**2
round(n)
## [1] 133
Em um lote de 10.000 latas de refrigerante foi realizada uma amostra aleatória simples de 100 latas e foi obtido o desvio padrão amostral do conteúdo das latas igual a 12 ml. O fabricante estipula um erro máximo sobre a média populacional de apenas 5 ml. Para garantir um nível de confiança de 95% qual o tamanho de amostra deve ser selecionado para este estudo?
Sempre que formos querer saber a quantidade de amostras /
\[n = \frac{z^2 \sigma^2 N}{z^2 \sigma^2 + e^2(N-1)}\]
\[n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}\]
Onde:
\(N\) = tamanho da população
\(z\) = variável normal padronizada
\(\sigma\) = desvio padrão populacional
\(s\) = desvio padrão amostral
\(e\) = erro inferencial
Em um lote de 10.000 latas de refrigerante foi realizada uma amostra aleatória simples de 100 latas e foi obtido o desvio padrão amostral do conteúdo das latas igual a 12 ml. O fabricante estipula um erro máximo sobre a média populacional de apenas 5 ml. Para garantir um nível de confiança de 95% qual o tamanho de amostra deve ser selecionado para este estudo?
N <- 10000
N
## [1] 10000
z <- qnorm((0.5 + (0.95 / 2)))
z
## [1] 1.959964
s <- 12
s
## [1] 12
e <- 5
e
## [1] 5
\[n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}\]
n <- ((z ** 2) * (s ** 2) * (N)) / (((z ** 2) * (s ** 2)) + ((e ** 2) * (N - 1)))
round(n)
## [1] 22
Veja que interessante, apenas 22 latas de refrigerante podem garantir a confiança na análise amostral das 10000 latas. Isso representa uma economia significativa nos custos de controle de qualidade da empresa.
Solução:
N <- 2000
s <- 480
e <- 300
z <- qnorm(0.5+(0.95/2))
n <- ((z ** 2) * (s ** 2) * (N)) / (((z ** 2) * (s ** 2)) + ((e ** 2) * (N - 1)))
round(n)
## [1] 10
Estamos estudando o rendimento mensal dos chefes de domicílios com renda até R\(\$\) 5.000,00 no Brasil. Nosso supervisor determinou que o erro máximo em relação a média seja de R\(\$\) 10,00. Sabemos que o desvio padrão populacional deste grupo de trabalhadores é de R\(\$\) 1.082,79 e que a média populacional é de R\(\$\) 1.426,54. Para um nível de confiança de 95%, qual deve ser o tamanho da amostra de nosso estudo? Qual o intervalo de confiança para a média considerando o tamanho de amostra obtido?
renda_5000 <- dados[dados$Renda <= 5000, ]
Calculando o desvio padrão:
sigma <- sd(renda_5000$Renda)
sigma
## [1] 1082.795
Calculando a média:
media <- mean(renda_5000$Renda)
media
## [1] 1426.537
z <- qnorm(.975)
e <- 10
n <- (z * (sigma / e)) ** 2
round(n)
## [1] 45039
limite_inferior <- mean(renda_5000$Renda) - (z * (sd(renda_5000$Renda) / sqrt(n)))
limite_superior <- mean(renda_5000$Renda) + (z * (sd(renda_5000$Renda) / sqrt(n)))
Verificando os limites:
sprintf("Liminte Inferior = %s, Média = %s e Limite Superior - %s", round(limite_inferior,2), round(media,2), round(limite_superior,2))
## [1] "Liminte Inferior = 1416.54, Média = 1426.54 e Limite Superior - 1436.54"
library(ggplot2)
tamanho_simulacao = 1000
medias <- c()
for(i in 1:tamanho_simulacao){
medias <- c(medias, mean(sample_n(renda_5000, n)$Renda))
}
medias <- data.frame(medias)
ggplot(data = medias, aes(x = c(1:tamanho_simulacao), y = medias)) +
geom_point(size = 1.5, stroke = 0) +
geom_hline(yintercept = media, color = 'green') +
geom_hline(yintercept = limite_inferior, color = 'red') +
geom_hline(yintercept = limite_superior, color = 'red')
Neste gráfico a linha verde é a média, e as duas vermelhas estabelecem o intervalo de confiança.Veja que dentro das amostras estabelecidas, podemos com toda a certeza confiar que 95% dos dados selecionados estão dentro do intervalo de confiaça estabelecido no entorno da média.
BENGFORT, B.; KIM, J. Análise de dados com Hadoop: Uma introdução para Cientista de Dados. 1ª Edição. São Paulo - SP: Novatec, 2016.
BRUCE, P.; BRUCE, A. Estatística para Cientista de Dados: 50 conceitos iniciais. 1ª Edição. Rio de Janeiro - RJ: Alta Books, 2019.
DIAS, Rodrigo fernando. Estaística com R. Alura. 2022. disponível em: https://cursos.alura.com.br/course/estatistica-r-frequencias-medidas
GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining: Conceitos, técnicas, orientações e aplicações. 2ª Edição. Rio de Janeiro - RJ: ELSEVIER, 2015.
HADLEY, W.; GARRETT, G. R para Data Science: Importe, arrume, transforme, visualize e modele dados. 1ª Edição. Rio de Janeiro - RJ: Alta Books, 2019.
MUELLER, J. P.; MASSARON, L. Aprendizado de Máquina para leigos. 1ª Edição. Rio de Janeiro - RJ: Alta Books, 2019.
OLIVEIRA, Francisco Estevam Martins de. Estatistica e Probabilidade - Exercicios Resolvidos e Propostos, 3ª edição. [Digite o Local da Editora]: Grupo GEN, 2017. E-book. ISBN 9788521633846. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788521633846/. Acesso em: 06 abr. 2023.
ROSS, Sheldon. Probabilidade. [Digite o Local da Editora]: Grupo A, 2010. E-book. ISBN 9788577806881. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788577806881/. Acesso em: 06 abr. 2023.
UCS - Universidade Caxias do Sul. Big Data: o que é, para que serve, como aplicar e exemplos. Disponível em: https://ead.ucs.br/blog/big-data Acesso em: 12, setembro de 2022.
TAULLI, T. Introdução à Inteligência Artificial: Uma abordagem não técnica. 1ª Edição. São Paulo - SP: Novatec, 2020.