Prof. Davi Rocha
30/08/2020
Parte de uma população, selecionada usando alguma técnica que de chances iguais a todos os elementos da população de serem selecionados
Uma amostra feita corretamente deve representar as mesmas características da população de onde foi retirada.
Se ela não representa a população, dizemos que ele é enviesada
Você subestima ou superestima o parâmetro da população
Pesquisa de pessoas próximas ou de fácil acesso
Pesquisas pela Internet
Sem uso de mecanismo de seleção aleatório
Aleatória Simples
Estratificada
Sistemática
Aqui veremos só a AAS(Amostra Aleatória Simples), nos próximos resumos falaremos dos outros tipos
• Um determinado número de elementos é retirado da população de forma aleatória
• Todos os elementos da população alvo do processo de amostragem, devem ter as mesmas chances de serem selecionados para fazer parte da amostra
Vamos ver como fazer AAS no R
1) Vamos gerar 150 amostras de 0’s e 1’s, com reposição com probabilidade igual de ser escolhido(pode pensar como o lançamento de uma moeda, por exemplo 0=cara e 1=coroa)
No R
#Gerando a amostra
library(dplyr)
set.seed(2345)
amostra<- sample(x = c(0,1), size = 150,replace = TRUE, prob = c(0.5,0.5))
amostra## [1] 1 1 0 1 1 1 0 0 1 0 1 1 1 1 1 1 0 1 0 1 0 1 0 0 1 1 0 0 0 0 1 0 0 0 1 0 0
## [38] 0 1 0 0 0 0 0 1 0 0 0 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 0 1 1 1 0 0 1 0 1
## [75] 0 0 0 1 0 1 0 1 0 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 1 1 1 0 1 1 0 0 0 0 0 0 0
## [112] 0 1 1 1 0 0 1 0 0 0 1 0 0 1 1 1 0 0 1 1 0 1 0 1 1 0 1 1 0 1 0 0 0 1 1 0 0
## [149] 0 0
Contando de 0’s e 1’s:
## 0 1
## 78 72
Vamos olhar a proporção de 0’s e 1’s:
## [1] "0: 0.52"
## [1] "1: 0.48"
Está muito próximo de 50% para cada! Se aumentarmos a amostra provavelmente ficarão mais próximo ainda de 50% acordo com a lei dos grandes números.
2) Vamos gerar 150 amostras de 0’s e 1’s, com reposição com probabilidade maior para 0’s. Você pode pensar numa moeda enviesada
## [1] 0 0 1 1 1 0 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0 1 1 0 0 0 1 0 0 1 1 0 0 0 0 0 0
## [38] 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 1 1 0 1 0 0 0 0 0
## [75] 1 1 0 0 0 0 0 1 1 1 0 0 0 1 0 1 1 0 0 1 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0
## [112] 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1
## [149] 1 0
Contando de 0’s e 1’s:
## 0 1
## 108 42
Vamos olhar a proporção de 0’s e 1’s:
## [1] "0: 0.72"
## [1] "1: 0.28"
Está muito próximo de 70% - 30% como queriamos!
3)Agora vamos selecionar 150 amostras, de 1 a 1000, sem reposição, com probabilidades equivalentes
## [1] 338 442 372 502 76 804 214 161 174 271 810 41 512 579 880 535 487 578
## [19] 346 191 963 247 719 250 626 55 272 63 570 780 252 903 308 6 714 556
## [37] 792 554 360 354 269 779 635 164 359 79 506 183 312 945 962 340 261 797
## [55] 715 608 785 588 865 51 197 137 229 602 221 584 907 574 298 866 444 293
## [73] 976 240 194 621 727 883 768 864 110 838 526 189 759 225 120 81 748 977
## [91] 610 956 138 278 453 543 476 152 942 332 599 400 306 532 347 950 329 160
## [109] 559 3 567 163 501 187 82 569 524 469 765 826 292 25 459 718 595 933
## [127] 353 994 846 305 34 260 593 149 857 475 692 604 762 668 946 316 399 921
## [145] 280 665 892 60 146 456
4) Gerando amostra de conjuntos de dados - Vamos gerar uma amostra aleatória de 30% dos dados cars
As primeiras linhas do dataset cars estão abaixo:
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
Vamos ver quantas linhas ele tem:
## [1] 50 2
Há 50 linhas.
Agora vamos separar esse conjunto em duas partes um com 30% dos dados e outro em 70% dos dados. Esse tipo de divisão é feita para treinar modelos de Machine Learning por exemplo.
Para isso primeiro vamos criar uma amostra com 70% de 0’s e 30% de 1’s como fizemos anteriormente:
Vamos verificar a divisão:
## 0 1
## 37 13
Deixo para você se essa proporção está aproximadamente correta. Vamos agora dividir o conjunto cars usando essas duas amostras. Reforço que você poderia fazer esse mesmo processo para separar um conjunto em treino e teste para aplicar um algoritmo de Machine Learning! Vamos lá:
Acima criamos o conjunto cars_30 com 30% aproximadamente dos dados cars e de forma aleatória! O mesmo com cars_70 só que com o resto dos 70% dos dados.
Vamos verificar quantos dados temos e ver alguns dados dos dois conjuntos gerados:
Para cars_30:
## [1] 13 2
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 5 8 16
## 14 12 24
## 16 13 26
Para cars_70:
## [1] 37 2
## speed dist
## 4 7 22
## 6 9 10
## 7 10 18
## 8 10 26
## 9 10 34
## 10 11 17
Verificando o tamanho da amostra:
## [1] 0.26
## [1] 0.74
Portanto dividimos o dataset cars em duas partes escolhidas de forma aleatória com 30% e 70% respectivamente.
Era isso que eu queria mostrar.
Keep calm and analysing data!