O presente trabalho busca avaliar a eficiência de diferentes métodos de amostragem. Para tanto, utilizamos como base um conjunto de dados relativos a consultas e exames médicos realizados no sistema de saúde público do Recife no ano de 2014. Mais especificamente, os exames de diagnóstico por radiologia. Com base na amostra aleatória simples sem reposição (AASs), foi feito também a amostra estratificada (Aes).
Para este trabalho, depois do devido tratamento de banco, selecionamos as seguintes variáveis para avaliação:
Com isso, usaremos os devidos procedimentos amostrais para se ter estimativas da média ou proporção, variância e quantis.
Carregando o banco de dados:
library(tidyverse)
SIS_AMOSTRAGEM_18.06.19 <- readRDS("~/amostragem/SIS_AMOSTRAGEM_18.06.19.rds")
dados <- SIS_AMOSTRAGEM_18.06.19[SIS_AMOSTRAGEM_18.06.19$ano_solic == 2014
& SIS_AMOSTRAGEM_18.06.19$procedimento_grupo == 'GRUPO - DIAGNOSTICO POR RADIOLOGIA'
& SIS_AMOSTRAGEM_18.06.19$uf == 'PE'
& SIS_AMOSTRAGEM_18.06.19$ano == 2014,]
dados <- na.omit(dados)
Selecionando agora as variáveis de interesse:
sexo <- as.numeric(dados$sexo == 'MASCULINO') #Variável binária. 1 se o indivíduo é do sexo masculino , 0 caso contrário.
idade <- as.numeric(dados$idade)
tempo <- as.numeric(dados$tempo_espera_exec)
falta <- dados$faltou_procedimento #Variável binária
clinica <- as.factor(dados$unidade_exec)
base <- as.data.frame(cbind(sexo, idade, tempo, falta, clinica))
Para referência, temos que o valor real das estimativas de média e proporção de cada variável são:
summary(base)
## sexo idade tempo falta
## Min. :0.0000 Min. : 1.00 Min. : 0.00 Min. :0.0000
## 1st Qu.:0.0000 1st Qu.: 34.00 1st Qu.: 31.00 1st Qu.:0.0000
## Median :0.0000 Median : 50.00 Median : 34.00 Median :1.0000
## Mean :0.2804 Mean : 46.18 Mean : 32.14 Mean :0.5046
## 3rd Qu.:1.0000 3rd Qu.: 60.00 3rd Qu.: 36.00 3rd Qu.:1.0000
## Max. :1.0000 Max. :112.00 Max. :172.00 Max. :1.0000
## clinica
## Min. :1.000
## 1st Qu.:2.000
## Median :2.000
## Mean :3.758
## 3rd Qu.:5.000
## Max. :8.000
O primeiro plano amostral que analisaremos será a amostra aleatória simples sem reposição de tamanho 1000. Procendendo a amostragem a fazendo suas estimativas, temos:
base1 <- sample_n(base, 1000, FALSE)
summary(base1)
## sexo idade tempo falta
## Min. :0.00 Min. : 1.00 Min. : 3.00 Min. :0.000
## 1st Qu.:0.00 1st Qu.: 32.00 1st Qu.:31.00 1st Qu.:0.000
## Median :0.00 Median : 48.00 Median :34.00 Median :0.000
## Mean :0.31 Mean : 44.63 Mean :32.21 Mean :0.487
## 3rd Qu.:1.00 3rd Qu.: 59.00 3rd Qu.:36.00 3rd Qu.:1.000
## Max. :1.00 Max. :112.00 Max. :77.00 Max. :1.000
## clinica
## Min. :1.000
## 1st Qu.:2.000
## Median :3.000
## Mean :3.768
## 3rd Qu.:5.000
## Max. :8.000
Como visto, as estimativas de média, proporção, máximos e mínimos são próximas do valor real. Analisando agora a variância amostral destas variáveis, utilizando o estimador \(s^{2} = \frac{\sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2}}{n-1}\):
## Variância amostral da idade: 399.9576
## Variância amostral da proporção do sexo: 0.2141141
## Variância amostral do tempo de espera: 90.17433
## Variância amostral da proporção de faltas: 0.2500811
Baseado nessa estatística, podemos calcular a variância dos estimadores das médias e proporção na amostra aleatória simples. Utilizando o estimador \((1 - \frac{n}{N})\frac{s^{2}}{n}\)
## Variância do estimador da média de idade: 0.3909534
## Variância do estimador da proporção do sexo: 0.0002092938
## Variância do estimador do do tempo de espera: 0.08814424
## Variância do estimador da proporção de faltas: 0.000244451
Usaremos agora o método da amostragem estratificada no intuito de selecionar uma amostra de nossos dados. A divisão dos estratos foi feita pelo sexo, de forma proporcional:
n1 <- trunc(1000*mean(sexo))
base2 <- rbind(sample_n(base[base$sexo == 1,], n1, FALSE),
sample_n(base[base$sexo == 0,], 1000 - n1, FALSE)) #Amostra estratificada pelo sexo
summary(base2)
## sexo idade tempo falta
## Min. :0.00 Min. : 1.00 Min. : 0.00 Min. :0.000
## 1st Qu.:0.00 1st Qu.: 33.75 1st Qu.:31.00 1st Qu.:0.000
## Median :0.00 Median : 49.50 Median :34.00 Median :1.000
## Mean :0.28 Mean : 46.61 Mean :32.08 Mean :0.508
## 3rd Qu.:1.00 3rd Qu.: 60.00 3rd Qu.:36.00 3rd Qu.:1.000
## Max. :1.00 Max. :108.00 Max. :89.00 Max. :1.000
## clinica
## Min. :1.000
## 1st Qu.:2.000
## Median :2.000
## Mean :3.774
## 3rd Qu.:5.000
## Max. :8.000
A amostra apresentou novamente boas estimativas em comparação aos valores reais, comparáveis às estimativas apresentadas pela amostra aleatória simples. Utilizando o estimador \(s_{h}^{2} = \frac{\sum _{i\in s_{h}}(Y_{hi}-\overline{y_{h}})^{2}}{n_{h}-1}\) para variância amostral de cada variável dentro de cada estrato \(h\), temos:
## Variância amostral da idade entre homens: 481.4201
## Variância amostral da idade entre mulheres: 337.002
## Variância amostral do tempo de espera entre homens: 95.93364
## Variância amostral da idade entre mulheres: 337.002
## Variância amostral da proporção de faltas entre homens: 0.2504352
## Variância amostral da proporção de faltas entre homens: 0.2504352
Com isso, podemos avaliar a variância das estimativas de média ou proporção de cada variável. Utilizando o estimador \(var(\overline{y_{es}}) = \sum_{i =1}^{H}W_{h}^{2}\frac{s_{h}^{2}}{n_{h}}\) em que \(W_{h}\) representa a proporção do estrato no tamanho total da amostra, temos:
## Variância do estimador da média de idade: 0.2123594
## Variância do estimador do do tempo de espera: 0.05067986
## Variância do estimador da proporção de faltas: 0.0001491307
Que como visto, tal estratificação não garante a diminuição da variância dos estimadores. Como alternativa, procederemos a estratificação uniforme entre as 8 clínicas no qual foram realizados os exames. Teremos as seguintes estimativas:
base3 <- rbind(sample_n(base[base$clinica == 1,], 125, FALSE),
sample_n(base[base$clinica == 2,], 125, FALSE),
sample_n(base[base$clinica == 3,], 125, FALSE),
sample_n(base[base$clinica == 4,], 125, FALSE),
sample_n(base[base$clinica == 5,], 125, FALSE),
sample_n(base[base$clinica == 6,], 125, FALSE),
sample_n(base[base$clinica == 7,], 125, FALSE),
sample_n(base[base$clinica == 8,], 125, FALSE))
summary(base3)
## sexo idade tempo falta
## Min. :0.000 Min. : 1.00 Min. : 0.00 Min. :0.000
## 1st Qu.:0.000 1st Qu.: 33.75 1st Qu.:22.00 1st Qu.:0.000
## Median :0.000 Median : 49.00 Median :34.00 Median :1.000
## Mean :0.269 Mean : 45.81 Mean :28.95 Mean :0.666
## 3rd Qu.:1.000 3rd Qu.: 60.00 3rd Qu.:36.00 3rd Qu.:1.000
## Max. :1.000 Max. :106.00 Max. :77.00 Max. :1.000
## clinica
## Min. :1.00
## 1st Qu.:2.75
## Median :4.50
## Mean :4.50
## 3rd Qu.:6.25
## Max. :8.00
Que apresenta estimativas nem sempre precisas das médias e proporções, utilizando o estimador \(var(\overline{y}_{es}) = \sum_{h = 1}^{H}W_{h}^{2}\frac{s_{h}^{2}}{k}\) em que \(k\) representa o tamanho único dos estratos na amostra para analisar a variãncia dos estimadores de médias e proporções, temos:
## Variância do estimador da média de idade: 0.8406941
## Variância do estimador da proporção por sexo: 0.0004208585
## Variância do estimador do do tempo de espera: 0.05440428
## Variância do estimador da proporção de faltas: 0.0004970707
O que evidencia a dificuldade de se encontrar uma estratificação funcional para que se diminua a variância dos estimadores e da amostra.