Amostragem: Avaliação de técnicas de amostragem sobre dados de exames radiológicos no Recife

Objetivo e Descrição

O presente trabalho busca avaliar a eficiência de diferentes métodos de amostragem. Para tanto, utilizamos como base um conjunto de dados relativos a consultas e exames médicos realizados no sistema de saúde público do Recife no ano de 2014. Mais especificamente, os exames de diagnóstico por radiologia. Com base na amostra aleatória simples sem reposição (AASs), foi feito também a amostra estratificada (Aes).

Tratamento das variáveis

Para este trabalho, depois do devido tratamento de banco, selecionamos as seguintes variáveis para avaliação:

Idade, isto é, a idade do paciente.
Sexo do paciente.
Tempo de espera, isto é, o tempo transcorrido em dias entre a solicitação e a execução do exame.
Absenteísmo, isto é, se o paciente compareceu à consulta no dia marcado para sua realização.

Com isso, usaremos os devidos procedimentos amostrais para se ter estimativas da média ou proporção, variância e quantis.

Carregando o banco de dados:

library(tidyverse)
SIS_AMOSTRAGEM_18.06.19 <- readRDS("~/amostragem/SIS_AMOSTRAGEM_18.06.19.rds")

dados <- SIS_AMOSTRAGEM_18.06.19[SIS_AMOSTRAGEM_18.06.19$ano_solic == 2014 
                                 & SIS_AMOSTRAGEM_18.06.19$procedimento_grupo == 'GRUPO - DIAGNOSTICO POR RADIOLOGIA' 
                                 & SIS_AMOSTRAGEM_18.06.19$uf == 'PE'
                                 & SIS_AMOSTRAGEM_18.06.19$ano == 2014,]
dados <- na.omit(dados)

Selecionando agora as variáveis de interesse:

sexo <- as.numeric(dados$sexo == 'MASCULINO') #Variável binária. 1 se o indivíduo é do sexo masculino , 0 caso contrário.
idade <- as.numeric(dados$idade)
tempo <- as.numeric(dados$tempo_espera_exec)
falta <- dados$faltou_procedimento  #Variável binária
clinica <- as.factor(dados$unidade_exec)

base <- as.data.frame(cbind(sexo, idade, tempo, falta, clinica))

Para referência, temos que o valor real das estimativas de média e proporção de cada variável são:

summary(base)

##       sexo            idade            tempo            falta       
##  Min.   :0.0000   Min.   :  1.00   Min.   :  0.00   Min.   :0.0000  
##  1st Qu.:0.0000   1st Qu.: 34.00   1st Qu.: 31.00   1st Qu.:0.0000  
##  Median :0.0000   Median : 50.00   Median : 34.00   Median :1.0000  
##  Mean   :0.2804   Mean   : 46.18   Mean   : 32.14   Mean   :0.5046  
##  3rd Qu.:1.0000   3rd Qu.: 60.00   3rd Qu.: 36.00   3rd Qu.:1.0000  
##  Max.   :1.0000   Max.   :112.00   Max.   :172.00   Max.   :1.0000  
##     clinica     
##  Min.   :1.000  
##  1st Qu.:2.000  
##  Median :2.000  
##  Mean   :3.758  
##  3rd Qu.:5.000  
##  Max.   :8.000

Avaliação das amostras

Amostra Aleatória Simples

O primeiro plano amostral que analisaremos será a amostra aleatória simples sem reposição de tamanho 1000. Procendendo a amostragem a fazendo suas estimativas, temos:

base1 <- sample_n(base, 1000, FALSE)
summary(base1)

##       sexo          idade            tempo           falta      
##  Min.   :0.00   Min.   :  1.00   Min.   : 3.00   Min.   :0.000  
##  1st Qu.:0.00   1st Qu.: 32.00   1st Qu.:31.00   1st Qu.:0.000  
##  Median :0.00   Median : 48.00   Median :34.00   Median :0.000  
##  Mean   :0.31   Mean   : 44.63   Mean   :32.21   Mean   :0.487  
##  3rd Qu.:1.00   3rd Qu.: 59.00   3rd Qu.:36.00   3rd Qu.:1.000  
##  Max.   :1.00   Max.   :112.00   Max.   :77.00   Max.   :1.000  
##     clinica     
##  Min.   :1.000  
##  1st Qu.:2.000  
##  Median :3.000  
##  Mean   :3.768  
##  3rd Qu.:5.000  
##  Max.   :8.000

Como visto, as estimativas de média, proporção, máximos e mínimos são próximas do valor real. Analisando agora a variância amostral destas variáveis, utilizando o estimador \(s^{2} = \frac{\sum_{i=1}^{n}(Y_{i}-\overline{Y})^{2}}{n-1}\):

## Variância amostral da idade: 399.9576

## Variância amostral da proporção do sexo: 0.2141141

## Variância amostral do tempo de espera: 90.17433

## Variância amostral da proporção de faltas: 0.2500811

Baseado nessa estatística, podemos calcular a variância dos estimadores das médias e proporção na amostra aleatória simples. Utilizando o estimador \((1 - \frac{n}{N})\frac{s^{2}}{n}\)

## Variância do estimador da média de idade: 0.3909534

## Variância do estimador da proporção do sexo: 0.0002092938

## Variância do estimador do do tempo de espera: 0.08814424

## Variância do estimador da proporção de faltas: 0.000244451

Amostragem estratificada

Usaremos agora o método da amostragem estratificada no intuito de selecionar uma amostra de nossos dados. A divisão dos estratos foi feita pelo sexo, de forma proporcional:

n1 <- trunc(1000*mean(sexo))

base2 <- rbind(sample_n(base[base$sexo == 1,], n1, FALSE),
               sample_n(base[base$sexo == 0,], 1000 - n1, FALSE))  #Amostra estratificada pelo sexo
summary(base2)

##       sexo          idade            tempo           falta      
##  Min.   :0.00   Min.   :  1.00   Min.   : 0.00   Min.   :0.000  
##  1st Qu.:0.00   1st Qu.: 33.75   1st Qu.:31.00   1st Qu.:0.000  
##  Median :0.00   Median : 49.50   Median :34.00   Median :1.000  
##  Mean   :0.28   Mean   : 46.61   Mean   :32.08   Mean   :0.508  
##  3rd Qu.:1.00   3rd Qu.: 60.00   3rd Qu.:36.00   3rd Qu.:1.000  
##  Max.   :1.00   Max.   :108.00   Max.   :89.00   Max.   :1.000  
##     clinica     
##  Min.   :1.000  
##  1st Qu.:2.000  
##  Median :2.000  
##  Mean   :3.774  
##  3rd Qu.:5.000  
##  Max.   :8.000

A amostra apresentou novamente boas estimativas em comparação aos valores reais, comparáveis às estimativas apresentadas pela amostra aleatória simples. Utilizando o estimador \(s_{h}^{2} = \frac{\sum _{i\in s_{h}}(Y_{hi}-\overline{y_{h}})^{2}}{n_{h}-1}\) para variância amostral de cada variável dentro de cada estrato \(h\), temos:

## Variância amostral da idade entre homens: 481.4201

## Variância amostral da idade entre mulheres: 337.002

## Variância amostral do tempo de espera entre homens: 95.93364

## Variância amostral da idade entre mulheres: 337.002

## Variância amostral da proporção de faltas entre homens: 0.2504352

## Variância amostral da proporção de faltas entre homens: 0.2504352

Com isso, podemos avaliar a variância das estimativas de média ou proporção de cada variável. Utilizando o estimador \(var(\overline{y_{es}}) = \sum_{i =1}^{H}W_{h}^{2}\frac{s_{h}^{2}}{n_{h}}\) em que \(W_{h}\) representa a proporção do estrato no tamanho total da amostra, temos:

## Variância do estimador da média de idade: 0.2123594

## Variância do estimador do do tempo de espera: 0.05067986

## Variância do estimador da proporção de faltas: 0.0001491307

Que como visto, tal estratificação não garante a diminuição da variância dos estimadores. Como alternativa, procederemos a estratificação uniforme entre as 8 clínicas no qual foram realizados os exames. Teremos as seguintes estimativas:

base3 <- rbind(sample_n(base[base$clinica == 1,], 125, FALSE),
               sample_n(base[base$clinica == 2,], 125, FALSE),
               sample_n(base[base$clinica == 3,], 125, FALSE),
               sample_n(base[base$clinica == 4,], 125, FALSE),
               sample_n(base[base$clinica == 5,], 125, FALSE),
               sample_n(base[base$clinica == 6,], 125, FALSE),
               sample_n(base[base$clinica == 7,], 125, FALSE),
               sample_n(base[base$clinica == 8,], 125, FALSE))
summary(base3)

##       sexo           idade            tempo           falta      
##  Min.   :0.000   Min.   :  1.00   Min.   : 0.00   Min.   :0.000  
##  1st Qu.:0.000   1st Qu.: 33.75   1st Qu.:22.00   1st Qu.:0.000  
##  Median :0.000   Median : 49.00   Median :34.00   Median :1.000  
##  Mean   :0.269   Mean   : 45.81   Mean   :28.95   Mean   :0.666  
##  3rd Qu.:1.000   3rd Qu.: 60.00   3rd Qu.:36.00   3rd Qu.:1.000  
##  Max.   :1.000   Max.   :106.00   Max.   :77.00   Max.   :1.000  
##     clinica    
##  Min.   :1.00  
##  1st Qu.:2.75  
##  Median :4.50  
##  Mean   :4.50  
##  3rd Qu.:6.25  
##  Max.   :8.00

Que apresenta estimativas nem sempre precisas das médias e proporções, utilizando o estimador \(var(\overline{y}_{es}) = \sum_{h = 1}^{H}W_{h}^{2}\frac{s_{h}^{2}}{k}\) em que \(k\) representa o tamanho único dos estratos na amostra para analisar a variãncia dos estimadores de médias e proporções, temos:

## Variância do estimador da média de idade: 0.8406941

## Variância do estimador da proporção por sexo: 0.0004208585

## Variância do estimador do do tempo de espera: 0.05440428

## Variância do estimador da proporção de faltas: 0.0004970707

O que evidencia a dificuldade de se encontrar uma estratificação funcional para que se diminua a variância dos estimadores e da amostra.