Este trabalho tem o objetivo de avaliar os dados sociodemográficos de 1000 indivíduos com relação a Consulta em Alergia e Imunologia - Retorno (AGENDA LOCAL), atráves de quatro tipos de amostragens sem reposição. Os tipos de amostragens utilizados foram:
O levantamento por amostragem permite a obtenção de informações a respeito de valores populacionais (PARAMETROS), através da observação de apenas uma parte (amostra) do seu universo de estudo (população). Os elementos de uma população são as unidades de observação e analise determinadas pelos objetivos do levantamento. Do ponto de vista matemático, a população é definida como um conjunto de elementos que possuem pelo menos uma característica em comum. Na pratica, compreende o agregado dos elementos, devendo ser definida em termos de localização e tempo. Freqüentemente, devido a problemas de acesso ou de cobertura, esta população é modificada para o conjunto efetivamente observado (população de estudo). E o seu tamanho , definido pelo numero de elementos identificáveis (N) que a compõem.
banco <- read.csv("C:/Users/Hp1/Desktop/Amostragem/sisreg_agendamentos_2014.csv", sep=";")
bancoajustado<-na.omit(banco)
A amostragem aleatória simples é o tipo de amostragem probabilística mais utilizada. Dá exatidão e eficácia à amostragem, além de ser o procedimento mais fácil de ser aplicado - todos os elementos da população têm a mesma probabilidade de pertencerem à amostra.
Abaixo, coletou-se uma amostra de tamanho N = 1000 para posteriormente fazer uma análise detalhada.
AmostraSimples<-sample_n(bancoajustado,size = 1000)
Consiste em dividir toda a população ou o “objeto de estudo” em diferentes subgrupos ou estratos diferentes, de maneira que um indivíduo pode fazer parte apenas de um único estrato ou camada. Após as camadas serem definidas, para criar uma amostra, selecionam-se indivíduos utilizando qualquer técnica de amostragem em cada um dos estratos de forma separada.
Coleta de uma amostra estratificada para que seja analisada em seguida.
x <- bancoajustado
s_str <- function(x, p=(100000/27115), strata=NULL)
{
if (is.null(strata))
strata <- names(x[20])[1]
l <- levels(x[, strata])
nl <- length(l)
res <- numeric()
for (i in 1:nl)
{
nstrata <- length(grep(l[i],x[, strata]))
n <- round(nstrata * p / 100)
sel <- sample(1:nstrata,n)
sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
res <- rbind(res,sdata[sel,])
}
return(res)
}
AmostraEstratificada <- s_str(bancoajustado)
consiste em escolher um indivíduo inicialmente de forma aleatória entre a população e, posteriormente, selecionar para amostra cada enésimo indivíduo disponível no marco amostral. É um processo rápido e simples. Os resultados obtidos são representativos da população, de forma similar a amostra aleatória simples, sempre quando não exista nenhum fator intrínseco na forma que os indivíduos estão listados e que se reproduzam certas características populacionais em cada número especifico de indivíduos. Esse sucesso realmente é pouco frequente.
Coleta da Amostra Sistemática.
s_sis <- function(x, p=20, r=NULL)
{
k <- 27115/1000
if (is.null(r))
r <- sample(1:k, 1)
n <- 0:round((1 * 1000) - 1)
idx <- (n * k) + r
res <- x[idx,]
return(res)
}
amostrasistematica<-s_sis(bancoajustado)
A amostra por conglomerados é uma técnica que explora existência de grupos (clusters) na população. Esses grupos representam adequadamente a população total em relação a característica que queremos medir. Em outras palavras, estes grupos contêm variabilidade da população inteira. Se isso acontecer, você pode selecionar apenas alguns desses conglomerados para realizar o estudo.
Coleta da Amostra por Conglomerados.
SelecionarPoliclina <- bancoajustado %>% group_by(unidade_exec) %>% summarise(n = n()) %>% mutate(prop = n/sum(n))
Unidade<-sample_n(SelecionarPoliclina,size = 1)
AmostragemCongomerados <- bancoajustado %>% filter(bancoajustado$unidade_exec==Unidade$unidade_exec)
O gráfico acima mostra que o tipo de plano amostral não interfere na proporção. Ou seja, a proporção de homens e mulheres é praticamente a mesma idependente do plano amostral utilizado na coleta da amostra.
Através dos gráficos boxplots, Observa-se que a idade varia conforme o plano amostral utilizado.
# Calculo da variancia amostral
vara.dados<-function(x)
{
media=mean(x)
dados=na.omit(x)
disvquad=(dados-media)^2
var.dados=sum(disvquad)/(length(dados)-1)
return(var.dados)
}
# Calculo da variancia populacional
varp.dados<-function(x)
{
media=mean(x)
dados=na.omit(x)
disvquad=(dados-media)^2
var.dados=sum(disvquad)/(length(dados))
return(var.dados)
}
n=1000
N=27115
VarYbarra<- (varp.dados(bancoajustado$idade)/n)
n=1000
N=27115
VarYaas<- (vara.dados(bancoajustado$idade)/n)*(1-n/N)
funcaocalCular <- function(x, p=(100000/27115), strata=NULL)
{
if (is.null(strata))
strata <- names(x[20])[1]
l <- levels(x[, strata])
nl <- length(l)
vetorvariancias<- NULL
vare<-NULL
for (i in 1:nl)
{
nstrata <- length(grep(l[i], x[, strata]))
N <- 27115
n <- round(nstrata * p / 100)
nprop <- round(nstrata * p / 100)
ntot<-round(nstrata)
sel <- sample(1:nstrata,n)
sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
vare<- (ntot^2/N^2)*(varp.dados(sdata$idade)/nprop)
vetorvariancias<- c(vetorvariancias,vare)
}
return(vetorvariancias)
}
calcularvariancias<- funcaocalCular(bancoajustado)
VarYes<-sum(calcularvariancias)
mediasaleatorias <- function(x, p=20, r=NULL)
{
k <-27115/1000
mediavetor<- NULL
mediasis<-NULL
for (i in 1:k)
{
r<-i
n <- 0:round((1 * 1000) - 1)
idx <- (n * k) + r
res <- x[idx,]
mediasis<- mean(res$idade)
mediavetor<- c(mediavetor,mediasis)
}
return(mediavetor)
}
peso<-mediasaleatorias(bancoajustado)
mediadopeso<-mean(peso)
a<-(peso-mediadopeso)
a2<-a^2
VarYsis<-sum(a2)/18
x<-bancoajustado
strata=NULL
strata <- names(x[20])[1]
l <- levels(x[, strata])
nl <- length(l)
funcaob <- function(x, p=(50), strata=NULL)
{
if (is.null(strata))
strata <- names(x[20])[1]
l <- levels(x[, strata])
nl <- length(l)
BF<- NULL
bi<-NULL
for (i in 1:nl)
{
nstrata <- length(grep(l[i], x[, strata]))
N <- 27115 #TOTAL DA AMOSTRA
B=N/nl
bi<- (nstrata/B)^2
BF<-c(BF,bi)
sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
MEDIA<- mean(sdata$idade)
}
return(BF)
}
calcularB<- funcaob(x)
funcaoM <- function(x, p=(50), strata=NULL)
{
if (is.null(strata))
strata <- names(x[20])[1]
l <- levels(x[, strata])
nl <- length(l)
#BF<- NULL
#bi<-NULL
MF<- NULL
Mi<- NULL
for (i in 1:nl)
{
nstrata <- length(grep(l[i], x[, strata]))
sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
MEDIA<- mean(sdata$idade)
Mi<- (MEDIA - mean(x$idade))^2
MF<-c(MF,Mi)
#vetorvariancias<- c(vetorvariancias,vare)
}
return(MF)
}
calcularM<- funcaoM(x)
VarYc=1/nl*(sum(calcularM*calcularB))
Valores das Variâncias de todos os Planos Amostrais
VarYbarra
## [1] 0.4480715
VarYaas
## [1] 0.4315625
VarYes
## [1] 0.4480715
VarYsis
## [1] 0.6868893
Observa-se que o plano amostral que presentou menor variância neste estudo, foi o da Amostragem Aleatória Simples (AAS). Em seguida o da Amostragem Estratificada (AE). Note que a variancia (AAS) não difere muito da (AE). Porém, se também levarmos em consideração o plano que apresenta menor custo dos dois citados, escolheremos a Amostragem Estratificada.