Relatório - Amostragem

Este trabalho tem o objetivo de avaliar os dados sociodemográficos de 1000 indivíduos com relação a Consulta em Alergia e Imunologia - Retorno (AGENDA LOCAL), atráves de quatro tipos de amostragens sem reposição. Os tipos de amostragens utilizados foram:

Aleatória Simples;
Estratificada;
Sistemática;
Conglomerados.

O levantamento por amostragem permite a obtenção de informações a respeito de valores populacionais (PARAMETROS), através da observação de apenas uma parte (amostra) do seu universo de estudo (população). Os elementos de uma população são as unidades de observação e analise determinadas pelos objetivos do levantamento. Do ponto de vista matemático, a população é definida como um conjunto de elementos que possuem pelo menos uma característica em comum. Na pratica, compreende o agregado dos elementos, devendo ser definida em termos de localização e tempo. Freqüentemente, devido a problemas de acesso ou de cobertura, esta população é modificada para o conjunto efetivamente observado (população de estudo). E o seu tamanho , definido pelo numero de elementos identificáveis (N) que a compõem.

Carregando a Base de Dados

banco <- read.csv("C:/Users/Hp1/Desktop/Amostragem/sisreg_agendamentos_2014.csv", sep=";")

bancoajustado<-na.omit(banco)

Amostragem Aleatória Simples

A amostragem aleatória simples é o tipo de amostragem probabilística mais utilizada. Dá exatidão e eficácia à amostragem, além de ser o procedimento mais fácil de ser aplicado - todos os elementos da população têm a mesma probabilidade de pertencerem à amostra.

Abaixo, coletou-se uma amostra de tamanho N = 1000 para posteriormente fazer uma análise detalhada.

AmostraSimples<-sample_n(bancoajustado,size = 1000)

Amostragem Estratificada

Consiste em dividir toda a população ou o “objeto de estudo” em diferentes subgrupos ou estratos diferentes, de maneira que um indivíduo pode fazer parte apenas de um único estrato ou camada. Após as camadas serem definidas, para criar uma amostra, selecionam-se indivíduos utilizando qualquer técnica de amostragem em cada um dos estratos de forma separada.

Coleta de uma amostra estratificada para que seja analisada em seguida.

x <- bancoajustado
s_str <- function(x, p=(100000/27115), strata=NULL)
{
  if (is.null(strata))
    strata <- names(x[20])[1]
  l <- levels(x[, strata])
  nl <- length(l)
  res <- numeric()
  for (i in 1:nl)
    {
      nstrata <- length(grep(l[i],x[, strata]))
      n <- round(nstrata * p / 100)
      sel <- sample(1:nstrata,n)
      sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
      res <- rbind(res,sdata[sel,])
    }
  return(res)
}

AmostraEstratificada <- s_str(bancoajustado)

Amostragem Sistemática

consiste em escolher um indivíduo inicialmente de forma aleatória entre a população e, posteriormente, selecionar para amostra cada enésimo indivíduo disponível no marco amostral. É um processo rápido e simples. Os resultados obtidos são representativos da população, de forma similar a amostra aleatória simples, sempre quando não exista nenhum fator intrínseco na forma que os indivíduos estão listados e que se reproduzam certas características populacionais em cada número especifico de indivíduos. Esse sucesso realmente é pouco frequente.

Coleta da Amostra Sistemática.

s_sis <- function(x, p=20, r=NULL)
{
  k <- 27115/1000
  if (is.null(r))
    r <- sample(1:k, 1)
  n <- 0:round((1 * 1000) - 1)
  idx <- (n * k) + r
  res <- x[idx,]
  
  return(res)
}

amostrasistematica<-s_sis(bancoajustado)

Amostragem por Conglomerados

A amostra por conglomerados é uma técnica que explora existência de grupos (clusters) na população. Esses grupos representam adequadamente a população total em relação a característica que queremos medir. Em outras palavras, estes grupos contêm variabilidade da população inteira. Se isso acontecer, você pode selecionar apenas alguns desses conglomerados para realizar o estudo.

Coleta da Amostra por Conglomerados.

SelecionarPoliclina <- bancoajustado %>% group_by(unidade_exec) %>% summarise(n = n()) %>% mutate(prop = n/sum(n))

Unidade<-sample_n(SelecionarPoliclina,size = 1)
AmostragemCongomerados <- bancoajustado %>% filter(bancoajustado$unidade_exec==Unidade$unidade_exec)

Análise Descritiva

O gráfico acima mostra que o tipo de plano amostral não interfere na proporção. Ou seja, a proporção de homens e mulheres é praticamente a mesma idependente do plano amostral utilizado na coleta da amostra.

Análise da idade dos indivíduos

Através dos gráficos boxplots, Observa-se que a idade varia conforme o plano amostral utilizado.

Cálculos das Variâncias Amostral e Populacional

# Calculo da variancia amostral
vara.dados<-function(x)
{
  media=mean(x)
  dados=na.omit(x)  
  disvquad=(dados-media)^2
  var.dados=sum(disvquad)/(length(dados)-1)
  return(var.dados)
}


# Calculo da variancia populacional
varp.dados<-function(x)
{
  media=mean(x)
  dados=na.omit(x)  
  disvquad=(dados-media)^2
  var.dados=sum(disvquad)/(length(dados))
  return(var.dados)
}

n=1000
N=27115
VarYbarra<- (varp.dados(bancoajustado$idade)/n)

Variância Amostra Aleatória Simples - AAS (sem reposição)

n=1000
N=27115
VarYaas<- (vara.dados(bancoajustado$idade)/n)*(1-n/N)

Variância Amostra Estratificada - AE

funcaocalCular <- function(x, p=(100000/27115), strata=NULL)
{
  if (is.null(strata))
    strata <- names(x[20])[1]
  l <- levels(x[, strata])
  nl <- length(l)
  vetorvariancias<- NULL
  vare<-NULL
  for (i in 1:nl)
    {
      nstrata <- length(grep(l[i], x[, strata]))
      N <- 27115
      n <- round(nstrata * p / 100)
      nprop <- round(nstrata * p / 100)
      ntot<-round(nstrata)
      sel <- sample(1:nstrata,n)
      sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
      vare<- (ntot^2/N^2)*(varp.dados(sdata$idade)/nprop)
      vetorvariancias<- c(vetorvariancias,vare)
    }
  return(vetorvariancias)
}


calcularvariancias<- funcaocalCular(bancoajustado)
VarYes<-sum(calcularvariancias)

Variância Amostragem Sistemática - AS

mediasaleatorias <- function(x, p=20, r=NULL)
{
  k <-27115/1000
  mediavetor<- NULL
  mediasis<-NULL
  for (i in 1:k)
  {
    r<-i
    n <- 0:round((1 * 1000) - 1)
    idx <- (n * k) + r
    
    res <- x[idx,]
    
    mediasis<- mean(res$idade)
    mediavetor<- c(mediavetor,mediasis)
    
  }
    
  return(mediavetor)
}   
    
peso<-mediasaleatorias(bancoajustado)

mediadopeso<-mean(peso)

a<-(peso-mediadopeso)
a2<-a^2
VarYsis<-sum(a2)/18

Variância Amostragem por Conglomerados - AC

x<-bancoajustado

strata=NULL
strata <- names(x[20])[1]
  l <- levels(x[, strata])
  nl <- length(l)

funcaob <- function(x, p=(50), strata=NULL)
{
  if (is.null(strata))
    strata <- names(x[20])[1]
  l <- levels(x[, strata])
  nl <- length(l)
  BF<- NULL
  bi<-NULL

  for (i in 1:nl)
    {
      nstrata <- length(grep(l[i], x[, strata]))
      N <- 27115 #TOTAL DA AMOSTRA
      B=N/nl
      bi<- (nstrata/B)^2
      BF<-c(BF,bi)
      
      sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
      MEDIA<- mean(sdata$idade)
      
    }
  return(BF)
}


calcularB<- funcaob(x)


funcaoM <- function(x, p=(50), strata=NULL)
{
  if (is.null(strata))
    strata <- names(x[20])[1]
  l <- levels(x[, strata])
  nl <- length(l)
  #BF<- NULL
  #bi<-NULL
  
MF<- NULL
Mi<- NULL

  for (i in 1:nl)
    {
      nstrata <- length(grep(l[i], x[, strata]))

      sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
      MEDIA<- mean(sdata$idade)
      
      Mi<- (MEDIA - mean(x$idade))^2
      MF<-c(MF,Mi)
      
      #vetorvariancias<- c(vetorvariancias,vare)
    }
  return(MF)
}


calcularM<- funcaoM(x)


VarYc=1/nl*(sum(calcularM*calcularB))

Valores das Variâncias de todos os Planos Amostrais

VarYbarra

## [1] 0.4480715

VarYaas

## [1] 0.4315625

VarYes

## [1] 0.4480715

VarYsis

## [1] 0.6868893

Observa-se que o plano amostral que presentou menor variância neste estudo, foi o da Amostragem Aleatória Simples (AAS). Em seguida o da Amostragem Estratificada (AE). Note que a variancia (AAS) não difere muito da (AE). Porém, se também levarmos em consideração o plano que apresenta menor custo dos dois citados, escolheremos a Amostragem Estratificada.