Neste trabalho faremos as análises em cima do banco de dados fornecido em sala sisreg_agendamentread.csv, fiquei responsável de analisar a variavél referente aos Exames Ultra-Sonográficos, sendo assim será feito um filtro onde ficaremos com um banco de dados geral (população) de 121.681 observações, para realização do estudo será retirada uma amostra aleatória de 1000 bservações onde a partir dela serão apresentados os resultados das análises dos planos amostrais que serão feitos, sendo eles: Amostragem Aleatória Simples, Amostragem Estratificada, Amostragem por Conglomerados, Amostragem Sistemática.

## -- Attaching packages ----------------------------------- tidyverse 1.2.1 --
## v ggplot2 2.2.1     v purrr   0.2.4
## v tibble  1.4.2     v dplyr   0.7.4
## v tidyr   0.8.0     v stringr 1.3.0
## v readr   1.1.1     v forcats 0.3.0
## -- Conflicts -------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

Amostragem Aleatória Simples:

Na amostra aleatória simples vamos simplesmente pegar uma amostra de 1000 observações da população inteira, sem reposição.

Amostragem Estratificada:

Na amostragem estratificada separamos a população em Clinicas onde foram realizados os Exames Ultra-Sonograficos, neste caso a população será dividida em 20 estratos, ou seja, 20 clinicas. E a nossa amostra de 1000 observações será retirada proporcionalmente de acordo com a quantidade de pacientes dentre cada uma dessas 20 clinicas. De uma forma mais clara, a nossa amostra (n = 1000) será definida como a junção das pequenas “amostras” retiradas das 20 clínicas.

Amostragem por Conglomerados:

Na amostragem por conglomerados também dividimos a população em 20 clinicas onde foram realizados os exames Ultra-sonograficos, nesse tipo de amostragem temos que cada clinica representa a população geral, pois em todas as clinicas foram realizados todos os tipos de Ultrassom, dessa forma ela abrange todas as informações necessarias. Sendo assim será selecionada aleatóriamente uma das 20 clinicas, e a partir dela, será feita a análise. Como cada clinica possui um número diferente de pacientes, não podemos pegar uma amostra com o valor fixo de 1000 observações para realização do estudo.

Amostragem sistemática:

Na amostragem Sistemática é um processo considerado periódico, mas na verdade é um processo bem simples que inicialmente requer a seleção de um primeiro individuio, de forma aleatória entre a população o resto do processo é só seguir o mesmo raciocinio e selecionar cada n-ésimo elemento disponível.

Neste caso usaremos K=N/n, onde N = 122090 e n = 1000 como sendo nossa razão. Com isso razão K=122. Agora será escolhido aleatóriamente o primeiro elemento, e a partir dele será selecionada cada observação somada ao valor da razão até completar nossa amostra de 1000 observações.

Por exemplo, se a observação selecionada aleatóriamente foi a de número 3, a próxima observação a ser selecionada seria a 125, em seguida a 247…É só seguir a mesma linha de raciocínio.

Análise Descritiva

Após fazer a amostra para cada tipo de plano amostral, faremos então uma comparação para saber se a amostra retirada condiz com a população geral. Será usada a variável Sexo como parâmetro de comparação, sendo assim vamos analisar neste caso se a proporção de pessoas do sexo masculino e do feminino está coerente em todos os casos, para verificar se temos uma boa representatividade da realiade do nosso banco de dados em geral.

Aparentemente parece estranho fato da proporção de pessoas do sexo feminino ser extremamente maior que a proporção do sexo masculino, mas deve ser lembrado que neste caso estamos levando em consideração apenas as pessoas que realizaram exames Ultra-sonograficos, e esse é um tipo de exame que é realizado com muito mais frequencia pelas pessoas do sexo feminino do que masculino, logo assumimos que a mostra representa muito bem a populçao, isso implica que todo resultado obtido para a amostra terá uma representatividade alta em relação a população geral. Logo de inicio não podemos chegar a nenhuma conslusão precipitada pois todos os planos amostrais estão trazendo um comportamento aparetemente bem proximos, sendo assim serão feitas outra análises para chegar a um resultao mais conclusivo.

Cálculo das Médias

A nível de curiosidade segue a baixo o valor das médias das idades dos pacientes que realiazaram os Exames Ultra-sonograficos referentes a cada tipo de plano amostral:

Média da população

##            FEMININO MASCULINO 
##  43.24605  42.28990  49.64893

Média da Amostragem Aleatória Simples

##            FEMININO MASCULINO 
##  43.02700  41.98951  49.29577

Média da Amostragem Estratificada

##            FEMININO MASCULINO 
##  44.35600  43.52203  50.77391

Média da Amostragem Sistematica

##            FEMININO MASCULINO 
##  42.99200  41.64672  51.91603

Média da Amostragem por Colgomerados

##            FEMININO MASCULINO 
##  36.99840  37.02116  35.72727

Comparação das médias:

A seguir serão apresentados os Boxplots levando em conta a idade dos pacientes para uma análise mais geral, onde podemos observar as médias, a simetria e também a presença de outliers.

Em geral as médias são relativamente próximas, exceto pelo modelo da Amostragem Sistemática, que apresentou uma comportamento totalmente diferente tanto para a população feminina quanto para a masculina. Portanto analisando os gráficos BoxPlot podemos dizer que a Amostragem Estratificada e a Amostragem Aleatória Simples são as apresentam um comportamento mais próximo da população geral, mas ainda assim não podemos dizer qual é a melhor opção a ser escolhida, por enquanto.

Análise da variâcia dos modelos

Para finalizar, serão feitos os cálculos das variâncias de cada plano amostral para assim podermos chegar a uma conclusão, pois como ja sabemos analisar e comparar proporções de sexo ou idade, nos faz ter uma ideia um pouco mais visual se o trabalho está sendo feito de forma correta, mas não podemos tomar nenhuma decisão com base apenas nessas informações, portanto o cálculo da variância é o mais importante e tido como indispensável.

##Calculo da variancia amostral
vara.dados<-function(x)
{
  media=mean(x)
  dados=na.omit(x)  
  disvquad=(dados-media)^2
  var.dados=sum(disvquad)/(length(dados)-1)
  return(var.dados)
}
##Calculo da variancia populacional
varp.dados<-function(x)
{
  media=mean(x)
  dados=na.omit(x)  
  disvquad=(dados-media)^2
  var.dados=sum(disvquad)/(length(dados))
  return(var.dados)
}

Para escolha do melhor modelo, utilizaremos o EPA- Efeito do Planejamento e pegamos como base a \[var(\bar{y}) \], que no caso é a variância de um plano amostral aleatório simples, com reposição.

n=1000
N=122090
VarYbarra<- (varp.dados(bancoajustado$idade)/n)

Variância do modelo AAS (sem reposição)

n=1000
N=122090
VarYaas<- (vara.dados(bancoajustado$idade)/n)*(1-n/N)

Variância do modelo AE

funcaocalCular <- function(x, p=(50), strata=NULL)
{
  if (is.null(strata))
    strata <- names(x[20])[1]
  l <- levels(x[, strata])
  nl <- length(l)
  vetorvariancias<- NULL
  vare<-NULL
  for (i in 1:nl)
    {
      nstrata <- length(grep(l[i], x[, strata]))
      N <- 122090
      n <- round(nstrata * p / 100)
      nprop <- round(nstrata * p / 100)
      ntot<-round(nstrata)
      sel <- sample(1:nstrata,n)
      sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
      vare<- (ntot^2/N^2)*(varp.dados(sdata$idade)/nprop)
      vetorvariancias<- c(vetorvariancias,vare)
    }
  return(vetorvariancias)
}


calcularvariancias<- funcaocalCular(bancoajustado)
VarYes<-sum(calcularvariancias)

Variâcia do modelo AS

mediasaleatorias <- function(x, p=20, r=NULL)
{
  k <-122090/1000
  mediavetor<- NULL
  mediasis<-NULL
  for (i in 1:k)
  {
    r<-i
    n <- 0:round((1 * 1000) - 1)
    idx <- (n * k) + r
    
    res <- x[idx,]
    
    mediasis<- mean(res$idade)
    mediavetor<- c(mediavetor,mediasis)
    
  }
    
  return(mediavetor)
}   
    
peso<-mediasaleatorias(bancoajustado)

mediadopeso<-mean(peso)

a<-(peso-mediadopeso)
a2<-a^2
VarYsis<-sum(a2)/122

Cálculo da Variância da Amostragem por Conglomerados

x<-bancoajustado

strata=NULL
strata <- names(x[20])[1]
  l <- levels(x[, strata])
  nl <- length(l)

funcaob <- function(x, p=(50), strata=NULL)
{
  if (is.null(strata))
    strata <- names(x[20])[1]
  l <- levels(x[, strata])
  nl <- length(l)
  BF<- NULL
  bi<-NULL

  for (i in 1:nl)
    {
      nstrata <- length(grep(l[i], x[, strata]))
      N <- 122090 ####TOTAL DA AMOSTRA
      B=N/nl
      bi<- (nstrata/B)^2
      BF<-c(BF,bi)
      
      sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
      MEDIA<- mean(sdata$idade)
      
    }
  return(BF)
}


calcularB<- funcaob(x)

funcaoM <- function(x, p=(50), strata=NULL)
{
  if (is.null(strata))
    strata <- names(x[20])[1]
  l <- levels(x[, strata])
  nl <- length(l)
  #BF<- NULL
  #bi<-NULL
  
MF<- NULL
Mi<- NULL

  for (i in 1:nl)
    {
      nstrata <- length(grep(l[i], x[, strata]))

      sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
      MEDIA<- mean(sdata$idade)
      
      Mi<- (MEDIA - mean(x$idade))^2
      MF<-c(MF,Mi)
      
      
      #vetorvariancias<- c(vetorvariancias,vare)
    }
  return(MF)
}


calcularM<- funcaoM(x)


VarYc=1/nl*(sum(calcularM*calcularB))

As variâncias referentes a:

Variância da AAS (com reposição) : \[var(\bar{y})\] VAriância da AAS : \[var(\bar{y}_{ASS})\] Variância da ES : \[var(\bar{y}_{AE})\] Variância da AS : \[var(\bar{y}_{AS})\] Variância da AC : \[var(\bar{y}_{AC})\]

## [1] 0.2758356
## [1] 0.2735786
## [1] 0.0044625
## [1] 0.2039706
## [1] 3.17827

Portanto temos então que as variâncias são dadas por \[var(\bar{y}) = 0.2758\], \[var(\bar{y}_{ASS}) = 0.2736\], \[var(\bar{y}_{AE}) = 0.0045\], \[var(\bar{y}_{AS}) = 0.2740\] e \[var(\bar{y}_{AC}) = 3.1782\], Sendo assim é fácil ver que o plano amostral com menor variância é dado pela Amostragem Estratificada.

## [1] 0.9918174
## [1] 11.52233
## [1] 0.7394645
## [1] 0.01617811

Como dito anteriormente calculamos os valores dos EPA’S:

\[EPA_{AAS} = \frac{var(\bar{y}_{AAS})}{var(\bar{y})} = 0.99\] \[EPA_{ES} = \frac{var(\bar{y}_{ES})}{var(\bar{y})} = 0.016\] \[EPA_{AS} = \frac{var(\bar{y}_{AS})}{var(\bar{y})} = 0.74\] \[EPA_{AC} = \frac{var(\bar{y}_{AC})}{var(\bar{y})} = 11.52\]

Logo como esperado o menor valor obtido foi o da AE com um \[EPA_{ES} = 0.016\], sendo assim chegamos a conclusão que o melhor plano amostral a ser escolhido nesse caso é a Amostragem Aleatória Estratificada. Portanto iriamos analisar os dados recolhendo a amostra proporcionalmente dentre as clinicas, fazendo isso terímos um resultado que retrata a realidade com uma variância mínima.