sisreg_agendamentread.csv
, fiquei responsável de analisar a variavél referente aos Exames Ultra-Sonográficos
, sendo assim será feito um filtro onde ficaremos com um banco de dados geral (população) de 121.681 observações, para realização do estudo será retirada uma amostra aleatória de 1000 bservações onde a partir dela serão apresentados os resultados das análises dos planos amostrais que serão feitos, sendo eles: Amostragem Aleatória Simples, Amostragem Estratificada, Amostragem por Conglomerados, Amostragem Sistemática.## -- Attaching packages ----------------------------------- tidyverse 1.2.1 --
## v ggplot2 2.2.1 v purrr 0.2.4
## v tibble 1.4.2 v dplyr 0.7.4
## v tidyr 0.8.0 v stringr 1.3.0
## v readr 1.1.1 v forcats 0.3.0
## -- Conflicts -------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
Clinicas
onde foram realizados os Exames Ultra-Sonograficos, neste caso a população será dividida em 20 estratos, ou seja, 20 clinicas. E a nossa amostra de 1000 observações será retirada proporcionalmente de acordo com a quantidade de pacientes dentre cada uma dessas 20 clinicas. De uma forma mais clara, a nossa amostra (n = 1000) será definida como a junção das pequenas “amostras” retiradas das 20 clínicas.K=N/n
, onde N = 122090
e n = 1000
como sendo nossa razão. Com isso razão K=122
. Agora será escolhido aleatóriamente o primeiro elemento, e a partir dele será selecionada cada observação somada ao valor da razão até completar nossa amostra de 1000 observações.Sexo
como parâmetro de comparação, sendo assim vamos analisar neste caso se a proporção de pessoas do sexo masculino e do feminino está coerente em todos os casos, para verificar se temos uma boa representatividade da realiade do nosso banco de dados em geral.Média da população
## FEMININO MASCULINO
## 43.24605 42.28990 49.64893
Média da Amostragem Aleatória Simples
## FEMININO MASCULINO
## 43.02700 41.98951 49.29577
Média da Amostragem Estratificada
## FEMININO MASCULINO
## 44.35600 43.52203 50.77391
Média da Amostragem Sistematica
## FEMININO MASCULINO
## 42.99200 41.64672 51.91603
Média da Amostragem por Colgomerados
## FEMININO MASCULINO
## 36.99840 37.02116 35.72727
##Calculo da variancia amostral
vara.dados<-function(x)
{
media=mean(x)
dados=na.omit(x)
disvquad=(dados-media)^2
var.dados=sum(disvquad)/(length(dados)-1)
return(var.dados)
}
##Calculo da variancia populacional
varp.dados<-function(x)
{
media=mean(x)
dados=na.omit(x)
disvquad=(dados-media)^2
var.dados=sum(disvquad)/(length(dados))
return(var.dados)
}
Para escolha do melhor modelo, utilizaremos o EPA- Efeito do Planejamento
e pegamos como base a \[var(\bar{y}) \], que no caso é a variância de um plano amostral aleatório simples, com reposição.
n=1000
N=122090
VarYbarra<- (varp.dados(bancoajustado$idade)/n)
n=1000
N=122090
VarYaas<- (vara.dados(bancoajustado$idade)/n)*(1-n/N)
funcaocalCular <- function(x, p=(50), strata=NULL)
{
if (is.null(strata))
strata <- names(x[20])[1]
l <- levels(x[, strata])
nl <- length(l)
vetorvariancias<- NULL
vare<-NULL
for (i in 1:nl)
{
nstrata <- length(grep(l[i], x[, strata]))
N <- 122090
n <- round(nstrata * p / 100)
nprop <- round(nstrata * p / 100)
ntot<-round(nstrata)
sel <- sample(1:nstrata,n)
sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
vare<- (ntot^2/N^2)*(varp.dados(sdata$idade)/nprop)
vetorvariancias<- c(vetorvariancias,vare)
}
return(vetorvariancias)
}
calcularvariancias<- funcaocalCular(bancoajustado)
VarYes<-sum(calcularvariancias)
mediasaleatorias <- function(x, p=20, r=NULL)
{
k <-122090/1000
mediavetor<- NULL
mediasis<-NULL
for (i in 1:k)
{
r<-i
n <- 0:round((1 * 1000) - 1)
idx <- (n * k) + r
res <- x[idx,]
mediasis<- mean(res$idade)
mediavetor<- c(mediavetor,mediasis)
}
return(mediavetor)
}
peso<-mediasaleatorias(bancoajustado)
mediadopeso<-mean(peso)
a<-(peso-mediadopeso)
a2<-a^2
VarYsis<-sum(a2)/122
x<-bancoajustado
strata=NULL
strata <- names(x[20])[1]
l <- levels(x[, strata])
nl <- length(l)
funcaob <- function(x, p=(50), strata=NULL)
{
if (is.null(strata))
strata <- names(x[20])[1]
l <- levels(x[, strata])
nl <- length(l)
BF<- NULL
bi<-NULL
for (i in 1:nl)
{
nstrata <- length(grep(l[i], x[, strata]))
N <- 122090 ####TOTAL DA AMOSTRA
B=N/nl
bi<- (nstrata/B)^2
BF<-c(BF,bi)
sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
MEDIA<- mean(sdata$idade)
}
return(BF)
}
calcularB<- funcaob(x)
funcaoM <- function(x, p=(50), strata=NULL)
{
if (is.null(strata))
strata <- names(x[20])[1]
l <- levels(x[, strata])
nl <- length(l)
#BF<- NULL
#bi<-NULL
MF<- NULL
Mi<- NULL
for (i in 1:nl)
{
nstrata <- length(grep(l[i], x[, strata]))
sdata <- subset(x,subset=eval(parse(text=strata)) == l[i])
MEDIA<- mean(sdata$idade)
Mi<- (MEDIA - mean(x$idade))^2
MF<-c(MF,Mi)
#vetorvariancias<- c(vetorvariancias,vare)
}
return(MF)
}
calcularM<- funcaoM(x)
VarYc=1/nl*(sum(calcularM*calcularB))
Variância da AAS (com reposição) : \[var(\bar{y})\] VAriância da AAS : \[var(\bar{y}_{ASS})\] Variância da ES : \[var(\bar{y}_{AE})\] Variância da AS : \[var(\bar{y}_{AS})\] Variância da AC : \[var(\bar{y}_{AC})\]
## [1] 0.2758356
## [1] 0.2735786
## [1] 0.0044625
## [1] 0.2039706
## [1] 3.17827
Portanto temos então que as variâncias são dadas por \[var(\bar{y}) = 0.2758\], \[var(\bar{y}_{ASS}) = 0.2736\], \[var(\bar{y}_{AE}) = 0.0045\], \[var(\bar{y}_{AS}) = 0.2740\] e \[var(\bar{y}_{AC}) = 3.1782\], Sendo assim é fácil ver que o plano amostral com menor variância é dado pela Amostragem Estratificada.
## [1] 0.9918174
## [1] 11.52233
## [1] 0.7394645
## [1] 0.01617811
Como dito anteriormente calculamos os valores dos EPA’S:
\[EPA_{AAS} = \frac{var(\bar{y}_{AAS})}{var(\bar{y})} = 0.99\] \[EPA_{ES} = \frac{var(\bar{y}_{ES})}{var(\bar{y})} = 0.016\] \[EPA_{AS} = \frac{var(\bar{y}_{AS})}{var(\bar{y})} = 0.74\] \[EPA_{AC} = \frac{var(\bar{y}_{AC})}{var(\bar{y})} = 11.52\]
Logo como esperado o menor valor obtido foi o da AE com um \[EPA_{ES} = 0.016\], sendo assim chegamos a conclusão que o melhor plano amostral a ser escolhido nesse caso é a Amostragem Aleatória Estratificada. Portanto iriamos analisar os dados recolhendo a amostra proporcionalmente dentre as clinicas, fazendo isso terímos um resultado que retrata a realidade com uma variância mínima.