Conteúdo do Módulo
1 - Introdução e carregamento de funções para o módulo
2 - Conceitos básicos de amostragem
3 - Amostragem como um sorteio de distribuição "teórica"
4 - Média amostral como estimador da média teórica (esperança matemática)
5 - Intervalo de confiança da média teórica: medida da precisão da estimativa
6 - Análise de um estudo de caso - Pesquisa Eleitoral
Esse módulo tem o objetivo de fazer uma introdução aos conceitos de amostragem e estimadores. Muitos dos conceitos (ex. variável aleatória, média teórica, etc.) serão definidos mais formalmente em outros módulos. O foco principal é um entendimento operacional das noções, num contexto mais prático.
Inicialmente execute os seguintes comandos no seu computador. O segundo comando irá carregar no seu ambiente de desenvolvimento algumas funções utilizadas neste módulo.
rm(list=ls()) ## apaga (quase tudo)
source("http://ihbs.com.br/html/aulaAmostragem.r")
Uma pesquisa eleitoral tem como objetivo usual conhecer as frequências relativas de intenção de voto nos candidatos disponíveis em uma eleição, num dado momento do tempo.
Na imprensa, durante o período eleitoral, é comum encontrarmos notícias na midia como a seguinte:
Ibope e Datafolha agora coincidem e Haddad é terceiro; Russomano cai
Pesquisa do Ibope divulgada nesta terça (2), sobre a disputa pela prefeitura de
São Paulo, indica que a liderança continua com Celso Russomano (PRB), mas ele
caiu de 35% para 27%, contra 19% atribuídos a José Serra (PSDB) e 18% a
Fernando Haddad (PT), em empate técnico. Na pesquisa anterior, o Ibope dava
o petista à frente do tucano, ao contrário do que sempre apontou o Datafolha.
Desta vez, segundo o Ibope, Haddad se manteve parado e o Serra subiu dois pontos.
A pesquisa foi realizada nos dias 29 de setembro e 1º de outubro, tendo sido
entrevistadas 1.204 pessoas em São Paulo. A margem de erro é de 3 pontos percentuais,
para mais ou para menos. A pesquisa está registrada no Tribunal Regional Eleitoral
sob o número nº SP-01474/ 2012.
Nesse módulo vamos entender mais claramente o significado dessas informações (as vezes um pouco incorretas) sobre pesquisas eleitorais divulgadas na midia.
Vamos supor inicialmente que o universo de eleitores é somente 20, e que temos 2 candidatos, identificados pelas letras “a” e “b” sendo definidos pelo vetor especificado abaixo:
votos<-c("a","a","b","b","a","b","a","a","b","a","b","a","a","b","a","a","b","a","a","b")
votos<-as.factor(votos)
table(votos) ## frequência absoluta
## votos
## a b
## 12 8
prop.table(table(votos)) ## frequência relativa
## votos
## a b
## 0.6 0.4
Normalmente essas frequências no universo de eleitores não podem ser conhecidas com exatidão, até porque o custo de uma pesquisa que cubra todos os eleitores seria muito elevado. Nessas situações a noção de amostragem é bastante útil.
O que é a amostragem aleatória simples? é o sorteio de uma observação de uma forma que garanta chances iguais de sair no sorteio cada uma das observações disponíveis.
amostragem aleatória simples com reposição: cada observação amostrada é “reposta” ao universo de observações antes da nova amostragem. Na situação presente, seria como se tivessemos uma urna com bolinhas idênticas marcadas com os votos. Após o sorteio de uma bolinha, e anotado o voto, essa bolinha seria retornada à urna antes do novo sorteio.
amostragem aleatória simples sem reposição: cada observação amostrada não é “reposta” ao universo de observações antes da nova observação ser amostrada. Nesse caso, usando a mesma analogia anterior, a bolinha sorteada, que representaria um dado eleitor, não é retornada à urna antes do sorteio de uma nova bolinha.
amostra tamanho \(k\): resultado do processo de amostragem simples repetido \(k\) vezes, de acordo com a modalidade, até sejam obtidas \(k\) observações sorteadas.
Os desenvolvimentos que apresentaremos são direcionados, em geral, a situação de amostragem com reposição. Nas situações em que o número de observações no universo de interesse é muito maior que o tamanho da amostra, os dois processos de amostragem terão propriedades praticamente indistintas.
O processo de amostragem aleatória pode ser facilmente implementado em software especializado como o R. A seguir, é mostrada a obtenção de uma amostra tamanho \(k=10\), com reposição, dos eleitores com votos especificados no vetor “votos”. Os resultados que você irá obter não serão necessáriamente os mesmos, pois trata-se de um outro sorteio.
amostravotos<-sample(votos,10,replace=TRUE) ## amostra tamanho k=10 com reposição
prop.table(table(amostravotos))
## amostravotos
## a b
## 0.9 0.1
Observe que a despeito de termos 60% de eleitores com intenção de voto em “a” e 40% em “b” no universo dos votos, a frequência de votos observada na amostra pode diferir das frequências originais (60% e 40%). Repita várias vezes esses comandos no seu computador para observar, e se familiarizar com, a variabilidade amostral.
Na maioria das situações de interesse as frequências das categorias no universo das observações é desconhecido e o que é observável são as frequências amostrais, dentro de uma amostra que usualmente tem uma dimensão muito inferior à dimensão do universo considerado. Uma pergunta que a estatística tenta responder é a seguinte:
como a informação amostral pode ser utilizada para estimar resultados de interesse dentro do contexto do universo considerado? Esse módulo dará algumas respostas a essa questão.
Na estatística pode-se interpretar o processo de amostragem aleatória descrito no tópico anterior de uma forma mais “abstrata”, como um sorteio de resultados de uma distribuição teórica, que representa um variável aleatória (um conceito que será melhor definido em outro módulo).
Na situação vista anteriormente, relativa ao universo de votos de 20 eleitores (com 60% votando em “a” e 40% votando em “b”), essa distribuição com frequências teóricas definida seria por: Tecnicamente, essa situação pode ser representada por uma distribuição teórica de uma variável (aleatória) Bernoulli, que assume valor 1 quando o voto é para o candidato “a”, com probabilidade \(p=0{,}6\) e valor 0, quando o voto é para o candidato “b”, com probabilidade \(1-p=0{,}4\), como ilustra a figura a seguir:
* Uma variável (aleatória) \(X\) distribuição teórica Bernoulli, por razões que serão discutidas em outro módulo, tem média teórica, também chamada esperança matemática, representada por \(E(X)\) definida por: \[E(X)=0 \times (1-p) + 1 \times p = p\]
Nessa situação, como \(p=0{,}6\) temos que a média teórica ou esperança matemática da distribuição Bernoulli que representa os votos nos candidatos é igual a 0,6, ou seja, a frequência de votos no candidato “a” no universo de votos.
Note que a primeira letra de cada comando do R associado à simulação inicia com a letra r da palavra random em inglês (as outral letras são d para frequência ou densidade de frequência, p para função cumulativa e q para quantil).
Para sorteio de uma amostra tamanho \(k=10\) de uma Bernoulli(p=0,6) podemos utilizar
rbinom(10,1,0.6) ## amostra k=10 de uma Bernoulli(p=0,6)
## [1] 1 0 1 0 1 0 1 0 0 1
Esse procedimento é técnicamente equivalente à obtenção da amostra tamanho \(k=10\) da variável “votos”, através de amostragem com reposição, realizada através de
sample(votos,10,replace=TRUE) ## amostra k=10 da situação original
## [1] a b b b a b a b a a
## Levels: a b
Se quisermos simular exatamente os códigos dos candidatos, a partir da simulação da Bernoulli, podemos utilizar:
as.factor(ifelse(rbinom(10,1,0.6)==1,"a","b")) ## amostra k=10 da situação original
## [1] a a b a b b b a a a
## Levels: a b
Em muitas situações de interesse, parâmetros de interesse estatístico, como a média teórica ou esperança matemática são desconhecidos. O que podemos é obter uma amostra do fenômeno de interesse e a partir dessa amostra estimar esse parâmetro de interesse através de técnicas apropriadas.
No caso específico da estimativa da média teórica ou esperança, um dos principais estimadores existentes é a própria média amostral. Duas das principais “Leis” da estatística garantem os seguintes resultados (\(n\) representa o tamanho da amostra): * A média amostral converge para a média teórica na medida que \(n\) cresce (Lei dos Grandes Números) * A média amostral tem uma distribuição ao redor da média teórica que se aproxima de uma Normal (Teorema do Limite Central)
Para observar esses resultados da maior importância em estatística, podemos utilizar situações em que a média teórica é conhecida e verificar o desempenho da média amostral como estimador, na medida que o tamanho da amostra \(n\) aumenta.
Para tornar o problema mais concreto, suponha uma situação, como a discutida nos tópicos anteriores envolvendo uma população de eleitores em que 60% votará no candidato “a” e 40% no “b” que como vimos pode ser representada por uma variável (aleatória) \(X\) com distribuição Bernoulli(p=0{,}6), com \(X=1\) representando a situação de voto no candidato “a” e \(X=0\) representando a situação de voto no candidato “b”. Sabemos que a média teórica nesse caso é \(p=0{,}6\).
Sabemos também, que para uma amostra de uma variável com distribuição Bernoulli, a média amostral representa a frequência amostral de ocorrências do valor 1. Para uma amostra tamanho \(k=100\), de uma Bernoulli(p=0,6) poderiamos observar a frequência de valores 1 (voto no candidato “a”) através de:
mean(rbinom(100,1,0.6))
## [1] 0.54
Ao executar esse comando no seu computador o valor será possivelmente diferente, pois será resultado de outra amostragem.
Para visualizar melhor a distribuição da média amostral, ao redor da média teórica, em função do tamanho da amostra, podemos repetir esse último procedimento várias vezes, visualizando os resultados obtidos (lembrando que a média teórica, conhecida nesse caso, é 0,6).
Considere a função abaixo, que produz uma simulação (amostra) tamanho \(k\) de médias amostrais, obtidas a partir de amostras tamanho \(n\) usadas para cálculo de cada média amostral:
simulamedia<-function(k,n,p){
## p é a média teórica, n é o tamanho da sub-amostra, k é o número de simulações
vecmedia<-0
for(i in 1:k){
vecmedia[i]<-mean(rbinom(n,1,p))
}
vecmedia
}
Teste da função com \(k=10\) (10 médias amostrais) obtidas com \(n=20\), \(n=200\) e \(p=0{,}6\):
simulamedia(10,20,0.6) ## mais dispersão com n=20
## [1] 0.70 0.60 0.70 0.75 0.40 0.65 0.45 0.50 0.50 0.55
simulamedia(10,200,0.6) ## menos dispersão com n=200
## [1] 0.645 0.605 0.580 0.575 0.590 0.630 0.560 0.560 0.515 0.590
Para visualizar melhor a dispersão em função de \(n\), observe os histogramas a seguir, obtidos variando-se \(n\) nos valores 25, 100 e 400, com \(k=20000\) e \(p=0{,}6\):
par(mfrow=c(1,3))
k<-20000
x<-seq(0,1,0.001)
for(n in c(25,100,400)){
m<-simulamedia(k,n,p=0.6)
hist(m,breaks=30,xlim=c(0.2,0.9),freq=FALSE,ylab="freq.",xlab="média amostral",
main="",col=gray(0.95),cex=1.5,ylim=c(0,17))
lines(x,dnorm(x,mean(m),sd(m)),col="red",lwd=3)
text(0.2,12,paste("n=",n),cex=2,pos=4)
text(0.2,7,paste("média=",as.character(round(mean(m),3))),pos=4,cex=1.5)
text(0.2,6,paste("dp=",as.character(round(sd(m),3))),pos=4,cex=1.5)
}
par(mfrow=c(1,1))
Observe que na medida que \(n\) aumenta, a dispersão ao redor da média teórica (0,6) diminui sensivelmente. A linha vermelha nas figuras caracteriza uma Normal com média teórica definida pela média aritmética das 20000 médias amostrais obtidas na simulação e desvio padrão teórico igual ao desvio padrão das 20000 médias amostrais, em cada caso. Observe que o desvio padrão é reduzido aproximadamente pela metade na medida que \(n\) dobra.
Quando \(n=25\) a aproximação não é boa. Mas quando \(n=100\) e \(n=400\) a Normal praticamente “cola” no histograma dos dados amostrais.
Em síntese: a média amostral converge para a média teórica (0,6) e essa convergência é através de uma distribuição que converge para uma Normal.
Implicações: nas situações mais usuais, não conhecemos a média teórica e precisamos estimá-la a partir da média amostral. Esses resultados e outros que veremos ainda neste módulo facilitam a obtenção de estimadores de grande interesse prático.
Os resultados apresentados, ainda que desenvolvidos dentro de um contexto específico, se aplicam com grande generalidade em estatística (como veremos em outros tópicos), tanto no contexto de variáveis qualitativas quanto quantitativas. A apresentação teve um foco mais aplicado, tentando mostrar de uma forma intuitiva resultados que podem ser demonstrados formalmente em desenvolvimentos mais avançados, que não são objetivo deste material.
No tópico anterior verificamos que a média aritmética converge para a média teórica da distribuição de onde a amostra foi retirada (jargão), na medida que o tamanho da amostra cresce. Alem disso a própria distribuição dos valores da média aritmética (se simulados) converge para uma distribuição Normal, ao redor da média teórica. Um exemplo ilustrou esses resultados no contexto de frequências de votos em pesquisas eleitorais, em situação em que a média teórica é conhecida.
Nas situações mais usuais, a média teórica não é conhecida e deve ser estimada a partir dos dados de uma amostra apropriada. A média amostral é um estimador ponto da média teórica da distribuição de onde foi retirada a amostra, mas tomada de forma isolada, nada informa sobre a precisão com a qual ele está estimando a média teórica. Para isso, é necessário recorrermos ao conceito de:
intervalo de confiança (i.c.) da média teórica com probabilidade q: intervalo definido por 2 números, que indicam que média teórica está contida dentro desse intervalo com probabilidade q. Os valores 0,95 e 0,99 são valores típicos para a probabilidade q em um intervalo de confiança. É um estimador de intervalo da média teórica.
\(\mbox{Q}_t((1+q)/2,n-1)\) converge para \(\Phi^{-1}((1+q)/2)\), o símbolo que representa o quantil \((1+q)/2\) de uma Normal padronizada, na medida que n cresce (a aproximação tem erro próximo de 1% quando n = 100). Temos que \(\Phi^{-1}(0{,}975)=1{,}96\) e \(\Phi^{-1}(0{,}995)=2{,}58\), em aproximações com 2 decimais.
A fórmula especificada nos últimos parágrafos está implementada na seguinte função do R:
intconfmedia<-function(x,q=0.95){
n<-length(x)
m<-mean(x)
s<-sd(x)
e<-qt((1+q)/2,n-1)*s/sqrt(n)
cat(m," +/- ",e," ou [",m-e,",",m+e,"] n=",n,"\n",sep="")
}
Obtenha uma amostra tamanho 1000 de uma Bernoulli(p=0,6) e verifique a performance do i.c. em cercar o valor correto da média teórica, que no caso é igual a 0,6 [lembre-se que a média teórica de uma Bernoulli é exatamente p]:
x<-rbinom(1000,1,0.6)
intconfmedia(x,0.95) ## intervalo a 95% de probabilidade
## 0.577 +/- 0.03067255 ou [0.5463274,0.6076726] n=1000
intconfmedia(x,0.99) ## intervalo a 99% de probabilidade
## 0.577 +/- 0.04033879 ou [0.5366612,0.6173388] n=1000
Os resultados que você irá obter com grande probabilidade serão diferentes dos apresentados dado que estará utilizando outra amostra tamanho 1000. O primeiro intervalo tem probabilidade 95% de cobrir a média teórica. O segundo, mais largo, tem probabilidade 99%. Há, respectivamente, 5% e 1% de probabilidade desse intervalo não conter a média teórica, que no caso é conhecida e tem valor 0,6, o que permite avaliar facilmente a qualidade da estimativa.
Obtenha uma amostra tamanho 10000 de uma distribuição teórica Normal(100,20) e obtenha um i.c. para sua média téorica, que no caso é conhecida (igual a 100). No R, o comando utilizado para “simular” ou produzir amostras tamanho \(n\), i.i.d., de uma Normal(\(\mu\),\(\sigma\)), é * rnorm(n,\(\mu\),\(\sigma\))
x<-rnorm(10000,100,20)
intconfmedia(x,0.95) ## intervalo a 95% de probabilidade
## 99.87302 +/- 0.3966964 ou [99.47633,100.2697] n=10000
intconfmedia(x,0.99) ## intervalo a 99% de probabilidade
## 99.87302 +/- 0.5213839 ou [99.35164,100.3944] n=10000
Considere novamente a fórmula do intervalo de confiança da média teórica: * i.c. a q % de probabilidade: \(\displaystyle \bar X\pm \mbox{Q}_t((1+q)/2, n-1)\frac{s}{\sqrt{n}}\)
Pela fórmula, é fácil observar que a amplitude do intervalo de confiança será dada por * \(\mbox{amplitude}=\displaystyle 2 \mbox{Q}_t((1+q)/2, n-1)\frac{s}{\sqrt{n}}\)
Para um valor de probabilidade \(q\) definido, na medida que \(n\) aumenta, \(\mbox{Q}_t((1+q)/2, n-1)\), o quantil \((1+q)/2\) de uma t-Student com \(n-1\) graus de liberdade, converge para um valor fixo definido pelo quantil \((1+q)/2\) da Normal padronizada, definido por \(\Phi^{-1}((1+q)/2)\).
Para \(q=0{,}95\), por exemplo, esse valor do quantil \((1+q)/2\) da Normal padronizada é \(1{,}96\). A magnitude do desvio padrão amostral, \(s\), não será profundamente afetado por \(n\), dado que depende da variabilidade intrínseca da variável analisada.
Nesse contexto, a única possibilidade de intervenção que temos para reduzir a amplitude do intervalo é através do aumento de \(n\), o tamanho da amostra.
Observando a fórmula que caracteriza a amplitude do intervalo de confiança, torna-se claro que:
Esse efeito é facilmente esse efeito pela estimativa de intervalos de confiança para amostras de uma Normal(100,20), variando \(n\) nos valores 100, 400 e 1600 (note que estamos quadruplicando a cada passo do \(n\)):
for(n in c(100,400,1600)){
x<-rnorm(n,100,20)
intconfmedia(x,0.95) ## intervalo a 95% de probabilidade
}
## 100.0502 +/- 4.262905 ou [95.78727,104.3131] n=100
## 99.5364 +/- 1.984878 ou [97.55152,101.5213] n=400
## 99.88499 +/- 1.022023 ou [98.86297,100.907] n=1600
Essa pergunta não tem uma resposta definitiva em estatística. Se o levantamento não envolvesse custos, o estudioso da estatística responderia: use a maior amostra possível. Mas um levantamento envolve custos e só o usuário dos resultados deste sabe precisão que necessita e o orçamento disponível para a pesquisa.
Nesse contexto, o que a estatística pode caracterizar é a relação entre o tamanho da amostra e a precisão da estimativa, sugerindo para a definição de \(n\) critérios como: (a) máximo erro relativo com relação à média; (b) máxima amplitude do intervalo de confiança. Esses dois critérios serão discutidos nos próximos tópicos.
Esse critério de especificação de tamanho da amostra se fundamenta na noção de erro relativo, representado aqui pela letra grega \(\varepsilon\), e definido por * erro relativo (\(\varepsilon\)): \(\displaystyle \varepsilon = \frac{\mbox{Q}_t((1+q)/2, n-1)\frac{\displaystyle s}{\sqrt{n}}}{\bar X}\)
Nas situações de muitos levantamentos, \(n\) tende a ser maior que 100, algo que justifica o uso de uma fórmula aproximada para o erro relativo, utilizando o valor dos quantis da Normal padronizada, que seria 1,96 para 95% de probabilidade e 2,58 para 99%, em lugar dos quantis exatos da distribuição t-Student.
Ademais, a fórmula apresentada acima pode ser simplificada, pela observação de que a razão entre \(s\) o desvio padrão amostral e \(\bar X\) a média amostral, define o coeficiente de variação (\(\mbox{cv}\)). Essas duas modificações levam à seguinte uma versão aproximada da fórmula do erro relativo (para 95% de probabilidade):
O símbolo \(\approx\) na última expressão significa “aproximadamente igual a”.
Com esse resultado, o intervalo de confiança da média teórica pode ser expresso, a 95% de probabilidade, de forma aproximada, por: * \(\displaystyle \bar X\pm \varepsilon \times \bar X\) onde \(\varepsilon \approx 1{,}96\frac{\displaystyle \mbox{cv}}{\sqrt{n}}, \ \ \ (n>100,\ \ \mbox{95% de probabilidade})\)
Essa fórmula sugere que a definição de um valor de \(n\) adequado pode se fazer a partir de algum objetivo com relação ao valor máximo do erro relativo \(\varepsilon\) desejado. Para operacionalização do procedimento, é necessário, contudo, alguma premissa com relação ao valor de \(\mbox{cv}\) associado à variável de interesse. Em muitas situações, já há alguma experiência anterior que pode dar uma idéia aproximada da “ordem de grandeza” do \(\mbox{cv}\). Em outros casos, levantamentos piloto, com um número menor de observações, podem ser utilizados para estimar o valor do \(\mbox{cv}\) de variáveis de interesse.
O próximo exemplo ilustra como podemos estabelecer valores adequados de \(n\) visando atendimento de objetivos pré-definidos quanto à magnitude do erro relativo \(\varepsilon\), em função de uma estimativa do \(\mbox{cv}\) associado à variável de interesse.
Suponha que numa certa situação o valor do \(\mbox{cv}\) é conhecido de forma aproximada e deseja-se saber o valor aproximado de \(n\) que levaria a um erro relativo (\(\varepsilon\)) menor que um dado \(\varepsilon^*\), ao nível de 95% de probabilidade. Para solucionar essa situação precisariamos resolver em \(n\) a seguinte desigualdade:
A solução seria definir um valor de \(n\) atendendo a
Se temos \(\mbox{cv}=0{,}10\) e \(\varepsilon^*=0{,}01\) ou 1%, o valor de \(n\) deverá ser superior a 384, para que o objetivo \(\varepsilon < 0,01\) seja atingido. É certamente um raciocínio aproximado mas útil para a definição do tamanho ideal da amostra por um critério objetivo.
Como vimos anteriormente, a amplitude do intervalo de confiança é definida por:
O semi-desvio, às vezes caracterizado popularmente como “margem de erro” (em pesquisas eleitorais, por exemplo), é simplesmente a metade da amplitude. Nas situações de muitos levantamentos usuais, \(n\) tende a ser maior que 100, algo que justifica a substituição do quantil da distribuição t-Student pelo quantil da Normal padronizada, que seria 1,96 para 95% de probabilidade e 2,58 para 99%. Nesse caso a versão aproximada da amplitude, considerando 95% de probabilidade, será dada por:
Se temos uma idéia aproximada do valor de \(s\), o desvio padrão, talvez de pesquisas anteriores ou mesmo de um levantamento piloto, podemos estabelecer o valor de \(n\) necessário para que a amplitude não exceda um valor máximo \(a^*\), definindo um valor de \(n\) que atenda a
cuja solução é
Suponha que deseja-se estabelecer o tamanho da amostra adequado para que a “margem de erro” de uma pesquisa eleitoral seja menor que 1% (em percentual de votos). Se entendermos “margem de erro” como o semi-desvio associado ao intervalo de confiança (metade da amplitude), a 95% de probabilidade, o objetivo seria termos uma amplitude do intervalo de confiança menor que 2% (em percentual de votos).
Usando o resultado estabelecido nos parágrafos anteriores, o valor de \(n\) adequado deverá atender:
dado que \(a^*\) seria 0,02 nesse caso. A questão que se coloca é: qual seria um valor de \(s\) apropriado? para responder a essa pergunta é interessante revisitar a fórmula do desvio-padrão amostral e dela obter uma fórmula equivalente, um mais simples, para essa situação.
Pode-se demostrar (demonstre se puder) que no caso de uma amostra de uma variável Bernoulli, temos
Lembrando que nesse caso, \(\bar X\) corresponde a frequência amostral de observações em que \(X_i=1\). Para valores elevados de \(n\) (ex. \(n>100\)), temos que o máximo valor que \(s\) pode assumir será bem aproximado por:
Analisando essa última expressão, é fácil estabelecer o valor máximo de \(s\) em função da frequência amostral. Esse valor máximo, representado aqui por \(s^*\) ocorrerá quando \(\bar X=0{,}5\) (você pode verificar se não estiver convencido), o que leva a
Logo, usando esse valor máximo \(s^*=0{,}5\) na fórmula que define a condição a ser atendida para o tamanho da amostra, chegamos a
Isso significa que usando \(n>9604\) estaremos seguros no sentido de atender aproximadamente o máximo de 1% na “margem de erro”" em qualquer situação, pois o procedimento considerou o caso mais extremo possível (\(s=0{,}5\)).
Essa situação, envolvendo frequências, se beneficiou de resultados específicos associados à distribuição Bernoulli. Em outros casos, uma premissa sobre o valor de \(s\) a ser considerado deverá partir de experiências anteriores com o fenômeno ou de levantamento piloto.
Certifique-se que executou os comandos no tópico 1 deste módulo. Esses comandos carregarão código do R que será utilizado neste tópico. Alguns comandos que serão disponibilizados:
Teste as funções para se familiarizar com seu resultado, considerando uma amostra tamanho 10.
simulavotos(10)
## [1] a a c a a b b c b b
## Levels: a b c
simularenda(10)
## [1] 9.758583 6.981173 8.490345 11.981686 6.975640 11.079481 11.777367
## [8] 8.541444 6.521444 9.851425
simuladf(10)
## v r
## 1 c 8.234371
## 2 c 5.802613
## 3 c 6.224514
## 4 b 11.968046
## 5 c 5.450840
## 6 c 6.562476
## 7 a 7.686385
## 8 b 11.166746
## 9 c 5.158461
## 10 a 7.860903
1 - Encontre os intervalos de confiança da frequência teórica de votos nos candidatos “a”, “b” e “c”, utilizando amostras tamanho: 500, 1000 e 2000. O valor 2000 é típico em muitas pesquisas eleitorais. Considere o nível de probabilidade de 95%. Observe que a metade da amplitude, também chamada de semi-desvio, é o que se chama, de forma popularesca, de “margem de erro” do levantamento, que estará em torno de 0,01 a 0,03, nos casos em que \(n\) está entre 1000 ou 2000. (dica: modele a situação de cada candidato através de uma variável Bernoulli que assume valor 1 para o voto no candidato e 0 para outros candidatos e analise essa variável)
2 - Existe alguma evidência de que algum dos candidatos deve ganhar a eleição, baseado na intenção do momento? (dica: há evidência relativamente forte que duas frequências teóricas são diferentes, quando seus intervalos de confiança não se superpõem ou não se inteseccionam). Discuta o efeito de \(n\) na sua conclusão.
3 - Qual seria o tamanho sugerido de \(n\) que leva a um erro relativo menor que 1% a 95% de probabilidade para a estimativa associada à frequência teórica de votos de cada candidato. Considere para suas considerações uma amostra tamanho 100 para estimativa do coeficiente de variação, como se viesse de um levantamento “piloto” realizado anteriormente ao levantamento principal.
4 - Encontre o intervalo de confiança para a média teórica de “renda”, incondicional, considerando \(n\) nos valores de 500, 1000 e 2000, ao nível de 95% e 99%.
5 - Encontre o intervalo de confiança para a média teórica de renda, condicional à intenção de voto de cada candidato, considerando n=500 e n=2000 e probabilidade 95%. Você terá que calcular 3 intervalos, um para cada candidato, para cada situação com relação a n. Há alguma evidência que indique que o nível de renda pode estar relacionado ao voto do candidato? (dica: observe que o número de observações em cada tipo de voto pode ser diferente para as observações associadas a cada candidato)