Análise de Dados Aplicada à Economia

2023/01/31 (updated: 2024-08-19)

Fundamentos de estatística

Probabilidade

Economistas aplicados buscam por padrões nos dados para entender comportamentos ou prever resultados de ações. Nem sempre esses padrões são fáceis de identificar, choques aleatórios costumam afetar as variáveis de interesse e “contaminar” os padrões que observamos.
Um dos trabalhos de economistas aplicados é encontrar padrões que podem estar ocultos por conta de choques aleatórios, ou seja, de alguma forma temos de separar o que é ruído aleatório e o que é um padrão sistemático dos dados.
A teoria da probabilidade fornece um conjunto de ferramentas matemáticas que nos permite medir os padrões aleatórios encontrados nos dados.

Probabilidade

Antes de comerçarmos a falar de teoria é importante refletir um pouco sobre o que é probabilidade. O que queremos dizer quando afirmamos que a probabilidade de algo acontecer é 30% ou 70%.
Existem duas formas de pensar probabilidade: frequentista (objetiva) e bayesiana (subjetiva).

Probabilidade

Qual a probabilidade do Botafogo perder o próximo jogo contra o Flamengo?
- Considerando que o hino do Botafogo deixa claro que o Glorioso não pode perder para ninguém acredito que a probabilidade é zero. (resposta subjetiva)
- Procurei os dados na internet, encontrei que em 380 jogos contra o Flamengo o Botafogo ganhou 114 (30%), empatou 124 (32,6%) e perdeu 142 (37,4%). Acredito que a resposta é 37,4%. (resposta objetiva)

Probabilidade

Na estatística tradicional, chamada de frequentista, o conceito de probabilidade está associado à resposta que chamei de objetiva.
Na estatística bayesiana o conceito de probabilidade está associado à resposta que chamei de subjetiva.

Probabilidade

Apesar das diferenças conceituais, estatísticos frequentistas e bayesianos usam a teoria da probabilidade desenvolvida pelo matemático russo Andrey Kolmogorov no começo do século XX. É essa abordagem matemática, comum a frequentistas e bayesianos, que vamos estudar nesta seção.

Probabilidade

Existem duas formas predominantes de interpretar probabilidade. De acordo com a abordagem frequentista, probabilidade representa o limite da frequência relativa que evento de interesse ocorre quando o número de experimentos repetidos nas mesmas condições vai para infinito. A abordagem bayesiana interpreta probabilidade como uma crença subjetiva a respeito da probabilidade de um evento ocorrer.

Probabilidade

Para definir probabilidade usaremos três conceitos: experimento, espaço amostral e evento.
- experimento: uma ação ou conjunto de ações que produzem os eventos estocásticos de interesse.
- espaço amostral: o conjunto de todos os possíveis resultados de um experimento, tipicamente denotado por \(\Omega\).
- evento: um subconjunto do espaço amostral.

Probabilidade

Exemplo: Cara ou coroa
- experimento: jogar uma moeda
- espaço amostral: {cara, coroa}
- eventos: {cara}, {coroa}

Probabilidade

Exemplo: Botafogo vs Flamengo
- experimento: jogo disputado pelas duas equipes
- espaço amostral: {Botafogo ganha, Flamengo ganha, Empate}
- eventos: {Botafogo ganha}, {Flamengo ganha}, {Empate}

Probabilidade

Pela definição de eventos, subconjunto do espaço amostral, existem vários possíveis eventos, de fato o próprio espaço amostral é um evento.
Dizemos que um evento ocorreu quando o conjunto que define o evento é o resultado do experimento.

Probabilidade

Considere a decisão de cada eleitor nas eleições de 2022 como um experimento. Para simplifcar considere quatro possiveis ações do eleitor: votar no Lula, votar no Bolsonaro, abstenção (incluindo branco, nulo e não votar) e votar em outro candidato.
O espaço amostral será: \(\Omega = \{\mbox{votar no Lula}, \mbox{votar no Bolsonaro}, \mbox{abstenção}, \mbox{votar em outro}\}\)

Probabilidade

Podemos considerar vários eventos nesse espaço amostral, por exemplo:
- {votar no Lula}
- {votar no Lula, votar no Bolsonaro, votar em outro}, ou seja, não se abster.
- {votar no Lula, abstenção, votar em outro}, ou seja, não votar no Bolsonaro.
- {abstenção, votar em outro}, ou seja, não votar nem em Lula nem em Bolsonaro.

Probabilidade

Vamos começar definindo probabilidade para o caso mais simples de todos: cada resultado é igualmente provável de acontecer. Nesse caso, a probabilidade de um evento A, denotada por P(A), pode ser calculada como o número de elementos no conjunto A dividido pelo número de elementos no espaço amostral. \[P(A) = \frac{\mbox{número de elementos de A}}{\mbox{número de elemento de }\Omega}\]

Probabilidade

Como exemplo, considere o experimento de jogar um moeda três vezes. Denote dar cara como H, de heads, e dar coroa como T, de tail. O espaço amostral é: \[\Omega = \{HHH, HHT, HTH, THH, HTT, THT, TTH, TTT\}\]
Podemos calcular a probabilidade do evento dar pelo menos duas caras contando o número de elementos no conjunto relevante: \[A = \{HHH, HHT, HTH, THH\}\]
A probabilidade de dar pelo menos duas caras é: \[P(A)=\frac{4}{8}=0,\!5\]

Probabilidade

Toda a moderna teoria de probabilidade é construída a partir de três axiomas, ou seja, a partir desses axiomas pdoemos provar todos os teoremas e regras sobre probabilidade.
Parece Microeconomia!

Probabilidade

Os axiomas de probabilidade são dados por:
- A probabilidade de qualquer evento A é não-negativa: \(P(A) \geq 0\)
- A probabilidade de que um dos resultados no espaço amostral ocorra é um: \(P(\Omega)=1\)
- Regra da adição, se os eventos A e B são mutuamente exclusivos então \(P(A\mbox{ ou }B)=P(A)+P(B)\)

Probabilidade

Dois eventos A e B são mutuamente exclusivos quando não compartilham de um resultado.
Os eventos Botafogo ganha e Flamengo ganha são mutuamente exclusivos, desta forma: \[P(\mbox{Botafogo ganhar ou Flamengo ganhar}) = \\P(\mbox{Botafogo ganhar}) + P(\mbox{Flamengo ganhar})\].

Probabilidade

Os eventos Botafogo não ganhar e Flamengo não ganhar não são mutuamente exclusivos pois compartilham o resultado Empate. Note que Botafogo não ganhar = {Flamengo ganhar, Empate} e Flamengo não ganhar = {Botafogo ganhar, Empate}.

Probabilidade

…

Probabilidade

Se A e B não são eventos mutuamente exclusivos vale que: \(P(A\mbox{ ou }B)=P(A)+P(B)-P(A\mbox{ e }B)\).
No exemplo, P(Botafogo não ganhar ou Flamengo não ganhar) = P(Botafogo não ganhar) + P(Flamengo não ganhar) - P(Empate).
Repare que a regra acima vale para quaisquer dois eventos, pois se A e B são mutuamente exclusivos então \(P(A\mbox{ e }B)=0\).

Probabilidade

Para quaisquer eventos A e B, a regra da adição é dada por: \(P(A\mbox{ ou }B)=P(A)+P(B)-P(A\mbox{ e }B)\).

Probabilidade

Para um dado evento \(A\) o conjunto dos elementos do espaço amostral que não estão em A é chamado de complemento de A (ou complementar de A) e denotado por \(A^c\).
Pelo segundo axioma temos que \(P(A)+P(A^c)=1\), que implica em \(P(A^c)=1-P(A)\).
Por fim, repare que um evento A pode ser decomposto em dois eventos mutuamente exclusivos. A parte de A que é comum a B, \(A\) e \(B\), e a parte de A que não é comum a B, \(A\) e \(B^c\).

Probabilidade

Para quaisquer eventos A e B, a lei da probabilidade total é dada por: \(P(A)=P(A\mbox{ e }B) + P(A\mbox{ e }B^c)\).

Probabilidade condicional

A probabilidade condicional de um evento \(A\) ocorrer dado que o evento \(B\) ocorreu é denotada por \(P(A|B)\) e definida por: \[P(A|B)=\frac{P(A\mbox{ e }B)}{P(B)}\]
Na equação acima, \(P(A\mbox{ e }B)\) é a probabilidade conjunta dos dois eventos ocorrerem e \(P(B)\) é a probabilidade marginal do evento \(B\).

Probabilidade condicional

Arrumando os termos da equação podemos obter a seguinte regra de multiplicação: \[P(A\mbox{ e }B) = P(A|B)\times P(B)=P(B|A)\times P(A)\]
Com esta regra podemos encontrar uma forma alternativa para lei da probabilidade total: \[P(A)=P(A|B)\times P(B) + P(A|B^c)\times P(B^c)\]

Probabilidade condicional

Para ajudar a entender a importância da probabilidade condicional, considere um exemplo onde dois casais estão esperando gêmeos. Um casal fez um exame de ultrassom e conseguir determinar que um dos bebês é menino. O outro casal não sabia o sexo dos bebês até o nascimento, quando viu que o primeiro a nascer foi um menino.
Qual a probabilidade dos dois bebês serem meninos? Essa probabilidade é a mesma para os dois casais? A diferença entre os casais é que um casal sabe que pelo menos um dos bebês é menino e o outro sabe que o primeiro bebê é menino.

Probabilidade condicional

Comecemos registrando os quatro resultados no espaço amostral. Denote o sexo do bebê por \(G\) (girl) ou \(B\) (boy), o espaço amostral é dado por: \(\Omega = \{GG, GB, BG, BB \}\).

Probabilidade condicional

Para o primeiro casal a probabilidade de interesse é: \[P(BB|\mbox{pelo menos um é menino})=\frac{P(BB\mbox{ e pelo menos um é menino})}{P(\mbox{pelo menos um é menino})}\\=\frac{P(BB\mbox{ e }\{BB\mbox{ ou }BG\mbox{ ou }GB\})}{P(BB\mbox{ ou }BG\mbox{ ou }GB)}\\= \frac{P(BB)}{P(BB\mbox{ ou }BG\mbox{ ou }GB)}=\frac{1/4}{3/4}=\frac{1}{3}\]

Probabilidade condicional

Para o segundo casal a probabilidade de interesse é: \[P(BB|\mbox{o mais velho é menino})=\frac{P(BB\mbox{ e mais velho é menino})}{P(\mbox{mais velho é menino})}\\=\frac{P(BB\mbox{ e }\{BB\mbox{ ou }BG\})}{P(BB\mbox{ ou }BG)}\\=\frac{P(BB)}{P(BB\mbox{ ou }BG)}=\frac{1/4}{1/2}=\frac{1}{2}\]

Probabilidade condicional

O exemplo nos mostra a relevância da informação que condiciona a probabilidade. Em um caso a probabilidade é condicionada a saber que pelo menos um é menino, no outro caso é condicionada a saber que o primeiro é menino.
No primeiro caso temos três possibilidades, \(\{GB, BG, BB \}\), no segundo caso, sabendo que o primeiro bebê é menino, temos duas possibilidades, \(\{BG, BB \}\).

Probabilidade condicional

Você quer trocar de porta?
Nos anos 80 Sérgio Mallandro apresentava um programa que tinha um quadro chamado de Porta dos Desesperados. O jogo consistia de três portas, uma tinha um prêmio e as outras tinham pegadinhas (por exemplo, um sujeito fantasiado de gorila).
O participante escolhia uma porta. Sérgio Mallandro abria outra porta que não tinha o prêmio e perguntava se o paticipante queria trocar de porta.
E aí? Troca ou não troca?

Probabilidade condicional

De saída pode parecer que tanto faz trocar ou não de porta. Afinal, depois do Mallandro abrir uma porta, sobram duas e qualquer delas pode ter o prêmio. Logo, trocando ou não, a chance de ganhar seria de 50%, mas…
Vamos pensar com cuidado e usar o que aprendemos nesta unidade.

Probabilidade condicional

Considere a estratégia de não trocar, nesse caso o resultado está determinado sem importar o Mallandro faça. Logo, a probabilidade de ganhar o prêmio é de 1/3 e a de receber um pegadinha é de 2/3.

Probabilidade condicional

Agora considere a estratégia de trocar. Existem dois cenários:
- No primeiro você acertou a porta na primeira escolha, nesse caso trocar é um mau negócio. A probabilidade desse caso é de 1/3.
- No segundo você errou a porta na primeira escolha, nesse caso trocar é um bom negócio. A probabilidade de errar a porta na primeira escolha é de 2/3. Como o Mallandro abiu uma porta sem prêmio e a escolhida por você também não tem o prêmio se você trocar com certeza ganhará o prêmio.

Probabilidade condicional

Em resumo. Com a estratégia não trocar você ganha se a escolha inicial for correta, probabilidade de 1/3, com a estratégia de trocar você ganha se a escolha inicial for a porta errada, probabilidade de 2/3. A probabilidade de ganhar com a estratégia trocar é duas vezes maior do que com a estratégia não trocar!

Probabilidade condicional

Estranho? Desconfiado? Façamos a conta!
Proabilidade de ganhar o prêmio: \[P(\mbox{prêmio})=P(\mbox{prêmio}|\mbox{prêmio na primeira})P(\mbox{prêmio na primeira})\\+P(\mbox{prêmio}|\mbox{pegadinha na primeira})P(\mbox{pegadinha na primeira})\]

Probabilidade condicional

Seja qual for a estratégia, vale que:

\[P(\mbox{prêmio na primeira}) = \frac{1}{3}\] \[P(\mbox{pegadinha na primeira}) = \frac{2}{3}\]

Probabilidade condicional

Se a estratégia for não trocar, temos: \[P(\mbox{prêmio}|\mbox{prêmio na primeira})=1\] \[P(\mbox{prêmio}|\mbox{pegadinha na primeira})=0\]
Logo, com a estratégia de não trocar: \[P(\mbox{prêmio}) = 1\times \frac{1}{3} + 0\times \frac{2}{3} = \frac{1}{3}\]

Probabilidade condicional

Se a estratégia for trocar, temos: \[P(\mbox{prêmio}|\mbox{prêmio na primeira})=0\] \[P(\mbox{prêmio}|\mbox{pegadinha na primeira})=1\]
Logo, com a estratégia de não trocar: \[P(\mbox{prêmio}) = 0\times \frac{1}{3} + 1\times \frac{2}{3} = \frac{2}{3}\]

Probabilidade Condicional

O método de simulação de Monte Carlo diz respeito a uma classe de procedimentos de repetição de procedimentos de amostragem aleatória usadas para resolver problemas analíticos de forma aproximada. Os procedimentos usados usam amostras obtidas com reposição, em que a mesma unidade pode ser escolhida repetidas vezes, e sem reposição em que cada unidade só pode ser escolhida uma vez.

Probabilidade condicional

Simulações usando o método de Monte Carlo podem ajudar a aceitar o resultado teórico.

library(tidyverse)
sims <- 1000
portas <- c("pegadinha", "pegadinha", "premio")

result.trocar <- result.naotrocar <- rep(NA, sims)

Probabilidade condicional

for (i in 1:sims){
  #escolha inicial
  primeira.escolha <- sample(1:3, size=1)
  result.naotrocar[i] <- portas[primeira.escolha]
  restante <- portas[-primeira.escolha]
  #Mallandro abre uma porta com pegadinha
  if(portas[primeira.escolha]=="premio") #escolhe uma das duas com pegadinha
    mallandro <- sample(1:2, size=1)
  else #só sobrou uma com pegadinha
    mallandro <- (1:2)[restante == "pegadinha"]
  result.trocar[i] <- restante[-mallandro]
}

Probabilidade condicional

mean(result.naotrocar == "premio")

## [1] 0.319

mean(result.trocar == "premio")

## [1] 0.681

Probabilidade condicional

Conforme sabíamos a estratégia não trocar deu certo cerca de 1/3 das vezes e a estratégia trocar deu certo cerca de 2/3 das vezes.
No livro o exemplo aparece como problema Monty Hall em referência ao apresentados do programa nos Estados Unidos.

Probabilidade condicional

No começo desta unidade falamos de diferentes interpretações para probabilidade: frequentista e bayesiana.
Na perspectiva bayesiana, a subjetiva, é natural perguntar como fazemos para atualizar nossas crenças iniciais após observar os dados.

Probabilidade condicional

A regra de Bayes é dada pela equação: \[P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^c)P(A^c)}\]
Na equação, \(P(A)\) é chamada probabilidade anterior ou a priori (prior) e reflete a crença inicial sobre a probabilidade do evento \(A\) ocorrer. Depois de observar os dados, representados por \(B\), a crença é atualizada para \(P(A|B)\), que é chamada de probabilidade posterior (posterior).

Probabilidade condicional

A regra de Bayes é válida independente da forma como a probabilidade é interpretada, isso é verdade porque a regra decorre da definição de probabilidade condicional e da regra da probabilidade total. \[P(A|B)=\frac{P(A\mbox{ e }B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)}\]

Probabilidade condicional

Uma aplicação conhecida da regra de Bayes é a interpretação de testes de diagnóstico em medicina, esses testes podem dar falsos negativos e falsos positivos.
Considere o seguinte exemplo. Uma mulher grávida de 35 anos fica sabendo que 1 em 378 mulheres da idade dela tem filhos com síndrome de Down (DS).

Probabilidade condicional

Um ultrassom no primeiro trimestre de gravidez a coloca no grupo de risco. De cada 100 casos de DS, em 86 a mãe recebe o resultado de alto risco, nos outros 14 não recebe resultado de alto risco. A probabilidade de uma mãe que não é de alto risco receber um diagnóstico de alto risco é de 1 em 20.
Dado que mãe recebeu o diagnóstico de alto risco, qual a probabilidade do filho ter DS? Qual seria a probabilidade se o resultado fosse negativo (não deu alto risco)?

Probabilidade condicional

Para resolver esse problema começamos definindo a prior, sem teste algum a probabilidade do filho ter DS é de 1/378, aproximadamente 0,003.
O exame de ultrassom retorna um resultado de alto risco 86% das vezes que o filho tem DS, \(P(HR|DS)=0,\!86\). Por outro lado, em 5% dos casos (1/20) o teste da alto risco para quem não é de alto risco, \(P(HR|\mbox{not }DS)=0,\!05\).

Probabilidade condicional

Com essas informações e a regra de Bayes podemos calcular a probabilidade do filho ter DS dado que o teste deu alto risco: \[P(DS|HR)=\frac{P(HR|DS)P(DS)}{P(HR|DS)P(DS)+P(HR|\mbox{not }DS)P(\mbox{not }DS)}\\=\frac{0,\!86 \times 1/378}{0,\!86\times 1/378+0,\!05\times 377/378}=0,\!04\]

Probabilidade condicional

De forma semelahnte podemos calcular a probabilidade do filho ter DS se a mãe recebeu um negativo no ultrassom. \[P(DS|\mbox{not }HR)=\\ \frac{P(\mbox{not }HR|DS)P(DS)}{P(\mbox{not }HR|DS)P(DS)+P(\mbox{not }HR|\mbox{not }DS)P(\mbox{not }DS)}\\=\frac{0,\!14 \times 1/378}{0,\!14\times 1/378+0,\!95\times 377/378}=0,\!0004\]

Probabilidade condicional

Mesmo quando a mãe recebe um diagnóstico de alto risco, a probabilidade do filho ter DS é baixa. Isso ocorre porque DS é uma condição rara, como mostra o pequeno valor para prior.

Probabilidade condicional

Para um outro exemplo de regra de Bayes considere uma urna com duas bolas. Sabemos que uma das bolas é preta, não sabemos se a outra é branca ou preta. Não existem bolas de outras cores.
Logo, existem apenas duas hipóteses: PP (preta e preta), PB (preta e branca). Antes de obervar a cor de uma das bolas, você acredita que a probabilidade de ser PP é igual a probabilidade de ser BB, ou seja, \(P(PP)=P(PB)=0,\!5\).
Uma bola é retirada da urna e observamos que a cor é preta.

Probabilidade condicional

Dado que a primeira bola é preta, vamos chamar esse evento de \(1P\) qual a probabilidade da segunda ser preta? \[P(PP|1P)=\frac{P(1P|PP)P(PP)}{P(1P)}\\=\frac{P(1P|PP)P(PP)}{P(1P|PP)P(PP)+P(1P|PB)P(PB)}\\=\frac{1\times0,\!5}{1\times0,\!5+0,\!5\times 0,\!5}=\frac{0,\!5}{0,\!75}=\frac{2}{3}\]

Probabilidade condicional

\(P(1P|PP)\): probabilidade da primeira ser preta dado que as duas são pretas, igual a 1
\(P(PP)\): prior para PP, igual a 0,5
\(P(1P|PB)\): probabilidade da primeira ser preta dado que uma é branca e outra preta, igual a 0,5
\(P(PB)\): prior para PB, igual a 0,5

Probabilidade condicional

Qual a probabilidade da segunda ser branca? \[P(PB|1P)=\frac{P(1P|PB)P(PB)}{P(1P)}\\=\frac{P(1P|PB)P(PB)}{P(1P|PP)P(PP)+P(1P|PB)P(PB)}\\=\frac{0,\!5\times0,\!5}{1\times0,\!5+0,\!5\times 0,\!5}=\frac{0,\!25}{0,\!75}=\frac{1}{3}\]

Probabilidade condicional

\(P(1P|PB)\): probabilidade da primeira ser preta dado que as duas são pretas, igual a 0,5
\(P(PP)\): prior para PP, igual a 0,5
\(P(1P|PP)\): probabilidade da primeira ser preta dado que uma é branca e outra preta, igual a 0,5
\(P(PB)\): prior para PB, igual a 0,5

Variáveis aleatórias e distribuições de probabilidade

Uma variável aleatória atribui um valor numérico a cada evento em um experimento. Esses valores representam eventos mutuamente exclusivos e exaustivos, juntos formam todo o espaço amostral. Uma variável aleatória discreta toma um número finito, ou pelo menos contável, de valores distintos. Uma variável aleatória contínua toma um número de valores infinitos e não contáveis.

Variáveis aleatórias e distribuições de probabilidade

Comecemos com o caso mais simples de variável aleatória discreta: jogar um moeda. Para esse experimento definimos uma variável aleatória binária, \(X\) que será igual a um se der cara e 0 caso contrário.
Em geral, variáveis aleatórias que tomam dois valores disitintos são chamadas de variáveis aleatórias de Bernoulli. Isso vale para qualquer experimento com dois possíveis resultados distintos: \(\{\mbox{ganhar}, \mbox{perder}\}\), \(\{\mbox{subir}, \mbox{descer}\}\), \(\{\mbox{votar}, \mbox{não votar}\}\), etc.
É comum dizermos que \(X=1\) em caso de sucesso e \(X=0\) em caso de falha e usarmos \(p\) para represetnar a probabilidade de sucesso.

Variáveis aleatórias e distribuições de probabilidade

A distribuição de uma variável aleatória discreta pode ser caracterizada por uma função massa de probabilidade, ou simplesmente função de probabilidade, que será denotada por PMF (do inglês: probability mass function).
A PMF, \(f(x)\), de uma variável aleatória \(X\) é definida como a probabilidade que a variável aleatória tome o valor \(x\), ou seja, \(f(x) = P(X=x)\).
No caso de uma Bernoulli a PMF é dada por \(f(1)=P(X=1)=p\) e \(f(0)=P(x=0)=1-p\), para todos os outros valores \(f(x)=0\).

Variáveis aleatórias e distribuições de probabilidade

Outra função importante é a função de distribuição acumulada, denotada por CDF (do inglês: cumulative distribution function). A CDF, \(F(x)\), representa a probabilidade acumulada dos valores iguais ou menores do que \(x\), ou seja, \(F(x) = P(x \leq X)\).
A CDF representa a soma das PMF dos valores menores ou iguais a \(x\): \[F(x)=P(X \leq x) = \sum_{k \leq x}f(k)\]
A CDF toma valores entre zero e um para qualquer variável aleatória, contínua ou discreta, e é uma função não decrescente porque não existe probabilidade negativa, de forma que quando \(x\) aumenta \(\sum_{k \leq x}f(k)\) não pode diminuir.

Variáveis aleatórias e distribuições de probabilidade

A função de probabilidade de uma variável aleatória de Bernoulli com probabilidade de sucesso \(p\) é dada por: \[f(x)=\begin{cases}p \qquad \qquad \mbox{se x=1}\\1-p \ \qquad \mbox{se x=0}\\p \qquad \qquad \mbox{caso contrário}\end{cases}\]

Variáveis aleatórias e distribuições de probabilidade

A função de densidade acumulada é dada por: \[F(x)=\begin{cases}0 \qquad \qquad \mbox{se x<0}\\1-p \ \qquad \mbox{se 0}\leq\mbox{x}<1\\1 \qquad \qquad \mbox{x}\geq1\end{cases}\]

Variáveis aleatórias e distribuições de probabilidade

A variável aleatória uniforme é um exemplo simples de variável aleatória contínua. A variável aleatória uniforme atribui a mesma probabilidade para todos os número em um intervalo \([a, b]\), os números fora desse intervalo tem probabilidade zero.

Variáveis aleatórias e distribuições de probabilidade

Como variáveis aleatórias contínuas podem tomar um número infinito e não contável de valores não podemos definir uma função de probabilidade, em vez disso usamos a função de densidade de probabilidade ou função de densidade, denotada por PDF (do inglês: probability density function), que quantifica a probabilidade que a variável aleatória \(X\) tome um valor \(x\).
A PDF tem valores não negativos que podem ser maiores do que um, porém a área abaixo de uma PDF deve ser igual a um.

Variáveis aleatórias e distribuições de probabilidade

A CDF de um variável aleatória contínua tem a mesma interpretação do que no caso de variáveis aleatórias discretas, \(F(x)=P(X\leq x)\), porém, no lugar da soma usamos a integral. \[F(x)=\int_{-\infty}^xf(t)dt\]
Como a área abaixo da PDF é igual a um, temos que \(F(x)=1\) quando \(x \rightarrow \infty\).

Variáveis aleatórias e distribuições de probabilidade

A função de densidade de uma variável aleatória uniforme no intervalo \([a,b]\) é dada por: \[f(x)=\begin{cases}\frac{1}{b-a} \qquad \ \mbox{se a}\leq x \leq \mbox{b}\\0 \qquad \ \ \ \ \ \mbox{caso contrário}\end{cases}\]

Variáveis aleatórias e distribuições de probabilidade

A função de densidade acumulada é dada por: \[F(x)=\begin{cases}0 \qquad \qquad \ \mbox{se x} < \mbox{a}\\ \frac{x-a}{b-a} \qquad \quad \mbox{se a}\leq x < \mbox{b}\\1 \qquad \qquad \ \mbox{se x} \geq \mbox{b}\end{cases}\]

Variáveis aleatórias e distribuições de probabilidade

A função dunif() calcula a PDF de uma distribuição uniforme (não é bem isso…).

dunif(0.5, min=0, max=1)

## [1] 1

dunif(1, min=-2, max=2)

## [1] 0.25

Variáveis aleatórias e distribuições de probabilidade

A função punif() calcula a CDF de uma distribuição uniforme.

punif(1, min=-2, max=2)

## [1] 0.75

punif(0, min=-1, max=1)

## [1] 0.5

Variáveis aleatórias e distribuições de probabilidade

Em uma distribuição uniforme entre zero e um a probabilidade de obter um valor menor do que \(x\) é igual a \(x\) para \(0 \leq x \leq 1\).

Variáveis aleatórias e distribuições de probabilidade

punif(0.6, min=0, max=1)

## [1] 0.6

punif(0.3, min=0, max=1)

## [1] 0.3

punif(0.8, min=0, max=1)

## [1] 0.8

Variáveis aleatórias e distribuições de probabilidade

A função runif() retorna realizações de uma variável aleatória uniforme.

sims <- 1000
x <- runif(sims, min=0, max=1)
head(x, n=10)

##  [1] 0.62057045 0.09925934 0.05381671 0.47710145 0.84383801 0.17367794
##  [7] 0.59088189 0.93001976 0.93484379 0.52380061

Variáveis aleatórias e distribuições de probabilidade

A função runif()e o resultado que em uma distribuição uniforme entre zero e um a probabilidade de obter um valor menor do que \(x\) é igual a \(x\) para \(0 \leq x \leq 1\) permitem simular uma variável aleatória Bernoulli.

p <- 0.5
y <- as.integer(x <= p)
head(y, n=10)

##  [1] 0 1 1 1 0 1 0 0 0 0

mean(y)

## [1] 0.505

Variáveis aleatórias e distribuições de probabilidade

Simulação com \(p = 0,\!3\).

sims <- 1000
x <- runif(sims, min=0, max=1)
head(x, n=10)

##  [1] 0.9605424 0.1671382 0.7176837 0.8647481 0.2157826 0.9740300 0.1497770
##  [8] 0.7388156 0.7448919 0.7287388

Variáveis aleatórias e distribuições de probabilidade

p <- 0.3
y <- as.integer(x <= p)
head(y, n=10)

##  [1] 0 1 0 0 1 0 1 0 0 0

mean(y)

## [1] 0.297

Variáveis aleatórias e distribuições de probabilidade

A distribuição Bernoulli é um caso particular da distribuição binomial. Em vez de jogar uma moeda uma vez, considere que a mesma moeda é jogada de forma independente várias vezes, a distribuição binomial representa o número de vezes que a moeda deu cara (sucessso).
De forma mais geral, uma variável aleatória binomial, \(X\), representa o número de sucessos em \(n\) repetições independentes com probabilidade de sucesso igual a \(p\). A variável aleatória binomial pode tomar valores entre 0 e \(n\).

Variáveis aleatórias e distribuições de probabilidade

Como a variável aleatória é discreta, a função de probabilidade representa a probabilidade de \(X\) tomar o valor \(x\), \(P(X=x)\).
A CDF representa a probabilidade acumulada de uma variável aleatória binomial ter até \(x\) sucessos em \(n\) tentativas, \(P(X\leq x)\).

Variáveis aleatórias e distribuições de probabilidade

A função de probabilidade de uma variável aleatória binomial com probabilidade de sucesso \(p\) e \(n\) repetições é dada por: \[f(x)=P(X=x)={n \choose x}p^x p^{n-x}\]

Variáveis aleatórias e distribuições de probabilidade

A CDF é dada por: \[F(x)=P(X \leq x)= \sum_{k=0}^x{n \choose k}p^k p^{n-k}\]

Variáveis aleatórias e distribuições de probabilidade

Por exemplo, em uma binomial com 3 repetições e probabilidade de sucesso igual a 0,5 a função de probabilidade para os valores possíveis de \(x\) será: \[f(0)={3 \choose 0}\times 0,\!5^0 \times (1-0,\!5)^{3-0}=\frac{3!}{(3-0)!0!}\times 0,\!5^3=0,\!125\] \[f(1)={3 \choose 1}\times 0,\!5^1 \times (1-0,\!5)^{3-1}=\frac{3!}{(3-1)!1!}\times 0,\!5^3=0,\!375\]

Variáveis aleatórias e distribuições de probabilidade

Continuação… \[f(2)={3 \choose 2}\times 0,\!5^2 \times (1-0,\!5)^{3-2}=\frac{3!}{(3-2)!2!}\times 0,\!5^3=0,\!375\] \[f(3)={3 \choose 3}\times 0,\!5^3 \times (1-0,\!5)^{3-3}=\frac{3!}{(3-3)!3!}\times 0,\!5^3=0,\!125\]

Variáveis aleatórias e distribuições de probabilidade

A CDF é dada por: \[P(X\leq 0)=F(0) = f(0) = 0,\!125\] \[P(X\leq 1) = F(1) = f(0)+ f(1) = 0,\!5\] \[P(X\leq 2) = F(2) = f(0)+ f(1)+f(2) = 0,\!875\] \[P(X\leq 3) = F(3) = f(0)+ f(1) +f(2)+f(3)= 1\]

Variáveis aleatórias e distribuições de probabilidade

A função dbinom() retorna a PMF (probabilidade) de uma binomial

dbinom(2, size=3, prob=0.5)

## [1] 0.375

dbinom(0:3, size=3, prob=0.5)

## [1] 0.125 0.375 0.375 0.125

Variáveis aleatórias e distribuições de probabilidade

A função pbinom() retorna a CDF de um binomial

pbinom(2, size=3, prob=0.5)

## [1] 0.875

pbinom(0:3, size=3, prob=0.5)

## [1] 0.125 0.500 0.875 1.000

Variáveis aleatórias e distribuições de probabilidade

Outra distribuição importante, talvez a mais importante de todas, é a distribuição normal ou Gaussiana. Essa distribuição é particularmente importante porque para um grande número de variáveis aleatórias vale que a soma de muitas variáveis aleatórias com a mesma distribuição segue uma distribuição normal. Vamos tratar disso ainda nesta unidade.

Variáveis aleatórias e distribuições de probabilidade

Uma variável aleatória normal pode tomar qualquer número real, \((-\infty, \infty)\). A distribuição normal é definida por dois parâmetros: média, \(\mu\), e desvio padrão, \(\sigma\).
Se \(X\) é uma variável aleatória normal com média \(\mu\) e variância \(\sigma^2\)é comum escrevermos \(X \sim N(\mu, \sigma^2)\).

Variáveis aleatórias e distribuições de probabilidade

A função de densidade, PDF, de uma variável aleatória normal com média \(\mu\) e variância \(\sigma^2\) é dada por: \[f(x)=\frac{1}{\sqrt{2\pi \sigma}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}\]

Variáveis aleatórias e distribuições de probabilidade

A CDF é dada por: \[F(x)=\int_{-\infty}^x f(t)dt= \int_{-\infty}^x\frac{1}{\sqrt{2\pi \sigma}}\exp\{-\frac{1}{2\sigma^2}(t-\mu)^2\}dt\]

Variáveis aleatórias e distribuições de probabilidade

A PDF é simétrica em torno da média.
Diferentes valores para a média deslocam a PDF sem mudar o formato.
Valores mais altos para o desvio padrão deixam a PDF mais achatada e fazem com que a CDF cresça de forma mais gradual.

Variáveis aleatórias e distribuições de probabilidade

Se \(X\) é uma distribuição normal com média 0 e desvio padrão igual a 1, \(x \sim N(0,1)\), diz-se que \(X\) é uma distribuição normal padrão.

Variáveis aleatórias e distribuições de probabilidade

Suponha que \(X\) seja uma variável aleatória normal com média \(\mu\) e desvio padrão \(\sigma\), ou seja, \(X \sim N(\mu,\sigma^2)\). SEja \(c\) uma constante arbitrária. Vale que:
- Uma variável aleatória definida por \(Z = X+c\) tem disitribuição normal, \(Z \sim N(\mu+c, \sigma^2)\).
- Uma variável aleatória definida por \(Z = cX\) tem distribuição normal, \(Z \sim N(c\mu, (c\sigma)^2\).

Variáveis aleatórias e distribuições de probabilidade

Essas propriedade implicam que o z-score de uma variável aleatória normal segue uma distribução normal padrão: \[\mbox{z-score}=\frac{X-\mu}{\sigma}\sim N(0,1)\]

Variáveis aleatórias e distribuições de probabilidade

Se os dados tem distribuição normal padrão, então cerca de 2/3 dos dados estão entre a média menos um desvio padrão e a média mais um desvio padrão. Da mesma forma, cerca de 95% dos dados estão entre dois desvios padrão da média.
Como desvio padrão é 1 e a média é 0, cerca de 2/3 dos dos dados estão entre -1 e 1 e cerca de 95% dos dados estão entre -2 e 2.

Variáveis aleatórias e distribuições de probabilidade

Para confirmar essa propriedade vamos encontrar a probabilidade de uma variável aleatória com média \(\mu\) e desvio padrão \(\sigma^2\) estar a \(k\) desvios padrão da média, \(k>0\). Para simplificar vamos considerar o z-score que tem uma distribuição normal padrão. \[P(\mu - k\sigma \leq X \leq \mu + k\sigma)=P(-k\sigma \leq X-\mu \leq k\sigma)\\=P(-k \leq \frac{X-\mu}{\sigma} \leq k)=P(-k \leq Z \leq k)\]
Onde \(Z\sim N(0,1)\).

Variáveis aleatórias e distribuições de probabilidade

Agora, repare que:

\[P(-k \leq Z \leq k)=P(Z \leq k) - P(Z \leq -k)= F(k)-F(-k)\]

Variáveis aleatórias e distribuições de probabilidade

A próxima figura ilustra o resultado. A área verde, entre \(-k\) e \(k\), é a que desejamos, ou seja, \(P(-k \leq Z \leq k)\).
- A área cinza, a esquerda de \(-k\), é \(P(Z \leq -k)\).
- A soma da área verde com a área cinza é \(P(Z \leq k)\).
- Logo, a área deseja é a soma da área verde com a área cinza menos a área cinza, ou seja, \(P(Z \leq k) - P(Z \leq -k)\).

Variáveis aleatórias e distribuições de probabilidade

Podemos usar o R para confirmar que em uma normal padrão cerca de 2/3 da área abaixo da PDF está entre -1 e 1, ou a um desvio padrão da média, e cerca de 95% da área abaixo da PDF está entre -2 e 2, ou a dosi desvios padrão da média.

pnorm(1)-pnorm(-1)

## [1] 0.6826895

pnorm(2)-pnorm(-2)

## [1] 0.9544997

Variáveis aleatórias e distribuições de probabilidade

Usamos normal padrão para simplificar o argumento, mas o resultado vale para qualquer normal.

mu <- 5
sigma <- 2

pnorm(mu+sigma, mean=mu, sd = sigma) - pnorm(mu-sigma, mean=mu, sd=sigma)

## [1] 0.6826895

pnorm(mu+2*sigma, mean=mu, sd = sigma) - pnorm(mu-2*sigma, mean=mu, sd=sigma)

## [1] 0.9544997

Variáveis aleatórias e distribuições de probabilidade

Funções como a função de probabilidade, função de densidade e função de distribuição acumulada descrevem completamente a disitribuição de uma variável aleatória, porém algumas vezes precisamos de informações mais compactas sobre a distribuição de uma variável aleatória.
Uma medida útil nessas ocasiões é o valor esperado. O valor esperado pode ser visto como a média de uma variável aleatória, mas não deve ser confundido com a média amostral. Essa última diz respeito ao valor médio de uma amostra, enquanto o valor esperado represetna o valor médio sob um determinada distribuição.
A média amostral muda de uma amostra para outra, o valor esperado é um conceito teórico e é fixo para uma dada distribuição.

Variáveis aleatórias e distribuições de probabilidade

Considere, por exemplo, uma distribuição Bernoulli com probabilidade de sucesso igual a \(p\). Qual o valor esperado desta distribuição?
Como ela só toma dois valores, 0 ou 1, o valor esperado é calculado como a média ponderada desses valores com pesos \(p\) e \(1-p\). \[E(X)=0\times P(X=0)+1\times P(X=1)=0\times f(0)+1\times f(1)\\=0\times (1-p) + 1\times p=p\]

Variáveis aleatórias e distribuições de probabilidade

No caso de uma binomial, que pode tomar qualquer inteiro não negativo menor ou igual a \(n\), ou seja, pode tomar valores em \(\{0,1,\dots,n\}\), o valor esperado é dado por: \[E(X)=0\times f(0) + 1\times f(1)+\cdots+n\times f(n)=\sum_{x=0}^n x\times f(x)\]

Variáveis aleatórias e distribuições de probabilidade

A ideia de soma ponderada vale para variáveis contínuas, porém, como essas variáves tomam um número infinito e não contável de valores, será preciso substituir a soma pela integral.
Para uma uniforme no intervalo \([a b]\) o valor esperado é dado por: \[E(X)=\int_a^b x\times f(x)dx=\int_a^b \frac{x}{b-a}dx=\frac{x^2}{2(b-a)}\Bigg|_a^b=\frac{a+b}{2}\]

Variáveis aleatórias e distribuições de probabilidade

O valor esperado ou esperança de uma variável aleatória é denotado por \(E(X)\) e definido por: \[E(X)=\begin{cases}\sum_x x\times f(x) \qquad \qquad \mbox{se }X\mbox{ for discreta}\\\int x\times f(x)dx\qquad \quad \ \ \ \mbox{se }X\mbox{ for contínua}\end{cases}\]
Onde \(f(x)\) é afunção de probabilidade (função de densidade) de uma variável aleatória discreta (contínua).

Variáveis aleatórias e distribuições de probabilidade

Sejam \(X\) e \(Y\) variáveis aleatória e \(a\) e \(b\) constantes arbitrárias. O valor esperado é um operador linear que satisfaz as seguintes propriedades:
- \(E(a)=a\)
- \(E(a X)=a E(X)\)
- \(E(aX + b) = a E(X) + b\)
- \(E(aX + bY) = a E(X) + bE(Y)\)
- Se \(X\) e \(Y\) são independentes, então \(E(XY)=E(X)\times E(Y)\), mas, em geral, \(E(XY) \neq E(X) \times E(Y)\).

Variáveis aleatórias e distribuições de probabilidade

Podemos usar as propriedades acima para encontrar o valor esperado de uma binomial de tamanho \(n\) e probabilidade de sucesso igual a \(p\).
Para isso perceba que um binomial deste tipo é dada pela soma de \(n\) Bernoullis independentes com probabilidade de sucesso igual a \(p\), logo, chamando a binomial de \(X\) e as Bernoulli de \(Y_i\): \[E(X)= E\left(\sum_{i=1}^n Y_i \right)=\sum_{i=1}^nE(Y_i)=np\]

Variáveis aleatórias e distribuições de probabilidade

Outra estatística importante é o desvio padrão (e a variância, que é o quadrado do desvio padrão) de uma variável aleatória. Assim como no valor esperado, é importante diferenciar o desvio padrão de uma amostra do conceito teórico de desvio padrão de uma variável aleatória.

Variáveis aleatórias e distribuições de probabilidade

A variância de uma variável aleatória \(X\) é definida como: \[V(X)=E\{[X-E(X)]^2\}\]
O desvio padrão é a raiz quadrada da variância.

Variáveis aleatórias e distribuições de probabilidade

Usando as propriedades do valor esperado podemos mostrar que a variância é a diferença entre a esperança de \(X^2\) e o quadrado da esperança de \(X\): \[V(X)=E\{[X-E(X)]^2\}=E\{X^2 - 2XE(X)+[E(X)]^2\}\\=E(X^2)-2E(X)E(X)+[E(X)]^2\\=E(X^2)-[E(X)]^2\]
A esperança de \(X^2\) é chamada de segundo momento de \(X\) e a esperança de \(X\) é chamada de primeiro momento.

Variáveis aleatórias e distribuições de probabilidade

A expressão acima pode ser usada para calcular a variância de uma Bernoulli com probabilidade de sucesso dada por \(p\). Para isso note que se \(X\) tem essa distribuição, então \(X^2=X\), pois \(0^2=0\) e \(1^2=1\). \[V(X)=E(X^2)-[E(X)]^2=p-p^2=p(1-p)\]

Variáveis aleatórias e distribuições de probabilidade

Também podemos calcular a variância de uma uniforme no intervalo \([a b]\).

\[V(X)=E(X^2)-[E(X)]^2=\int_a^b \frac{x^2}{b-a} - \left(\frac{a+b}{2} \right)^2\\=\frac{x^3}{3(b-a)}\Bigg|_a^b-\left(\frac{a+b}{2} \right)^2=\frac{1}{12}(b-a)^2\]

Variáveis aleatórias e distribuições de probabilidade

As fórmulas acima podem ser usadas para comparar a variância de uma variável aleatória com a variância de uma amostra obtida com realizações desta variável aleatória.

Variáveis aleatórias e distribuições de probabilidade

Comecemos com a Bernoulli.

p <- 0.5

p * (1-p)

## [1] 0.25

y <- runif(500, 0,1) >= p
var(y)

## [1] 0.2493427

Variáveis aleatórias e distribuições de probabilidade

Agora com uma uniforme no intervalo \([1 5]\)

a <- 1
b <- 5

(1/12)*(b-a)^2

## [1] 1.333333

var(runif(500, min=1, max=5))

## [1] 1.284216

Variáveis aleatórias e distribuições de probabilidade

Sejam \(X\) e \(Y\) variáveis aleatórias e \(a\) e \(b\) constantes arbitrárias. A variância é um operador com as seguintes propriedades:
- \(V(a)=0\)
- \(V(aX)=a^2V(X)\)
- \(V(X+b)=V(X)\)
- \(V(aX+b)=a^2 V(x)\)
- Se \(X\) e \(Y\) são independentes \(V(X+Y)=V(X)+V(Y)\).

Variáveis aleatórias e distribuições de probabilidade

Com as propriedades acima podemos calcular a variância de uma binomial com tamanho \(n\) e probabilidade de sucesso igual a \(p\). \[V(X)=V\left(\sum_{i=1}^n Y_i\right)=\sum_{i=1}^nV(Y_i)=np(1-p)\]

Variáveis aleatórias e distribuições de probabilidade

Outro exemplo é a soma de duas normais independentes (lembre que a soma de normais é uma normal), especificamente: seja \(X\sim N(\mu_X, \sigma_X^2)\), \(Y\sim N(\mu_Y, \sigma_Y^2)\) e \(Z=aX + bY + c\): \[E(Z)=E(aX + bY + c)=aE(X)+bE(Y)+c=a\mu_X + b\mu_Y + c\\V(Z)=V(aX + bY)=a^2V(X)+b^2V(Y)=a^2 \sigma_X^2 + b^2 \sigma_Y^2\]
Logo, \(Z \sim N(a\mu_X + b\mu_Y + c,a^2 \sigma_X^2 + b^2 \sigma_Y^2)\)

Lei dos Grande Números e Teorema Central do Limite

Suponha uma amostra aleatória de \(n\) independente, identicamente distribuídas observações, \(X_1, X_2, \dots, X_n\) de uma disitribuição de probabilidade com valor esperado \(E(X)\). A lei dos grandes números é dada por: \[\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \rightarrow E(X)\]
A lei dos grandes números diz que a medida que o tamanho da amostra aumenta, a média amostral converge para o valor esperado.

Lei dos Grande Números e Teorema Central do Limite

Para ilustrar a lei dos grande números vamos fazer uma simulação de Monte Carlo. Construiremos amostras aleatórias de uma distribuição binomial com probabilidade de sucesso igual a 0,2 e tamanho 10. Sabemos que o valor esperado é 2 (\(E(X)=np=10\times 0,\!2=2\)), vamos calcular a média amostral para amostras de diversos tamanhos.
Quanto maior o tamanho da amostra, mais perto de 2 deve ser a média amostral.

Lei dos Grande Números e Teorema Central do Limite

Para a simulação começamos com uma amostra de tamanho dois, depois vamos tirando mais números e com isso aumentando o tamanho da amostra. Repetimos o processo até termos uma amostra de 1000 observações.

Lei dos Grande Números e Teorema Central do Limite

Para calcular as médias usaremos a função cumsum() que calcula a soma cumulativa de um vetor.

cumsum(c(1,2,3,4))

## [1]  1  3  6 10

cumsum(1:10)

##  [1]  1  3  6 10 15 21 28 36 45 55

Lei dos Grande Números e Teorema Central do Limite

sims <- 5000
p <- 0.2
size <- 10

lln_bin <- tibble(n = seq_len(sims),
                  x = rbinom(sims, prob=p, size=size),
                  mean = cumsum(x)/n,
                  distrib = str_c("Binomial (", size, ", ", p, ")"))

Lei dos Grande Números e Teorema Central do Limite

head(lln_bin, n=10)

## # A tibble: 10 × 4
##        n     x  mean distrib           
##    <int> <int> <dbl> <chr>             
##  1     1     4  4    Binomial (10, 0.2)
##  2     2     2  3    Binomial (10, 0.2)
##  3     3     4  3.33 Binomial (10, 0.2)
##  4     4     0  2.5  Binomial (10, 0.2)
##  5     5     4  2.8  Binomial (10, 0.2)
##  6     6     3  2.83 Binomial (10, 0.2)
##  7     7     3  2.86 Binomial (10, 0.2)
##  8     8     0  2.5  Binomial (10, 0.2)
##  9     9     1  2.33 Binomial (10, 0.2)
## 10    10     2  2.3  Binomial (10, 0.2)

Lei dos Grande Números e Teorema Central do Limite

tail(lln_bin, n=10)

## # A tibble: 10 × 4
##        n     x  mean distrib           
##    <int> <int> <dbl> <chr>             
##  1  4991     0  1.97 Binomial (10, 0.2)
##  2  4992     1  1.97 Binomial (10, 0.2)
##  3  4993     1  1.96 Binomial (10, 0.2)
##  4  4994     3  1.97 Binomial (10, 0.2)
##  5  4995     4  1.97 Binomial (10, 0.2)
##  6  4996     5  1.97 Binomial (10, 0.2)
##  7  4997     2  1.97 Binomial (10, 0.2)
##  8  4998     2  1.97 Binomial (10, 0.2)
##  9  4999     3  1.97 Binomial (10, 0.2)
## 10  5000     1  1.97 Binomial (10, 0.2)

Lei dos Grande Números e Teorema Central do Limite

Vamos fazer um gráfico para ilustrar o processo de convergência.

lln_bin %>%
  ggplot() +
  geom_line(aes(x=n, y=mean)) +
  geom_hline(yintercept = 2, lty= "dashed") +
  labs(title = "Binomial (10, 0,2)", x="Sample size", y="Sample mean") +
  theme_classic()

Lei dos Grande Números e Teorema Central do Limite

Podemos fazer exercício semelhante para uma distribuição uniforme [0, 1], nesse caso o valor esperado é 0,5.

lln_unif <- tibble(n = seq_len(sims),
                  x = runif(sims),
                  mean = cumsum(x)/n,
                  distrib = str_c("Uniforme (0, 1)"))

Lei dos Grande Números e Teorema Central do Limite

head(lln_unif, n=10)

## # A tibble: 10 × 4
##        n      x  mean distrib        
##    <int>  <dbl> <dbl> <chr>          
##  1     1 0.120  0.120 Uniforme (0, 1)
##  2     2 0.497  0.309 Uniforme (0, 1)
##  3     3 0.234  0.284 Uniforme (0, 1)
##  4     4 0.0573 0.227 Uniforme (0, 1)
##  5     5 0.948  0.371 Uniforme (0, 1)
##  6     6 0.621  0.413 Uniforme (0, 1)
##  7     7 0.231  0.387 Uniforme (0, 1)
##  8     8 0.300  0.376 Uniforme (0, 1)
##  9     9 0.605  0.402 Uniforme (0, 1)
## 10    10 0.988  0.460 Uniforme (0, 1)

Lei dos Grande Números e Teorema Central do Limite

tail(lln_unif, n=10)

## # A tibble: 10 × 4
##        n       x  mean distrib        
##    <int>   <dbl> <dbl> <chr>          
##  1  4991 0.227   0.500 Uniforme (0, 1)
##  2  4992 0.518   0.500 Uniforme (0, 1)
##  3  4993 0.459   0.500 Uniforme (0, 1)
##  4  4994 0.347   0.500 Uniforme (0, 1)
##  5  4995 0.387   0.500 Uniforme (0, 1)
##  6  4996 0.00917 0.500 Uniforme (0, 1)
##  7  4997 0.672   0.500 Uniforme (0, 1)
##  8  4998 0.504   0.500 Uniforme (0, 1)
##  9  4999 0.210   0.500 Uniforme (0, 1)
## 10  5000 0.211   0.500 Uniforme (0, 1)

Lei dos Grande Números e Teorema Central do Limite

Mais uma vez um gráfico pode ilustrar o processo de convergência.

lln_unif %>%
  ggplot() +
  geom_line(aes(x=n, y=mean)) +
  geom_hline(yintercept = 0.5, lty= "dashed") +
  labs(title = "Uniforme (0, 1)", x="Sample size", y="Sample mean") +
  theme_classic()

Lei dos Grande Números e Teorema Central do Limite

Suponha que temos uma amostra aleatória de \(n\) i.i.d observações \(X_1, X_2, \dots, X_n\) de uma distribuição de probabilidade com valor esperado \(E(X)\) e variância \(V(X)\). Vamos denotar a média amostral por \(\bar{X}_n = \frac{\sum_{i=1}^n X_i}{n}\). O teorema central do limite diz que: \[\frac{\bar{X}_n - E(X)}{\sqrt{V(X)/n}} \leadsto N(0,1)\]
O símbolo \(\leadsto\) indica convergência em distribuição a medida que \(n\) cresce.

Lei dos Grande Números e Teorema Central do Limite

O teorema central do limite diz que o z-score da média amostral converge em distribuição para uma normal padrão a medida que o tamanho da amostr aumenta.
Esse teorema é fundamental porque, mesmo que não conheçamos a distribuição verdadeira que gerou nossos dados, sabemos que para um amplo conjunto de distribuição a média amostral converge para uma normal.

Lei dos Grande Números e Teorema Central do Limite

Assim como fizemos com a lei dos grandes números, vamos ilustrar o teorema central do limite com simulações de Monte Carlo.

sims <- 1000
n.samp <- 1000
z.binom <- z.unif <- rep(NA, sims)

for (i in 1:sims){
  x <- rbinom(n.samp, p=0.2, size=10)
  z.binom[i] <- (mean(x)-2)/sqrt(1.6/n.samp)
  x <- runif(n.samp, min=0, max=1)
  z.unif[i] <- (mean(x)-0.5)/sqrt(1/(12*n.samp))
}

Lei dos Grande Números e Teorema Central do Limite

results <- tibble(z.binom = z.binom,
                  z.unif = z.unif,
                  n.samp = seq(1:n.samp))

Lei dos Grande Números e Teorema Central do Limite

Para melhor observar os resultados faremos um gráfico com o histograma da amostra padronizada e com a densidade de uma N(0, 1).
Cada gráfico será feito com dois tamanhos de amostra.

Lei dos Grande Números e Teorema Central do Limite

Gráfico para Binomial

results %>%
  ggplot() +
  geom_histogram(aes(x=z.binom, y=after_stat(density)), bins=20) +
  stat_function(fun = dnorm, color = "blue") +
  labs(title = "Binomial (0,2, 10)",
       x="z-score", y="Density") +
  theme_classic()

Lei dos Grande Números e Teorema Central do Limite

Binomial, amostra com 100

Lei dos Grande Números e Teorema Central do Limite

Binomial, amostra com 1000

Lei dos Grande Números e Teorema Central do Limite

Gráfico para Uniforme

results %>%
  ggplot() +
  geom_histogram(aes(x=z.unif, y=after_stat(density)), bins=20) +
  stat_function(fun = dnorm, color = "blue") +
  labs(title = "Uniforme (0, 1)",
       x="z-score", y="Density") +
  theme_classic()

Lei dos Grande Números e Teorema Central do Limite

Uniforme, amostra com 100

Lei dos Grande Números e Teorema Central do Limite

Uniforme, amostra com 1000