Revisão de Probabilidade e Variáveis Aleatórias

Panorama do Estudo da Estatística

  • Estatística Descritiva: organização, resumo e visualização de dados — tabelas, histogramas, medidas de posição e dispersão.
  • Probabilidade: fundamenta a modelagem da incerteza; definições formais de eventos, variáveis aleatórias e distribuições.
  • Inferência Estatística: procedimentos para tirar conclusões sobre populações a partir de amostras — estimação, intervalos, testes, regressão.
  • Subáreas modernas: estatística Bayesiana, estatística computacional, aprendizado de máquina, análise de grandes bases de dados.

Probabilidade

  • Probabilidade como limite da frequência relativa de ocorrência de um evento: $$P(A) =\lim_{n \rightarrow \infty}\frac{f_A}{n}$$ onde \((f_A)\) é o número de vezes em que \(A\) ocorre em \(n\) repetições independentes.

  • Relação com a descrição empírica dos dados:

    • Histogramas de frequências mostram como a proporção de ocorrências se aproxima da probabilidade quando (n) cresce.

    • Probabilidade → modelo teórico; histograma → evidência empírica.


Exemplo: Lançamento de um dado

  • Espaço amostral \(\rightarrow\) \(\Omega = {1,2,3,4,5,6}\)
  • Evento: obter número par \(\rightarrow\) \(A = {2,4,6}\).
  • Probabilidade: \(P(A) = \frac{|A|}{|\Omega|} = \frac{3}{6} = 0.5\)

Exemplo com Variável Contínua

Espaço amostral: medir a altura (em cm) de adultos → \(\Omega = \{x \in \mathbb{R} : 140 \leq x \leq 210\}\).

  • Evento: adulto com altura entre 170 e 180 cm → \(A = \{x : 170 \leq x \leq 180\}\).

  • Definição de probabilidade contínua (com densidade)\[f(x): P(A) = \int_{170}^{180} f(x) dx\]

  • Diferença para o caso discreto:

    • No discreto: probabilidade associada a pontos isolados.
    • No contínuo: probabilidade associada a intervalos → \(P(X=x)=0\).

Axiomas da Probabilidade

  • Sejam \(\Omega\) o espaço amostral e \(A\) um evento.
    Segundo Kolmogorov (1933), a probabilidade deve satisfazer:
  1. Não negatividade:
    \[ P(A) \geq 0 \]

  2. Normalização:
    \[ P(\Omega) = 1 \]

  3. Aditividade (contável):
    Se \(A_1, A_2, \dots\) são mutuamente exclusivos, então
    \[ P\!\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i) \]

Consequências dos Axiomas (1)

  • Evento impossível:
    \[ P(\emptyset) = 0 \]

  • Complemento:
    Para \(A \subset S\):
    \[ P(A^c) = 1 - P(A) \]

  • Monotonicidade:
    Se \(A \subset B\), então
    \[ P(A) \leq P(B) \]

Consequências dos Axiomas (2)

  • Adição para dois eventos quaisquer:
    \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

    • Eventos mutuamente exclusivos (\(A \cap B = \emptyset\)):
      \[ P(A \cup B) = P(A) + P(B) \]
  • Exemplo prático:

    • Lançamento de um dado.
    • \(A = \{2,4,6\}\) (número par), \(P(A) = 3/6 = 0,5\).
    • \(B = \{1,2,3\}\) (menor que 4), \(P(B) = 3/6 = 0,5\).
    • \(P(A \cup B) = 5/6\), pois \(A \cap B = \{2\}\).
      Verificação:
      \[ P(A)+P(B)-P(A \cap B) = 0,5 + 0,5 - \tfrac{1}{6} = \tfrac{5}{6} \]

Intuição e Aplicações

  • A probabilidade é uma medida definida sobre eventos.

  • Os axiomas asseguram que esta medida se comporte como esperado: não negativa, soma 1 e aditiva.

  • Por que os axiomas importam?

    • Garantem consistência lógica na definição de probabilidade.
    • Permitem generalizar a noção de frequência relativa (Seção 5.1).
  • Áreas de aplicação:

    • Jogos de azar (dados, cartas, roletas).
    • Controle de qualidade (defeituoso / não defeituoso).
    • Diagnósticos médicos (positivo / negativo).

    Probabilidade Condicional

  • Dada a ocorrência de um evento \(B\) com \(P(B) > 0\), a probabilidade de \(A\) condicionada a \(B\) é: \[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \]

  • Interpretação:

    • O espaço amostral se “restringe” a \(B\).
    • Dentro desse espaço reduzido, calculamos a frequência relativa de \(A\).

Propriedades da Probabilidade Condicional

  1. Não negatividade:
    \[ P(A \mid B) \geq 0 \]

  2. Normalização:
    \[ P(B \mid B) = 1 \]

  3. Aditividade:
    Se \(A_1, A_2, \dots\) são mutuamente exclusivos, então
    \[ P\!\left(\bigcup_i A_i \mid B\right) = \sum_i P(A_i \mid B) \]

  • A probabilidade condicional também obedece aos axiomas da probabilidade.

Exemplo – Jogo de Cartas

Experimento: extrair uma carta de um baralho comum (52 cartas).

  • Espaço amostral: \(\Omega =\) todas as 52 cartas.
  • Evento \(A\): “carta é um Ás” \(\Rightarrow |A|=4\).
  • Evento \(B\): “carta é de Copas” \(\Rightarrow |B|=13\).

Pergunta: Qual a probabilidade de sair um Ás, sabendo que a carta é de Copas?

  • Interseção: \(A \cap B =\) “Ás de Copas”, logo \(|A \cap B| = 1\).
  • Probabilidade condicional: \[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{\tfrac{1}{52}}{\tfrac{13}{52}} = \tfrac{1}{13} \]

Intuição do Exemplo

  • Sem informação: \(P(\text{Ás}) = 4/52 \approx 0,077\).
  • Com informação de que é Copas: \(P(\text{Ás} \mid \text{Copas}) = 1/13 \approx 0,077\).

➡️ Neste caso, a probabilidade não mudou — os eventos são independentes.

Independência de Eventos

  • Dois eventos \(A\) e \(B\) são independentes se a ocorrência de um não altera a probabilidade do outro:
    \[ P(A \cap B) = P(A) \cdot P(B) \]

  • Forma equivalente:

    • \(P(A \mid B) = P(A)\) (se \(P(B) > 0\))
    • \(P(B \mid A) = P(B)\) (se \(P(A) > 0\))
  • Intuição: saber que \(B\) ocorreu não traz informação sobre \(A\).

Exemplo – Independência

Experimento: lançar um dado justo.

  • \(A = \{\text{número par}\} = \{2,4,6\}\), \(P(A)=3/6=1/2\)
  • \(B = \{\text{número maior que 4}\} = \{5,6\}\), \(P(B)=2/6=1/3\)
  • \(A \cap B = \{6\}\), \(P(A\cap B)=1/6\)

Probabilidade condicional:

\[ P(A\mid B)=\frac{P(A\cap B)}{P(B)}=\frac{1/6}{1/3}=\tfrac{1}{2}=P(A). \]

➡️ \(A\) e \(B\) são independentes.

Exemplo – Dependência

Experimento: lançar um dado justo.

  • \(A = \{\text{número par}\} = \{2,4,6\}\), \(P(A)=1/2\)
  • \(B' = \{\text{número maior que 3}\} = \{4,5,6\}\), \(P(B')=3/6=1/2\)
  • \(A \cap B' = \{4,6\}\), \(P(A\cap B')=2/6=1/3\)

Probabilidade condicional:

\[ P(A\mid B')=\frac{P(A\cap B')}{P(B')}=\frac{1/3}{1/2}=\tfrac{2}{3}\neq P(A). \]

➡️ \(A\) e \(B'\) são dependentes: saber que o número \(>3\) aumenta a chance de sair par.

Extensão: Independência Mútua

  • Três ou mais eventos \(A_1, A_2, \dots, A_n\) são mutuamente independentes se:
    1. Qualquer par é independente.
    2. Qualquer trinca é independente.
    3. E assim por diante, até o conjunto inteiro.
  • Exemplo prático: três lançamentos de moeda justa.
    • Cada resultado é independente dos demais.
    • \(P(\text{cara no 1º, 2º e 3º}) = (1/2)^3 = 1/8\).

Resumo: Independência é uma hipótese forte e essencial para simplificar cálculos de probabilidade e para o Teorema de Bayes.

Teorema de Bayes – Motivação

  • Muitas vezes queremos inverter a ordem da probabilidade condicional:
    • Conhecemos \(P(B \mid A)\), mas precisamos de \(P(A \mid B)\).
  • Isso acontece em:
    • Diagnósticos médicos (teste positivo → estar doente?).
    • Controle de qualidade (defeito detectado → peça realmente defeituosa?).
    • Aprendizado de máquina (classificação).

O desafio: como calcular \(P(A \mid B)\) se sabemos apenas \(P(B \mid A)\)?

Teorema de Bayes

Se temos dois eventos complementares \(A\) (hipótese) e \(A^c\) (não hipótese), e observamos \(B\), então:

\[ P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B \mid A) \, P(A) + P(B \mid A^c) \, P(A^c)} \]

  • \(P(A)\): probabilidade a priori da hipótese.
  • \(P(B \mid A)\): verossimilhança (como a evidência \(B\) se comporta se \(A\) for verdadeira).
  • \(P(A \mid B)\): probabilidade a posteriori, após observar \(B\).

➡️ Esse é o formato mais usado em aplicações práticas (ex.: doente vs. saudável, defeituoso vs. não-defeituoso).

Teorema de Bayes – Fórmula

Se \(A_1, A_2, \dots, A_k\) formam uma partição do espaço amostral (hipóteses possíveis) e \(B\) é um evento observável com \(P(B) > 0\), então:

\[ P(A_i \mid B) = \frac{P(B \mid A_i) \, P(A_i)}{\sum_{j=1}^k P(B \mid A_j) \, P(A_j)} \]

  • \(P(A_i)\): probabilidade a priori (antes da evidência).
  • \(P(B \mid A_i)\): verossimilhança (como a evidência aparece sob cada hipótese).
  • \(P(A_i \mid B)\): probabilidade a posteriori (atualizada).

Exemplo Numérico

Um exame médico tem: - \(P(\text{Doente}) = 0,01\) (1% da população).
- \(P(\text{Teste+} \mid \text{Doente}) = 0,9\) (sensibilidade).
- \(P(\text{Teste+} \mid \text{Saudável}) = 0,05\) (falso positivo).

Pergunta: Qual a probabilidade de estar doente dado um teste positivo?

  1. Numerador:
    \[ P(\text{Doente} \mid \text{Teste+}) \propto P(\text{Teste+} \mid \text{Doente}) \cdot P(\text{Doente}) = 0,9 \cdot 0,01 = 0,009 \]

  2. Denominador:
    \[ P(\text{Teste+}) = 0,9 \cdot 0,01 + 0,05 \cdot 0,99 = 0,009 + 0,0495 = 0,0585 \]

  3. Resultado:
    \[ P(\text{Doente} \mid \text{Teste+}) = \frac{0,009}{0,0585} \approx 0,154 \]

Intuição do Teorema de Bayes

  • Antes da evidência, a chance de estar doente era 1%.
  • O teste positivo aumenta essa chance, mas não para 90% (sensibilidade do teste).
  • O motivo: a base populacional importa. Como a doença é rara, muitos positivos são falsos.

Moral:
- O Teorema de Bayes ajusta nossa intuição: a evidência deve ser ponderada pela frequência dos eventos.
- É a ponte entre probabilidade condicional e inferência estatística.

Variáveis aleatórias

  • Em probabilidade, uma variável aleatória é uma função que mapeia os resultados de um experimento aleatório para números reais.

    • A variável aleatória é uma função mensurável que traduz resultados incertos do mundo real (elementos em \(\Omega\)) em números reais: \[X: \Omega \rightarrow \mathbb{R}\]
  • Existem dois tipos principais:

    • Variável aleatória discreta: assume valores contáveis (exemplo: número de desempregados em uma amostra).

    • Variável aleatória contínua: assume valores dentro de um intervalo contínuo (exemplo: taxa de retorno de um investimento).


Variáveis aleatórias discretas

  • Considere o lançamento de uma moeda duas vezes. Se C indicar cara e R indicar coroa, então um espaço amostral será

    $$\Omega = \{ \omega_1, \omega_2, \omega_3, \omega_4\}$$

    em que \(\omega_1=(C,C)\), \(\omega_2=(C,R)\), \(\omega_3=(R,C)\), \(\omega_4=(R,R)\).

  • Definamos a v.a. Y: número de caras obtidas nos dois lançamentos. Temos que: \[p(0)=P(Y=0)=P(RR)=1/4\] \[p(1)=P(Y=1)=P(CR \text{ ou }RC)=1/4+1/4=1/2\] \[p(2)=P(Y=2)=P(CC)=1/4\]

  • A distribuição da v.a. Y é dada por

    \(y\) \(p(y)\)
    0 1/4
    1 1/2
    2 1/4

Valor Médio de uma Variável Aleatória

  • Dada a v.a. X discreta, assumindo os valores \(x_1,x_2, \cdots,x_n\), chamamos valor médio ou esperança matemática de X ao valor \[E(X)=\sum_{i=1}^n{x_i P(X=x_i)}=\sum_{i=1}^n{x_ip_i}\]

  • Chamamos de variância da v.a. X o valor

    \[ Var(X)=\sum_{i=1}^n{[x_i-E(x_i)]^2p_i} \]

    • O desvio padrão de X, DP(X), é definido como a raiz quadrada positiva da variância

Algumas Propriedades do Valor Médio

  • Dada a v.a. discreta \(X\) e a respectiva função de probabilidade \(p(x)\), a esperança matemática da função \(h(X)\) é dada por

    \[ E[h(x)]=\sum{h(x_i)p(x_i)} \]

  • As seguintes propriedades podem ser facilmente demonstradas:

    • Se \(h(x)=aX+b\), onde \(a\) e \(b\) são constantes:

      • \(E(aX+b)=aE(X)+b\)

      • \(Var(aX+b)=a^2Var(X)\)

    • \(Var(X)=E(X^2)-[E(X)]^2=\sum{x_i^2p(x_i)}-[\sum{x_ip(x_i)]^2}\)

  • Notação: \(E(X)=\mu\) e \(Var(X)=\sigma^2\)

Função de Distribuição Acumulada

  • Dada a variável aleatória \(X\), chamaremos de função de distribuição acumulada (f.d.a.), ou simplesmente função de distribuição (f.d.) \(F(X)\) à função \[F(x) = P(X\leq x)\]

Um Exemplo

O tempo \(T\), em minutos, necessário para um operário processar certa peça é uma v.a. com a seguinte distribuição de probabilidade:

t 2 3 4 5 6 7
p(t) 0,1 0,1 0,3 0,2 0,2 0,1
  1. Calcule o tempo médio de processamento.
  2. Para cada peça processada, o operário ganha um fixo de 2,00, mas, se ele processa a peça em menos de seis minutos, ganha 0,50 em cada minuto poupado. Por exemplo, se ele processa a peça em quatro minutos, recebe a quantia adicional de 1,00. Encontre a distribuição, a média e a variância da v.a. G: quantia ganha por peça.
  3. Obtenha a f.d.a. \(F(t)\) da v.a. \(T\).

Modelos Probabilísticos para Variáveis Aleatórias Discretas

  • Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos.

  • Portanto, um estudo pormenorizado dessas variáveis é de grande importância para a construção de modelos probabilísticos para situações reais e a consequente estimação de seus parâmetros.

    • Para algumas dessas distribuições existem tabelas que facilitam o cálculo de probabilidades, em função de seus parâmetros

Distribuição Uniforme Discreta

  • Variável aleatória \(X\) assume \(n\) valores inteiros distintos: \[ x_1, x_2, \dots, x_n \]
  • Cada valor tem mesma probabilidade: \[ P(X = x_i) = \frac{1}{n}, \quad i = 1,2,\dots,n \]
  • Função de probabilidade: \[ p(x) = \begin{cases} 1/n, & x \in \{x_1, \dots, x_n\} \\ 0, & \text{caso contrário} \end{cases} \]

Exemplo Clássico: Lançamento de Dado

  • Espaço amostral: \(\{1,2,3,4,5,6\}\)
  • Cada face tem a mesma probabilidade: \[ P(X = k) = 1/6, \quad k=1,\dots,6 \]

🎲 Aplicações: - Jogos de tabuleiro (Monopoly, War).
- Simulação computacional (geradores pseudoaleatórios).

Exemplo – Spotify Shuffle

  • Playlist com \(n=10\) músicas.
  • O shuffle aleatório perfeito do Spotify (em teoria) toca cada música com probabilidade \(1/10\) a cada sorteio.

Pergunta: qual a chance de tocar sua música favorita na primeira tentativa?
- \(P = 1/10 = 0,1\).

💡 Observação: o algoritmo “shuffle” do Spotify teve que ser ajustado porque os usuários reclamavam que aleatório de verdade parecia não ser aleatório.

Shiny applications not supported in static R Markdown documents

Propriedades da Distribuição Uniforme

  • É fácil verificar que: \[E(X)=\frac{1}{n}\sum_{i=1}^{n}{x_i}\]

    \[ Var(X)=\frac{1}{n}\{\sum{x_i^2}-\frac{(\sum{x_i})^2}{n}\} \]

  • A função de distribuição acumulada é dada por \[F(X)=\sum_{x_i\leq x}{\frac{1}{n}}=\frac{n(x)}{n}\] em que \(n(x)\) é o número de \(x_i\leq x\).

Shiny applications not supported in static R Markdown documents

Distribuição de Bernoulli

  • Muitos experimentos são tais que os resultados apresentam ou não uma determinada característica. Por exemplo:

    • uma moeda é lançada: o resultado ou é cara, ou não

    • um dado é lançado: ou ocorre face 5 ou não

    • uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça é defeituosa ou não

  • Para cada experimento acima, podemos definir uma v.a. \(X\), que assume apenas dois valores: 1, se ocorrer sucesso, e 0, se ocorrer fracasso. Indicaremos por \(p\) a probabilidade de sucesso, isto é, \(P(sucesso) = P(S) = p, 0 < p < 1\).

  • A variável aleatória \(X\), que assume apenas os valores 0 e 1, com função de probabilidade \((x, p(x))\) tal que \[p(0)=P(X=0)=1-p,\] \[p(1)=P(X=1)=p\] é chamada v.a. de Bernoulli.

Shiny applications not supported in static R Markdown documents

Distribuição Binomial

  • Imagine, agora, que repetimos um ensaio de Bernoulli \(n\) vezes, ou, de maneira alternativa, obtemos uma amostra de tamanho \(n\) de uma distribuição de Bernoulli, onde as repetições são independentes.

  • Uma amostra particular será constituída de uma sequência de sucessos e fracassos, ou, alternativamente, de uns e zeros.

    • Por exemplo, repetindo um ensaio Bernoulli 5 vezes (\(n=5\)), uma possibilidade de resultado é FSFFS.

    • A probabilidade deste evento ocorrer é \((1-p)p(1-p)(1-p)p\) ou \((1-p)^3p^2\).

Distribuição Binomial

  • Obtenhamos, agora, \(P(X=k)\), ou seja, numa sequência de \(n\) ensaios de Bernoulli, a probabilidade de obter \(k\) sucessos (e portanto \(n-k\) fracassos), \(k=0,1,2,\cdots,n\) com \(P(S) = p\), \(P(F) = 1 - p = q\).

  • A probabilidade de uma dada sequência é \[p^k(1-p)^{n-k}\] portanto resta saber quantas sequências com a propriedade especificada podemos formar.

  • É fácil de verificar que existem \[\binom{n}{k}=\frac{n!}{k!(n-k)!}\] tais sequências, de modo que \[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n \]

Definição de uma Variável Aleatória Binomial

  • A variável aleatória \(X\), correspondente ao número de sucessos num experimento binomial, tem distribuição binomial \(b(n, p)\), com função de probabilidade

    \[ b(n;k,p)=P(X=k|n,p) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n \]

Exemplo – Distribuição Binomial (Basquete)

Enunciado:
Um jogador acerta 70% de seus arremessos (\(p = 0.7\)).
Ele tenta 10 arremessos (\(n = 10\)).

Qual a probabilidade de ele acertar exatamente 8 cestas?

Pensamento Intuitivo

  • Cada arremesso:

    • Acerto \(= 0,7\)
    • Erro \(= 0,3\)
  • Queremos 8 acertos e 2 erros em 10 arremessos.

  • Exemplo de sequência possível:
    AAAAAAAAXX (8 acertos seguidos, 2 erros no final).

  • Probabilidade dessa sequência:
    \((0,7)^8 \cdot (0,3)^2\)

Quantidade de Sequências Possíveis

  • Não importa a ordem, apenas o total.

  • Quantas formas de escolher 8 acertos em 10 tentativas?
    \(\binom{10}{8} = 45\)

  • Probabilidade total =
    \(45 \times (0,7)^8 \times (0,3)^2 \approx 23,3\%\)

  • Ideia central:
    “Probabilidade de uma sequência específica × número de sequências possíveis”

Resolução baseada na fórmula

Fórmula da Binomial:

\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]

Substituindo \(n = 10\), \(k = 8\), \(p = 0.7\):

\[ P(X=8) = \binom{10}{8} (0.7)^8 (0.3)^2 \]

Cálculo Numérico

  • \(\binom{10}{8} = 45\)
  • \((0.7)^8 \approx 0.05765\)
  • \((0.3)^2 = 0.09\)

\[ P(X=8) \approx 45 \times 0.05765 \times 0.09 \approx 0.233 \]

Resposta

✅ A probabilidade de o jogador acertar exatamente 8 em 10 arremessos é:

\[ P(X=8) \approx 23,3\% \]

Propriedades de uma v.a. com distribuição Binomial

  • Parâmetros: \(n\) (tamanho da amostra), \(p\) (probabilidade de sucesso).

  • Valor esperado:

\[ E[X] = np \]

  • Variância:

\[ Var(X) = np(1-p) \]

  • Simetria: quando \(p=0,5\), a distribuição é simétrica.
  • Assimetria: se \(p \neq 0,5\), a distribuição fica enviesada para a direita (\(p<0,5\)) ou para a esquerda (\(p>0,5\)).

Shiny applications not supported in static R Markdown documents

Shiny applications not supported in static R Markdown documents

Exemplo

Se \(X \sim b(n, p)\), sabendo-se que \(E(X) = 12\) e \(\sigma^2=3\), determinar:

  1. \(n\)
  2. \(p\)
  3. \(E(Z)\) e \(Var(Z)\), em que \(Z = (X-12)/\sqrt{3}\)
  4. \(P(Y ≥ 14/16)\), em que \(Y = X/n\)
  5. \(P(Y ≥ 12/16)\), em que \(Y = X/n\)

Distribuição Hipergeométrica

Considere uma população finita com \(N\) objetos, dos quais \(r\) têm um atributo \(A\) e \(N-r\) não têm. Retira-se ao acaso uma amostra de tamanho \(n\) sem reposição. Seja \(X\) o número de itens na amostra que têm o atributo \(A\).

A distribuição de \(X\) é chamada hipergeométrica com parâmetros \(N,r,n\) e tem função de probabilidade

\[ P(X=k) = p_k = \frac{\displaystyle\binom{r}{k}\binom{N-r}{\,n-k\,}}{\displaystyle\binom{N}{n}}, \qquad \max(0,\,n-N+r)\le k \le \min(r,n). \]

Observações sobre o suporte

  • Os limites em \(k\) são \[ a=\max(0,\,n-N+r),\qquad b=\min(r,n). \]
  • Interpretação: \(\binom{r}{k}\) conta como escolher (k) itens com atributo (A) e \(\binom{N-r}{n-k}\) como escolher os restantes da amostra entre os não-atributos; o denominador \(\binom{N}{n}\) normaliza pelas amostras possíveis (universo de possibilidades).

🎯 Exemplo

  • Temos uma urna com 20 bolas:
    • 7 vermelhas (sucessos)
    • 13 azuis (fracassos)
  • Retiramos 5 bolas sem reposição
  • Queremos saber:
    👉 Qual a probabilidade de obter exatamente 2 vermelhas?

📘 Definição da Distribuição

A variável aleatória \(X \sim \text{Hipergeométrica}(N, K, n)\) representa o número de sucessos em uma amostra sem reposição.

  • \(N = 20\): tamanho da população
  • \(K = 7\): número de sucessos na população
  • \(n = 5\): tamanho da amostra
  • \(X = k\): número de sucessos observados

🧮 Fórmula da Probabilidade

[ P(X = k) = ]

Substituindo os valores:

[ P(X = 2) = ]

🔍 Interpretação Intuitiva

  • \(\binom{7}{2}\): formas de escolher 2 vermelhas entre 7
  • \(\binom{13}{3}\): formas de escolher 3 azuis entre 13
  • \(\binom{20}{5}\): todas as formas de escolher 5 bolas da urna

[ P(X = 2) = ]

➡️ Há cerca de 38.7% de chance de obter exatamente 2 vermelhas.

Faixa de Valores Possíveis

A variável ( X ) pode assumir valores entre:

[ (0, n - (N - K)) k (n, K) ]

No nosso exemplo:

[ (0, 5 - 13) = 0,(5, 7) = 5 ]

➡️ Então \(X \in \{0,1,2,3,4,5\}\)

Por que não é binomial?

  • Na binomial, cada retirada é independente (com reposição)
  • Na hipergeométrica, cada retirada altera a composição da urna

➡️ Isso gera dependência entre os eventos e exige uma fórmula combinatória.

Esperança e Variância

Definindo \(p=\dfrac{r}{N}\) (fração de itens com atributo \(A\) na população, tem-se

\[ E[X] = n p. \]

A variância incorpora o fator de correção finita (porque extração é sem reposição):

\[ \operatorname{Var}(X) = n p (1-p)\,\frac{N-n}{N-1}. \]

Exemplo (Auditoria):
- \(N=100\) instituições financeiras.
- \(r=12\) apresentam risco.
- Selecionamos \(n=8\) para auditoria.
- Seja \(X =\) nº de instituições de risco encontradas.

Então: \(X \sim \text{Hipergeométrica}(N=100, r=12, n=8)\)

Cálculo numérico (exemplo):
- \(E[X] = 8 \cdot 0.12 = 0.96\)
- \(\mathrm{Var}(X) \approx 0.785\)

Interpretação:
Em média, espera-se encontrar cerca de 1 instituição de risco na amostra.
A variância indica o grau de incerteza deste resultado.

Distribuição de Poisson

Definição.
Uma variável aleatória \(X\) tem distribuição de Poisson com parâmetro \(\lambda>0\) se:

\[ P(X=k) = \frac{e^{-\lambda}\lambda^k}{k!}, \qquad k = 0,1,2,\dots \]

Aqui \(\lambda\) é a taxa média de ocorrências no intervalo (por ex., por unidade de tempo ou por unidade de área).

Propriedades importantes.

  • Esperança: \(E[X]=\lambda\).

  • Variância: \(\operatorname{Var}(X)=\lambda\).

  • A Poisson modela eventos raros, independentes, com taxa média constante.

Exemplo — chegadas a uma agência bancária

Contexto.
Uma agência bancária observa, em média, \(\lambda=6\) clientes chegando por hora durante o horário de pico.

Perguntas: 1. Qual a probabilidade de chegar exatamente \(k=8\) clientes em uma hora? 2. Qual a probabilidade de chegar pelo menos 8 clientes em uma hora?

Cálculo (Poisson): - Exatamente 8: \[ P(X=8) = \frac{e^{-6} 6^8}{8!} \approx 0.122 \]

  • Pelo menos 8: \[ P(X\ge 8) = 1 - \sum_{k=0}^{7}\frac{e^{-6}6^k}{k!}. \]

Interpretação prática.
Se \(P(X\ge8)\approx 0{,}256\), então em cerca de 25% das horas de pico a agência terá 8 ou mais chegadas — informação útil para dimensionar filas e pessoal.

🎯 Relação Poisson ↔︎ Hipergeométrica

  • Hipergeométrica: modela número de sucessos em amostragem sem reposição
  • Poisson: modela número de eventos em um intervalo fixo com taxa média constante

🔍 Onde elas se encontram

A Poisson pode aproximar a hipergeométrica quando:

  • \(N\) é muito grande
  • \(\frac{K}{N}\) é pequeno
  • \(n\) é pequeno em relação a \(N\)

➡️ A dependência entre retiradas na hipergeométrica se torna irrelevante
➡️ O comportamento se aproxima de uma Poisson com ( = n )

🧪 Exemplo ilustrativo

  • População: \(N = 10,000\)
  • Sucessos: \(K=100\)
  • Amostra: \(n = 10\)

Hipergeométrica:

[ [X] = n = 10 = 0.1 ]

Aproximação Poisson:

[ Y (0.1) ]

➡️ A distribuição de ( X ) se comporta como uma Poisson com média 0.1

📊 Intuição Visual

  • Hipergeométrica: depende da composição da população
  • Poisson: depende apenas da taxa média ( )

➡️ Quando a população é grande e os sucessos são raros, a Poisson simplifica o problema

Variáveis Aleatórias Contínuas

1) Do discreto ao contínuo

  • Em variáveis discretas, atribuimos probabilidades a pontos: ex. para a uniforme discreta em \(n\) pontos temos \[ P(X = x_i) = \frac{1}{n},\qquad i=0,\dots,n. \]

  • Para passar a um modelo contínuo (por ex., ponteiro de relógio elétrico que pode parar em qualquer instante), cada ponto tem probabilidade zero, e usamos uma densidade \(f(x)\) tal que a probabilidade em um intervalo \([a,b)\) é \[ P(a \le X < b) = \int_a^b f(x)\,dx. \]

  • Exemplo particular: uniforme no intervalo \([0,360)\): \[ f(x) = \frac{1}{360},\qquad 0 \le x < 360. \]

2) Como a aproximação funciona

  • Divida \([0,360)\) em \(n\) subintervalos de largura \(\Delta = 360/n\).
  • Se atribuirmos a cada subintervalo a altura \(f(x)=1/360\), a área do subintervalo é \[ \text{área} = \Delta \times \frac{1}{360} = \frac{1}{n}, \] que é exatamente a probabilidade de cada ponto discreto.
  • À medida que \(n\to\infty\), as barras estreitas e de altura constante formam a curva contínua \(f(x)=1/360\).

Shiny applications not supported in static R Markdown documents

Variável Aleatória Contínua – Definição

  • Uma variável aleatória contínua \(X\) pode assumir infinitos valores reais dentro de um intervalo.
  • Sua probabilidade é descrita por uma função densidade de probabilidade (f.d.p.) \(f(x)\), que satisfaz:

\[ f(x) \geq 0, \quad \int_{-\infty}^{\infty} f(x)\,dx = 1 \]

  • Probabilidade de um intervalo: \[ P(a \leq X \leq b) = \int_a^b f(x)\, dx \]

⚠️ Importante:
\[ P(X = x_0) = 0 \]
porque a densidade só tem significado em intervalos.

Valor Esperado (Média)

  • Para v.a. contínua \(X\) com f.d.p. \(f(x)\):

\[ E[X] = \int_{-\infty}^{\infty} x \, f(x)\, dx \]

  • Interpretação:
    • “Média de longo prazo” dos valores de \(X\).
    • Centro de gravidade da distribuição de probabilidade.
  • Analogia com o caso discreto:
    • Discreto: \(E[X] = \sum x_i p(x_i)\)
    • Contínuo: \(E[X] = \int x f(x) dx\)

Variância

  • Medida de dispersão em torno da média:

\[ Var(X) = E[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x)\, dx \]

  • Fórmula prática:

\[ Var(X) = E[X^2] - (E[X])^2 \]

  • Desvio-padrão: \(\sigma = \sqrt{Var(X)}\).

Função de Distribuição Acumulada

  • Para uma v.a. contínua \(X\) com f.d.p. \(f(x)\), define-se:

\[ F(x) = P(X \leq x) = \int_{-\infty}^x f(t)\,dt \]

  • Propriedades:
    • \(F(x)\) é não decrescente.
    • \(\lim_{x \to -\infty} F(x) = 0\).
    • \(\lim_{x \to +\infty} F(x) = 1\).
    • \(F(x)\) é contínua à direita.

Relação entre f.d.p. e f.d.a.

  • A f.d.a. é a acumulação da densidade até \(x\).

  • Se \(F(x)\) é derivável em \(x\):

\[ f(x) = \frac{d}{dx}F(x) \]

  • Probabilidade de um intervalo:

\[ P(a \leq X \leq b) = F(b) - F(a) \]

➡️ A f.d.a. torna o cálculo de probabilidades mais prático, evitando integrais repetitivas.

Shiny applications not supported in static R Markdown documents

Modelo Uniforme (Definição)

  • Variável aleatória contínua \(X \sim U(a,b)\)
  • Espaço amostral: intervalo \([a,b]\)
  • Todos os pontos são igualmente prováveis

\[ f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{caso contrário} \end{cases} \]

  • Função de distribuição acumulada (f.d.a.):

\[ F(x) = \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \leq x \leq b \\ 1, & x > b \end{cases} \]

Propriedades do Modelo Uniforme

  • Valor esperado (média): \[ E[X] = \frac{a+b}{2} \]

  • Variância: \[ Var(X) = \frac{(b-a)^2}{12} \]

  • Interpretação:

    • Média = ponto médio do intervalo.
    • Variância = cresce com o comprimento do intervalo.

Exemplo Econômico – Salários

Suponha que os salários (em milhares de R$) de trabalhadores de um setor sejam distribuídos uniformemente no intervalo \([2, 6]\).

  • f.d.p.: \[ f(x) = \begin{cases} \frac{1}{6-2} = \tfrac{1}{4}, & 2 \leq x \leq 6 \\ 0, & \text{caso contrário} \end{cases} \]

  • Média: \[ E[X] = \int_2^6 x \cdot \tfrac{1}{4}\, dx = \tfrac{1}{4}\left[\tfrac{x^2}{2}\right]_2^6 = \tfrac{1}{4}\left(\tfrac{36}{2} - \tfrac{4}{2}\right) = 4 \]

  • Variância: \[ E[X^2] = \int_2^6 x^2 \cdot \tfrac{1}{4}\, dx = \tfrac{1}{4}\left[\tfrac{x^3}{3}\right]_2^6 = \tfrac{1}{4}\left(\tfrac{216}{3} - \tfrac{8}{3}\right) = \tfrac{52}{3} \]

\[ Var(X) = E[X^2] - (E[X])^2 = \tfrac{52}{3} - 16 = \tfrac{4}{3} \]

➡️ Interpretação: - Salário médio = R$ 4.000,00
- Variabilidade (DP ≈ 1.15 mil R$) em torno desse valor.

Exemplo Intuitivo

🎲 Um ônibus passa em um ponto a cada 20 minutos.
- Chego ao ponto em um horário aleatório.
- O tempo de espera \(X \sim U(0,20)\).

  • Probabilidade de esperar até 5 minutos: \[ P(X \leq 5) = \frac{5-0}{20-0} = 0,25 \]

  • Valor esperado da espera: \[ E[X] = \frac{0+20}{2} = 10 \text{ minutos} \]

O Modelo Normal

  • A distribuição normal é a mais importante da estatística.
  • Aparece naturalmente em fenômenos de diferentes áreas:
    • Alturas e pesos em populações.
    • Erros de medição.
    • Retornos financeiros.
    • Desempenho escolar e cognitivo.
  • Justificativas:
    • Teorema Central do Limite: a soma de muitas variáveis aleatórias tende a ser normal.
    • Modelagem prática: simplifica a inferência estatística.

Definição Formal

Uma variável aleatória \(X\) tem distribuição Normal com média \(\mu\) e variância \(\sigma^2\) se sua função densidade de probabilidade (f.d.p.) é:

\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty \]

Notação:
\(X \sim N(\mu, \sigma^2)\)

Parâmetros: - \(\mu\): média (posição da curva). - \(\sigma^2\): variância (dispersão da curva).

Momentos

Se \(X \sim N(\mu, \sigma^2)\):

  • Média: \(E[X] = \mu\)
  • Variância: \(Var(X) = \sigma^2\)
  • Moda: \(\mu\)
  • Mediana: \(\mu\)

➡️ Os três valores coincidem (média, moda e mediana).

A curva é:
- Simétrica em torno de \(\mu\).
- Mais concentrada quanto menor \(\sigma\).

Shiny applications not supported in static R Markdown documents

Distribuição Normal Padrão

Definição:

\[ Z = \frac{X - \mu}{\sigma} \]

Então \(Z \sim N(0,1)\), com f.d.p.:

\[ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2} \]

  • Média: \(E[Z] = 0\)
  • Variância: \(Var(Z) = 1\)

➡️ A normal padrão é fundamental, pois todas as normais podem ser reduzidas a ela.

Função de Distribuição Acumulada (FDA)

A FDA da normal é:

\[ F(x) = P(X \leq x) = \int_{-\infty}^x f(t)\,dt \]

  • Não tem forma fechada (usa-se tabelas ou software).
  • Denotada por \(\Phi(z)\) para a normal padrão.

Probabilidade em Intervalos

Queremos calcular:

\[ P(a \leq X \leq b) = \int_a^b f(x)\,dx \]

  • Padronizando:

\[ P(a \leq X \leq b) = \Phi\!\left(\frac{b - \mu}{\sigma}\right) - \Phi\!\left(\frac{a - \mu}{\sigma}\right) \]

➡️ Diferença de áreas sob a curva normal.

Ilustração – Área sob a Curva

Quando a Binomial vira Normal

  • A distribuição binomial \(X \sim \text{Bin}(n, p)\) é discreta: conta sucessos em \(n\) tentativas
  • A distribuição normal \(Y \sim \mathcal{N}(\mu, \sigma^2)\) é contínua: modela variações suaves em torno da média

🔁 Conexão:

Quando \(n\) é grande, a binomial se aproxima da normal com média \(\mu = np\) e variância \(\sigma^2 = p(1-p)\)

➡️ Isso é garantido pelo Teorema do Limite Central

Intuição Visual

  • Com poucos ensaios, a binomial é “irregular” e assimétrica
  • Com muitos ensaios, ela se suaviza e se torna simétrica
  • A curva da normal aparece como uma aproximação contínua da binomial

Shiny applications not supported in static R Markdown documents

Exemplo

Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos normalmente, com média de $ l0.000,00 e desvio padrão de $ 1.500,00. Um depósito é selecionado ao acaso dentre todos os referentes ao mês em questão. Encontrar a probabilidade de que o depósito seja:

  1. $ 10.000,00 ou menos;
  2. pelo menos $ 10.000,00;
  3. um valor entre $ 12.000,00 e $ 15.000,00;
  4. maior do que $ 20.000,00.

Distribuição Qui-Quadrado

Uma variável aleatória \(X\) tem distribuição Qui-Quadrado com \(k\) graus de liberdade se sua função densidade é:

\[ f(x) = \begin{cases} \frac{1}{2^{k/2}\Gamma(k/2)} x^{\tfrac{k}{2}-1} e^{-x/2}, & x > 0 \\ 0, & x \leq 0 \end{cases} \]

  • Notação: \(X \sim \chi^2(k)\)
  • Parâmetro: \(k\) = graus de liberdade (\(k \in \mathbb{N}\)).
  • A função \(\Gamma(\cdot)\) generaliza o fatorial: \(\Gamma(n) = (n-1)!\).

A Função Gama

  • A função \(\Gamma(z)\) é definida, para \(z>0\), como:

\[ \Gamma(z) = \int_0^\infty t^{z-1} e^{-t} \, dt \]

  • Propriedade de recorrência: \[ \Gamma(z+1) = z \, \Gamma(z) \]

  • Relação com o fatorial: \[ \Gamma(n) = (n-1)! \quad \text{para } n \in \mathbb{N} \]


Exemplos e Intuição

  • \(\Gamma(1) = 0! = 1\)

  • \(\Gamma(2) = 1! = 1\)

  • \(\Gamma(3) = 2! = 2\)

  • \(\Gamma(4) = 3! = 6\)

  • Também vale para não inteiros:
    \[ \Gamma\!\left(\tfrac{1}{2}\right) = \sqrt{\pi} \]


Intuição

  • O fatorial clássico só faz sentido para números inteiros.
  • A função \(\Gamma(\cdot)\) estende a ideia de fatorial para valores reais positivos.
  • Isso permite definir distribuições estatísticas (Qui-Quadrado, t, F, Gama) com parâmetros não inteiros.

Interpretação Importante

  • Sejam \(Z_1, Z_2, \dots, Z_k\) variáveis normais padrão independentes (\(Z_i \sim N(0,1)\)).
  • Então, a variável \[ X^2 = Z_1^2 + Z_2^2 + \dots + Z_k^2 \] segue uma distribuição Qui-Quadrado com \(k\) graus de liberdade.

➡️ Intuição: a \(\chi^2\) mede a soma de “pequenos desvios aleatórios” ao quadrado.
➡️ Quanto maior \(k\), mais “simétrica” e parecida com a normal a distribuição se torna.

Propriedades e Aplicações

Momentos: - Valor esperado: \(E[X] = k\) - Variância: \(Var(X) = 2k\)

Características: - Assimétrica à direita para \(k\) pequeno.
- Torna-se aproximadamente normal quando \(k\) é grande.

Aplicações:

  • Simulações de jogos de azar (variação acumulada).

  • IA e machine learning: medir discrepâncias entre dados e modelo.

Exemplo

Suponha que um pesquisador analise a variação do consumo mensal em uma amostra de 10 famílias.
Cada desvio em relação à média do consumo é padronizado e elevado ao quadrado.

Se \(Z_i \sim N(0,1)\) representar cada desvio padronizado, então: \[ X = \sum_{i=1}^{10} Z_i^2 \sim \chi^2(10) \]

  • Valor esperado: \(E[X] = 10\)
  • Variância: \(Var(X) = 20\)

Interpretação:
O valor de \(X\) mede “o quanto” os consumos se afastam da média em termos de variabilidade padronizada.
Se \(X\) estiver muito acima de 10, indica que as famílias são mais heterogêneas no consumo do que o esperado.
Se \(X\) estiver muito abaixo de 10, indica homogeneidade incomum.

Shiny applications not supported in static R Markdown documents

Distribuição t de Student

  • Seja \(Z \sim N(0,1)\) e \(U \sim \chi^2(\nu)\), independentes.
  • Define-se a variável aleatória:

\[ T = \frac{Z}{\sqrt{U / \nu}} \]

  • Então \(T\) segue a distribuição t de Student com \(\nu\) graus de liberdade.

  • Notação: \(T \sim t(\nu)\).

Propriedades Principais

  • A distribuição \(t(\nu)\) é simétrica em torno de 0, como a Normal.
  • Possui caudas mais pesadas que a Normal padrão → maior probabilidade de valores extremos.
  • À medida que \(\nu \to \infty\), \(t(\nu) \to N(0,1)\).
  • Média: \(E[T] = 0\) (para \(\nu > 1\)).
  • Variância:
    • \(Var(T) = \dfrac{\nu}{\nu - 2}\) para \(\nu > 2\).
    • Não definida para \(\nu \leq 2\).

Exemplo

🎯 Supomos que queremos avaliar o retorno médio da educação.

  • Temos apenas 12 observações de salários de indivíduos formados em economia.
  • A população é grande, mas nossa amostra é pequena.

Como a variabilidade é alta e \(n\) é pequeno, a distribuição amostral da média segue aproximadamente uma t de Student (não Normal).

➡️ Assim, a t é crucial para análises com amostras pequenas.

Aplicações

  • Estudos com amostras pequenas (ex.: retornos de um setor muito específico).
  • Comparações entre grupos em experimentos pilotos.
  • Amostras pequenas em esportes: pontuação média em apenas 5 jogos de playoffs.
  • Experimentos caseiros: medir a velocidade de sua internet 10 vezes → média segue t, não Normal.

Shiny applications not supported in static R Markdown documents

Distribuição F de Snedecor

  • Seja \(U_1 \sim \chi^2(\nu_1)\) e \(U_2 \sim \chi^2(\nu_2)\), independentes.
  • Define-se a variável aleatória:

\[ F = \frac{U_1 / \nu_1}{U_2 / \nu_2} \]

  • Então \(F\) segue a distribuição F de Snedecor com \((\nu_1, \nu_2)\) graus de liberdade.

  • Notação: \(F \sim F(\nu_1, \nu_2)\).

Propriedades Principais

  • Assimétrica e não negativa (\(F \geq 0\)).
  • Média: \(E[F] = \dfrac{\nu_2}{\nu_2 - 2}\) para \(\nu_2 > 2\).
  • Variância: mais complexa; definida para \(\nu_2 > 4\).
  • Relação com outras distribuições:
    • \(t^2(\nu) \sim F(1,\nu)\).
    • Surge naturalmente em razão de variâncias.

Exemplo

🎯 Queremos comparar a variabilidade do retorno de duas carteiras de ações:

  • Carteira A: 10 ativos de tecnologia.
  • Carteira B: 12 ativos do setor financeiro.

Testamos se as variâncias dos retornos são iguais.

➡️ A estatística usada é a razão de duas variâncias amostrais, que segue aproximadamente uma distribuição F.

Aplicações

  • Comparar variabilidade de setores diferentes (ex.: volatilidade de ações).
  • Avaliar modelos econométricos (razões de variâncias residuais).
  • Comparar a variabilidade do tempo de 2 amigos no videogame 🎮.
  • Avaliar se dois times têm a mesma consistência de desempenho em uma temporada ⚽🏀.

Shiny applications not supported in static R Markdown documents

Variáveis Aleatórias Multidimensionais

  • Até agora trabalhamos com variáveis aleatórias univariadas (\(X\)).
  • Muitas aplicações exigem modelar duas ou mais variáveis simultaneamente: \((X,Y)\).
  • Exemplos em economia: renda e consumo, produção agrícola e industrial, preço e quantidade.
  • Objetivos desta sessão:
    1. Definir distribuição conjunta;
    2. Extrair distribuições marginais;
    3. Construir distribuições condicionais;
    4. Entender independência no contexto conjunto.

Exemplo básico (discreto) — cenário econômico simples

Considere dois setores numa economia pequena:

  • \(X\) = produção agrícola: Baixa \((0)\) ou Alta \((1)\)
  • \(Y\) = produção industrial: Baixa \((0)\) ou Alta \((1)\)

A distribuição conjunta (pmf) é dada pela tabela abaixo:

\(X \backslash Y\) \(Y=0\) \(Y=1\) Total
\(X=0\) 0.20 0.30 0.50
\(X=1\) 0.10 0.40 0.50
Total 0.30 0.70 1.00

Interpretação: por exemplo, \(P(X=0, Y=1)=0.30\) é a probabilidade de agricultura baixa e indústria alta.

Definição formal (discreto)

  • A distribuição conjunta de \((X,Y)\) é a função \[ p_{X,Y}(x,y) = P(X=x,\,Y=y) \] tal que \(\sum_{x}\sum_{y} p_{X,Y}(x,y)=1\).

  • No exemplo: \(p_{00}=0.20,\; p_{01}=0.30,\; p_{10}=0.10,\; p_{11}=0.40\).

Distribuições marginais (discreto)

  • A distribuição marginal de \(X\) é obtida somando a conjunta sobre \(y\): \[ p_X(x) = \sum_y p_{X,Y}(x,y). \]
  • A distribuição marginal de \(Y\) é obtida somando a conjunta sobre \(x\): \[ p_Y(y) = \sum_x p_{X,Y}(x,y). \]

Aplicando ao exemplo:

  • \(p_X(0)=0.20+0.30=0.50,\quad p_X(1)=0.10+0.40=0.50\)

  • \(p_Y(0)=0.20+0.10=0.30,\quad p_Y(1)=0.30+0.40=0.70\).

Intuição: marginais dão a probabilidade de uma variável independentemente da outra.

Distribuições condicionais (discreto)

  • A distribuição conditional de \(X\) dado \(Y=y\): \[ p_{X\mid Y}(x\mid y) = \frac{p_{X,Y}(x,y)}{p_Y(y)}, \quad \text{se } p_Y(y)>0. \]
  • Similarmente: \[ p_{Y\mid X}(y\mid x) = \frac{p_{X,Y}(x,y)}{p_X(x)}. \]

Exemplos numéricos no nosso caso:

  • \(P(X=1\mid Y=1)=\dfrac{p_{11}}{p_Y(1)}=\dfrac{0.40}{0.70}\approx 0.571\).

  • \(P(Y=0\mid X=0)=\dfrac{p_{00}}{p_X(0)}=\dfrac{0.20}{0.50}=0.4\).

Interpretação: condicionais mostram como o conhecimento de \(Y\) altera a incerteza sobre \(X\).

Independência

  • \(X\) e \(Y\) são independentes se, para todos \(x,y\), \[ p_{X,Y}(x,y) = p_X(x)\, p_Y(y). \]
  • Equivalente: \(p_{X\mid Y}(x\mid y)=p_X(x)\) para todo \(y\) (quando \(p_Y(y)>0\)).

Verificação no exemplo:

  • Compare \(p_{11}=0.40\) com \(p_X(1)p_Y(1)=0.50\times0.70=0.35\).

  • Como \(0.40 \neq 0.35\), \(X\) e \(Y\) não são independentes neste exemplo.

Extensão: caso contínuo (densidades)

Para variáveis contínuas com densidade conjunta \(f_{X,Y}(x,y)\):

  • Marginais: \[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\, dy, \qquad f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\, dx. \]

  • Condicionais: \[ f_{X\mid Y}(x\mid y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}, \quad f_{Y\mid X}(y\mid x) = \frac{f_{X,Y}(x,y)}{f_X(x)}, \] quando os denominadores são positivos.

  • Independência: \(f_{X,Y}(x,y)=f_X(x)f_Y(y)\) para todos \(x,y\).

(Obs.: as integrais substituem as somas do caso discreto — mesma ideia, apenas com áreas.)

Exemplo - Distribuição contínua

Considere duas variáveis contínuas relacionadas à produção em uma economia simples:

  • (X): produtividade agrícola (ton/ha), variável em \([0,1]\).
  • (Y): produtividade industrial (unid./hora), variável em \([0,1]\).

Definimos a densidade conjunta:

\(f_{X,Y}(x,y) = x + y,\qquad 0\le x\le1,;0\le y\le 1\), e \(f_{X,Y}(x,y)=0\) fora deste quadrado.

Primeiro verifique que é uma pdf válida: \[\iint_{[0,1]^2} (x+y),dx,dy = \int_0^1\int_0^1 x,dx,dy + \int_0^1\int_0^1 y,dy,dx = \tfrac12 + \tfrac12 = 1.\]

1) Densidades marginais

Calculemos as marginais por integração:

\[\begin{aligned} f_X(x) &= \int_0^1 (x+y)\,dy = x + \tfrac12, \quad 0\le x\le1,\\[4pt] f_Y(y) &= \int_0^1 (x+y)\,dx = y + \tfrac12, \quad 0\le y\le1. \end{aligned}\]

Verificação: \(\int_0^1 (x+\tfrac12),dx = \tfrac12 + \tfrac12 = 1\).

2) Densidades condicionais

As condicionais \(f_{X\mid Y}\) e \(f_{Y\mid X}\) obtêm-se dividindo a conjunta pela marginal:

\[\begin{aligned} f_{X\mid Y}(x\mid y) &= \frac{x+y}{y+\tfrac12},\qquad 0\le x\le1,\\[4pt] f_{Y\mid X}(y\mid x) &= \frac{x+y}{x+\tfrac12},\qquad 0\le y\le1. \end{aligned}\]

Observação: as condicionais dependem do valor condicionado, portanto há dependência entre \(X\) e \(Y\).

3) Probabilidades numéricas (exemplos)

(a) \(P(X<0.5)\)

\(P(X<0.5)=\int_0^{0.5} f_X(x),dx = \int_0^{0.5} (x+\tfrac12),dx = \left[\tfrac{x^2}{2} + \tfrac{x}{2}\right]_0^{0.5} = 0.125 + 0.25 = 0.375\)

(b) \(P(X<0.5,Y>0.7)\)

\[\begin{aligned} P(X<0.5,\,Y>0.7) &=\int_{x=0}^{0.5}\int_{y=0.7}^{1} (x+y)\,dy\,dx \\ &=\int_0^{0.5}\Big(x(1-0.7) + \tfrac{1^2-0.7^2}{2}\Big)dx \\ &=\int_0^{0.5} (0.3x + 0.255)\,dx = 0.0375 + 0.1275 = 0.165. \end{aligned}\]

(c) Probabilidade condicional \(P(Y>0.7 \mid X=0.4)\)

A densidade condicional é \(f_{Y\mid X}(y\mid 0.4)=(0.4+y)/(0.4+0.5)=(0.4+y)/0.9).\) Então

\[\begin{aligned} P(Y>0.7 \mid X=0.4) &=\int_{0.7}^1 \frac{0.4+y}{0.9}\,dy =\frac{1}{0.9}\Big[0.4y + \tfrac{y^2}{2}\Big]_{0.7}^1 \\ &=\frac{0.375}{0.9} \approx 0.4167. \end{aligned}\]

Compare com a marginal \(P(Y>0.7)=\int_{0.7}^1 (y+\tfrac12),dy = 0.405\) . Note que a condicional é ligeiramente maior, ilustrando dependência.

Visualizador interativo — escolha um retângulo e calcule a probabilidade

Shiny applications not supported in static R Markdown documents

Funções de Variáveis Aleatórias

Em variáveis aleatórias multidimensionais, muitas vezes estamos interessados em novas variáveis obtidas como função de outras:

\[Z=g(X,Y)\]

Exemplos:

  • Receita = preço \(\times\) quantidade.

  • Retorno de portfólio = soma ponderada de retornos individuais.

Caso Discreto – Exemplo

Suponha a seguinte distribuição conjunta de \((X,Y)\):

\(X\) \(Y\) \(P(X,Y)\)
1 1 0.2
1 2 0.3
2 1 0.1
2 2 0.4

Defina a função:

\[ Z=g(X,Y)=X+Y \]

Valores possíveis de (Z):

  • Se \((X,Y)=(1,1)\), então \(Z=2\).
  • Se \((X,Y)=(1,2)\) ou \((2,1)\), então \(Z=3\).

  • Se \((X,Y) = (2,2)\), então \(Z=4\).

Distribuição de (Z):

  • \(P(Z=2)=0.2\).

  • \(P(Z=3)=0.3+0.1=0.4\).

  • \(P(Z=4)=0.4\).

Exemplo discreto (recordando)

Distribuição conjunta de \((X,Y)\):

\(X\) \(Y\) \(P(X,Y)\)
1 1 0.20
1 2 0.30
2 1 0.10
2 2 0.40

Lembrete: as marginais são \(p_X(1)=0.5, p_X(2)=0.5\) e \(p_Y(1)=0.3, p_Y(2)=0.7\).

Esperança de \(X\) e \(Y\)

Calculemos \(E[X]\) e \(E[Y]\):

\[\begin{aligned} E[X] &= 1\cdot p_X(1) + 2\cdot p_X(2) = 1\cdot0.5 + 2\cdot0.5 = 1.5,\\[4pt] E[Y] &= 1\cdot p_Y(1) + 2\cdot p_Y(2) = 1\cdot0.3 + 2\cdot0.7 = 1.7. \end{aligned}\]

Interpretação: em média \(X=1.5\) e \(Y=1.7\) nas unidades escolhidas.

Linearidade da esperança:

Verificação direta neste exemplo:

Cálculo direto de \(E[X+Y]\):

\[\begin{aligned} E[X+Y] &= \sum_{x}\sum_{y} (x+y)\, p_{X,Y}(x,y) \\ &= (1+1)\cdot0.20 + (1+2)\cdot0.30 + (2+1)\cdot0.10 + (2+2)\cdot0.40 \\ &= 0.40 + 0.90 + 0.30 + 1.60 = 3.20. \end{aligned}\]

Comparando com \(E[X]+E[Y]=1.5 + 1.7 = 3.2\): confirmado.

Regra geral (linearidade): para quaisquer v.a. \(X,Y\) (discretas ou contínuas) \[E[X+Y]=E[X]+E[Y]\]

Mais geralmente, para constantes \(a,b\): \(E[aX + bY] = a E[X] + b E[Y]\).

Produto \(E[XY]\) no exemplo

Considere agora \(g(X,Y)=XY\).

Calculemos \(E[XY]\) pela definição:

\[\begin{aligned} E[XY] &= \sum_{x}\sum_{y} (xy)\, p_{X,Y}(x,y) \\ &= (1\cdot1)\cdot0.20 + (1\cdot2)\cdot0.30 + (2\cdot1)\cdot0.10 + (2\cdot2)\cdot0.40 \\ &= 0.20 + 0.60 + 0.20 + 1.60 = 2.60. \end{aligned}\]

Agora \(E[X]E[Y] = 1.5 \times 1.7 = 2.55\).

Logo: \(E[XY] = 2.60 \neq 2.55 = E[X]E[Y]\).

Quando vale \(E[XY]=E[X]E[Y]\)?

  • Proposição (independência): Se (X) e (Y) são independentes então \[E[XY] = E[X]E[Y].\]

    • Prova: \(E[XY] = \sum_x\sum_y xy,p_{X,Y}(x,y) = \sum_x\sum_y xy,p_X(x)p_Y(y) = (\sum_x x p_X(x))(\sum_y y p_Y(y))\).

Generalizações úteis

  1. Linearidade geral: para quaisquer v.a.’s \(X_1,\dots,X_n\) e constantes \(a_i\), \[E\left(\sum_{i=1}^n a_i X_i\right) = \sum_{i=1}^n a_i E[X_i].\] Não é necessário independência para isto.

  2. Produto de várias v.a.’s: se \(X_1,\dots,X_n\) são mutuamente independentes, \[E\left(\prod_{i=1}^n X_i\right) = \prod_{i=1}^n E[X_i].\] Sem independência, não se pode fatorar.

  3. Variância da soma (caso de dois): [ (X+Y) = (X) + (Y) + 2,(X,Y). ] Se (X) e (Y) forem independentes, ((X,Y)=0) e ((X+Y)=(X)+(Y)).

Covariância entre Duas Variáveis Aleatórias

A covariância mede a intensidade e direção da associação linear entre duas variáveis aleatórias \(X\) e \(Y\).

Definição formal:

\[ \operatorname{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])] \]

Forma equivalente:

\[ \operatorname{Cov}(X,Y) = E[XY] - E[X]E[Y] \]

  • Note que se \(X\) e \(Y\) forem independentes, \(E[XY]=E[X]E[Y]\Rightarrow \operatorname{Cov}(X,Y)=0\)

Interpretação

  • Cov(X,Y) > 0: valores altos de \(X\) tendem a estar associados a valores altos de \(Y\).
  • Cov(X,Y) < 0: valores altos de \(X\) tendem a estar associados a valores baixos de \(Y\).
  • Cov(X,Y) = 0: não há associação linear (mas não implica independência).

Unidade: produto das unidades de (X) e (Y).

Propriedades Importantes

  1. Simetria:
    \[\operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X).\]

  2. Com relação a constantes:
    \[\operatorname{Cov}(aX+b, Y) = a \cdot \operatorname{Cov}(X,Y).\]

  3. Variância como caso particular:
    \[\operatorname{Var}(X) = \operatorname{Cov}(X,X).\]

  4. Linearidade:
    \[\operatorname{Cov}(X+Z, Y) = \operatorname{Cov}(X,Y) + \operatorname{Cov}(Z,Y).\]

Exemplo 1 – Consumo e Renda

Suponha amostra de 4 famílias (em milhares de R$):

(X) (Renda) (Y) (Consumo) (P(X,Y))
2 1.5 0.2
3 2.5 0.3
4 3.5 0.3
5 4.0 0.2
  • \(E[X] = \sum x p(x,y) = 3.5\)
  • \(E[Y] = \sum y p(x,y) = 2.95\)
  • \(E[XY] = \sum xy p(x,y) = 11.45\)

\[ \operatorname{Cov}(X,Y) = E[XY] - E[X]E[Y] = 11.45 - (3.5)(2.95) = 1.125 \]

➡️ Covariância positiva: maiores rendas estão associadas a maiores consumos.

Relação com Variância

Sejam \(X\) e \(Y\) variáveis aleatórias quaisquer. Então:

\[ \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2 \operatorname{Cov}(X,Y) \]

Casos particulares:

  • Se \(X\) e \(Y\) são independentes:
    \[\operatorname{Cov}(X,Y) = 0 \quad \Rightarrow \quad \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)\]

  • Para diferenças:
    \[\operatorname{Var}(X-Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) - 2 \operatorname{Cov}(X,Y)\]

Limitações da Covariância

  • Depende da escala das variáveis (difícil de comparar entre pares de variáveis diferentes).
  • Para resolver isso, usamos a correlação: \[ \rho(X,Y) = \frac{\operatorname{Cov}(X,Y)}{\sigma_X \sigma_Y} \]

Propriedades:

  • \(-1 \leq \rho_{X,Y} \leq 1\).

  • \(\rho{X,Y} = 1\): relação linear positiva perfeita.

  • \(\rho{X,Y} = -1\): relação linear negativa perfeita.

  • \(\rho{X,Y} = 0\): ausência de relação linear (mas não implica independência).

Exemplo – Renda e Consumo

Distribuição conjunta (como antes):

\(X\) (Renda) \(Y\) (Consumo) \(P(X,Y)\)
2 1.5 0.2
3 2.5 0.3
4 3.5 0.3
5 4.0 0.2

Cálculos prévios:

  • \(E[X] = 3.5\), \(E[Y] = 2.95\).

  • \(E[XY] = 11.45 \Rightarrow \operatorname{Cov}(X,Y) = 1.125\)

  • \(E[X^2] = 13.1 \Rightarrow \operatorname{Var}(X) = 0.85\).

  • \(E[Y^2] = 9.435 \Rightarrow \operatorname{Var}(Y) = 0.735\).

Coeficiente de correlação:

\[ \rho_{X,Y} = \frac{1.125}{\sqrt{0.85}\,\sqrt{0.735}} \approx 0.99 \]

Interpretação:
- Correlação forte e positiva entre renda e consumo.
- Faz sentido economicamente: quanto maior a renda, maior tende a ser o consumo.
- Relação linear quase perfeita no exemplo simplificado.