Revisão de Probabilidade e Variáveis Aleatórias

Panorama do Estudo da Estatística

Estatística Descritiva: organização, resumo e visualização de dados — tabelas, histogramas, medidas de posição e dispersão.
Probabilidade: fundamenta a modelagem da incerteza; definições formais de eventos, variáveis aleatórias e distribuições.
Inferência Estatística: procedimentos para tirar conclusões sobre populações a partir de amostras — estimação, intervalos, testes, regressão.
Subáreas modernas: estatística Bayesiana, estatística computacional, aprendizado de máquina, análise de grandes bases de dados.

Probabilidade

Probabilidade como limite da frequência relativa de ocorrência de um evento: $$P(A) =\lim_{n \rightarrow \infty}\frac{f_A}{n}$$ onde $(f_A)$ é o número de vezes em que $A$ ocorre em $n$ repetições independentes.
Relação com a descrição empírica dos dados:
- Histogramas de frequências mostram como a proporção de ocorrências se aproxima da probabilidade quando (n) cresce.
- Probabilidade → modelo teórico; histograma → evidência empírica.

Exemplo: Lançamento de um dado

Espaço amostral $\rightarrow$ $\Omega = {1,2,3,4,5,6}$
Evento: obter número par $\rightarrow$ $A = {2,4,6}$.
Probabilidade: $P(A) = \frac{|A|}{|\Omega|} = \frac{3}{6} = 0.5$

Exemplo com Variável Contínua

Espaço amostral: medir a altura (em cm) de adultos → $\Omega = \{x \in \mathbb{R} : 140 \leq x \leq 210\}$.

Evento: adulto com altura entre 170 e 180 cm → $A = \{x : 170 \leq x \leq 180\}$.
Definição de probabilidade contínua (com densidade)\[f(x): P(A) = \int_{170}^{180} f(x) dx\]
Diferença para o caso discreto:
- No discreto: probabilidade associada a pontos isolados.
- No contínuo: probabilidade associada a intervalos → $P(X=x)=0$.

Axiomas da Probabilidade

Sejam $\Omega$ o espaço amostral e $A$ um evento.
Segundo Kolmogorov (1933), a probabilidade deve satisfazer:

Não negatividade:
\[ P(A) \geq 0 \]
Normalização:
\[ P(\Omega) = 1 \]
Aditividade (contável):
Se $A_1, A_2, \dots$ são mutuamente exclusivos, então
\[ P\!\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i) \]

Consequências dos Axiomas (1)

Evento impossível:
\[ P(\emptyset) = 0 \]
Complemento:
Para $A \subset S$:
\[ P(A^c) = 1 - P(A) \]
Monotonicidade:
Se $A \subset B$, então
\[ P(A) \leq P(B) \]

Consequências dos Axiomas (2)

Adição para dois eventos quaisquer:
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]
- Eventos mutuamente exclusivos ($A \cap B = \emptyset$):
  \[ P(A \cup B) = P(A) + P(B) \]
Exemplo prático:
- Lançamento de um dado.
- $A = \{2,4,6\}$ (número par), $P(A) = 3/6 = 0,5$.
- $B = \{1,2,3\}$ (menor que 4), $P(B) = 3/6 = 0,5$.
- $P(A \cup B) = 5/6$, pois $A \cap B = \{2\}$.
  Verificação:
  \[ P(A)+P(B)-P(A \cap B) = 0,5 + 0,5 - \tfrac{1}{6} = \tfrac{5}{6} \]

Intuição e Aplicações

A probabilidade é uma medida definida sobre eventos.
Os axiomas asseguram que esta medida se comporte como esperado: não negativa, soma 1 e aditiva.
Por que os axiomas importam?
- Garantem consistência lógica na definição de probabilidade.
- Permitem generalizar a noção de frequência relativa (Seção 5.1).
Áreas de aplicação:
- Jogos de azar (dados, cartas, roletas).
- Controle de qualidade (defeituoso / não defeituoso).
- Diagnósticos médicos (positivo / negativo).
Probabilidade Condicional

Dada a ocorrência de um evento $B$ com $P(B) > 0$, a probabilidade de $A$ condicionada a $B$ é: \[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \]
Interpretação:
- O espaço amostral se “restringe” a $B$.
- Dentro desse espaço reduzido, calculamos a frequência relativa de $A$.

Propriedades da Probabilidade Condicional

Não negatividade:
\[ P(A \mid B) \geq 0 \]
Normalização:
\[ P(B \mid B) = 1 \]
Aditividade:
Se $A_1, A_2, \dots$ são mutuamente exclusivos, então
\[ P\!\left(\bigcup_i A_i \mid B\right) = \sum_i P(A_i \mid B) \]

A probabilidade condicional também obedece aos axiomas da probabilidade.

Exemplo – Jogo de Cartas

Experimento: extrair uma carta de um baralho comum (52 cartas).

Espaço amostral: $\Omega =$ todas as 52 cartas.
Evento $A$: “carta é um Ás” $\Rightarrow |A|=4$.
Evento $B$: “carta é de Copas” $\Rightarrow |B|=13$.

Pergunta: Qual a probabilidade de sair um Ás, sabendo que a carta é de Copas?

Interseção: $A \cap B =$ “Ás de Copas”, logo $|A \cap B| = 1$.
Probabilidade condicional: \[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{\tfrac{1}{52}}{\tfrac{13}{52}} = \tfrac{1}{13} \]

Intuição do Exemplo

Sem informação: $P(\text{Ás}) = 4/52 \approx 0,077$.
Com informação de que é Copas: $P(\text{Ás} \mid \text{Copas}) = 1/13 \approx 0,077$.

➡️ Neste caso, a probabilidade não mudou — os eventos são independentes.

Independência de Eventos

Dois eventos $A$ e $B$ são independentes se a ocorrência de um não altera a probabilidade do outro:
\[ P(A \cap B) = P(A) \cdot P(B) \]
Forma equivalente:
- $P(A \mid B) = P(A)$ (se $P(B) > 0$)
- $P(B \mid A) = P(B)$ (se $P(A) > 0$)
Intuição: saber que $B$ ocorreu não traz informação sobre $A$.

Exemplo – Independência

Experimento: lançar um dado justo.

$A = \{\text{número par}\} = \{2,4,6\}$, $P(A)=3/6=1/2$
$B = \{\text{número maior que 4}\} = \{5,6\}$, $P(B)=2/6=1/3$
$A \cap B = \{6\}$, $P(A\cap B)=1/6$

Probabilidade condicional:

\[ P(A\mid B)=\frac{P(A\cap B)}{P(B)}=\frac{1/6}{1/3}=\tfrac{1}{2}=P(A). \]

➡️ $A$ e $B$ são independentes.

Exemplo – Dependência

Experimento: lançar um dado justo.

$A = \{\text{número par}\} = \{2,4,6\}$, $P(A)=1/2$
$B' = \{\text{número maior que 3}\} = \{4,5,6\}$, $P(B')=3/6=1/2$
$A \cap B' = \{4,6\}$, $P(A\cap B')=2/6=1/3$

Probabilidade condicional:

\[ P(A\mid B')=\frac{P(A\cap B')}{P(B')}=\frac{1/3}{1/2}=\tfrac{2}{3}\neq P(A). \]

➡️ $A$ e $B'$ são dependentes: saber que o número $>3$ aumenta a chance de sair par.

Extensão: Independência Mútua

Três ou mais eventos $A_1, A_2, \dots, A_n$ são mutuamente independentes se:
1. Qualquer par é independente.
2. Qualquer trinca é independente.
3. E assim por diante, até o conjunto inteiro.
Exemplo prático: três lançamentos de moeda justa.
- Cada resultado é independente dos demais.
- $P(\text{cara no 1º, 2º e 3º}) = (1/2)^3 = 1/8$.

Resumo: Independência é uma hipótese forte e essencial para simplificar cálculos de probabilidade e para o Teorema de Bayes.

Teorema de Bayes – Motivação

Muitas vezes queremos inverter a ordem da probabilidade condicional:
- Conhecemos $P(B \mid A)$, mas precisamos de $P(A \mid B)$.
Isso acontece em:
- Diagnósticos médicos (teste positivo → estar doente?).
- Controle de qualidade (defeito detectado → peça realmente defeituosa?).
- Aprendizado de máquina (classificação).

O desafio: como calcular $P(A \mid B)$ se sabemos apenas $P(B \mid A)$?

Teorema de Bayes

Se temos dois eventos complementares $A$ (hipótese) e $A^c$ (não hipótese), e observamos $B$, então:

\[ P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B \mid A) \, P(A) + P(B \mid A^c) \, P(A^c)} \]

$P(A)$: probabilidade a priori da hipótese.
$P(B \mid A)$: verossimilhança (como a evidência $B$ se comporta se $A$ for verdadeira).
$P(A \mid B)$: probabilidade a posteriori, após observar $B$.

➡️ Esse é o formato mais usado em aplicações práticas (ex.: doente vs. saudável, defeituoso vs. não-defeituoso).

Teorema de Bayes – Fórmula

Se $A_1, A_2, \dots, A_k$ formam uma partição do espaço amostral (hipóteses possíveis) e $B$ é um evento observável com $P(B) > 0$, então:

\[ P(A_i \mid B) = \frac{P(B \mid A_i) \, P(A_i)}{\sum_{j=1}^k P(B \mid A_j) \, P(A_j)} \]

$P(A_i)$: probabilidade a priori (antes da evidência).
$P(B \mid A_i)$: verossimilhança (como a evidência aparece sob cada hipótese).
$P(A_i \mid B)$: probabilidade a posteriori (atualizada).

Exemplo Numérico

Um exame médico tem: - $P(\text{Doente}) = 0,01$ (1% da população).
- $P(\text{Teste+} \mid \text{Doente}) = 0,9$ (sensibilidade).
- $P(\text{Teste+} \mid \text{Saudável}) = 0,05$ (falso positivo).

Pergunta: Qual a probabilidade de estar doente dado um teste positivo?

Numerador:
\[ P(\text{Doente} \mid \text{Teste+}) \propto P(\text{Teste+} \mid \text{Doente}) \cdot P(\text{Doente}) = 0,9 \cdot 0,01 = 0,009 \]
Denominador:
\[ P(\text{Teste+}) = 0,9 \cdot 0,01 + 0,05 \cdot 0,99 = 0,009 + 0,0495 = 0,0585 \]
Resultado:
\[ P(\text{Doente} \mid \text{Teste+}) = \frac{0,009}{0,0585} \approx 0,154 \]

Intuição do Teorema de Bayes

Antes da evidência, a chance de estar doente era 1%.
O teste positivo aumenta essa chance, mas não para 90% (sensibilidade do teste).
O motivo: a base populacional importa. Como a doença é rara, muitos positivos são falsos.

Moral:
- O Teorema de Bayes ajusta nossa intuição: a evidência deve ser ponderada pela frequência dos eventos.
- É a ponte entre probabilidade condicional e inferência estatística.

Variáveis aleatórias

Em probabilidade, uma variável aleatória é uma função que mapeia os resultados de um experimento aleatório para números reais.
- A variável aleatória é uma função mensurável que traduz resultados incertos do mundo real (elementos em $\Omega$) em números reais: \[X: \Omega \rightarrow \mathbb{R}\]
Existem dois tipos principais:
- Variável aleatória discreta: assume valores contáveis (exemplo: número de desempregados em uma amostra).
- Variável aleatória contínua: assume valores dentro de um intervalo contínuo (exemplo: taxa de retorno de um investimento).

Variáveis aleatórias discretas

Considere o lançamento de uma moeda duas vezes. Se C indicar cara e R indicar coroa, então um espaço amostral será

$$\Omega = \{ \omega_1, \omega_2, \omega_3, \omega_4\}$$

em que $\omega_1=(C,C)$, $\omega_2=(C,R)$, $\omega_3=(R,C)$, $\omega_4=(R,R)$.
Definamos a v.a. Y: número de caras obtidas nos dois lançamentos. Temos que: \[p(0)=P(Y=0)=P(RR)=1/4\] \[p(1)=P(Y=1)=P(CR \text{ ou }RC)=1/4+1/4=1/2\] \[p(2)=P(Y=2)=P(CC)=1/4\]
A distribuição da v.a. Y é dada por

$y$ $p(y)$

0 1/4

1 1/2

2 1/4

\(y\)	\(p(y)\)
0	1/4
1	1/2
2	1/4

Valor Médio de uma Variável Aleatória

Dada a v.a. X discreta, assumindo os valores $x_1,x_2, \cdots,x_n$, chamamos valor médio ou esperança matemática de X ao valor \[E(X)=\sum_{i=1}^n{x_i P(X=x_i)}=\sum_{i=1}^n{x_ip_i}\]
Chamamos de variância da v.a. X o valor

\[ Var(X)=\sum_{i=1}^n{[x_i-E(x_i)]^2p_i} \]
- O desvio padrão de X, DP(X), é definido como a raiz quadrada positiva da variância

Algumas Propriedades do Valor Médio

Dada a v.a. discreta $X$ e a respectiva função de probabilidade $p(x)$, a esperança matemática da função $h(X)$ é dada por

\[ E[h(x)]=\sum{h(x_i)p(x_i)} \]
As seguintes propriedades podem ser facilmente demonstradas:
- Se $h(x)=aX+b$, onde $a$ e $b$ são constantes:
  - $E(aX+b)=aE(X)+b$
  - $Var(aX+b)=a^2Var(X)$
- $Var(X)=E(X^2)-[E(X)]^2=\sum{x_i^2p(x_i)}-[\sum{x_ip(x_i)]^2}$
Notação: $E(X)=\mu$ e $Var(X)=\sigma^2$

Função de Distribuição Acumulada

Dada a variável aleatória $X$, chamaremos de função de distribuição acumulada (f.d.a.), ou simplesmente função de distribuição (f.d.) $F(X)$ à função \[F(x) = P(X\leq x)\]

Um Exemplo

O tempo $T$, em minutos, necessário para um operário processar certa peça é uma v.a. com a seguinte distribuição de probabilidade:

t	2	3	4	5	6	7
p(t)	0,1	0,1	0,3	0,2	0,2	0,1

Calcule o tempo médio de processamento.
Para cada peça processada, o operário ganha um fixo de 2,00, mas, se ele processa a peça em menos de seis minutos, ganha 0,50 em cada minuto poupado. Por exemplo, se ele processa a peça em quatro minutos, recebe a quantia adicional de 1,00. Encontre a distribuição, a média e a variância da v.a. G: quantia ganha por peça.
Obtenha a f.d.a. $F(t)$ da v.a. $T$.

Modelos Probabilísticos para Variáveis Aleatórias Discretas

Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos.
Portanto, um estudo pormenorizado dessas variáveis é de grande importância para a construção de modelos probabilísticos para situações reais e a consequente estimação de seus parâmetros.
- Para algumas dessas distribuições existem tabelas que facilitam o cálculo de probabilidades, em função de seus parâmetros

Distribuição Uniforme Discreta

Variável aleatória $X$ assume $n$ valores inteiros distintos: \[ x_1, x_2, \dots, x_n \]
Cada valor tem mesma probabilidade: \[ P(X = x_i) = \frac{1}{n}, \quad i = 1,2,\dots,n \]
Função de probabilidade: \[ p(x) = \begin{cases} 1/n, & x \in \{x_1, \dots, x_n\} \\ 0, & \text{caso contrário} \end{cases} \]

Exemplo Clássico: Lançamento de Dado

Espaço amostral: $\{1,2,3,4,5,6\}$
Cada face tem a mesma probabilidade: \[ P(X = k) = 1/6, \quad k=1,\dots,6 \]

🎲 Aplicações: - Jogos de tabuleiro (Monopoly, War).
- Simulação computacional (geradores pseudoaleatórios).

Exemplo – Spotify Shuffle

Playlist com $n=10$ músicas.
O shuffle aleatório perfeito do Spotify (em teoria) toca cada música com probabilidade $1/10$ a cada sorteio.

Pergunta: qual a chance de tocar sua música favorita na primeira tentativa?
- $P = 1/10 = 0,1$.

💡 Observação: o algoritmo “shuffle” do Spotify teve que ser ajustado porque os usuários reclamavam que aleatório de verdade parecia não ser aleatório.

Shiny applications not supported in static R Markdown documents

Propriedades da Distribuição Uniforme

É fácil verificar que: \[E(X)=\frac{1}{n}\sum_{i=1}^{n}{x_i}\]

\[ Var(X)=\frac{1}{n}\{\sum{x_i^2}-\frac{(\sum{x_i})^2}{n}\} \]
A função de distribuição acumulada é dada por \[F(X)=\sum_{x_i\leq x}{\frac{1}{n}}=\frac{n(x)}{n}\] em que $n(x)$ é o número de $x_i\leq x$.

Shiny applications not supported in static R Markdown documents

Distribuição de Bernoulli

Muitos experimentos são tais que os resultados apresentam ou não uma determinada característica. Por exemplo:
- uma moeda é lançada: o resultado ou é cara, ou não
- um dado é lançado: ou ocorre face 5 ou não
- uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça é defeituosa ou não
Para cada experimento acima, podemos definir uma v.a. $X$, que assume apenas dois valores: 1, se ocorrer sucesso, e 0, se ocorrer fracasso. Indicaremos por $p$ a probabilidade de sucesso, isto é, $P(sucesso) = P(S) = p, 0 < p < 1$.
A variável aleatória $X$, que assume apenas os valores 0 e 1, com função de probabilidade $(x, p(x))$ tal que \[p(0)=P(X=0)=1-p,\] \[p(1)=P(X=1)=p\] é chamada v.a. de Bernoulli.

Shiny applications not supported in static R Markdown documents

Distribuição Binomial

Imagine, agora, que repetimos um ensaio de Bernoulli $n$ vezes, ou, de maneira alternativa, obtemos uma amostra de tamanho $n$ de uma distribuição de Bernoulli, onde as repetições são independentes.
Uma amostra particular será constituída de uma sequência de sucessos e fracassos, ou, alternativamente, de uns e zeros.
- Por exemplo, repetindo um ensaio Bernoulli 5 vezes ($n=5$), uma possibilidade de resultado é FSFFS.
- A probabilidade deste evento ocorrer é $(1-p)p(1-p)(1-p)p$ ou $(1-p)^3p^2$.

Distribuição Binomial

Obtenhamos, agora, $P(X=k)$, ou seja, numa sequência de $n$ ensaios de Bernoulli, a probabilidade de obter $k$ sucessos (e portanto $n-k$ fracassos), $k=0,1,2,\cdots,n$ com $P(S) = p$, $P(F) = 1 - p = q$.
A probabilidade de uma dada sequência é \[p^k(1-p)^{n-k}\] portanto resta saber quantas sequências com a propriedade especificada podemos formar.
É fácil de verificar que existem \[\binom{n}{k}=\frac{n!}{k!(n-k)!}\] tais sequências, de modo que \[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n \]

Definição de uma Variável Aleatória Binomial

A variável aleatória $X$, correspondente ao número de sucessos num experimento binomial, tem distribuição binomial $b(n, p)$, com função de probabilidade

\[ b(n;k,p)=P(X=k|n,p) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n \]

Exemplo – Distribuição Binomial (Basquete)

Enunciado:
Um jogador acerta 70% de seus arremessos ($p = 0.7$).
Ele tenta 10 arremessos ($n = 10$).

Qual a probabilidade de ele acertar exatamente 8 cestas?

Pensamento Intuitivo

Cada arremesso:
- Acerto $= 0,7$
- Erro $= 0,3$
Queremos 8 acertos e 2 erros em 10 arremessos.
Exemplo de sequência possível:
AAAAAAAAXX (8 acertos seguidos, 2 erros no final).
Probabilidade dessa sequência:
$(0,7)^8 \cdot (0,3)^2$

Quantidade de Sequências Possíveis

Não importa a ordem, apenas o total.
Quantas formas de escolher 8 acertos em 10 tentativas?
$\binom{10}{8} = 45$
Probabilidade total =
$45 \times (0,7)^8 \times (0,3)^2 \approx 23,3\%$
Ideia central:
“Probabilidade de uma sequência específica × número de sequências possíveis”

Resolução baseada na fórmula

Fórmula da Binomial:

\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]

Substituindo $n = 10$, $k = 8$, $p = 0.7$:

\[ P(X=8) = \binom{10}{8} (0.7)^8 (0.3)^2 \]

Cálculo Numérico

$\binom{10}{8} = 45$
$(0.7)^8 \approx 0.05765$
$(0.3)^2 = 0.09$

\[ P(X=8) \approx 45 \times 0.05765 \times 0.09 \approx 0.233 \]

Resposta

✅ A probabilidade de o jogador acertar exatamente 8 em 10 arremessos é:

\[ P(X=8) \approx 23,3\% \]

Propriedades de uma v.a. com distribuição Binomial

Parâmetros: $n$ (tamanho da amostra), $p$ (probabilidade de sucesso).
Valor esperado:

\[ E[X] = np \]

Variância:

\[ Var(X) = np(1-p) \]

Simetria: quando $p=0,5$, a distribuição é simétrica.

Assimetria: se $p \neq 0,5$, a distribuição fica enviesada para a direita ($p<0,5$) ou para a esquerda ($p>0,5$).

Shiny applications not supported in static R Markdown documents

Exemplo

Se $X \sim b(n, p)$, sabendo-se que $E(X) = 12$ e $\sigma^2=3$, determinar:

$n$
$p$
$E(Z)$ e $Var(Z)$, em que $Z = (X-12)/\sqrt{3}$
$P(Y ≥ 14/16)$, em que $Y = X/n$
$P(Y ≥ 12/16)$, em que $Y = X/n$

Distribuição Hipergeométrica

Considere uma população finita com $N$ objetos, dos quais $r$ têm um atributo $A$ e $N-r$ não têm. Retira-se ao acaso uma amostra de tamanho $n$ sem reposição. Seja $X$ o número de itens na amostra que têm o atributo $A$.

A distribuição de $X$ é chamada hipergeométrica com parâmetros $N,r,n$ e tem função de probabilidade

\[ P(X=k) = p_k = \frac{\displaystyle\binom{r}{k}\binom{N-r}{\,n-k\,}}{\displaystyle\binom{N}{n}}, \qquad \max(0,\,n-N+r)\le k \le \min(r,n). \]

Observações sobre o suporte

Os limites em $k$ são \[ a=\max(0,\,n-N+r),\qquad b=\min(r,n). \]
Interpretação: $\binom{r}{k}$ conta como escolher (k) itens com atributo (A) e $\binom{N-r}{n-k}$ como escolher os restantes da amostra entre os não-atributos; o denominador $\binom{N}{n}$ normaliza pelas amostras possíveis (universo de possibilidades).

🎯 Exemplo

Temos uma urna com 20 bolas:
- 7 vermelhas (sucessos)
- 13 azuis (fracassos)
Retiramos 5 bolas sem reposição
Queremos saber:
👉 Qual a probabilidade de obter exatamente 2 vermelhas?

📘 Definição da Distribuição

A variável aleatória $X \sim \text{Hipergeométrica}(N, K, n)$ representa o número de sucessos em uma amostra sem reposição.

$N = 20$: tamanho da população
$K = 7$: número de sucessos na população
$n = 5$: tamanho da amostra
$X = k$: número de sucessos observados

🧮 Fórmula da Probabilidade

[ P(X = k) = ]

Substituindo os valores:

[ P(X = 2) = ]

🔍 Interpretação Intuitiva

$\binom{7}{2}$: formas de escolher 2 vermelhas entre 7
$\binom{13}{3}$: formas de escolher 3 azuis entre 13
$\binom{20}{5}$: todas as formas de escolher 5 bolas da urna

[ P(X = 2) = ]

➡️ Há cerca de 38.7% de chance de obter exatamente 2 vermelhas.

Faixa de Valores Possíveis

A variável ( X ) pode assumir valores entre:

[ (0, n - (N - K)) k (n, K) ]

No nosso exemplo:

[ (0, 5 - 13) = 0,(5, 7) = 5 ]

➡️ Então $X \in \{0,1,2,3,4,5\}$

Por que não é binomial?

Na binomial, cada retirada é independente (com reposição)
Na hipergeométrica, cada retirada altera a composição da urna

➡️ Isso gera dependência entre os eventos e exige uma fórmula combinatória.

Esperança e Variância

Definindo $p=\dfrac{r}{N}$ (fração de itens com atributo $A$ na população, tem-se

\[ E[X] = n p. \]

A variância incorpora o fator de correção finita (porque extração é sem reposição):

\[ \operatorname{Var}(X) = n p (1-p)\,\frac{N-n}{N-1}. \]

Exemplo (Auditoria):
- $N=100$ instituições financeiras.
- $r=12$ apresentam risco.
- Selecionamos $n=8$ para auditoria.
- Seja $X =$ nº de instituições de risco encontradas.

Então: $X \sim \text{Hipergeométrica}(N=100, r=12, n=8)$

Cálculo numérico (exemplo):
- $E[X] = 8 \cdot 0.12 = 0.96$
- $\mathrm{Var}(X) \approx 0.785$

Interpretação:
Em média, espera-se encontrar cerca de 1 instituição de risco na amostra.
A variância indica o grau de incerteza deste resultado.

Distribuição de Poisson

Definição.
Uma variável aleatória $X$ tem distribuição de Poisson com parâmetro $\lambda>0$ se:

\[ P(X=k) = \frac{e^{-\lambda}\lambda^k}{k!}, \qquad k = 0,1,2,\dots \]

Aqui $\lambda$ é a taxa média de ocorrências no intervalo (por ex., por unidade de tempo ou por unidade de área).

Propriedades importantes.

Esperança: $E[X]=\lambda$.
Variância: $\operatorname{Var}(X)=\lambda$.
A Poisson modela eventos raros, independentes, com taxa média constante.

Exemplo — chegadas a uma agência bancária

Contexto.
Uma agência bancária observa, em média, $\lambda=6$ clientes chegando por hora durante o horário de pico.

Perguntas: 1. Qual a probabilidade de chegar exatamente $k=8$ clientes em uma hora? 2. Qual a probabilidade de chegar pelo menos 8 clientes em uma hora?

Cálculo (Poisson): - Exatamente 8: \[ P(X=8) = \frac{e^{-6} 6^8}{8!} \approx 0.122 \]

Pelo menos 8: \[ P(X\ge 8) = 1 - \sum_{k=0}^{7}\frac{e^{-6}6^k}{k!}. \]

Interpretação prática.
Se $P(X\ge8)\approx 0{,}256$, então em cerca de 25% das horas de pico a agência terá 8 ou mais chegadas — informação útil para dimensionar filas e pessoal.

🎯 Relação Poisson ↔︎ Hipergeométrica

Hipergeométrica: modela número de sucessos em amostragem sem reposição
Poisson: modela número de eventos em um intervalo fixo com taxa média constante

🔍 Onde elas se encontram

A Poisson pode aproximar a hipergeométrica quando:

$N$ é muito grande
$\frac{K}{N}$ é pequeno
$n$ é pequeno em relação a $N$

➡️ A dependência entre retiradas na hipergeométrica se torna irrelevante
➡️ O comportamento se aproxima de uma Poisson com ( = n )

🧪 Exemplo ilustrativo

População: $N = 10,000$
Sucessos: $K=100$
Amostra: $n = 10$

Hipergeométrica:

[ [X] = n = 10 = 0.1 ]

Aproximação Poisson:

[ Y (0.1) ]

➡️ A distribuição de ( X ) se comporta como uma Poisson com média 0.1

📊 Intuição Visual

Hipergeométrica: depende da composição da população
Poisson: depende apenas da taxa média ( )

➡️ Quando a população é grande e os sucessos são raros, a Poisson simplifica o problema

Variáveis Aleatórias Contínuas

1) Do discreto ao contínuo

Em variáveis discretas, atribuimos probabilidades a pontos: ex. para a uniforme discreta em $n$ pontos temos \[ P(X = x_i) = \frac{1}{n},\qquad i=0,\dots,n. \]
Para passar a um modelo contínuo (por ex., ponteiro de relógio elétrico que pode parar em qualquer instante), cada ponto tem probabilidade zero, e usamos uma densidade $f(x)$ tal que a probabilidade em um intervalo $[a,b)$ é \[ P(a \le X < b) = \int_a^b f(x)\,dx. \]
Exemplo particular: uniforme no intervalo $[0,360)$: \[ f(x) = \frac{1}{360},\qquad 0 \le x < 360. \]

2) Como a aproximação funciona

Divida $[0,360)$ em $n$ subintervalos de largura $\Delta = 360/n$.
Se atribuirmos a cada subintervalo a altura $f(x)=1/360$, a área do subintervalo é \[ \text{área} = \Delta \times \frac{1}{360} = \frac{1}{n}, \] que é exatamente a probabilidade de cada ponto discreto.
À medida que $n\to\infty$, as barras estreitas e de altura constante formam a curva contínua $f(x)=1/360$.

Shiny applications not supported in static R Markdown documents

Variável Aleatória Contínua – Definição

Uma variável aleatória contínua $X$ pode assumir infinitos valores reais dentro de um intervalo.
Sua probabilidade é descrita por uma função densidade de probabilidade (f.d.p.) $f(x)$, que satisfaz:

\[ f(x) \geq 0, \quad \int_{-\infty}^{\infty} f(x)\,dx = 1 \]

Probabilidade de um intervalo: \[ P(a \leq X \leq b) = \int_a^b f(x)\, dx \]

⚠️ Importante:
\[ P(X = x_0) = 0 \]
porque a densidade só tem significado em intervalos.

Valor Esperado (Média)

Para v.a. contínua $X$ com f.d.p. $f(x)$:

\[ E[X] = \int_{-\infty}^{\infty} x \, f(x)\, dx \]

Interpretação:
- “Média de longo prazo” dos valores de $X$.
- Centro de gravidade da distribuição de probabilidade.
Analogia com o caso discreto:
- Discreto: $E[X] = \sum x_i p(x_i)$
- Contínuo: $E[X] = \int x f(x) dx$

Variância

Medida de dispersão em torno da média:

\[ Var(X) = E[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x)\, dx \]

Fórmula prática:

\[ Var(X) = E[X^2] - (E[X])^2 \]

Desvio-padrão: $\sigma = \sqrt{Var(X)}$.

Função de Distribuição Acumulada

Para uma v.a. contínua $X$ com f.d.p. $f(x)$, define-se:

\[ F(x) = P(X \leq x) = \int_{-\infty}^x f(t)\,dt \]

Propriedades:
- $F(x)$ é não decrescente.
- $\lim_{x \to -\infty} F(x) = 0$.
- $\lim_{x \to +\infty} F(x) = 1$.
- $F(x)$ é contínua à direita.

Relação entre f.d.p. e f.d.a.

A f.d.a. é a acumulação da densidade até $x$.
Se $F(x)$ é derivável em $x$:

\[ f(x) = \frac{d}{dx}F(x) \]

Probabilidade de um intervalo:

\[ P(a \leq X \leq b) = F(b) - F(a) \]

➡️ A f.d.a. torna o cálculo de probabilidades mais prático, evitando integrais repetitivas.

Shiny applications not supported in static R Markdown documents

Modelo Uniforme (Definição)

Variável aleatória contínua $X \sim U(a,b)$
Espaço amostral: intervalo $[a,b]$
Todos os pontos são igualmente prováveis

\[ f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{caso contrário} \end{cases} \]

Função de distribuição acumulada (f.d.a.):

\[ F(x) = \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \leq x \leq b \\ 1, & x > b \end{cases} \]

Propriedades do Modelo Uniforme

Valor esperado (média): \[ E[X] = \frac{a+b}{2} \]
Variância: \[ Var(X) = \frac{(b-a)^2}{12} \]
Interpretação:
- Média = ponto médio do intervalo.
- Variância = cresce com o comprimento do intervalo.

Exemplo Econômico – Salários

Suponha que os salários (em milhares de R$) de trabalhadores de um setor sejam distribuídos uniformemente no intervalo $[2, 6]$.

f.d.p.: \[ f(x) = \begin{cases} \frac{1}{6-2} = \tfrac{1}{4}, & 2 \leq x \leq 6 \\ 0, & \text{caso contrário} \end{cases} \]
Média: \[ E[X] = \int_2^6 x \cdot \tfrac{1}{4}\, dx = \tfrac{1}{4}\left[\tfrac{x^2}{2}\right]_2^6 = \tfrac{1}{4}\left(\tfrac{36}{2} - \tfrac{4}{2}\right) = 4 \]
Variância: \[ E[X^2] = \int_2^6 x^2 \cdot \tfrac{1}{4}\, dx = \tfrac{1}{4}\left[\tfrac{x^3}{3}\right]_2^6 = \tfrac{1}{4}\left(\tfrac{216}{3} - \tfrac{8}{3}\right) = \tfrac{52}{3} \]

\[ Var(X) = E[X^2] - (E[X])^2 = \tfrac{52}{3} - 16 = \tfrac{4}{3} \]

➡️ Interpretação: - Salário médio = R$ 4.000,00
- Variabilidade (DP ≈ 1.15 mil R$) em torno desse valor.

Exemplo Intuitivo

🎲 Um ônibus passa em um ponto a cada 20 minutos.
- Chego ao ponto em um horário aleatório.
- O tempo de espera $X \sim U(0,20)$.

Probabilidade de esperar até 5 minutos: \[ P(X \leq 5) = \frac{5-0}{20-0} = 0,25 \]
Valor esperado da espera: \[ E[X] = \frac{0+20}{2} = 10 \text{ minutos} \]

O Modelo Normal

A distribuição normal é a mais importante da estatística.
Aparece naturalmente em fenômenos de diferentes áreas:
- Alturas e pesos em populações.
- Erros de medição.
- Retornos financeiros.
- Desempenho escolar e cognitivo.
Justificativas:
- Teorema Central do Limite: a soma de muitas variáveis aleatórias tende a ser normal.
- Modelagem prática: simplifica a inferência estatística.

Definição Formal

Uma variável aleatória $X$ tem distribuição Normal com média $\mu$ e variância $\sigma^2$ se sua função densidade de probabilidade (f.d.p.) é:

\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty \]

Notação:
$X \sim N(\mu, \sigma^2)$

Parâmetros: - $\mu$: média (posição da curva). - $\sigma^2$: variância (dispersão da curva).

Momentos

Se $X \sim N(\mu, \sigma^2)$:

Média: $E[X] = \mu$
Variância: $Var(X) = \sigma^2$
Moda: $\mu$
Mediana: $\mu$

➡️ Os três valores coincidem (média, moda e mediana).

A curva é:
- Simétrica em torno de $\mu$.
- Mais concentrada quanto menor $\sigma$.

Shiny applications not supported in static R Markdown documents

Distribuição Normal Padrão

Definição:

\[ Z = \frac{X - \mu}{\sigma} \]

Então $Z \sim N(0,1)$, com f.d.p.:

\[ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2} \]

Média: $E[Z] = 0$
Variância: $Var(Z) = 1$

➡️ A normal padrão é fundamental, pois todas as normais podem ser reduzidas a ela.

Função de Distribuição Acumulada (FDA)

A FDA da normal é:

\[ F(x) = P(X \leq x) = \int_{-\infty}^x f(t)\,dt \]

Não tem forma fechada (usa-se tabelas ou software).
Denotada por $\Phi(z)$ para a normal padrão.

Probabilidade em Intervalos

Queremos calcular:

\[ P(a \leq X \leq b) = \int_a^b f(x)\,dx \]

Padronizando:

\[ P(a \leq X \leq b) = \Phi\!\left(\frac{b - \mu}{\sigma}\right) - \Phi\!\left(\frac{a - \mu}{\sigma}\right) \]

➡️ Diferença de áreas sob a curva normal.

Ilustração – Área sob a Curva

Quando a Binomial vira Normal

A distribuição binomial $X \sim \text{Bin}(n, p)$ é discreta: conta sucessos em $n$ tentativas
A distribuição normal $Y \sim \mathcal{N}(\mu, \sigma^2)$ é contínua: modela variações suaves em torno da média

🔁 Conexão:

Quando $n$ é grande, a binomial se aproxima da normal com média $\mu = np$ e variância $\sigma^2 = p(1-p)$

➡️ Isso é garantido pelo Teorema do Limite Central

Intuição Visual

Com poucos ensaios, a binomial é “irregular” e assimétrica
Com muitos ensaios, ela se suaviza e se torna simétrica
A curva da normal aparece como uma aproximação contínua da binomial

Shiny applications not supported in static R Markdown documents

Exemplo

Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos normalmente, com média de $ l0.000,00 e desvio padrão de $ 1.500,00. Um depósito é selecionado ao acaso dentre todos os referentes ao mês em questão. Encontrar a probabilidade de que o depósito seja:

$ 10.000,00 ou menos;
pelo menos $ 10.000,00;
um valor entre $ 12.000,00 e $ 15.000,00;
maior do que $ 20.000,00.

Distribuição Qui-Quadrado

Uma variável aleatória $X$ tem distribuição Qui-Quadrado com $k$ graus de liberdade se sua função densidade é:

\[ f(x) = \begin{cases} \frac{1}{2^{k/2}\Gamma(k/2)} x^{\tfrac{k}{2}-1} e^{-x/2}, & x > 0 \\ 0, & x \leq 0 \end{cases} \]

Notação: $X \sim \chi^2(k)$
Parâmetro: $k$ = graus de liberdade ($k \in \mathbb{N}$).
A função $\Gamma(\cdot)$ generaliza o fatorial: $\Gamma(n) = (n-1)!$.

A Função Gama

A função $\Gamma(z)$ é definida, para $z>0$, como:

\[ \Gamma(z) = \int_0^\infty t^{z-1} e^{-t} \, dt \]

Propriedade de recorrência: \[ \Gamma(z+1) = z \, \Gamma(z) \]
Relação com o fatorial: \[ \Gamma(n) = (n-1)! \quad \text{para } n \in \mathbb{N} \]

Exemplos e Intuição

$\Gamma(1) = 0! = 1$
$\Gamma(2) = 1! = 1$
$\Gamma(3) = 2! = 2$
$\Gamma(4) = 3! = 6$
Também vale para não inteiros:
\[ \Gamma\!\left(\tfrac{1}{2}\right) = \sqrt{\pi} \]

Intuição

O fatorial clássico só faz sentido para números inteiros.
A função $\Gamma(\cdot)$ estende a ideia de fatorial para valores reais positivos.
Isso permite definir distribuições estatísticas (Qui-Quadrado, t, F, Gama) com parâmetros não inteiros.

Interpretação Importante

Sejam $Z_1, Z_2, \dots, Z_k$ variáveis normais padrão independentes ($Z_i \sim N(0,1)$).
Então, a variável \[ X^2 = Z_1^2 + Z_2^2 + \dots + Z_k^2 \] segue uma distribuição Qui-Quadrado com $k$ graus de liberdade.

➡️ Intuição: a $\chi^2$ mede a soma de “pequenos desvios aleatórios” ao quadrado.
➡️ Quanto maior $k$, mais “simétrica” e parecida com a normal a distribuição se torna.

Propriedades e Aplicações

Momentos: - Valor esperado: $E[X] = k$ - Variância: $Var(X) = 2k$

Características: - Assimétrica à direita para $k$ pequeno.
- Torna-se aproximadamente normal quando $k$ é grande.

Aplicações:

Simulações de jogos de azar (variação acumulada).
IA e machine learning: medir discrepâncias entre dados e modelo.

Exemplo

Suponha que um pesquisador analise a variação do consumo mensal em uma amostra de 10 famílias.
Cada desvio em relação à média do consumo é padronizado e elevado ao quadrado.

Se $Z_i \sim N(0,1)$ representar cada desvio padronizado, então: \[ X = \sum_{i=1}^{10} Z_i^2 \sim \chi^2(10) \]

Valor esperado: $E[X] = 10$
Variância: $Var(X) = 20$

Interpretação:
O valor de $X$ mede “o quanto” os consumos se afastam da média em termos de variabilidade padronizada.
Se $X$ estiver muito acima de 10, indica que as famílias são mais heterogêneas no consumo do que o esperado.
Se $X$ estiver muito abaixo de 10, indica homogeneidade incomum.

Shiny applications not supported in static R Markdown documents

Distribuição t de Student

Seja $Z \sim N(0,1)$ e $U \sim \chi^2(\nu)$, independentes.
Define-se a variável aleatória:

\[ T = \frac{Z}{\sqrt{U / \nu}} \]

Então $T$ segue a distribuição t de Student com $\nu$ graus de liberdade.
Notação: $T \sim t(\nu)$.

Propriedades Principais

A distribuição $t(\nu)$ é simétrica em torno de 0, como a Normal.
Possui caudas mais pesadas que a Normal padrão → maior probabilidade de valores extremos.
À medida que $\nu \to \infty$, $t(\nu) \to N(0,1)$.
Média: $E[T] = 0$ (para $\nu > 1$).
Variância:
- $Var(T) = \dfrac{\nu}{\nu - 2}$ para $\nu > 2$.
- Não definida para $\nu \leq 2$.

Exemplo

🎯 Supomos que queremos avaliar o retorno médio da educação.

Temos apenas 12 observações de salários de indivíduos formados em economia.
A população é grande, mas nossa amostra é pequena.

Como a variabilidade é alta e $n$ é pequeno, a distribuição amostral da média segue aproximadamente uma t de Student (não Normal).

➡️ Assim, a t é crucial para análises com amostras pequenas.

Aplicações

Estudos com amostras pequenas (ex.: retornos de um setor muito específico).
Comparações entre grupos em experimentos pilotos.
Amostras pequenas em esportes: pontuação média em apenas 5 jogos de playoffs.
Experimentos caseiros: medir a velocidade de sua internet 10 vezes → média segue t, não Normal.

Shiny applications not supported in static R Markdown documents

Distribuição F de Snedecor

Seja $U_1 \sim \chi^2(\nu_1)$ e $U_2 \sim \chi^2(\nu_2)$, independentes.
Define-se a variável aleatória:

\[ F = \frac{U_1 / \nu_1}{U_2 / \nu_2} \]

Então $F$ segue a distribuição F de Snedecor com $(\nu_1, \nu_2)$ graus de liberdade.
Notação: $F \sim F(\nu_1, \nu_2)$.

Propriedades Principais

Assimétrica e não negativa ($F \geq 0$).
Média: $E[F] = \dfrac{\nu_2}{\nu_2 - 2}$ para $\nu_2 > 2$.
Variância: mais complexa; definida para $\nu_2 > 4$.
Relação com outras distribuições:
- $t^2(\nu) \sim F(1,\nu)$.
- Surge naturalmente em razão de variâncias.

Exemplo

🎯 Queremos comparar a variabilidade do retorno de duas carteiras de ações:

Carteira A: 10 ativos de tecnologia.
Carteira B: 12 ativos do setor financeiro.

Testamos se as variâncias dos retornos são iguais.

➡️ A estatística usada é a razão de duas variâncias amostrais, que segue aproximadamente uma distribuição F.

Aplicações

Comparar variabilidade de setores diferentes (ex.: volatilidade de ações).
Avaliar modelos econométricos (razões de variâncias residuais).
Comparar a variabilidade do tempo de 2 amigos no videogame 🎮.
Avaliar se dois times têm a mesma consistência de desempenho em uma temporada ⚽🏀.

Shiny applications not supported in static R Markdown documents

Variáveis Aleatórias Multidimensionais

Até agora trabalhamos com variáveis aleatórias univariadas ($X$).
Muitas aplicações exigem modelar duas ou mais variáveis simultaneamente: $(X,Y)$.
Exemplos em economia: renda e consumo, produção agrícola e industrial, preço e quantidade.
Objetivos desta sessão:
1. Definir distribuição conjunta;
2. Extrair distribuições marginais;
3. Construir distribuições condicionais;
4. Entender independência no contexto conjunto.

Exemplo básico (discreto) — cenário econômico simples

Considere dois setores numa economia pequena:

$X$ = produção agrícola: Baixa $(0)$ ou Alta $(1)$
$Y$ = produção industrial: Baixa $(0)$ ou Alta $(1)$

A distribuição conjunta (pmf) é dada pela tabela abaixo:

$X \backslash Y$	$Y=0$	$Y=1$	Total
$X=0$	0.20	0.30	0.50
$X=1$	0.10	0.40	0.50
Total	0.30	0.70	1.00

Interpretação: por exemplo, $P(X=0, Y=1)=0.30$ é a probabilidade de agricultura baixa e indústria alta.

Definição formal (discreto)

A distribuição conjunta de $(X,Y)$ é a função \[ p_{X,Y}(x,y) = P(X=x,\,Y=y) \] tal que $\sum_{x}\sum_{y} p_{X,Y}(x,y)=1$.
No exemplo: $p_{00}=0.20,\; p_{01}=0.30,\; p_{10}=0.10,\; p_{11}=0.40$.

Distribuições marginais (discreto)

A distribuição marginal de $X$ é obtida somando a conjunta sobre $y$: \[ p_X(x) = \sum_y p_{X,Y}(x,y). \]
A distribuição marginal de $Y$ é obtida somando a conjunta sobre $x$: \[ p_Y(y) = \sum_x p_{X,Y}(x,y). \]

Aplicando ao exemplo:

$p_X(0)=0.20+0.30=0.50,\quad p_X(1)=0.10+0.40=0.50$
$p_Y(0)=0.20+0.10=0.30,\quad p_Y(1)=0.30+0.40=0.70$.

Intuição: marginais dão a probabilidade de uma variável independentemente da outra.

Distribuições condicionais (discreto)

A distribuição conditional de $X$ dado $Y=y$: \[ p_{X\mid Y}(x\mid y) = \frac{p_{X,Y}(x,y)}{p_Y(y)}, \quad \text{se } p_Y(y)>0. \]
Similarmente: \[ p_{Y\mid X}(y\mid x) = \frac{p_{X,Y}(x,y)}{p_X(x)}. \]

Exemplos numéricos no nosso caso:

$P(X=1\mid Y=1)=\dfrac{p_{11}}{p_Y(1)}=\dfrac{0.40}{0.70}\approx 0.571$.
$P(Y=0\mid X=0)=\dfrac{p_{00}}{p_X(0)}=\dfrac{0.20}{0.50}=0.4$.

Interpretação: condicionais mostram como o conhecimento de $Y$ altera a incerteza sobre $X$.

Independência

$X$ e $Y$ são independentes se, para todos $x,y$, \[ p_{X,Y}(x,y) = p_X(x)\, p_Y(y). \]
Equivalente: $p_{X\mid Y}(x\mid y)=p_X(x)$ para todo $y$ (quando $p_Y(y)>0$).

Verificação no exemplo:

Compare $p_{11}=0.40$ com $p_X(1)p_Y(1)=0.50\times0.70=0.35$.
Como $0.40 \neq 0.35$, $X$ e $Y$ não são independentes neste exemplo.

Extensão: caso contínuo (densidades)

Para variáveis contínuas com densidade conjunta $f_{X,Y}(x,y)$:

Marginais: \[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\, dy, \qquad f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\, dx. \]
Condicionais: \[ f_{X\mid Y}(x\mid y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}, \quad f_{Y\mid X}(y\mid x) = \frac{f_{X,Y}(x,y)}{f_X(x)}, \] quando os denominadores são positivos.
Independência: $f_{X,Y}(x,y)=f_X(x)f_Y(y)$ para todos $x,y$.

(Obs.: as integrais substituem as somas do caso discreto — mesma ideia, apenas com áreas.)

Exemplo - Distribuição contínua

Considere duas variáveis contínuas relacionadas à produção em uma economia simples:

(X): produtividade agrícola (ton/ha), variável em $[0,1]$.
(Y): produtividade industrial (unid./hora), variável em $[0,1]$.

Definimos a densidade conjunta:

$f_{X,Y}(x,y) = x + y,\qquad 0\le x\le1,;0\le y\le 1$, e $f_{X,Y}(x,y)=0$ fora deste quadrado.

Primeiro verifique que é uma pdf válida: \[\iint_{[0,1]^2} (x+y),dx,dy = \int_0^1\int_0^1 x,dx,dy + \int_0^1\int_0^1 y,dy,dx = \tfrac12 + \tfrac12 = 1.\]

1) Densidades marginais

Calculemos as marginais por integração:

\[\begin{aligned} f_X(x) &= \int_0^1 (x+y)\,dy = x + \tfrac12, \quad 0\le x\le1,\\[4pt] f_Y(y) &= \int_0^1 (x+y)\,dx = y + \tfrac12, \quad 0\le y\le1. \end{aligned}\]

Verificação: $\int_0^1 (x+\tfrac12),dx = \tfrac12 + \tfrac12 = 1$.

2) Densidades condicionais

As condicionais $f_{X\mid Y}$ e $f_{Y\mid X}$ obtêm-se dividindo a conjunta pela marginal:

\[\begin{aligned} f_{X\mid Y}(x\mid y) &= \frac{x+y}{y+\tfrac12},\qquad 0\le x\le1,\\[4pt] f_{Y\mid X}(y\mid x) &= \frac{x+y}{x+\tfrac12},\qquad 0\le y\le1. \end{aligned}\]

Observação: as condicionais dependem do valor condicionado, portanto há dependência entre $X$ e $Y$.

3) Probabilidades numéricas (exemplos)

(a) $P(X<0.5)$

$P(X<0.5)=\int_0^{0.5} f_X(x),dx = \int_0^{0.5} (x+\tfrac12),dx = \left[\tfrac{x^2}{2} + \tfrac{x}{2}\right]_0^{0.5} = 0.125 + 0.25 = 0.375$

(b) $P(X<0.5,Y>0.7)$

\[\begin{aligned} P(X<0.5,\,Y>0.7) &=\int_{x=0}^{0.5}\int_{y=0.7}^{1} (x+y)\,dy\,dx \\ &=\int_0^{0.5}\Big(x(1-0.7) + \tfrac{1^2-0.7^2}{2}\Big)dx \\ &=\int_0^{0.5} (0.3x + 0.255)\,dx = 0.0375 + 0.1275 = 0.165. \end{aligned}\]

(c) Probabilidade condicional $P(Y>0.7 \mid X=0.4)$

A densidade condicional é $f_{Y\mid X}(y\mid 0.4)=(0.4+y)/(0.4+0.5)=(0.4+y)/0.9).$ Então

\[\begin{aligned} P(Y>0.7 \mid X=0.4) &=\int_{0.7}^1 \frac{0.4+y}{0.9}\,dy =\frac{1}{0.9}\Big[0.4y + \tfrac{y^2}{2}\Big]_{0.7}^1 \\ &=\frac{0.375}{0.9} \approx 0.4167. \end{aligned}\]

Compare com a marginal $P(Y>0.7)=\int_{0.7}^1 (y+\tfrac12),dy = 0.405$ . Note que a condicional é ligeiramente maior, ilustrando dependência.

Visualizador interativo — escolha um retângulo e calcule a probabilidade

Shiny applications not supported in static R Markdown documents

Funções de Variáveis Aleatórias

Em variáveis aleatórias multidimensionais, muitas vezes estamos interessados em novas variáveis obtidas como função de outras:

\[Z=g(X,Y)\]

Exemplos:

Receita = preço $\times$ quantidade.
Retorno de portfólio = soma ponderada de retornos individuais.

Caso Discreto – Exemplo

Suponha a seguinte distribuição conjunta de $(X,Y)$:

$X$	$Y$	$P(X,Y)$
1	1	0.2
1	2	0.3
2	1	0.1
2	2	0.4

Defina a função:

\[ Z=g(X,Y)=X+Y \]

Valores possíveis de (Z):

Se $(X,Y)=(1,1)$, então $Z=2$.

Se $(X,Y)=(1,2)$ ou $(2,1)$, então $Z=3$.
Se $(X,Y) = (2,2)$, então $Z=4$.

Distribuição de (Z):

$P(Z=2)=0.2$.
$P(Z=3)=0.3+0.1=0.4$.
$P(Z=4)=0.4$.

Exemplo discreto (recordando)

Distribuição conjunta de $(X,Y)$:

$X$	$Y$	$P(X,Y)$
1	1	0.20
1	2	0.30
2	1	0.10
2	2	0.40

Lembrete: as marginais são $p_X(1)=0.5, p_X(2)=0.5$ e $p_Y(1)=0.3, p_Y(2)=0.7$.

Esperança de $X$ e $Y$

Calculemos $E[X]$ e $E[Y]$:

\[\begin{aligned} E[X] &= 1\cdot p_X(1) + 2\cdot p_X(2) = 1\cdot0.5 + 2\cdot0.5 = 1.5,\\[4pt] E[Y] &= 1\cdot p_Y(1) + 2\cdot p_Y(2) = 1\cdot0.3 + 2\cdot0.7 = 1.7. \end{aligned}\]

Interpretação: em média $X=1.5$ e $Y=1.7$ nas unidades escolhidas.

Linearidade da esperança:

Verificação direta neste exemplo:

Cálculo direto de $E[X+Y]$:

\[\begin{aligned} E[X+Y] &= \sum_{x}\sum_{y} (x+y)\, p_{X,Y}(x,y) \\ &= (1+1)\cdot0.20 + (1+2)\cdot0.30 + (2+1)\cdot0.10 + (2+2)\cdot0.40 \\ &= 0.40 + 0.90 + 0.30 + 1.60 = 3.20. \end{aligned}\]

Comparando com $E[X]+E[Y]=1.5 + 1.7 = 3.2$: confirmado.

Regra geral (linearidade): para quaisquer v.a. $X,Y$ (discretas ou contínuas) \[E[X+Y]=E[X]+E[Y]\]

Mais geralmente, para constantes $a,b$: $E[aX + bY] = a E[X] + b E[Y]$.

Produto $E[XY]$ no exemplo

Considere agora $g(X,Y)=XY$.

Calculemos $E[XY]$ pela definição:

\[\begin{aligned} E[XY] &= \sum_{x}\sum_{y} (xy)\, p_{X,Y}(x,y) \\ &= (1\cdot1)\cdot0.20 + (1\cdot2)\cdot0.30 + (2\cdot1)\cdot0.10 + (2\cdot2)\cdot0.40 \\ &= 0.20 + 0.60 + 0.20 + 1.60 = 2.60. \end{aligned}\]

Agora $E[X]E[Y] = 1.5 \times 1.7 = 2.55$.

Logo: $E[XY] = 2.60 \neq 2.55 = E[X]E[Y]$.

Quando vale $E[XY]=E[X]E[Y]$?

Proposição (independência): Se (X) e (Y) são independentes então \[E[XY] = E[X]E[Y].\]
- Prova: $E[XY] = \sum_x\sum_y xy,p_{X,Y}(x,y) = \sum_x\sum_y xy,p_X(x)p_Y(y) = (\sum_x x p_X(x))(\sum_y y p_Y(y))$.

Generalizações úteis

Linearidade geral: para quaisquer v.a.’s $X_1,\dots,X_n$ e constantes $a_i$, \[E\left(\sum_{i=1}^n a_i X_i\right) = \sum_{i=1}^n a_i E[X_i].\] Não é necessário independência para isto.
Produto de várias v.a.’s: se $X_1,\dots,X_n$ são mutuamente independentes, \[E\left(\prod_{i=1}^n X_i\right) = \prod_{i=1}^n E[X_i].\] Sem independência, não se pode fatorar.
Variância da soma (caso de dois): [ (X+Y) = (X) + (Y) + 2,(X,Y). ] Se (X) e (Y) forem independentes, ((X,Y)=0) e ((X+Y)=(X)+(Y)).

Covariância entre Duas Variáveis Aleatórias

A covariância mede a intensidade e direção da associação linear entre duas variáveis aleatórias $X$ e $Y$.

Definição formal:

\[ \operatorname{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])] \]

Forma equivalente:

\[ \operatorname{Cov}(X,Y) = E[XY] - E[X]E[Y] \]

Note que se $X$ e $Y$ forem independentes, $E[XY]=E[X]E[Y]\Rightarrow \operatorname{Cov}(X,Y)=0$

Interpretação

Cov(X,Y) > 0: valores altos de $X$ tendem a estar associados a valores altos de $Y$.
Cov(X,Y) < 0: valores altos de $X$ tendem a estar associados a valores baixos de $Y$.
Cov(X,Y) = 0: não há associação linear (mas não implica independência).

Unidade: produto das unidades de (X) e (Y).

Propriedades Importantes

Simetria:
\[\operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X).\]
Com relação a constantes:
\[\operatorname{Cov}(aX+b, Y) = a \cdot \operatorname{Cov}(X,Y).\]
Variância como caso particular:
\[\operatorname{Var}(X) = \operatorname{Cov}(X,X).\]
Linearidade:
\[\operatorname{Cov}(X+Z, Y) = \operatorname{Cov}(X,Y) + \operatorname{Cov}(Z,Y).\]

Exemplo 1 – Consumo e Renda

Suponha amostra de 4 famílias (em milhares de R$):

(X) (Renda)	(Y) (Consumo)	(P(X,Y))
2	1.5	0.2
3	2.5	0.3
4	3.5	0.3
5	4.0	0.2

$E[X] = \sum x p(x,y) = 3.5$
$E[Y] = \sum y p(x,y) = 2.95$
$E[XY] = \sum xy p(x,y) = 11.45$

\[ \operatorname{Cov}(X,Y) = E[XY] - E[X]E[Y] = 11.45 - (3.5)(2.95) = 1.125 \]

➡️ Covariância positiva: maiores rendas estão associadas a maiores consumos.

Relação com Variância

Sejam $X$ e $Y$ variáveis aleatórias quaisquer. Então:

\[ \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2 \operatorname{Cov}(X,Y) \]

Casos particulares:

Se $X$ e $Y$ são independentes:
\[\operatorname{Cov}(X,Y) = 0 \quad \Rightarrow \quad \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)\]
Para diferenças:
\[\operatorname{Var}(X-Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) - 2 \operatorname{Cov}(X,Y)\]

Limitações da Covariância

Depende da escala das variáveis (difícil de comparar entre pares de variáveis diferentes).
Para resolver isso, usamos a correlação: \[ \rho(X,Y) = \frac{\operatorname{Cov}(X,Y)}{\sigma_X \sigma_Y} \]

Propriedades:

$-1 \leq \rho_{X,Y} \leq 1$.
$\rho{X,Y} = 1$: relação linear positiva perfeita.
$\rho{X,Y} = -1$: relação linear negativa perfeita.
$\rho{X,Y} = 0$: ausência de relação linear (mas não implica independência).

Exemplo – Renda e Consumo

Distribuição conjunta (como antes):

$X$ (Renda)	$Y$ (Consumo)	$P(X,Y)$
2	1.5	0.2
3	2.5	0.3
4	3.5	0.3
5	4.0	0.2

Cálculos prévios:

$E[X] = 3.5$, $E[Y] = 2.95$.
$E[XY] = 11.45 \Rightarrow \operatorname{Cov}(X,Y) = 1.125$
$E[X^2] = 13.1 \Rightarrow \operatorname{Var}(X) = 0.85$.
$E[Y^2] = 9.435 \Rightarrow \operatorname{Var}(Y) = 0.735$.

Coeficiente de correlação:

\[ \rho_{X,Y} = \frac{1.125}{\sqrt{0.85}\,\sqrt{0.735}} \approx 0.99 \]

Interpretação:
- Correlação forte e positiva entre renda e consumo.
- Faz sentido economicamente: quanto maior a renda, maior tende a ser o consumo.
- Relação linear quase perfeita no exemplo simplificado.