Probabilidade como limite da frequência relativa de ocorrência de um evento: $$P(A) =\lim_{n \rightarrow \infty}\frac{f_A}{n}$$ onde \((f_A)\) é o número de vezes em que \(A\) ocorre em \(n\) repetições independentes.
Relação com a descrição empírica dos dados:
Histogramas de frequências mostram como a proporção de ocorrências se aproxima da probabilidade quando (n) cresce.
Probabilidade → modelo teórico; histograma → evidência empírica.
Espaço amostral: medir a altura (em cm) de adultos → \(\Omega = \{x \in \mathbb{R} : 140 \leq x \leq 210\}\).
Evento: adulto com altura entre 170 e 180 cm → \(A = \{x : 170 \leq x \leq 180\}\).
Definição de probabilidade contínua (com densidade)\[f(x): P(A) = \int_{170}^{180} f(x) dx\]
Diferença para o caso discreto:
Não negatividade:
\[ P(A) \geq 0 \]
Normalização:
\[ P(\Omega) = 1 \]
Aditividade (contável):
Se \(A_1, A_2, \dots\) são mutuamente exclusivos, então
\[ P\!\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i) \]
Evento impossível:
\[ P(\emptyset) = 0 \]
Complemento:
Para \(A \subset S\):
\[ P(A^c) = 1 - P(A) \]
Monotonicidade:
Se \(A \subset B\), então
\[ P(A) \leq P(B) \]
Adição para dois eventos quaisquer:
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]
Exemplo prático:
A probabilidade é uma medida definida sobre eventos.
Os axiomas asseguram que esta medida se comporte como esperado: não negativa, soma 1 e aditiva.
Por que os axiomas importam?
Áreas de aplicação:
Dada a ocorrência de um evento \(B\) com \(P(B) > 0\), a probabilidade de \(A\) condicionada a \(B\) é: \[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \]
Interpretação:
Não negatividade:
\[ P(A \mid B) \geq 0 \]
Normalização:
\[ P(B \mid B) = 1 \]
Aditividade:
Se \(A_1, A_2, \dots\) são mutuamente exclusivos, então
\[ P\!\left(\bigcup_i A_i \mid B\right) = \sum_i P(A_i \mid B) \]
Experimento: extrair uma carta de um baralho comum (52 cartas).
Pergunta: Qual a probabilidade de sair um Ás, sabendo que a carta é de Copas?
➡️ Neste caso, a probabilidade não mudou — os eventos são independentes.
Dois eventos \(A\) e \(B\) são independentes se a ocorrência de um não altera a probabilidade do outro:
\[
P(A \cap B) = P(A) \cdot P(B)
\]
Forma equivalente:
Intuição: saber que \(B\) ocorreu não traz informação sobre \(A\).
Experimento: lançar um dado justo.
Probabilidade condicional:
\[ P(A\mid B)=\frac{P(A\cap B)}{P(B)}=\frac{1/6}{1/3}=\tfrac{1}{2}=P(A). \]
➡️ \(A\) e \(B\) são independentes.
Experimento: lançar um dado justo.
Probabilidade condicional:
\[ P(A\mid B')=\frac{P(A\cap B')}{P(B')}=\frac{1/3}{1/2}=\tfrac{2}{3}\neq P(A). \]
➡️ \(A\) e \(B'\) são dependentes: saber que o número \(>3\) aumenta a chance de sair par.
Resumo: Independência é uma hipótese forte e essencial para simplificar cálculos de probabilidade e para o Teorema de Bayes.
O desafio: como calcular \(P(A \mid B)\) se sabemos apenas \(P(B \mid A)\)?
Se temos dois eventos complementares \(A\) (hipótese) e \(A^c\) (não hipótese), e observamos \(B\), então:
\[ P(A \mid B) = \frac{P(B \mid A) \, P(A)}{P(B \mid A) \, P(A) + P(B \mid A^c) \, P(A^c)} \]
➡️ Esse é o formato mais usado em aplicações práticas (ex.: doente vs. saudável, defeituoso vs. não-defeituoso).
Se \(A_1, A_2, \dots, A_k\) formam uma partição do espaço amostral (hipóteses possíveis) e \(B\) é um evento observável com \(P(B) > 0\), então:
\[ P(A_i \mid B) = \frac{P(B \mid A_i) \, P(A_i)}{\sum_{j=1}^k P(B \mid A_j) \, P(A_j)} \]
Um exame médico tem: - \(P(\text{Doente}) = 0,01\) (1% da população).
- \(P(\text{Teste+} \mid \text{Doente}) = 0,9\) (sensibilidade).
- \(P(\text{Teste+} \mid \text{Saudável}) = 0,05\) (falso positivo).
Pergunta: Qual a probabilidade de estar doente dado um teste positivo?
Numerador:
\[
P(\text{Doente} \mid \text{Teste+}) \propto
P(\text{Teste+} \mid \text{Doente}) \cdot P(\text{Doente})
= 0,9 \cdot 0,01 = 0,009
\]
Denominador:
\[
P(\text{Teste+}) = 0,9 \cdot 0,01 + 0,05 \cdot 0,99 = 0,009 + 0,0495 = 0,0585
\]
Resultado:
\[
P(\text{Doente} \mid \text{Teste+}) = \frac{0,009}{0,0585} \approx 0,154
\]
Moral:
- O Teorema de Bayes ajusta nossa intuição: a evidência deve ser ponderada pela frequência dos eventos.
- É a ponte entre probabilidade condicional e inferência estatística.
Em probabilidade, uma variável aleatória é uma função que mapeia os resultados de um experimento aleatório para números reais.
Existem dois tipos principais:
Variável aleatória discreta: assume valores contáveis (exemplo: número de desempregados em uma amostra).
Variável aleatória contínua: assume valores dentro de um intervalo contínuo (exemplo: taxa de retorno de um investimento).
Considere o lançamento de uma moeda duas vezes. Se C indicar cara e R indicar coroa, então um espaço amostral será
$$\Omega = \{ \omega_1, \omega_2, \omega_3, \omega_4\}$$
em que \(\omega_1=(C,C)\), \(\omega_2=(C,R)\), \(\omega_3=(R,C)\), \(\omega_4=(R,R)\).
Definamos a v.a. Y: número de caras obtidas nos dois lançamentos. Temos que: \[p(0)=P(Y=0)=P(RR)=1/4\] \[p(1)=P(Y=1)=P(CR \text{ ou }RC)=1/4+1/4=1/2\] \[p(2)=P(Y=2)=P(CC)=1/4\]
A distribuição da v.a. Y é dada por
| \(y\) | \(p(y)\) |
|---|---|
| 0 | 1/4 |
| 1 | 1/2 |
| 2 | 1/4 |
Dada a v.a. X discreta, assumindo os valores \(x_1,x_2, \cdots,x_n\), chamamos valor médio ou esperança matemática de X ao valor \[E(X)=\sum_{i=1}^n{x_i P(X=x_i)}=\sum_{i=1}^n{x_ip_i}\]
Chamamos de variância da v.a. X o valor
\[ Var(X)=\sum_{i=1}^n{[x_i-E(x_i)]^2p_i} \]
Dada a v.a. discreta \(X\) e a respectiva função de probabilidade \(p(x)\), a esperança matemática da função \(h(X)\) é dada por
\[ E[h(x)]=\sum{h(x_i)p(x_i)} \]
As seguintes propriedades podem ser facilmente demonstradas:
Se \(h(x)=aX+b\), onde \(a\) e \(b\) são constantes:
\(E(aX+b)=aE(X)+b\)
\(Var(aX+b)=a^2Var(X)\)
\(Var(X)=E(X^2)-[E(X)]^2=\sum{x_i^2p(x_i)}-[\sum{x_ip(x_i)]^2}\)
Notação: \(E(X)=\mu\) e \(Var(X)=\sigma^2\)
O tempo \(T\), em minutos, necessário para um operário processar certa peça é uma v.a. com a seguinte distribuição de probabilidade:
| t | 2 | 3 | 4 | 5 | 6 | 7 |
| p(t) | 0,1 | 0,1 | 0,3 | 0,2 | 0,2 | 0,1 |
Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos.
Portanto, um estudo pormenorizado dessas variáveis é de grande importância para a construção de modelos probabilísticos para situações reais e a consequente estimação de seus parâmetros.
🎲 Aplicações: - Jogos de tabuleiro (Monopoly, War).
- Simulação computacional (geradores pseudoaleatórios).
Pergunta: qual a chance de tocar sua música favorita na primeira tentativa?
- \(P = 1/10 = 0,1\).
💡 Observação: o algoritmo “shuffle” do Spotify teve que ser ajustado porque os usuários reclamavam que aleatório de verdade parecia não ser aleatório.
É fácil verificar que: \[E(X)=\frac{1}{n}\sum_{i=1}^{n}{x_i}\]
\[ Var(X)=\frac{1}{n}\{\sum{x_i^2}-\frac{(\sum{x_i})^2}{n}\} \]
A função de distribuição acumulada é dada por \[F(X)=\sum_{x_i\leq x}{\frac{1}{n}}=\frac{n(x)}{n}\] em que \(n(x)\) é o número de \(x_i\leq x\).
Muitos experimentos são tais que os resultados apresentam ou não uma determinada característica. Por exemplo:
uma moeda é lançada: o resultado ou é cara, ou não
um dado é lançado: ou ocorre face 5 ou não
uma peça é escolhida ao acaso de um lote contendo 500 peças: essa peça é defeituosa ou não
Para cada experimento acima, podemos definir uma v.a. \(X\), que assume apenas dois valores: 1, se ocorrer sucesso, e 0, se ocorrer fracasso. Indicaremos por \(p\) a probabilidade de sucesso, isto é, \(P(sucesso) = P(S) = p, 0 < p < 1\).
A variável aleatória \(X\), que assume apenas os valores 0 e 1, com função de probabilidade \((x, p(x))\) tal que \[p(0)=P(X=0)=1-p,\] \[p(1)=P(X=1)=p\] é chamada v.a. de Bernoulli.
Imagine, agora, que repetimos um ensaio de Bernoulli \(n\) vezes, ou, de maneira alternativa, obtemos uma amostra de tamanho \(n\) de uma distribuição de Bernoulli, onde as repetições são independentes.
Uma amostra particular será constituída de uma sequência de sucessos e fracassos, ou, alternativamente, de uns e zeros.
Por exemplo, repetindo um ensaio Bernoulli 5 vezes (\(n=5\)), uma possibilidade de resultado é FSFFS.
A probabilidade deste evento ocorrer é \((1-p)p(1-p)(1-p)p\) ou \((1-p)^3p^2\).
Obtenhamos, agora, \(P(X=k)\), ou seja, numa sequência de \(n\) ensaios de Bernoulli, a probabilidade de obter \(k\) sucessos (e portanto \(n-k\) fracassos), \(k=0,1,2,\cdots,n\) com \(P(S) = p\), \(P(F) = 1 - p = q\).
A probabilidade de uma dada sequência é \[p^k(1-p)^{n-k}\] portanto resta saber quantas sequências com a propriedade especificada podemos formar.
É fácil de verificar que existem \[\binom{n}{k}=\frac{n!}{k!(n-k)!}\] tais sequências, de modo que \[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n \]
A variável aleatória \(X\), correspondente ao número de sucessos num experimento binomial, tem distribuição binomial \(b(n, p)\), com função de probabilidade
\[ b(n;k,p)=P(X=k|n,p) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n \]
Enunciado:
Um jogador acerta 70% de seus arremessos (\(p = 0.7\)).
Ele tenta 10 arremessos (\(n = 10\)).
Qual a probabilidade de ele acertar exatamente 8 cestas?
Cada arremesso:
Queremos 8 acertos e 2 erros em 10 arremessos.
Exemplo de sequência possível:
AAAAAAAAXX (8 acertos seguidos, 2 erros no final).
Probabilidade dessa sequência:
\((0,7)^8 \cdot (0,3)^2\)
Não importa a ordem, apenas o total.
Quantas formas de escolher 8 acertos em 10 tentativas?
\(\binom{10}{8} = 45\)
Probabilidade total =
\(45 \times (0,7)^8 \times (0,3)^2 \approx 23,3\%\)
Ideia central:
“Probabilidade de uma sequência específica × número de sequências possíveis”
Fórmula da Binomial:
\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]
Substituindo \(n = 10\), \(k = 8\), \(p = 0.7\):
\[ P(X=8) = \binom{10}{8} (0.7)^8 (0.3)^2 \]
\[ P(X=8) \approx 45 \times 0.05765 \times 0.09 \approx 0.233 \]
✅ A probabilidade de o jogador acertar exatamente 8 em 10 arremessos é:
\[ P(X=8) \approx 23,3\% \]
Parâmetros: \(n\) (tamanho da amostra), \(p\) (probabilidade de sucesso).
Valor esperado:
\[ E[X] = np \]
\[ Var(X) = np(1-p) \]
Se \(X \sim b(n, p)\), sabendo-se que \(E(X) = 12\) e \(\sigma^2=3\), determinar:
Considere uma população finita com \(N\) objetos, dos quais \(r\) têm um atributo \(A\) e \(N-r\) não têm. Retira-se ao acaso uma amostra de tamanho \(n\) sem reposição. Seja \(X\) o número de itens na amostra que têm o atributo \(A\).
A distribuição de \(X\) é chamada hipergeométrica com parâmetros \(N,r,n\) e tem função de probabilidade
\[ P(X=k) = p_k = \frac{\displaystyle\binom{r}{k}\binom{N-r}{\,n-k\,}}{\displaystyle\binom{N}{n}}, \qquad \max(0,\,n-N+r)\le k \le \min(r,n). \]
A variável aleatória \(X \sim \text{Hipergeométrica}(N, K, n)\) representa o número de sucessos em uma amostra sem reposição.
[ P(X = k) = ]
Substituindo os valores:
[ P(X = 2) = ]
[ P(X = 2) = ]
➡️ Há cerca de 38.7% de chance de obter exatamente 2 vermelhas.
A variável ( X ) pode assumir valores entre:
[ (0, n - (N - K)) k (n, K) ]
No nosso exemplo:
[ (0, 5 - 13) = 0,(5, 7) = 5 ]
➡️ Então \(X \in \{0,1,2,3,4,5\}\)
➡️ Isso gera dependência entre os eventos e exige uma fórmula combinatória.
Definindo \(p=\dfrac{r}{N}\) (fração de itens com atributo \(A\) na população, tem-se
\[ E[X] = n p. \]
A variância incorpora o fator de correção finita (porque extração é sem reposição):
\[ \operatorname{Var}(X) = n p (1-p)\,\frac{N-n}{N-1}. \]
Exemplo (Auditoria):
- \(N=100\) instituições financeiras.
- \(r=12\) apresentam risco.
- Selecionamos \(n=8\) para auditoria.
- Seja \(X =\) nº de instituições de risco encontradas.
Então: \(X \sim \text{Hipergeométrica}(N=100, r=12, n=8)\)
Cálculo numérico (exemplo):
- \(E[X] = 8 \cdot 0.12 = 0.96\)
- \(\mathrm{Var}(X) \approx 0.785\)
Interpretação:
Em média, espera-se encontrar cerca de 1 instituição de risco na amostra.
A variância indica o grau de incerteza deste resultado.
Definição.
Uma variável aleatória \(X\) tem distribuição de Poisson com parâmetro \(\lambda>0\) se:
\[ P(X=k) = \frac{e^{-\lambda}\lambda^k}{k!}, \qquad k = 0,1,2,\dots \]
Aqui \(\lambda\) é a taxa média de ocorrências no intervalo (por ex., por unidade de tempo ou por unidade de área).
Esperança: \(E[X]=\lambda\).
Variância: \(\operatorname{Var}(X)=\lambda\).
A Poisson modela eventos raros, independentes, com taxa média constante.
Contexto.
Uma agência bancária observa, em média, \(\lambda=6\) clientes chegando por hora durante o horário de pico.
Perguntas: 1. Qual a probabilidade de chegar exatamente \(k=8\) clientes em uma hora? 2. Qual a probabilidade de chegar pelo menos 8 clientes em uma hora?
Cálculo (Poisson): - Exatamente 8: \[ P(X=8) = \frac{e^{-6} 6^8}{8!} \approx 0.122 \]
Interpretação prática.
Se \(P(X\ge8)\approx 0{,}256\), então em cerca de 25% das horas de pico a agência terá 8 ou mais chegadas — informação útil para dimensionar filas e pessoal.
A Poisson pode aproximar a hipergeométrica quando:
➡️ A dependência entre retiradas na hipergeométrica se torna irrelevante
➡️ O comportamento se aproxima de uma Poisson com ( = n )
[ [X] = n = 10 = 0.1 ]
[ Y (0.1) ]
➡️ A distribuição de ( X ) se comporta como uma Poisson com média 0.1
➡️ Quando a população é grande e os sucessos são raros, a Poisson simplifica o problema
Em variáveis discretas, atribuimos probabilidades a pontos: ex. para a uniforme discreta em \(n\) pontos temos \[ P(X = x_i) = \frac{1}{n},\qquad i=0,\dots,n. \]
Para passar a um modelo contínuo (por ex., ponteiro de relógio elétrico que pode parar em qualquer instante), cada ponto tem probabilidade zero, e usamos uma densidade \(f(x)\) tal que a probabilidade em um intervalo \([a,b)\) é \[ P(a \le X < b) = \int_a^b f(x)\,dx. \]
Exemplo particular: uniforme no intervalo \([0,360)\): \[ f(x) = \frac{1}{360},\qquad 0 \le x < 360. \]
\[ f(x) \geq 0, \quad \int_{-\infty}^{\infty} f(x)\,dx = 1 \]
⚠️ Importante:
\[ P(X = x_0) = 0 \]
porque a densidade só tem significado em intervalos.
\[ E[X] = \int_{-\infty}^{\infty} x \, f(x)\, dx \]
\[ Var(X) = E[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x)\, dx \]
\[ Var(X) = E[X^2] - (E[X])^2 \]
\[ F(x) = P(X \leq x) = \int_{-\infty}^x f(t)\,dt \]
A f.d.a. é a acumulação da densidade até \(x\).
Se \(F(x)\) é derivável em \(x\):
\[ f(x) = \frac{d}{dx}F(x) \]
\[ P(a \leq X \leq b) = F(b) - F(a) \]
➡️ A f.d.a. torna o cálculo de probabilidades mais prático, evitando integrais repetitivas.
\[ f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{caso contrário} \end{cases} \]
\[ F(x) = \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \leq x \leq b \\ 1, & x > b \end{cases} \]
Valor esperado (média): \[ E[X] = \frac{a+b}{2} \]
Variância: \[ Var(X) = \frac{(b-a)^2}{12} \]
Interpretação:
Suponha que os salários (em milhares de R$) de trabalhadores de um setor sejam distribuídos uniformemente no intervalo \([2, 6]\).
f.d.p.: \[ f(x) = \begin{cases} \frac{1}{6-2} = \tfrac{1}{4}, & 2 \leq x \leq 6 \\ 0, & \text{caso contrário} \end{cases} \]
Média: \[ E[X] = \int_2^6 x \cdot \tfrac{1}{4}\, dx = \tfrac{1}{4}\left[\tfrac{x^2}{2}\right]_2^6 = \tfrac{1}{4}\left(\tfrac{36}{2} - \tfrac{4}{2}\right) = 4 \]
Variância: \[ E[X^2] = \int_2^6 x^2 \cdot \tfrac{1}{4}\, dx = \tfrac{1}{4}\left[\tfrac{x^3}{3}\right]_2^6 = \tfrac{1}{4}\left(\tfrac{216}{3} - \tfrac{8}{3}\right) = \tfrac{52}{3} \]
\[ Var(X) = E[X^2] - (E[X])^2 = \tfrac{52}{3} - 16 = \tfrac{4}{3} \]
➡️ Interpretação: - Salário médio = R$ 4.000,00
- Variabilidade (DP ≈ 1.15 mil R$) em torno desse valor.
🎲 Um ônibus passa em um ponto a cada 20 minutos.
- Chego ao ponto em um horário aleatório.
- O tempo de espera \(X \sim U(0,20)\).
Probabilidade de esperar até 5 minutos: \[ P(X \leq 5) = \frac{5-0}{20-0} = 0,25 \]
Valor esperado da espera: \[ E[X] = \frac{0+20}{2} = 10 \text{ minutos} \]
Uma variável aleatória \(X\) tem distribuição Normal com média \(\mu\) e variância \(\sigma^2\) se sua função densidade de probabilidade (f.d.p.) é:
\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty \]
Notação:
\(X \sim N(\mu, \sigma^2)\)
Parâmetros: - \(\mu\): média (posição da curva). - \(\sigma^2\): variância (dispersão da curva).
Se \(X \sim N(\mu, \sigma^2)\):
➡️ Os três valores coincidem (média, moda e mediana).
A curva é:
- Simétrica em torno de \(\mu\).
- Mais concentrada quanto menor \(\sigma\).
Definição:
\[ Z = \frac{X - \mu}{\sigma} \]
Então \(Z \sim N(0,1)\), com f.d.p.:
\[ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2} \]
➡️ A normal padrão é fundamental, pois todas as normais podem ser reduzidas a ela.
A FDA da normal é:
\[ F(x) = P(X \leq x) = \int_{-\infty}^x f(t)\,dt \]
Queremos calcular:
\[ P(a \leq X \leq b) = \int_a^b f(x)\,dx \]
\[ P(a \leq X \leq b) = \Phi\!\left(\frac{b - \mu}{\sigma}\right) - \Phi\!\left(\frac{a - \mu}{\sigma}\right) \]
➡️ Diferença de áreas sob a curva normal.
Quando \(n\) é grande, a binomial se aproxima da normal com média \(\mu = np\) e variância \(\sigma^2 = p(1-p)\)
➡️ Isso é garantido pelo Teorema do Limite Central
Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos normalmente, com média de $ l0.000,00 e desvio padrão de $ 1.500,00. Um depósito é selecionado ao acaso dentre todos os referentes ao mês em questão. Encontrar a probabilidade de que o depósito seja:
Uma variável aleatória \(X\) tem distribuição Qui-Quadrado com \(k\) graus de liberdade se sua função densidade é:
\[ f(x) = \begin{cases} \frac{1}{2^{k/2}\Gamma(k/2)} x^{\tfrac{k}{2}-1} e^{-x/2}, & x > 0 \\ 0, & x \leq 0 \end{cases} \]
\[ \Gamma(z) = \int_0^\infty t^{z-1} e^{-t} \, dt \]
Propriedade de recorrência: \[ \Gamma(z+1) = z \, \Gamma(z) \]
Relação com o fatorial: \[ \Gamma(n) = (n-1)! \quad \text{para } n \in \mathbb{N} \]
\(\Gamma(1) = 0! = 1\)
\(\Gamma(2) = 1! = 1\)
\(\Gamma(3) = 2! = 2\)
\(\Gamma(4) = 3! = 6\)
Também vale para não inteiros:
\[
\Gamma\!\left(\tfrac{1}{2}\right) = \sqrt{\pi}
\]
➡️ Intuição: a \(\chi^2\) mede a soma de “pequenos desvios aleatórios” ao quadrado.
➡️ Quanto maior \(k\), mais “simétrica” e parecida com a normal a distribuição se torna.
Momentos: - Valor esperado: \(E[X] = k\) - Variância: \(Var(X) = 2k\)
Características: - Assimétrica à direita para \(k\) pequeno.
- Torna-se aproximadamente normal quando \(k\) é grande.
Aplicações:
Simulações de jogos de azar (variação acumulada).
IA e machine learning: medir discrepâncias entre dados e modelo.
Suponha que um pesquisador analise a variação do consumo mensal em uma amostra de 10 famílias.
Cada desvio em relação à média do consumo é padronizado e elevado ao quadrado.
Se \(Z_i \sim N(0,1)\) representar cada desvio padronizado, então: \[ X = \sum_{i=1}^{10} Z_i^2 \sim \chi^2(10) \]
Interpretação:
O valor de \(X\) mede “o quanto” os consumos se afastam da média em termos de variabilidade padronizada.
Se \(X\) estiver muito acima de 10, indica que as famílias são mais heterogêneas no consumo do que o esperado.
Se \(X\) estiver muito abaixo de 10, indica homogeneidade incomum.
\[ T = \frac{Z}{\sqrt{U / \nu}} \]
Então \(T\) segue a distribuição t de Student com \(\nu\) graus de liberdade.
Notação: \(T \sim t(\nu)\).
🎯 Supomos que queremos avaliar o retorno médio da educação.
Como a variabilidade é alta e \(n\) é pequeno, a distribuição amostral da média segue aproximadamente uma t de Student (não Normal).
➡️ Assim, a t é crucial para análises com amostras pequenas.
\[ F = \frac{U_1 / \nu_1}{U_2 / \nu_2} \]
Então \(F\) segue a distribuição F de Snedecor com \((\nu_1, \nu_2)\) graus de liberdade.
Notação: \(F \sim F(\nu_1, \nu_2)\).
🎯 Queremos comparar a variabilidade do retorno de duas carteiras de ações:
Testamos se as variâncias dos retornos são iguais.
➡️ A estatística usada é a razão de duas variâncias amostrais, que segue aproximadamente uma distribuição F.
Considere dois setores numa economia pequena:
A distribuição conjunta (pmf) é dada pela tabela abaixo:
| \(X \backslash Y\) | \(Y=0\) | \(Y=1\) | Total |
|---|---|---|---|
| \(X=0\) | 0.20 | 0.30 | 0.50 |
| \(X=1\) | 0.10 | 0.40 | 0.50 |
| Total | 0.30 | 0.70 | 1.00 |
Interpretação: por exemplo, \(P(X=0, Y=1)=0.30\) é a probabilidade de agricultura baixa e indústria alta.
A distribuição conjunta de \((X,Y)\) é a função \[ p_{X,Y}(x,y) = P(X=x,\,Y=y) \] tal que \(\sum_{x}\sum_{y} p_{X,Y}(x,y)=1\).
No exemplo: \(p_{00}=0.20,\; p_{01}=0.30,\; p_{10}=0.10,\; p_{11}=0.40\).
Aplicando ao exemplo:
\(p_X(0)=0.20+0.30=0.50,\quad p_X(1)=0.10+0.40=0.50\)
\(p_Y(0)=0.20+0.10=0.30,\quad p_Y(1)=0.30+0.40=0.70\).
Intuição: marginais dão a probabilidade de uma variável independentemente da outra.
Exemplos numéricos no nosso caso:
\(P(X=1\mid Y=1)=\dfrac{p_{11}}{p_Y(1)}=\dfrac{0.40}{0.70}\approx 0.571\).
\(P(Y=0\mid X=0)=\dfrac{p_{00}}{p_X(0)}=\dfrac{0.20}{0.50}=0.4\).
Interpretação: condicionais mostram como o conhecimento de \(Y\) altera a incerteza sobre \(X\).
Verificação no exemplo:
Compare \(p_{11}=0.40\) com \(p_X(1)p_Y(1)=0.50\times0.70=0.35\).
Como \(0.40 \neq 0.35\), \(X\) e \(Y\) não são independentes neste exemplo.
Para variáveis contínuas com densidade conjunta \(f_{X,Y}(x,y)\):
Marginais: \[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\, dy, \qquad f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\, dx. \]
Condicionais: \[ f_{X\mid Y}(x\mid y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}, \quad f_{Y\mid X}(y\mid x) = \frac{f_{X,Y}(x,y)}{f_X(x)}, \] quando os denominadores são positivos.
Independência: \(f_{X,Y}(x,y)=f_X(x)f_Y(y)\) para todos \(x,y\).
(Obs.: as integrais substituem as somas do caso discreto — mesma ideia, apenas com áreas.)
Considere duas variáveis contínuas relacionadas à produção em uma economia simples:
Definimos a densidade conjunta:
\(f_{X,Y}(x,y) = x + y,\qquad 0\le x\le1,;0\le y\le 1\), e \(f_{X,Y}(x,y)=0\) fora deste quadrado.
Primeiro verifique que é uma pdf válida: \[\iint_{[0,1]^2} (x+y),dx,dy = \int_0^1\int_0^1 x,dx,dy + \int_0^1\int_0^1 y,dy,dx = \tfrac12 + \tfrac12 = 1.\]
Calculemos as marginais por integração:
\[\begin{aligned} f_X(x) &= \int_0^1 (x+y)\,dy = x + \tfrac12, \quad 0\le x\le1,\\[4pt] f_Y(y) &= \int_0^1 (x+y)\,dx = y + \tfrac12, \quad 0\le y\le1. \end{aligned}\]Verificação: \(\int_0^1 (x+\tfrac12),dx = \tfrac12 + \tfrac12 = 1\).
As condicionais \(f_{X\mid Y}\) e \(f_{Y\mid X}\) obtêm-se dividindo a conjunta pela marginal:
\[\begin{aligned} f_{X\mid Y}(x\mid y) &= \frac{x+y}{y+\tfrac12},\qquad 0\le x\le1,\\[4pt] f_{Y\mid X}(y\mid x) &= \frac{x+y}{x+\tfrac12},\qquad 0\le y\le1. \end{aligned}\]Observação: as condicionais dependem do valor condicionado, portanto há dependência entre \(X\) e \(Y\).
(a) \(P(X<0.5)\)
\(P(X<0.5)=\int_0^{0.5} f_X(x),dx = \int_0^{0.5} (x+\tfrac12),dx = \left[\tfrac{x^2}{2} + \tfrac{x}{2}\right]_0^{0.5} = 0.125 + 0.25 = 0.375\)
(b) \(P(X<0.5,Y>0.7)\)
\[\begin{aligned} P(X<0.5,\,Y>0.7) &=\int_{x=0}^{0.5}\int_{y=0.7}^{1} (x+y)\,dy\,dx \\ &=\int_0^{0.5}\Big(x(1-0.7) + \tfrac{1^2-0.7^2}{2}\Big)dx \\ &=\int_0^{0.5} (0.3x + 0.255)\,dx = 0.0375 + 0.1275 = 0.165. \end{aligned}\](c) Probabilidade condicional \(P(Y>0.7 \mid X=0.4)\)
A densidade condicional é \(f_{Y\mid X}(y\mid 0.4)=(0.4+y)/(0.4+0.5)=(0.4+y)/0.9).\) Então
\[\begin{aligned} P(Y>0.7 \mid X=0.4) &=\int_{0.7}^1 \frac{0.4+y}{0.9}\,dy =\frac{1}{0.9}\Big[0.4y + \tfrac{y^2}{2}\Big]_{0.7}^1 \\ &=\frac{0.375}{0.9} \approx 0.4167. \end{aligned}\]Compare com a marginal \(P(Y>0.7)=\int_{0.7}^1 (y+\tfrac12),dy = 0.405\) . Note que a condicional é ligeiramente maior, ilustrando dependência.
Em variáveis aleatórias multidimensionais, muitas vezes estamos interessados em novas variáveis obtidas como função de outras:
\[Z=g(X,Y)\]
Exemplos:
Receita = preço \(\times\) quantidade.
Retorno de portfólio = soma ponderada de retornos individuais.
Suponha a seguinte distribuição conjunta de \((X,Y)\):
| \(X\) | \(Y\) | \(P(X,Y)\) |
|---|---|---|
| 1 | 1 | 0.2 |
| 1 | 2 | 0.3 |
| 2 | 1 | 0.1 |
| 2 | 2 | 0.4 |
Defina a função:
\[ Z=g(X,Y)=X+Y \]
Valores possíveis de (Z):
Se \((X,Y)=(1,2)\) ou \((2,1)\), então \(Z=3\).
Se \((X,Y) = (2,2)\), então \(Z=4\).
Distribuição de (Z):
\(P(Z=2)=0.2\).
\(P(Z=3)=0.3+0.1=0.4\).
\(P(Z=4)=0.4\).
Distribuição conjunta de \((X,Y)\):
| \(X\) | \(Y\) | \(P(X,Y)\) |
|---|---|---|
| 1 | 1 | 0.20 |
| 1 | 2 | 0.30 |
| 2 | 1 | 0.10 |
| 2 | 2 | 0.40 |
Lembrete: as marginais são \(p_X(1)=0.5, p_X(2)=0.5\) e \(p_Y(1)=0.3, p_Y(2)=0.7\).
Calculemos \(E[X]\) e \(E[Y]\):
\[\begin{aligned} E[X] &= 1\cdot p_X(1) + 2\cdot p_X(2) = 1\cdot0.5 + 2\cdot0.5 = 1.5,\\[4pt] E[Y] &= 1\cdot p_Y(1) + 2\cdot p_Y(2) = 1\cdot0.3 + 2\cdot0.7 = 1.7. \end{aligned}\]Interpretação: em média \(X=1.5\) e \(Y=1.7\) nas unidades escolhidas.
Verificação direta neste exemplo:
Cálculo direto de \(E[X+Y]\):
\[\begin{aligned} E[X+Y] &= \sum_{x}\sum_{y} (x+y)\, p_{X,Y}(x,y) \\ &= (1+1)\cdot0.20 + (1+2)\cdot0.30 + (2+1)\cdot0.10 + (2+2)\cdot0.40 \\ &= 0.40 + 0.90 + 0.30 + 1.60 = 3.20. \end{aligned}\]Comparando com \(E[X]+E[Y]=1.5 + 1.7 = 3.2\): confirmado.
Regra geral (linearidade): para quaisquer v.a. \(X,Y\) (discretas ou contínuas) \[E[X+Y]=E[X]+E[Y]\]
Mais geralmente, para constantes \(a,b\): \(E[aX + bY] = a E[X] + b E[Y]\).
Considere agora \(g(X,Y)=XY\).
Calculemos \(E[XY]\) pela definição:
\[\begin{aligned} E[XY] &= \sum_{x}\sum_{y} (xy)\, p_{X,Y}(x,y) \\ &= (1\cdot1)\cdot0.20 + (1\cdot2)\cdot0.30 + (2\cdot1)\cdot0.10 + (2\cdot2)\cdot0.40 \\ &= 0.20 + 0.60 + 0.20 + 1.60 = 2.60. \end{aligned}\]Agora \(E[X]E[Y] = 1.5 \times 1.7 = 2.55\).
Logo: \(E[XY] = 2.60 \neq 2.55 = E[X]E[Y]\).
Proposição (independência): Se (X) e (Y) são independentes então \[E[XY] = E[X]E[Y].\]
Linearidade geral: para quaisquer v.a.’s \(X_1,\dots,X_n\) e constantes \(a_i\), \[E\left(\sum_{i=1}^n a_i X_i\right) = \sum_{i=1}^n a_i E[X_i].\] Não é necessário independência para isto.
Produto de várias v.a.’s: se \(X_1,\dots,X_n\) são mutuamente independentes, \[E\left(\prod_{i=1}^n X_i\right) = \prod_{i=1}^n E[X_i].\] Sem independência, não se pode fatorar.
Variância da soma (caso de dois): [ (X+Y) = (X) + (Y) + 2,(X,Y). ] Se (X) e (Y) forem independentes, ((X,Y)=0) e ((X+Y)=(X)+(Y)).
A covariância mede a intensidade e direção da associação linear entre duas variáveis aleatórias \(X\) e \(Y\).
Definição formal:
\[ \operatorname{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])] \]
Forma equivalente:
\[ \operatorname{Cov}(X,Y) = E[XY] - E[X]E[Y] \]
Unidade: produto das unidades de (X) e (Y).
Simetria:
\[\operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X).\]
Com relação a constantes:
\[\operatorname{Cov}(aX+b, Y) = a \cdot \operatorname{Cov}(X,Y).\]
Variância como caso particular:
\[\operatorname{Var}(X) = \operatorname{Cov}(X,X).\]
Linearidade:
\[\operatorname{Cov}(X+Z, Y) = \operatorname{Cov}(X,Y) + \operatorname{Cov}(Z,Y).\]
Suponha amostra de 4 famílias (em milhares de R$):
| (X) (Renda) | (Y) (Consumo) | (P(X,Y)) |
|---|---|---|
| 2 | 1.5 | 0.2 |
| 3 | 2.5 | 0.3 |
| 4 | 3.5 | 0.3 |
| 5 | 4.0 | 0.2 |
\[ \operatorname{Cov}(X,Y) = E[XY] - E[X]E[Y] = 11.45 - (3.5)(2.95) = 1.125 \]
➡️ Covariância positiva: maiores rendas estão associadas a maiores consumos.
Sejam \(X\) e \(Y\) variáveis aleatórias quaisquer. Então:
\[ \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2 \operatorname{Cov}(X,Y) \]
Casos particulares:
Se \(X\) e \(Y\) são independentes:
\[\operatorname{Cov}(X,Y) = 0 \quad \Rightarrow \quad \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)\]
Para diferenças:
\[\operatorname{Var}(X-Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) - 2 \operatorname{Cov}(X,Y)\]
Propriedades:
\(-1 \leq \rho_{X,Y} \leq 1\).
\(\rho{X,Y} = 1\): relação linear positiva perfeita.
\(\rho{X,Y} = -1\): relação linear negativa perfeita.
\(\rho{X,Y} = 0\): ausência de relação linear (mas não implica independência).
Distribuição conjunta (como antes):
| \(X\) (Renda) | \(Y\) (Consumo) | \(P(X,Y)\) |
|---|---|---|
| 2 | 1.5 | 0.2 |
| 3 | 2.5 | 0.3 |
| 4 | 3.5 | 0.3 |
| 5 | 4.0 | 0.2 |
Cálculos prévios:
\(E[X] = 3.5\), \(E[Y] = 2.95\).
\(E[XY] = 11.45 \Rightarrow \operatorname{Cov}(X,Y) = 1.125\)
\(E[X^2] = 13.1 \Rightarrow \operatorname{Var}(X) = 0.85\).
\(E[Y^2] = 9.435 \Rightarrow \operatorname{Var}(Y) = 0.735\).
Coeficiente de correlação:
\[ \rho_{X,Y} = \frac{1.125}{\sqrt{0.85}\,\sqrt{0.735}} \approx 0.99 \]
Interpretação:
- Correlação forte e positiva entre renda e consumo.
- Faz sentido economicamente: quanto maior a renda, maior tende a ser o consumo.
- Relação linear quase perfeita no exemplo simplificado.