Conteúdo do Módulo
1 - Variável aleatória e terminologia associada
2 - Esperança matemática ou média teórica de uma variável aleatoria (v.a.)
3 - Aplicações na análise de situações envolvendo incerteza (modelagem de riscos)
4 - Brevíssima revisão da "teoria de probabilidades"
5 - Variáveis aleatórias e sua distribuição "conjunta", "marginal" e "condicional"
A noção de variável aleatória, ou simplesmente v.a., tem uma importância central na ligação dos resultados teóricos da estatística usados para interpretação/análise de dados empíricos e modelagem de riscos. Neste tópico faremos uma caracterização dessa noção e da terminologia necessária para sua operacionalização.
variável aleatória (v.a.): variável que pode assumir valores numéricos de acordo com uma distribuição teórica de frequências relativas (ou probabilidades), se a variável for quantitativa discreta, ou distribuição teórica de densidades de frequências relativas (ou densidades de probabilidade), se a variável for quantitativa contínua. Em inglês chama-se random variable.
Para uma v.a. contínua a distribuição teórica de densidades de frequências relativas ou probabilidades é também chamada função de densidade (de probabilidade).
Para uma v.a. discreta a distribuição teórica de frequências relativas ou probabilidades é também chamada função de massa (de probabilidade).
As noções de v.a. e distribuição teórica estão intimamente relacionadas.
Indica-se que uma variável aleatória \(X\) tem uma distribuição teórica \(f(x,p_1,p_2,\ldots,p_k)\) com os parâmetros \(p_1, p_2\), \(\ldots\), \(p_k\), por:
\[\displaystyle X\sim f_X(x,p_1,p_2,\ldots,p_k)\;\;\text{ou simplesmente}\;\;X\sim f_X(x)\]
O \(X\) como subscrito de \(f_X(x)\) e os parâmetros especificados como argumentos da função são opcionais.
Uma distribuição teórica não precisa (necessariamente) ter parâmetros.
representação de v.a.s: são usualmente representada por letras maiúsculas (ex. \(X\), \(Y\), \(Z\)).
constante: é uma v.a. que assume um único valor com probabilidade 1, e são representadas por letras minúsculas no contexto de variáveis aleatórias.
função de v.a.: se \(X\) é uma v.a., e \(Y=g(X)\) onde \(g(x)\) é uma função qualquer, \(Y\) será também uma variável aleatória, em geral com distribuição teórica diferente da distribuição de \(X\) (só em situações específicas será igual).
realização de uma v.a.: possível resultado obtido do “sorteio” de um valor da variável aleatória a partir sua distribuição teórica de probabilidade. As realizações de uma v.a. são frequentemente representadas pelo nome da variável acrescido de subscritos.
Para uma v.a. \(X\), os valores \(X_1\), \(X_2\), \(\ldots\), \(X_n\) podem representar \(n\) realizações obtidas do sorteio da distribuição de \(X\). Após a efetiva observação dessas realizações, elas podem ser representadas por \(x_1\), \(x_2\),\(\ldots\), \(x_n\) (note as letras minúsculas).
Antes de observarmos as realizações \(X_1\), \(X_2\), \(\ldots\), \(X_n\), elas também serão variáveis aleatórias, com a mesma distribuição de \(X\).
Em estatística é comum entender as observações de um “fenômeno real”" (empírico) da forma esquematizada na figura a seguir. As observações do fenômeno, caso obtidas de forma apropriada, são entendidas como sendo uma amostra aleatória tirada de uma variável aleatória, ou mais exatamente da distribuição teórica associada a essa variável, em geral desconhecida. Essa distribuição pode ser contínua, discreta ou até mesmo contínua e discreta, em situações específicas.
Se a amostragem que gerou a amostra foi conduzida da forma apropriada, de forma aleatória, num processo em que cada observação tem a mesma chance de ser obtida no sorteio da distribuição teórica, essa amostra é caracterizada com a sigla i.i.d. (independente e identicamente distribuida). Inferências sobre o fenômeno são, no fundo, inferências sobre a variável aleatória e sua distribuição.
experimento: processo de sorteio associado a obtenção de realizações de uma v.a. Em algumas situações é clara a noção de experimento, em outras pode ser mais abstrata. Não é uma noção essencial.
amostra tamanho \(n\): conjunto de \(n\) realizações de uma v.a. obtido da mesma distribuição, de forma independente. É uma jargão estatístico muito usado. Em muitas situações usa-se a expressão amostra tamanho \(n\) i.i.d. (independente e identicamente distribuída).
espaço amostral \(\Omega\) de uma v.a.: conjunto das realizações possíveis (distintas) de uma variável aleatória. Para uma v.a. \(X\) é usualmente representado por \(\Omega_X\) (letra grega Ômega).
evento: conjunto de resultados associados a uma variável aleatória (ex. \(X=4\), \(X>10\), \(X<20\)). Será constituído por sub-conjunto do espaço amostral \(\Omega\) associado a essa variável. Um evento é entendido como sendo uma operação lógica com resultado falso ou verdadeiro, que só será conhecido quando a realização da variável é observada.
probabilidade (representação): para um evento \(A\) qualquer, será representada pela notação \(P(A)\). Para uma variável aleatória \(X\), podemos representar a probabilidade de \(X<4\) por \(P(X<4)\)
Há outras noções, mas essas são claramente as principais.
caso multidimensional: a noção de v.a. pode ser estendida a uma situação multidimensional (vetor de v.a.s, matriz de v.a.s). Por exemplo \([X, Y, Z]\) pode representar um vetor de variáveis aleatórias, e \([X_1, Y_1, Z_1]\), \([X_2,Y_2,Z_2]\) podem representar 2 realizações desse vetor aleatório, a partir da distribuição teórica “conjunta” dessas variáveis aleatórias (uma noção que estende a noção de distribuição teórica para o caso unidimensional).
simulação: obtenção de uma amostra aleatória i.i.d. através do sorteio de valores de uma variável aleatória com distribuição conhecida, através de técnicas conhecidas como “simulação Monte Carlo”.
Considere que estamos interessados em \(n\) lançamento de uma moeda, através de um método que garante que as chances de “cara” ou “coroa” são idênticas. Considere uma variável aleatória \(X\) que assume valor 1 se o resultado de um lançamento for “cara” e 0 se for “coroa”.
Com relação a \(X\) temos: * \(X\) é uma variável aleatória com distribuição Bernoulli, dado que assume valores \(X=1\) com probabilidade \(p=0{,}5\) e \(X=0\) com \(1-p=0{,}5\), dado que assumimos chances iguais para cada um dos resultados. * Experimento: processo de lançamento da moeda que gera cada uma das \(n\) realizações de \(X\). Podemos chamar de experimento conjunto os 5 experimentos realizados. * Amostra: antes do lançamento, \(X_1\), \(X_2\), \(X_3\), \(X_4\) e \(X_5\), variaveis aleatórias; após o experimento conjunto, os valores \(x_1\), \(x_2\), \(x_3\), \(x_4\) e \(x_5\) definidos por \({1,0,0,1,0}\) * Possíveis eventos: \(X_5=1\), \(X_1+X_4\ge 0\), \(\sum_{i=1}^5 X_i/5\in [0{,}4;\ 0{,}6]\).
Considere que \(Y\) representa outra v.a. que representa o número de caras obtidas em \(n\) lançamentos da moeda, representados pelas variáveis Bernoulli \(X_1\), \(X_2\),\(\ldots\),\(X_n\), com \(X_i=1\) representando a observação de uma “cara”. Se \(n=5\) temos
Com relação à variável aleatória \(Y\): * \(Y\) é uma variável aleatória com distribuição Binomial, com \(n=5\) e \(p=0{,}5\), dado que é a soma de 5 variáveis Bernoulli obtidas da forma indicada (propriedade da Binomial) * Experimento: observação de um valor de \(Y\) (obtida pela soma de \(X_1\), \(X_2\), \(\ldots\), \(X_5\)) * Amostra: se a amostra for tamanho 2, por exemplo, obteríamos \(Y_1\) e \(Y_2\) a partir de duas amostras tamanho 5 da variável \(X\) definida da forma indicada. * Possíveis eventos: \(Y_1=3\), \(Y_1+Y_2\le 2\), \(\sum_{i=1}^2 Y_i/2\in [2;\ 4]\).
Considere que \(Z\) representa outra v.a. com distribuição Normal com média teórica \(\mu\) e desvio padrão teórico \(\sigma\).
Em muitas situações envolvendo fenômenos reais, não conhecemos â distribuição teórica exata associada a variável aleatória associada ao fenômeno. Isso não afeta nenhum dos conceitos descritos nos últimos parágrafos.
Nessas situações é comum a utilização das observações do fenômeno, obtidas de forma apropriada, para obtenção de estimativas que visam caracterizar a variável aleatória, como a distribuição teórica, a média teórica, variância, momentos, probabilidades, com o objetivo de se entender essa distribuição teórica. Isso possibilita muitas inferências importantes sobre o fenômeno estudado.
Este tópico formaliza noções que vêm sendo mencionadas até o momento de forma relativamente intuitiva. Essas noções expandem o arcabouço de conceitos necessários para o processo de inferência estatística (entendido como o processo de se tirar conclusões a partir de observações de fenômenos).
Os conceitos tem definições distintas para distribuições discretas e contínuas. Essas definições, ainda que distintas em sua operacionalização, tem significados fundamentais muito similares. A próxima figura ilustra as definições principais em cada caso.
Observações importantes com respeito à esperança matemática:
O conceito de esperança matemática (ou média teórica) é puramente técnico. Evite pensar nele como o valor que as pessoas “esperam” que aconteça. No caso de uma v.a. discreta é fácil ver que o valor da esperança pode ser um valor que nunca irá ocorrer.
A esperança matemática de uma variável aleatória \(X\) é representada por \(E(X)\) ou \(\mu_x\).
A esperança matemática pode não existir (é uma situação de importância mais teórica que prática). Isso ocorrerá pela impossibilidade de convergência nas operações que levam ao cálculo da esperança.
A esperança matemática coincide com o conceito de centro de massa usado em física. Seria o ponto (no eixo x) que “equilibra” a distribuição. Esse conceito facilita a visualização da esperança em casos de distribuições simétricas, como o valor que coincide com a moda e mediana.
Considere as distribuições discreta abaixo e encontre \(E(X)\) em cada caso:
| \(i\) | \(x_i\) | \(P(X=x_i)\) ou \(f(x_i)\) |
| \(1\) | \(3\) | \(0{,}1\) |
| \(2\) | \(5\) | \(0{,}3\) |
| \(3\) | \(8\) | \(0{,}6\) |
Suponha que \(X\) é uma variável aleatória discreta Bernoulli com \(P(X=1)=p\) e \(P(X=0)=1-p\) para \(p\in [0,1]\).
Considere as distribuições contínuas abaixo e encontre \(E(X)\) em cada caso:
Suponha que \(X\sim\) Uniforme(\(0,\ 5\))
\(\displaystyle E(X)=\int_{-\infty}^{\infty} x f(x)\ d x=\int_{0}^{5} x \frac{1}{5}\ d x=\frac{1}{5}\left[\frac{x^2}{2}\right]_0^5=2{,}5\)
o resultado já poderia ter sido antecipado, pela observação de que o ponto \(x=2,5\) é o centro de massa dessa distribuição (que é simétrica)
Para uma Normal(\(\mu\),\(\sigma\)) temos que
\(\displaystyle E(X)= \int_{-\infty}^{\infty} x\ f(x)\ dx\ =\ \int_{-\infty}^{\infty} x \frac{1}{\sqrt{2\pi}\sigma}\displaystyle\ e^{- \frac{\displaystyle( x-\mu)^2}{\displaystyle 2\sigma^2}}\ dx\)
o parâmetro \(\mu\) da Normal é exatamente sua esperança matemática, algo que pode ser visualizado sem qualquer problema pelo entendimento desta como sendo o centro de massa.
No jargão popular, um bilhete de loteria é um ativo que paga o valor definido como o “prêmio” caso o resultado de algum sorteio seja aquele especificado no bilhete (segundo as regras definidas).
O conceito de “loteria” é utilizado em economia e finanças para especificar, de forma genérica e abstrata, um ativo que produza um resultado financeiro incerto num dado contexto, algo que inclui, não só o tradicional “bilhete de loteria” e outros jogos de azar, como ações, investimentos, contratos futuros e outros derivativos financeiros.
Para deixar a situação mais concreta, considere a seguinte loteria, definida por um novo título público, (supostamente) emitido pelo Tesouro Nacional do Brasil:
No caso presente o “payoff” que é contingente ao resultado da Copa é
Ou seja, o dono do título, caso o Brasil ganhe a próxima Copa do Mundo de Futebol, poderá trocar o título por $ 1 Unidades Monetárias (U.M.), paga pelo Tesouro Nacional. Caso o Brasil não ganhe, o dono simplesmente perde o valor pago pelo título.
Para deixar o problema mais concreto, vamos supor que o Tesouro Nacional está vendendo esse título por $ 0,4, com objetivo de arrecadar fundos para o governo. Será esse um investimento interessante?
O processo de análise do valor de uma “loteria” ou, mais especificamente, de um ativo financeiro, é conhecido em economia e finanças como “precificação” ou “valuation” do ativo.
A teoria que fundamenta a precificação é um assunto complexo e dela só introduziremos alguns resultados.
Princípio importante de precificação:
A idéia central é estabelecer o máximo valor que um investidor cujas preferências não consideram o risco (técnicamente chamado “não avesso ao risco”) pagaria, de forma que, em média, o valor recebido não seja inferior ao valor pago pela loteria. Esse máximo valor seria, nesse contexto, a esperança matemática do “payoff”, que é certamente um limite teórico. Para investidores com aversão ao risco (caso mais comum) esse valor máximo seria certamente até menor.
Para obter a esperança matemática dos payoffs serão necessárias premissas defensáveis com relação às probabilidades dos resultados possíveis, algo que no processo de precificação pode ser trabalhoso de obter. Muito do trabalho da área de modelagem de riscos está associado à caracterização dessa distribuição de probabilidade associada aos payoffs, caracterizados por uma variável aleatória.
No caso da loteria (título) introduzida no tópico anterior, seria conveniente “modelar” o payoff por:
Variável aleatória (Bernoulli) \(X\), com \(X=1\), com probabilidade \(p\), associada à situação em que o Brasil ganha a copa, e \(X=0\), com probabilidade \(1-p\) na situação em que o Brasil não ganha a copa do mundo.
Temos que: \(E(X) = 0\times (1-p)+1 \times p = p\)
\(c\le p\), no máximo, deveria pagar $ \(p\) pelo título.
Coincidentemente, nessa situação, o valor de \(p\) define a precificação do ativo.
Um problema prático, nesse caso, seria a obtenção de uma boa estimativa para \(p\).
Nota: nessa discussão abstraímos a o problema do custo de oportunidade do dinheiro no tempo. Numa análise mais cuidadosa, a precificação pode considerar a esperança matemática do valor presente do payoff, considerando-se uma taxa de juros de desconto apropriada.
Frequentemente, o mercado oferece informações que podem ajudar o processo de precificação discutido no tópico anterior. Clique aqui para ver como andam as expectativas, nos sites de apostas, com relação ao país que ganhará a próxima Copa do Mundo de futebol.
As indicações das expectativas existentes são apresentadas em odds (chances relativas)
Significado de odds \(V/1\) num time: para cada 1 Unidade Monetária ou U.M. apostada
se o time ganhar: apostador recebe a 1 U.M. apostada + \(V\) U.M.s, com ganho de \(V\) U.M.s
se o time perder: não recebe nada e perde a 1 U.M. apostada
Obs: se o valor das “odds” mencionado no site for, por exemplo, \(7/2\) ele equivale a \(3,5/1\) na notação apresentada.
Podemos representar o custo dessa “loteria” por \(c=1\), para payoffs \(X=1+V\) com probabilidade \(p\) (time apostado ganha) e \(X=0\) (time apostado perde) com probabilidade \(1-p\).
Assumindo que esse mercado de apostas é “informacionalmente eficiente”, pelo menos de forma aproximada, poderíamos utilizar o critério da “precificação neutra quanto a risco”, assumindo que o custo (c=1) será igual à esperança matemática (média teórica) do “payoff” ou seja,
\(c=0 \times (1-p)+ (1+V)\times p\) ou \(1=0 \times (1-p)+ (1+V)\times p\)
\(p = \frac{1}{1+V}\)
Logo se, num dado momento, temos “odds” de \(4/1\) para o Brasil, isso significa que uma estimativa da probabilidade do Brasil ganhar, derivada indiretamente do mercado de apostas, por esse último raciocínio, seria de * \(p=1/(1+4)=1/5\), ou seja, 20%.
Assim, voltando ao problema do tópico anterior, $ \(0{,}2\) é uma estimativa razoavelmente defensável, nesse momento, para o valor máximo título, pelos critérios discutidos (neutralidade com relação ao risco e eficiência do mercado), sem considerações associadas ao custo de oportunidade do dinheiro no tempo. Se o “titulo” está sendo vendido por \(0{,}40\), esse parece ser um valor relativamente exagerado tendo em vista as expectativas de vitória do Brasil avaliadas pelo mercado no momento da análise.
Suponha que está interessado em precificar a seguinte loteria, pelos critério da “neutralidade com relação ao risco” vista no tópico anterior:
23 pessoas são sorteadas ao acaso e perguntadas sobre a data de seu aniversário (dia e mês). A partir dai são definidos 2 eventos:
Evento \(C\): há coincidências nas datas de aniversário das 23 pessoas (2 ou mais pessoas fazem aniversário na mesma data)
Nesse contexto, suponha que a loteria está sendo vendida por $ \(0{,}60\), especificada a seguir:
Para responder essa pergunta, podemos utilizar os conceitos dos últimos tópicos para análise da “precificação” adequada para desse “ativo financeiro”.
Se \(X\) representa o “payoff”, \(p=P(\bar C)\) será a probabilidade de \(X=1\) e que, pelos resultados obtidos anteriormente, corresponderá ao máximo valor a ser pago numa precificação neutra com relação ao risco.
Só parece razoável adquirir essa “loteria” se tivermos \(p\ge 0{,}60\), o valor que está sendo cobrado por ela.
Como estimar \(p\)? Há 3 caminhos.
Usando a intuição: qual seria um valor adequado para \(p\) baseado na nossa experiência e intuição? vamos pensar. Em situações como essas é comum pessoas indicarem valores de \(p>0{,}9\) baseados no entendimento de que é parece ser muito mais provável não haver coincidências de aniversários num grupo de 23 pessoas. Muitos, nessa situação, acabam desenvolvendo um raciocínio que tem a intenção de acoplar (às vezes de forma equivocada) elementos informais de probabilidade.
Usando a teoria de probabilidades. Não será o caminho que seguiremos no momento dado que ainda não revisamos esse assunto (faremos mais adiante)
Usando técnicas de amostragem. Será o caminho que seguiremos.
Uma possibilidade no caso da estratégia que usa a amostragem, seria realizar uma pesquisa de campo, envolvendo vários grupos de 23 pessoas, com o objetivo de estimar \(p\) a partir da frequência observada de coincidências de aniversários nesses vários grupos. Isso, contudo, seria caro e tedioso. Uma opção mais conveniente seria a utilização de amostragem sobre um modelo da situação real.
O uso de modelos pode aprimorar processos de decisão pela minimização de dificuldades (e erros) derivadas de decisões fundamentadas somente na intuição, que as vezes pode falhar horrivelmente num ambiente de muita complexidade e incerteza.
A construção de modelos como representações simplificadas da situação de interesse, pode facilitar muito o processo de tomada de decisão, como veremos nessa situação examinada. Essa estratégia é sumarizada pela figura a seguir.
Modelo para amostragem de datas de aniversário de 23 pessoas:
Premissa 1: os anos tem 365 dias (vamos “esquecer” os anos bissextos)
Premissa 2: as datas de aniversário são distribuídas homogeneamente ao longo do ano. Isso é uma simplificação do mundo real (há épocas em que os nascimentos são mais frequentes).
Implementação “fisica” do modelo:
Urna com 365 bolas de pingue-pongue, cada qual marcada com um número de 1 a 365, representando cada dia do ano.
Amostragem das 23 “datas de aniversário”: amostragem com reposição de 23 bolas dessa urna, com anotação das datas nas bolas, com verificação de coincidências de aniversários ou não (eventos \(C\) e \(\bar C\)).
Podemos entender cada sorteio como uma amostra de uma variável aleatória \(Z\) Bernoulli, em que \(Z=1\), com probabilidade \(p\), indica ausência de coincidências de aniversário e \(Z=0\) indica ocorrência de coincidências (2 ou mais pessoas com aniversário no mesmo dia)
Se \(Z_1, Z_2,\dots,Z_n\) representam os resultados obtidos em \(n\) sorteios de 23 pessoas, podemos estimar \(p\) através da estimativa do intervalo de confiança, a partir dessa amostra, usando funções desenvolvidas em outros módulos, como
intconfmedia<-function(x,q=0.95){
n<-length(x)
m<-mean(x)
s<-sd(x)
e<-qt((1+q)/2,n-1)*s/sqrt(n)
cat(m," +/- ",e," ou [",m-e,",",m+e,"] n=",n,"\n",sep="")
}
A implementação fisica descrita no tópico anterior pode ser substituída, com vantagem, por uma
Isso pode ser implementado por:
set.seed(10)
table(sample(1:365,23,replace=TRUE))
##
## 19 32 42 83 97 100 101 112 131 146 156 157 186 208 218 225 238 253
## 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1
## 283 306 316
## 1 1 1
Nessa amostragem realizada (com resultados fixados por set.seed), em dois casos, nos dias 157 e 225, há 2 pessoas fazendo aniversário. Isso indica que houve coincidências de dias de aniversário nessa amostra, ou seja, ocorreu \(C\) e \(Z=0\). Para uma amostra tamanho \(n=10000\), colocando os resultados de \(Z\) em cada caso num vetor podemos utilizar:
set.seed(10)
n<-10000
Z<-0
for(i in 1:n) {
Z[i]<-ifelse(sum(table(sample(1:365,23,replace=TRUE))>1),0,1)
}
intconfmedia(Z) ## para encontrar o intervalo de confiança para p a 95 %
## 0.4949 +/- 0.009800987 ou [0.485099,0.504701] n=10000
Esse resultado pode trazer uma certa surpresa para os que, pela intuição, acreditavam que o valor de \(p\) seria mais elevado, superior a \(0{,}90\), para uma amostra de 23 pessoas, o que não é incomum.
Nessa situação o resultado exato é conhecido, podendo ser obtido através de conceitos da teoria de probabilidadades (que não serão explicados nesse momento):
resultado teórico para \(k\) pessoas: \(P(\bar C)=\displaystyle \frac{365 \times 364\times \ldots \times(365-k+1)}{365}\)
A seguinte função do R pode implementar esse último resultado:
probNC<-function(k){
prod((365-k+1):365/365)
}
Quando \(k=23\) temos
probNC(23) ## probabilidade de não haver coincidência de aniversários
## [1] 0.4927028
Observe que o resultado teórico está dentro do intervalo de confiança computado.
Os resultados obtidos no último tópico são dependentes das premissas utilizadas. A principal delas sendo:
É comum muitos pensarem que o mês que apresenta maior frequência de nascimentos no ano é aquele que tipicamente ocorre 9 meses depois do carnaval (ou seja, novembro). Vamos a seguir examinar essas conjecturas e verificar sua influência nos resultados.
Para uma análise mais técnica, podemos verificar a distribuição dos nascimentos pela dados do registro civil brasileiro, mantida pelo IBGE (clique aqui). Um acesso detalhado dos dados pode ser realizado através do Sistema Sidra da IBGE (clique aqui).
Para facilitar, os dados de 2010 dos nascidos vivos no Brasil e nos estados de SP, RJ e BA estão organizados no data frame definido a seguir:
nasc<-read.csv2('http://ihbs.com.br/html/nascvivos2010.csv')
nasc
## mes Brasil SP RJ BA
## 1 jan 236400 51801 18041 16569
## 2 fev 225619 50560 16765 16660
## 3 mar 263467 57434 19494 20600
## 4 abr 242924 51876 17479 18829
## 5 mai 246284 53294 17705 19013
## 6 jun 232612 50321 16793 17987
## 7 jul 233778 50077 16924 17358
## 8 ago 222425 46851 15171 16975
## 9 set 225076 47396 15103 17115
## 10 out 216795 46025 14986 16382
## 11 nov 203346 44473 15030 15271
## 12 dez 212235 48891 16766 14907
Para obter a frequência relativa dos nascimentos por mês, dos dados para o Brasil, podemos usar
propnasc<-nasc$Brasil/sum(nasc$Brasil)
data.frame(nasc$mes,propnasc)
## nasc.mes propnasc
## 1 jan 0.08562236
## 2 fev 0.08171756
## 3 mar 0.09542583
## 4 abr 0.08798531
## 5 mai 0.08920227
## 6 jun 0.08425038
## 7 jul 0.08467269
## 8 ago 0.08056072
## 9 set 0.08152089
## 10 out 0.07852157
## 11 nov 0.07365044
## 12 dez 0.07686997
O mês de março é o que apresenta a maior frequência de nascimentos no ano (9,5%) e o mês de novembro a menor frequência (7,4%). É interessante observar que o mês de novembro é exatamente 9 meses depois do mês de fevereiro (em 2010 a terça feira de carnaval foi o dia 16 de fevereiro). Mais uma vez a intuição de alguns foi contrariada!
Os dados mostram que a Premissa 2 não se verifica exatamente. A eliminação dessa premissa irá alterar muito os resultados obtidos no tópico anterior? eventualmente aumentando a probabilidade do evento \(\bar C\) para as 23 pessoas? A resposta curta é não. Num argumento informal, a concentração de nascimentos em alguns meses terá o efeito de aumentar a coincidência de aniversários, ou seja, diminuir \(P(\bar C)\).
Para examinar a magnitude do impacto, algo que seria difícil no contexto teórico, vamos supor uma situação estilizada em que as chances de cada data do ano ser sorteada apresentam uma variabilidade próxima (e até mais acentuada) que a observada para os nascimentos no Brasil em 2010. Nessa nova situação, as probabilidades que inicialmente eram 1/365 para cada dia (ou 0,002739726), passam a variar entre 0,002256 e 0,003223, algo que levaria a frequência de nascimentos nos meses variar entre 7% e 10% (variabilidade até maior que a observada no Brasil em 2010). Com essa nova premissa é obtida uma nova estimativa para \(P(\bar C)\) considerando agora \(n=1\) milhão. Os resultados da simulação são apresentados abaixo. Dependendo do desempenho do seu computador, as computações podem levar mais de 1 hora para terminar. A implementação utiliza a opção “prob” do comando “sample” que permite estabelecer probabilidades para cada elemento do vetor amostrado.
## As computações abaixo podem ser demoradas! tire os comentários para executar
# set.seed(10)
# n <- 1000000
# Z <- 0
# p<-seq(7,10,(10-7)/364)
# p<-p/sum(p)
# for (i in 1:n) {
# Z[i] = ifelse(sum(table(sample(1:365, 23, replace = TRUE,prob=p)) > 1), 0, 1)
# }
#
# intconfmedia(Z,0.999) ## para encontrar o intervalo de confiança para p a 99,9 %
# Resultado obtido:
## 0.489904 +/- 0.001644934 ou [0.4882591,0.4915489] n=1000000
O resultado indica que dentro de premissas mais realistas, aproximadamente, \(0,4883 \le P(\bar C) \le 0,4915\) com 99,9% de probabilidade. Ou seja, o efeito de relaxar a Premissa 2 é pequeno e na direção de reduzir um pouco mais o valor de \(P(\bar C)\) com relação ao resultado teórico considerando a Premissa 2, em que obtivemos \(P(\bar C)=0{,}4927\).
Pelas estimativas realizadas no tópico anterior, temos claramente \(P(\bar C) \approx 0{,}49\). Podemos então concluir que o máximo valor a ser pago pelo ativo, num contexto de precificação neutra com relação ao risco, seria \(\approx\) $ \(0{,}49\).
Dado que o ativo está sendo vendido por $ \(0{,}60\), sua aquisição não parece ser justificável como uma decisão razoável do ponto de vista econômico ou financeiro: em média (teórica) estaria-se tomando prejuizo pois o custo é superior à esperança matemática do “payoff”.
Revisamos neste tópico alguns resultados importantes da teoria de probabilidades de eventos, definidos no contexto de variáveis aleatórias. O tema “teoria de probabilidades” é complexo e não é o objetivo deste tópico um aprofundamento no assunto, algo que pode exigir todo um curso específico. Os resultados são apresentados a seguir sem demonstração.
Com relação a 2 eventos \(A\) e \(B\), definidos no contexto de uma variável aleatória, podemos estar interessados em saber: * probabilidades incondicionais dos eventos \(A\) e \(B\): são representadas por \(P(A)\) e \(P(B)\)
probabilidade do evento complementar ao evento \(A\): é representada por \(P(\bar A)\)
probabilidade de ocorrer \(A\) e \(B\): é representada por \(P(A\cap B)\)
probabilidade de ocorrer \(A\) ou \(B\): é representada por \(P(A\cup B)\)
probabilidade de ocorrer \(A\) dado que ocorreu \(B\): é representada por \(P(A|B)\)
espaço amostral \(\Omega\): coleção de todos os resultados possíveis associados às variáveis aleatórias (também um evento)
o evento \(\varnothing\), chamado conjunto vazio, indica um evento que não ocorrerá (por exemplo, resultados “cara” e “coroa” ocorrendo simultaneamente no lançamento de uma moeda)
\(0\le P(A)\le 1\) (prop. 1)
\(P(\Omega)=1\) (prop. 2)
\(P(A\cup B)=P(A)+P(B)-P(A\cap B)\) (prop. 3)
\(P(A\cap B)=P(A|B)P(B)\) e \(P(A\cap B)=P(B|A)P(A)\) (prop. 4), obtendo-se
\(P(A|B)=\frac{P(A\cap B)}{P(B)}\;\;\;\; \mbox{se}\ P(B)\not = 0\)
\(P(B|A)=\frac{P(A\cap B)}{P(A)}\;\;\;\; \mbox{se}\ P(A)\not = 0\)
\(P(\bar A)=1-P(A)\) (prop. 5)
\(A\) e \(B\) são eventos independentes se \(P(A|B)=P(A)\) ou alternativamente \(P(B|A)=P(B)\). Isso significa que a ocorrência de um dos eventos não altera a probabilidade de ocorrência do outro evento.
se \(A\) e \(B\) independentes: \(P(A\cap B)=P(A)P(B)\) (prop. 6)
se \(A_1\), \(A_2\),\(\ldots\), \(A_n\) são independentes: \(P(A_1\cap A_2\cap\ldots\cap A_n)=P(A_1)P(A_2)\ldots P(A_n)\)
eventos \(A\) e \(B\) são coletivamente exaustivos com relação ao espaço amostral \(\Omega_X\) se esse evento \(A\cup B\) for equivalente a ocorrência de qual resultado incluido em \(\Omega_X\). Isso também indicado por \(A\cup B=\Omega_X\). (prop. 8)
teorema de Bayes: se \(A_1\), \(A_2\),\(\ldots\), \(A_k\), são \(k\) eventos mutuamente exclusivos e coletivamente exaustivos, temos que, para um evento \(B\) qualquer, com \(P(B)>0\): (prop. 9) \[P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{j=1}^k P(B|A_j)P(A_j)},\;\;\;\; i=1,\ldots,k\]
Considere que a v.a. \(X\) representa o número de resultados “cara” observados no lançamento de 1 moeda, com chances iguais de “cara” e “coroa” em cada lançamento. Só para lembrar também, a distribuição teórica de \(X\) é
Binomial(n=2,p=0,5): \(\displaystyle P(X=x)={n\choose x}p^x(1-p)^{n-x},\ \ x\in\{0,1,2\}\ \ \mbox{e}\ \ P(X=x)=0,\ x\not \in \{0,1,2\}\)
o espaço amostral de \(X\) será definido por \(\Omega_X=\{0,1,2\}\) (resultados possíveis)
Alguns eventos possíveis:
notação: \(A\equiv\ X=1\) indica que o evento \(A\) representa o evento \(X=1\) ou seja 1 cara observada em uma realização de \(X\).
\(\bar A\)
Notas:
Considere que * \(X\sim \text{N}(0,1)\) uma notação que indica uma forma compacta de representar que \(X\) tem distribuição Normal(0,1), uma Normal padronizada.
Considere também os seguintes eventos:
Com relação a esses eventos podemos afirmar que
Aplicação da noção de probabilidade condicional e noção de independência
Encontre \(P(A)\) e \(P(A|B)\), ou seja a probabilidade de ter ocorrido o evento \(A\) dado que ocorreu o evento \(B\).
pelas propriedades temos que: \(P(A|B)=\frac{P(A\cap B)}{P(B)}\)
## P(A)
pnorm(1,0,1)-pnorm(-1,0,1)
## [1] 0.6826895
## P(A|B)
(pnorm(0,0,1)-pnorm(-1,0,1))/pnorm(0,0,1)
## [1] 0.6826895
Essa é uma pergunta que muitos, usando a intuição, reponderão de pronto: 1/2. Essa resposta não é a correta.
Solução: Represente por \(X_1\) e \(X_2\), 2 variáveis aleatórias Bernoulli, o sexo do primeiro de segundo filhos respectivamente, com \(X_i=1\) para sexo masculino e \(X_i=0\) para sexo feminino, \(i=\{1,2\}\). A seguir a situação é representada com o apoio de uma
Para facilitar, vamos criar 2 eventos \(A\equiv\) “um dos filhos é menino” e \(B\equiv\) “casal de filhos”. Esses dois eventos podem ser caracterizados formalmente por:
\(A\equiv (X_1=1\cap X_2=1)\; \cup\; (X_1=0\cap X_2=1)\;\cup\; (X_1=1\cap X_2=0)\) (um dos filhos é homem)
\(B\equiv (X_1=0\cap X_2=1)\; \cup\; (X_1=1\cap X_2=0)\) (casal de filhos)
Os eventos \(A\) e \(B\) estão representados na figura a seguir:
Utilizando os resultados da teoria de probabilidade, sabemos que
*\(\displaystyle P(B|A)=\frac{P(A\cap B)}{P(A)}\)
Temos que
\(A\cap B= B\) e, consequentemente,
\(P(A\cap B)=P[(X_1=1\cap X_2=0)\; \cup\; (X_1=0\cap X_2=1)]= P[X_1=1\cap X_2=0]+P[X_1=0\cap X_2=1]=0{,}50\)
De forma similar, podemos obter:
Os últimos desenvolvimentos utilizaram a propriedade prop. 7 descrita no início do tópico.
Finalmente:
Num programa de televisão, o apresentador seleciona um membro da audiência e solicita que escolha uma porta dentre 3 disponíveis no palco: a, b ou c. Atrás de uma dessas portas está um prêmio que será “ganho” caso a escolha for correta. Suponha que a porta b foi a escolhida. O apresentador, que sempre sabe atras de que porta está o prêmio, abre uma das 2 portas restantes, que não contem o prêmio. Suponha que o apresentador abre a porta c. Depois disso, o apresentador pergunta ao membro da audiência se quer “trocar de porta”, ou seja, nesse caso, escolher a porta a em lugar da b escolhida originalmente, ou “ficar com a porta escolhida” (a porta b). (a) Se fosse você, ficaria com a porta b ou trocaria pela porta a? (b) Suponha que há um custo para participar do jogo e que o prêmio é $ 20. Se a participação no jogo fosse cobrada, qual seria o máximo valor que alguém (que sabe as regras) pagaria para participar sob o ponto de vista da “precificação neutra com relação a risco”?
Considere 3 tipos de avião: monomotor, bimotor e quadrimotor. Suponha que está interessado em saber qual deles é o mais seguro do ponto de vista da quebra de motores (há outros aspectos importantes na segurança de aeronaves). Suponha que a probabilidade de um motor quebrar é \(p\) e que os motores quebram de forma independente (a probabilidade de quebrar um motor não é afetada pelo fato de outro motor quebrar ou estar funcionando). Adicionalmente, suponha que um avião cai se mais que metade de seus motores quebra. Dentro dessas premissas, encontre a probabilidade de cada um aviões cair em função da quebra de motores. Qual é o avião parece menos seguro dentro desse contexto? A resposta à essa pergunta depende do valor de \(p\)?
As noções discutidas nos tópicos anteriores focaram na situação em que temos variáveis aleatórias vistas num contexto individualizado. Este tópico apresenta uma visão mais geral.
Fenômenos de interesse em geral envolvem várias variáveis. Uma abstração que se faz usualmente em estatística é que esses fenômenos poderiam ser representado por variáveis aleatórias. As observações empíricas seriam entendidas como uma amostra aleatória (conjunta) dessas variáveis aleatórias, que por sua vez são caracterizadas por uma distribuição conjunta de probabilidade. O caso geral é chamado multivariado. Quando o foco é em 2 variáveis, o caso é chamado bivariado.
Ex: fenômeno que envolve 3 variáveis, \(X\), \(Y\) e \(Z\)
amostra tamanho \(n\) antes de sua observação: \(\{X_1, Y_1, Z_1\}\) \(\{X_2, Y_2, Z_2\}\) \(\ldots\) \(\{X_n, Y_n, Z_n\}\)
amostra tamanho \(n\) depois de sua observação: \(\{x_1, y_1, z_1\}\) \(\{x_2, y_2, z_2\}\) \(\ldots\) \(\{x_n, y_n, z_n\}\)
Para facilitar a exposição introduziremos os conceitos no contexto de 2 variáveis, ou seja, bivariado ou bidimensional. Todas as noções podem ser estendidas para a situação multivariada ou multidimensional.
Suponha a situação de uma família com 2 crianças, cujo sexo é desconhecido. Considere que \(X\) é uma variável Bernoulli que assume valor 1 se a primeira criança é um menino e 0 se é menina, e \(Y\) é uma v.a. que representa o número de meninos nas 2 crianças. Assuma que as chances de menino ou menina num nascimento são iguais.
Desejamos caracterizar a distribuição conjunta de \(X\) e \(Y\), representada por \(f_{XY}(x,y)\).
Nesse contexto, vamos introduzir a definição geral
Distribuição conjunta de variáveis aleatórias discretas: especificação das probabilidades de todos os possiveis resultados conjuntos envolvendo essas v.a.s. Todos os possíveis resultados conjuntos são computados a partir do produto cartesiano dos espaços amostrais das variáveis aleatórias envolvidas.
A distribuição conjunta de 2 ou mais variáveis aleatórias é a representação mais completa possível existente em estatística para caracterização de variáveis aleatórias. Da distribuição conjunta podem ser extraídas todos os conceitos estatísticos relacionados a essas variáveis aleatórias.
Para a situação em tela, o produto cartesiano de \(X\) e \(Y\) seria indicado por
As probabilidades associadas à distribuição conjunta de probabilidade pode ser facilitada pela observação da árvore de probabilidades descrita na figura a seguir, em que o sexo de cada criança é representado pelas v.a.s \(Z_1\) e \(Z_2\).
Dessa “árvore” podemos observar que os eventos \((X=0)\cap(Y=2)\) e \((X=1)\cap(Y=0)\) terão probabilidade 0 (zero), sendo equivalentes ao evento \(\varnothing\). Com esses resultados podemos facilmente caracterizar a distribuição conjunta de probabilidade (uma função de massa conjunta)
| \(x\) | \(y\) | \(P(X=x\cap Y=y)\) ou \(f_{XY}(x,y)\) |
| \(0\) | \(0\) | \(0{,}25\) |
| \(0\) | \(1\) | \(0{,}25\) |
| \(0\) | \(2\) | \(0\) |
| \(1\) | \(0\) | \(0\) |
| \(1\) | \(1\) | \(0{,}25\) |
| \(1\) | \(2\) | \(0{,}25\) |
Essa distribuição poderia ser representada graficamente pela figura a seguir:
Da distribuição conjunta é possível extrair as distribuições marginais das variáveis envolvidas, assim como as distribuições condicionais, examinadas a seguir.
Para 2 variáveis aleatórias \(X\) e \(Y\) com distribuição conjunta \(f_{XY}(x,y)\) (discreta) podemos definir
distribuição marginal de \(X\): a distribuição de \(X\) “incondicional” ou seja \(f_X(x)\), obtida através de
\(f_Y(y)=\displaystyle \sum_{x\,\in\, \Omega_X} f_{XY}(x,y),\;\;\mbox{para}\;\; y\,\in \Omega_Y\)
Na situação da distribução conjunta definida no tópico 5.1 temos para \(f_X(x)\) no domínio \(\Omega_X=\{0,1\}\):
e para \(f_Y(y)\), no domínio \(\Omega_y=\{0,1,2\}\):
Essas as 2 distribuições marginais obtidas estão ilustradas na figura a seguir:
Para 2 variáveis aleatórias \(X\) e \(Y\) com distribuição conjunta \(f_{XY}(x,y)\) podemos definir
distribuição condicional de \(X\) dado \(Y=y\): representada por \(f_{X|Y}(x|y)\) ou \(X|Y=y\), é obtida através de
\(f_{X|Y}(x|y)=\displaystyle \frac{f_{XY}(x,y)}{f_{Y}(y)}\;\;=\;\;\frac{P(X=x\cap Y=y)}{P(Y=y)}, \;\; \mbox{para}\;\; x\in \Omega_X,\; y\in \Omega_Y\;\;\mbox{e}\;\; f_{Y}(y)\not =0\)
distribuição condicional de \(Y\) dado \(X=x\): representada por \(f_{Y|X}(y|x)\) ou \(Y|X=x\), é obtida através de
\(f_{Y|X}(y|x)=\displaystyle \frac{f_{XY}(x,y)}{f_{X}(x)}\;\;=\;\;\frac{P(X=x\cap Y=y)}{P(X=x)}, \;\;\mbox{para}\;\; x\in \Omega_X,\; y\in \Omega_Y\;\;\mbox{e}\;\; f_{X}(x)\not =0\)
Dessas definições de distribuição condicional, é possível estabelecer 2 definições (equivalentes) para a distribuição conjunta, no caso bivariado:
Na situação da distribução conjunta definida no tópico 5.1 temos, para \(Y|X=0\)
para \(Y|X=1\)
Essas distribuições condicionais \(Y|X=0\) e \(Y|X=1\) estão ilustradas na figura a seguir:
A noção de independência vista no contexto de eventos pode ser estendida para o contexto de variáveis aleatórias. Essa é uma noção central em estatística. Essa noção apresentada a seguir vale para variáveis aleatórias discretas (vistas nos tópicos anteriores) e também para variáveis contínuas (vistas nos próximos tópicos)
Se \(X\) e \(Y\) são variáveis aleatórias:
Uma definição mais técnica é oferecida a seguir:
Última figura apresentada (tópico anterior) nos mostra um caso emblemático de 2 variáveis \(X\) e \(Y\) que claramente não são independentes. As distribuições \(Y|X=0\) e \(Y|X=1\) são claramente diferentes da distribuição incondicional de \(Y\). Informação sobre \(X\) afeta a distribuição de \(Y\) nesse caso.
Suponha por outro lado, uma situação em que \(Z_1\) e \(Z_2\) são 2 amostras aleatórias tamanho 1 de uma variável \(Z\) com distribuição \(f_Z(z)\). Nesse caso, por construção, \(Z_1\ci Z_2\). É por essa razão que se usa a sigla i.i.d. (independente e identicamente distribuída) para caracterizar amostras tipicamente usadas em estatística.
Focaremos o desenvolvimento no caso bivariado com o entendimento de que as noções se aplicam também ao caso multivariado.
Considere as variáveis aleatórias \(X\) e \(Y\) cuja distribuição conjunta é definida por \(f_{XY}(x,y)=x+y\) para \(x\in [0,1]\) e \(y\in [0,1]\) e \(f_{XY}(x,y)=0\) para outros valores de \(x\) e \(y\) . É uma situação teórica, que utilizaremos para ilustrar os conceitos importantes sem muitas dificuldades algébricas.
A figura a seguir ilustra essa distribuição conjunta bivariada:
Como requisito importante para uma função de densidade bivariada, o volume “embaixo” da função é igual a 1, na região do domínio da função, ou seja,
(verifique o resultado da última integral como exercício)
Esse mesmo requisito deve ser verificar para o caso geral multivariado (o volume nesse caso será multidimensional e também igual a 1).
Para 2 variáveis aleatórias \(X\) e \(Y\) com distribuição conjunta \(f_{XY}(x,y)\) (contínua) podemos definir
distribuição marginal de \(X\): \(f_X(x)\) é obtida através de
\(f_X(x)=\displaystyle \int_{\Omega_Y} f_{XY}(x,y)\, dy,\;\;\mbox{para}\;\; x\,\in \Omega_X\)
distribuição marginal de \(Y\): \(f_Y(y)\) é obtida através de
\(f_Y(y)=\displaystyle \int_{\Omega_X} f_{XY}(x,y)\, dx,\;\;\mbox{para}\;\; y\,\in \Omega_Y\)
Na situação da distribuição conjunta definida no tópico anterior temos
\(f_X(x)=\displaystyle \int_{0}^1 f_{XY}\,dy = \int_{0}^1 (x+y)\,dy\)
\(f_X(x)=\displaystyle \left[xy+\frac{y^2}{2}\right]_0^1=x+0{,}5,\;\;\mbox{para}\;\; x\in [0,1]\)
Usando o mesmo raciocínio para a marginal/incondicional de \(Y\), chegamos a
A obtenção da distribuição condicional para o caso contínuo segue o mesmo procedimento utilizado no caso discreto. Para 2 variáveis aleatórias \(X\) e \(Y\) com distribuição conjunta \(f_{XY}(x,y)\) podemos definir
distribuição condicional de \(X\) dado \(Y=y\): representada por \(f_{X|Y}(x|y)\) ou \(X|Y=y\), é obtida através de
\(f_{X|Y}(x|y)=\displaystyle \frac{f_{XY}(x,y)}{f_{Y}(y)} \;\; \mbox{para}\;\; x\in \Omega_X,\; y\in \Omega_Y\;\;\mbox{e}\;\; f_{Y}(y)\not =0\)
distribuição condicional de \(Y\) dado \(X=x\): representada por \(f_{Y|X}(y|x)\) ou \(Y|X=x\), é obtida através de
\(f_{Y|X}(y|x)=\displaystyle \frac{f_{XY}(x,y)}{f_{X}(x)} \;\;\mbox{para}\;\; x\in \Omega_X,\; y\in \Omega_Y\;\;\mbox{e}\;\; f_{X}(x)\not =0\)
A obtenção da distribuição condicional \(Y|X=x\) no caso da distribuição conjunta contínua definida nos tópicos anteriores pode se fazer através da aplicação dessas definições:
Essa distribuição \(Y|X=x\) depende do valor de \(x\), algo que sugere que \(X\) e \(Y\) não são independentes. Esse resultado que pode ser comprovado, verificando-se que
Como já mencionamos, com relação a um conjunto de variáveis aleatórias \(X_1\), \(X_2\),\(\ldots\), \(X_k\), a distribuição conjunta dessas variáveis, ou seja
contém o máximo de informação possivel sobre cada variável aleatória e seu comportamento conjunto. Em algumas situações, contudo, somente o conhecimento sobre as distribuições marginais
\(f_{X_1}(x_1),\, f_{X_2}(x_2),\; \ldots, f_{X_k}(x_k)\) é disponível
seria possível recuperar a distribuição conjunta a partir dessas distribuições marginais?
A resposta geral a essa pergunta é não. Da distribuição conjunta podemos obter as marginais, mas o contrário não é necessáriamente válido.
Uma situação em que é possível recuperar a distribuição conjunta das marginais ocorre quando as variáveis são independentes do ponto de vista probabilístico:
Nesse caso de independência, a distribuição conjunta é o produto das marginais. Caso não sejam independentes a obtenção da distribuição conjunta depende do conhecimento de distribuições condicionais. Para 2 v.a.s \(X_1\) e \(X_2\) temos sempre
\(f_{X_1 X_2}(x_1,x_2)=f_{X_1|X_2}(x_1|x_2) f_{X_2}(x_2)\)
\(f_{X_1 X_2}(x_1,x_2)=f_{X_2|X_1}(x_2|x_1) f_{X_1}(x_1)\)
se \(X_1\) e \(X_2\) são independentes, as distribuições condicionais nas expressões acima serão substituidas pelas marginais correspondentes.
Se \(X\) e \(Y\) são variáveis aleatórias com distribuição Bernoulli, com parâmetros \(p_x\) e \(p_y\), respectivamente, qual será a distribuição conjunta de \(X\) e \(Y\) se \(X \ci Y\).
Temos que: \(X\sim p_x^x(1-p_x)^{1-x}\) e \(Y\sim p_y^y(1-p_y)^{1-y}\) com \(X\in \{0,1\}\) e \(Y\in \{0,1\}\)
Logo, como \(X \ci Y\), \(f_{XY}(x,y)=p_x^x(1-p_x)^{1-x}p_y^y(1-p_y)^{1-y}\)
no caso em que \(p_x=p_y=p\) temos: \(f_{XY}(x,y)=p^{x+y}(1-p)^{(1-x)+(1-y)}\)
Esses resultados só são possíveis dado que \(X \ci Y\). Se não pudermos garantir a independência, o resultado apresentado não será válido.
Se \(X\) e \(Y\) são variáveis aleatórias com distribuição Normal, com parâmetros \(\mu_x\), \(\sigma_x\), \(\mu_y\) e \(\sigma_y\), respectivamente, qual será a distribuição conjunta de \(X\) e \(Y\) se \(X \ci Y\).
Temos que: \(X\sim \displaystyle \frac{1}{\sqrt{2\pi}\sigma_x}\;e^{\displaystyle -\frac{(x-\mu_x)^2}{2\sigma_x^2}}\) e \(Y\sim \displaystyle \frac{1}{\sqrt{2\pi}\sigma_y}e^{\displaystyle -\frac{(y-\mu_y)^2}{2\sigma_y^2}}\)
No caso em que \(X\ci Y\): \(f_{XY}(x,y)=\displaystyle \frac{1}{\sqrt{2\pi}\sigma_x}\;e^{\displaystyle -\frac{(x-\mu_x)^2}{2\sigma_x^2}}\times \frac{1}{\sqrt{2\pi}\sigma_y}\;e^{\displaystyle-\frac{(y-\mu_y)^2}{2\sigma_y^2}}\)
ou seja, \(f_{XY}(x,y)=\displaystyle \frac{1}{2\pi\sigma_x \sigma_y}\;e^{\displaystyle-\frac{(x-\mu_x)^2}{2\sigma_x^2}-\frac{(y-\mu_y)^2}{2\sigma_y^2}}\)
Uma ilustração dessa distribuição Normal bivariada, na situação em que \(\mu_x=\mu_y=0\) e \(\sigma_x=\sigma_y=1\) e temos independência é apresentada na figura a seguir.
Um caso importante que comporta facilmente a possibilidade de não-independência no contexto multivariado é apresentado a seguir.
Se \(X_1\), \(X_2\), \(\ldots\) \(X_p\) tem distribuição Normal Multivariada, isso significa que sua distribuição será definida por:
Onde
\(\X=\left(\begin{array}{c} X_1\\ X_2\\ \vdots\\ X_p\\ \end{array} \right)\) \(\bfmu=\left(\begin{array}{c} \E(X_1)\\ \vdots\\ \E(X_p)\\ \end{array}\right)\) \(\x=\left(\begin{array}{c} x_1\\ x_2\\ \vdots\\ x_p\\ \end{array} \right)\)
\(\bfV=\left(\begin{array}{cccc} \sigma_{11}&\sigma_{12}&\ldots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\ldots&\sigma_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ \sigma_{p1}&\sigma_{p2}&\ldots&\sigma_{pp}\\ \end{array}\right)\)
\(\sigma_{ij}=\cov(X_i,X_j)\).
Nessas expressões:
T em superescrito indica o operador de transposição (de vetores ou matrizes)
$| $ indica o determinante da matriz \(\bfV\)
\(p\) indica o número de variáveis aleatórias consideradas
\(\cov\) é a “covariância” entre 2 variáveis aleatórias, um conceito que será explicado em outro tópico. Quando há independência entre duas variáveis \(X_i\) e \(X_j\) com distribuição Normal multivariada, isso significa que \(\cov(X_i,X_j)=0\). A covariância e o coeficiente de correlação são medidas de associação estatística entre 2 variáveis.
O exemplo anterior de uma distribuição Normal bivariada padronizada é um caso particular desse caso geral. Obtenha, como exercício, a espressão anterior a partir da expressão geral da Normal Multivariada (nesse caso \(p=2\))
Na figura a seguir, também um caso bivariado, temos \(\mu_{x1}=\mu_{x2}=0\) e \(\sigma_{x1}=\sigma_{x2}=1\), e nesse caso \(\cov(X_1,X_2)=-0,90\). As v.a.s \(X_1\) e \(X_2\) não são independentes nesse caso.
Distribuições marginais da Normal Multivariada conjunta: As distribuições marginais associadas a \(X_1\), \(X_2\), \(\ldots\) \(X_p\) serão Normais univariadas, com esperança matemática \(\mu_i\) e desvio-padrão \(\sigma_i\), para \(i=1,\ldots, p\), definidos na Normal Multivariada.
Distribuição condicional da Normal Multivariada: no caso bivariado, envolvendo 2 variáveis \(X\) e \(Y\) com esperanças \(\mu_x\) e \(\mu_y\) desvios-padrão teóricos \(\sigma_x\) e \(\sigma_y\) e covariância \(\sigma_{xy}\). Nesse caso a distribuição de \(Y|X=x\) será dada por:
\(Y|X=x\;\sim\) Normal univariada com
\(E(Y|X=x) = \mu_y + \rho \frac{\sigma_y}{\sigma_x}[x-\mu_x]\) (esperança matemática)
\(V(Y|X=x) = (1-\rho^2)\sigma_y^2\) (variância teórica)
\(\rho\) é o coeficiente de correlação, definido por \(\rho=\displaystyle \frac{\sigma_{xy}}{\sigma_x \sigma_y}\)
Podem existir situações mais complexas de condicionamento, envolvendo mais de 2 variáveis, mas estas não serão aqui apresentadas.
Como operacionalizar a formula no R num caso bivariado. Suponha uma situação em que temos 2 variáveis aleatórias \(X\) e \(Y\) com distribuição Normal Multivariada com parâmetros:
\(\bfmu=\left(\begin{array}{c} 2\\ 3 \\ \end{array}\right)\)
\(\bfV=\left(\begin{array}{cc} 4&1\\ 1&2 \end{array}\right)\)
e o objetivo é calcular a densidade de probabilidade \(f_{XY}(2,1)\). Como poderíamos proceder para implementar a distribuição conjunta de \(X\) e \(Y\)
p<-2 ## número de variáveis
mu<-c(2,3) ## esperanças matemáticas
x<-c(2,1) ## valores de x e y para cálculo da densidade de probabilidade
Sigma<-matrix(c(4,1,1,2),nrow=2)
Sigma
## [,1] [,2]
## [1,] 4 1
## [2,] 1 2
solve(Sigma)%*% Sigma ## inversa de Sigma x Sigma
## [,1] [,2]
## [1,] 1 0
## [2,] 0 1
1/((2*pi)^(p/2)*det(Sigma)^(1/2))*exp(-0.5*(t(x-mu)%*%solve(Sigma)%*%(x-mu)))
## [,1]
## [1,] 0.0191838
Conclui-se portanto que \(f_{XY}(2,1)=0{,}01918\).
Os operadores no expoente da exponencial são matriciais, por essa razão eles ficam entre 2 %. A funções tem o seguinte significado:
Considere a situação das variáveis \(X\) e \(Y\) descritas no tópicos 5.1 e 5.2, sumarizada na figura a seguir:
Se \(X\) e \(Y\) fossem independentes, poderíamos criar observações conjuntas de \(X\) e \(Y\), simplesmente simulando independentemente valores das distribuições correspondentes, que seriam, respectivamente Bernoulli(\(p=0{,}5\)) e Binomial(\(n=2, p=0{,}5\)). Os comandos do R abaixo ilustram essa situação:
set.seed(20)
x<-rbinom(10,1,0.5) ## amostra tamanho 10 de uma Bernoulli(p=0,5)
y<-rbinom(10,2,0.5) ## amostra tamanho 10 de uma Binomial(n=10,p=0.5)
data.frame(x,y)
## x y
## 1 1 1
## 2 1 2
## 3 0 0
## 4 1 1
## 5 1 0
## 6 1 1
## 7 0 1
## 8 0 0
## 9 0 1
## 10 0 2
Observe que nessa amostra, ocorre um par de valores (0,2), algo que não seria possível se fosse considerada a real distribuição conjunta de \(X\) e \(Y\).
Para obter uma amostra “correta” considerando a dependência entre essas variáveis, podemos utilizar a informação da distribuição condicional de \(Y|X=x\):
set.seed(20)
x<-rbinom(10,1,0.5) ## amostra tamanho 10 de uma Bernoulli(p=0,5)
y<-0
for(i in 1:length(x)){
if (x[i]==0) y[i]<-sample(c(0,1),1,replace=TRUE)
else y[i]<-sample(c(1,2),1,replace=TRUE)
}
data.frame(x,y)
## x y
## 1 1 2
## 2 1 2
## 3 0 0
## 4 1 2
## 5 1 1
## 6 1 1
## 7 0 0
## 8 0 0
## 9 0 0
## 10 0 1
Agora os resultados são consistentes com a distribuição conjunta.