Variáveis aleatórias: noções, esperança matemática e revisão de probabilidades (caso uni e multivariado)

sumário geral | anterior | próximo)

Conteúdo do Módulo

 1 - Variável aleatória e terminologia associada
 
 2 - Esperança matemática ou média teórica de uma variável aleatoria (v.a.)
 
 3 - Aplicações na análise de situações envolvendo incerteza (modelagem de riscos)
 
 4 - Brevíssima revisão da "teoria de probabilidades"
 
 5 - Variáveis aleatórias e sua distribuição "conjunta", "marginal" e "condicional"

1 - Variável aleatória e terminologia associada

A noção de variável aleatória, ou simplesmente v.a., tem uma importância central na ligação dos resultados teóricos da estatística usados para interpretação/análise de dados empíricos e modelagem de riscos. Neste tópico faremos uma caracterização dessa noção e da terminologia necessária para sua operacionalização.

1.1 Conceitos básicos

variável aleatória (v.a.): variável que pode assumir valores numéricos de acordo com uma distribuição teórica de frequências relativas (ou probabilidades), se a variável for quantitativa discreta, ou distribuição teórica de densidades de frequências relativas (ou densidades de probabilidade), se a variável for quantitativa contínua. Em inglês chama-se random variable.
Para uma v.a. contínua a distribuição teórica de densidades de frequências relativas ou probabilidades é também chamada função de densidade (de probabilidade).
Para uma v.a. discreta a distribuição teórica de frequências relativas ou probabilidades é também chamada função de massa (de probabilidade).
As noções de v.a. e distribuição teórica estão intimamente relacionadas.
Indica-se que uma variável aleatória $X$ tem uma distribuição teórica $f(x,p_1,p_2,\ldots,p_k)$ com os parâmetros $p_1, p_2$, $\ldots$, $p_k$, por:

\[\displaystyle X\sim f_X(x,p_1,p_2,\ldots,p_k)\;\;\text{ou simplesmente}\;\;X\sim f_X(x)\]
O $X$ como subscrito de $f_X(x)$ e os parâmetros especificados como argumentos da função são opcionais.
Uma distribuição teórica não precisa (necessariamente) ter parâmetros.
representação de v.a.s: são usualmente representada por letras maiúsculas (ex. $X$, $Y$, $Z$).
constante: é uma v.a. que assume um único valor com probabilidade 1, e são representadas por letras minúsculas no contexto de variáveis aleatórias.
função de v.a.: se $X$ é uma v.a., e $Y=g(X)$ onde $g(x)$ é uma função qualquer, $Y$ será também uma variável aleatória, em geral com distribuição teórica diferente da distribuição de $X$ (só em situações específicas será igual).
realização de uma v.a.: possível resultado obtido do “sorteio” de um valor da variável aleatória a partir sua distribuição teórica de probabilidade. As realizações de uma v.a. são frequentemente representadas pelo nome da variável acrescido de subscritos.
Para uma v.a. $X$, os valores $X_1$, $X_2$, $\ldots$, $X_n$ podem representar $n$ realizações obtidas do sorteio da distribuição de $X$. Após a efetiva observação dessas realizações, elas podem ser representadas por $x_1$, $x_2$,$\ldots$, $x_n$ (note as letras minúsculas).
Antes de observarmos as realizações $X_1$, $X_2$, $\ldots$, $X_n$, elas também serão variáveis aleatórias, com a mesma distribuição de $X$.

1.2 Variáveis aleatórias como “abstração” para representação de fenômenos empíricos

Em estatística é comum entender as observações de um “fenômeno real”" (empírico) da forma esquematizada na figura a seguir. As observações do fenômeno, caso obtidas de forma apropriada, são entendidas como sendo uma amostra aleatória tirada de uma variável aleatória, ou mais exatamente da distribuição teórica associada a essa variável, em geral desconhecida. Essa distribuição pode ser contínua, discreta ou até mesmo contínua e discreta, em situações específicas.

Se a amostragem que gerou a amostra foi conduzida da forma apropriada, de forma aleatória, num processo em que cada observação tem a mesma chance de ser obtida no sorteio da distribuição teórica, essa amostra é caracterizada com a sigla i.i.d. (independente e identicamente distribuida). Inferências sobre o fenômeno são, no fundo, inferências sobre a variável aleatória e sua distribuição.

1.3 Terminologia usada no contexto de variáveis aleatórias

experimento: processo de sorteio associado a obtenção de realizações de uma v.a. Em algumas situações é clara a noção de experimento, em outras pode ser mais abstrata. Não é uma noção essencial.
amostra tamanho $n$: conjunto de $n$ realizações de uma v.a. obtido da mesma distribuição, de forma independente. É uma jargão estatístico muito usado. Em muitas situações usa-se a expressão amostra tamanho $n$ i.i.d. (independente e identicamente distribuída).
espaço amostral $\Omega$ de uma v.a.: conjunto das realizações possíveis (distintas) de uma variável aleatória. Para uma v.a. $X$ é usualmente representado por $\Omega_X$ (letra grega Ômega).
evento: conjunto de resultados associados a uma variável aleatória (ex. $X=4$, $X>10$, $X<20$). Será constituído por sub-conjunto do espaço amostral $\Omega$ associado a essa variável. Um evento é entendido como sendo uma operação lógica com resultado falso ou verdadeiro, que só será conhecido quando a realização da variável é observada.
probabilidade (representação): para um evento $A$ qualquer, será representada pela notação $P(A)$. Para uma variável aleatória $X$, podemos representar a probabilidade de $X<4$ por $P(X<4)$
probabilidade (entendimentos):
Noção frequentista: entende a probabilidade como a frequência teórica de ocorrência de um evento. Por essa noção, se a probabilidade de observarmos “cara” no lançamento de uma moeda é 0,5, isso significa que se essa moeda fosse lançada infinitas vezes, observariamos ao final uma frequência relativa 0,5 de caras. Por outro lado, a n
Noção subjetivista ou Bayesiana: entende a probabilidade como uma avaliação das chances de ocorrência de eventos aos olhos de um observador. Nessa última situação, a probabilidade de observarmos “cara” é 0,5 se um observador entender, pela simetria da moeda e processo de lançamento, que as chances de “cara” e “coroa” são iguais (e tem que somar 1). Se um meteorologista afirma que a probabilidade de chuva amanhã é 20% (ou 0,2) isso significa que esta expressando sua opinião de que esse seria um fenômeno com chances equivalentes à retirada por sorteio de uma bola preta de uma urna com 1 bola preta e 4 bolas brancas, de tamanhos idênticos.
Há outras noções, mas essas são claramente as principais.
caso multidimensional: a noção de v.a. pode ser estendida a uma situação multidimensional (vetor de v.a.s, matriz de v.a.s). Por exemplo $[X, Y, Z]$ pode representar um vetor de variáveis aleatórias, e $[X_1, Y_1, Z_1]$, $[X_2,Y_2,Z_2]$ podem representar 2 realizações desse vetor aleatório, a partir da distribuição teórica “conjunta” dessas variáveis aleatórias (uma noção que estende a noção de distribuição teórica para o caso unidimensional).
simulação: obtenção de uma amostra aleatória i.i.d. através do sorteio de valores de uma variável aleatória com distribuição conhecida, através de técnicas conhecidas como “simulação Monte Carlo”.
No R, podemos obter amostras de v.a.s, via simulação, através de funções que estão associadas às distribuições teóricas mais usuais. As funções que realizam a simulação são sempre iniciadas pela letra “r” (de “random” em inglês). Algumas dessas funções são apresentadas a seguir. Nas funções abaixo, $k$ representa o tamanho da amostra ou número de valores “simulados”:
- Uniforme(a,b): runif(k,a,b)
- Normal($\mu$,$\sigma$): rnorm(k,$\mu$,$\sigma$)
- Bernoulli(p): rbinom(k,1,p)
- Binomial(n,p): rbinom(k,n,p)
- t-Student(g): rt(k,g)
- Qui-Quadrado(gl): rchisq(k,gl)
- F(n,m): rf(k,n,m)

1.4 Alguns exemplos

Bernoulli

Considere que estamos interessados em $n$ lançamento de uma moeda, através de um método que garante que as chances de “cara” ou “coroa” são idênticas. Considere uma variável aleatória $X$ que assume valor 1 se o resultado de um lançamento for “cara” e 0 se for “coroa”.

Com relação a $X$ temos: * $X$ é uma variável aleatória com distribuição Bernoulli, dado que assume valores $X=1$ com probabilidade $p=0{,}5$ e $X=0$ com $1-p=0{,}5$, dado que assumimos chances iguais para cada um dos resultados. * Experimento: processo de lançamento da moeda que gera cada uma das $n$ realizações de $X$. Podemos chamar de experimento conjunto os 5 experimentos realizados. * Amostra: antes do lançamento, $X_1$, $X_2$, $X_3$, $X_4$ e $X_5$, variaveis aleatórias; após o experimento conjunto, os valores $x_1$, $x_2$, $x_3$, $x_4$ e $x_5$ definidos por ${1,0,0,1,0}$ * Possíveis eventos: $X_5=1$, $X_1+X_4\ge 0$, $\sum_{i=1}^5 X_i/5\in [0{,}4;\ 0{,}6]$.

Binomial

Considere que $Y$ representa outra v.a. que representa o número de caras obtidas em $n$ lançamentos da moeda, representados pelas variáveis Bernoulli $X_1$, $X_2$,$\ldots$,$X_n$, com $X_i=1$ representando a observação de uma “cara”. Se $n=5$ temos

$\displaystyle Y=\sum_{i=1}^5 X_i$ (total de caras obtidas em $5$ lançamentos)

Com relação à variável aleatória $Y$: * $Y$ é uma variável aleatória com distribuição Binomial, com $n=5$ e $p=0{,}5$, dado que é a soma de 5 variáveis Bernoulli obtidas da forma indicada (propriedade da Binomial) * Experimento: observação de um valor de $Y$ (obtida pela soma de $X_1$, $X_2$, $\ldots$, $X_5$) * Amostra: se a amostra for tamanho 2, por exemplo, obteríamos $Y_1$ e $Y_2$ a partir de duas amostras tamanho 5 da variável $X$ definida da forma indicada. * Possíveis eventos: $Y_1=3$, $Y_1+Y_2\le 2$, $\sum_{i=1}^2 Y_i/2\in [2;\ 4]$.

Normal

Considere que $Z$ representa outra v.a. com distribuição Normal com média teórica $\mu$ e desvio padrão teórico $\sigma$.

Experimento: observação de um valor de Z (por simulação por exemplo)
Amostra: se a amostra for tamanho 3, por exemplo, obteríamos $Z_1$, $Z_2$ e $Z_2$ a partir de 3 amostras tamanho 1 da variável $Z$, através do comando rnorm(3,$\mu$,$\sigma$)
Possíveis eventos: $Z_1=3$, $Z_1+Z_2\le 100$, $\sum_{i=1}^3 Z_i/3\in [50;\ 100]$.

Distribuição teórica desconhecida

Em muitas situações envolvendo fenômenos reais, não conhecemos â distribuição teórica exata associada a variável aleatória associada ao fenômeno. Isso não afeta nenhum dos conceitos descritos nos últimos parágrafos.

Nessas situações é comum a utilização das observações do fenômeno, obtidas de forma apropriada, para obtenção de estimativas que visam caracterizar a variável aleatória, como a distribuição teórica, a média teórica, variância, momentos, probabilidades, com o objetivo de se entender essa distribuição teórica. Isso possibilita muitas inferências importantes sobre o fenômeno estudado.

2 - Esperança matemática ou média teórica de uma variável aleatoria (v.a.)

Este tópico formaliza noções que vêm sendo mencionadas até o momento de forma relativamente intuitiva. Essas noções expandem o arcabouço de conceitos necessários para o processo de inferência estatística (entendido como o processo de se tirar conclusões a partir de observações de fenômenos).

2.1 Conceito de esperança matemática ou média teórica - $E(X)$

Os conceitos tem definições distintas para distribuições discretas e contínuas. Essas definições, ainda que distintas em sua operacionalização, tem significados fundamentais muito similares. A próxima figura ilustra as definições principais em cada caso.

Observações importantes com respeito à esperança matemática:

O conceito de esperança matemática (ou média teórica) é puramente técnico. Evite pensar nele como o valor que as pessoas “esperam” que aconteça. No caso de uma v.a. discreta é fácil ver que o valor da esperança pode ser um valor que nunca irá ocorrer.
A esperança matemática de uma variável aleatória $X$ é representada por $E(X)$ ou $\mu_x$.
A esperança matemática pode não existir (é uma situação de importância mais teórica que prática). Isso ocorrerá pela impossibilidade de convergência nas operações que levam ao cálculo da esperança.
A esperança matemática coincide com o conceito de centro de massa usado em física. Seria o ponto (no eixo x) que “equilibra” a distribuição. Esse conceito facilita a visualização da esperança em casos de distribuições simétricas, como o valor que coincide com a moda e mediana.

2.2 Exemplos de obtenção de $E(X)$ para v.a. discretas

Considere as distribuições discreta abaixo e encontre $E(X)$ em cada caso:

distrib discretas exemplos

$E(X)$ variável aleatória discreta [Ex. 1 na figura]

suponha que $X$ é uma v.a. discreta que pode assumir os valores definidos pela tabela abaixo:

$i$	$x_i$	$P(X=x_i)$ ou $f(x_i)$
$1$	$3$	$0{,}1$
$2$	$5$	$0{,}3$
$3$	$8$	$0{,}6$

Temos então que $E(X)= 3 \times 0{,}1 + 5 \times 0{,}3 + 8\times 0{,}6$ = $6{,}6$

$E(X)$ para Bernoulli($p$) [Ex. 2 na figura]

Suponha que $X$ é uma variável aleatória discreta Bernoulli com $P(X=1)=p$ e $P(X=0)=1-p$ para $p\in [0,1]$.

Logo temos $E(X)=0\times (1-p) + 1\times p= p$

2.3 Exemplos de obtenção de $E(X)$ para v.a. contínuas

Considere as distribuições contínuas abaixo e encontre $E(X)$ em cada caso:

distrib discretas exemplos

$E(X)$ para distribuição Uniforme(0, 5) [Ex. 1 na figura]

Suponha que $X\sim$ Uniforme($0,\ 5$)

como nesse caso $f(x)=\frac{1}{5-0}=1/5$ para $x\in [0,\ 5]$ e $f(x)=0$ para $x\not\in [0,\ 5]$, pela definição do caso contínuo:
$\displaystyle E(X)=\int_{-\infty}^{\infty} x f(x)\ d x=\int_{0}^{5} x \frac{1}{5}\ d x=\frac{1}{5}\left[\frac{x^2}{2}\right]_0^5=2{,}5$
o resultado já poderia ter sido antecipado, pela observação de que o ponto $x=2,5$ é o centro de massa dessa distribuição (que é simétrica)

$E(X)$ para distribuição Normal($\mu$,$\sigma$) [Ex. 2 na figura]

Para uma Normal($\mu$,$\sigma$) temos que

$\displaystyle E(X)= \int_{-\infty}^{\infty} x\ f(x)\ dx\ =\ \int_{-\infty}^{\infty} x \frac{1}{\sqrt{2\pi}\sigma}\displaystyle\ e^{- \frac{\displaystyle( x-\mu)^2}{\displaystyle 2\sigma^2}}\ dx$
a integral definida acima exige técnicas avançadas para sua obtenção, resultando em $E(X)=\mu$
o parâmetro $\mu$ da Normal é exatamente sua esperança matemática, algo que pode ser visualizado sem qualquer problema pelo entendimento desta como sendo o centro de massa.

3 - Aplicações na análise de situações envolvendo incerteza (modelagem de riscos)

3.1 O conceito de loteria em economia e finanças

No jargão popular, um bilhete de loteria é um ativo que paga o valor definido como o “prêmio” caso o resultado de algum sorteio seja aquele especificado no bilhete (segundo as regras definidas).

O conceito de “loteria” é utilizado em economia e finanças para especificar, de forma genérica e abstrata, um ativo que produza um resultado financeiro incerto num dado contexto, algo que inclui, não só o tradicional “bilhete de loteria” e outros jogos de azar, como ações, investimentos, contratos futuros e outros derivativos financeiros.

Para deixar a situação mais concreta, considere a seguinte loteria, definida por um novo título público, (supostamente) emitido pelo Tesouro Nacional do Brasil:

Payoff: resultados possíveis associados à loteria

No caso presente o “payoff” que é contingente ao resultado da Copa é

$1 se o Brasil for o campeão da próxima Copa do Mundo de futebol
$0 se o Brasil não for o campeão

Ou seja, o dono do título, caso o Brasil ganhe a próxima Copa do Mundo de Futebol, poderá trocar o título por $ 1 Unidades Monetárias (U.M.), paga pelo Tesouro Nacional. Caso o Brasil não ganhe, o dono simplesmente perde o valor pago pelo título.

Para deixar o problema mais concreto, vamos supor que o Tesouro Nacional está vendendo esse título por $ 0,4, com objetivo de arrecadar fundos para o governo. Será esse um investimento interessante?

O processo de análise do valor de uma “loteria” ou, mais especificamente, de um ativo financeiro, é conhecido em economia e finanças como “precificação” ou “valuation” do ativo.

3.2 Análise de precificação com neutralidade quanto à aversão ao risco

A teoria que fundamenta a precificação é um assunto complexo e dela só introduziremos alguns resultados.

Princípio importante de precificação:

precificação neutra com relação ao risco: esperança matemática (média teórica) do payoff associado à loteria ou ativo financeiro

A idéia central é estabelecer o máximo valor que um investidor cujas preferências não consideram o risco (técnicamente chamado “não avesso ao risco”) pagaria, de forma que, em média, o valor recebido não seja inferior ao valor pago pela loteria. Esse máximo valor seria, nesse contexto, a esperança matemática do “payoff”, que é certamente um limite teórico. Para investidores com aversão ao risco (caso mais comum) esse valor máximo seria certamente até menor.

Para obter a esperança matemática dos payoffs serão necessárias premissas defensáveis com relação às probabilidades dos resultados possíveis, algo que no processo de precificação pode ser trabalhoso de obter. Muito do trabalho da área de modelagem de riscos está associado à caracterização dessa distribuição de probabilidade associada aos payoffs, caracterizados por uma variável aleatória.

No caso da loteria (título) introduzida no tópico anterior, seria conveniente “modelar” o payoff por:

Variável aleatória (Bernoulli) $X$, com $X=1$, com probabilidade $p$, associada à situação em que o Brasil ganha a copa, e $X=0$, com probabilidade $1-p$ na situação em que o Brasil não ganha a copa do mundo.
Temos que: $E(X) = 0\times (1-p)+1 \times p = p$
Logo, se $c$ é o valor a ser pago por um investidor “não avesso ao risco” por essa loteria, devemos ter
$c\le p$, no máximo, deveria pagar $ $p$ pelo título.

Coincidentemente, nessa situação, o valor de $p$ define a precificação do ativo.

Um problema prático, nesse caso, seria a obtenção de uma boa estimativa para $p$.

Nota: nessa discussão abstraímos a o problema do custo de oportunidade do dinheiro no tempo. Numa análise mais cuidadosa, a precificação pode considerar a esperança matemática do valor presente do payoff, considerando-se uma taxa de juros de desconto apropriada.

3.3 Noção de “Odds” ou “chances relativas” no contexto da Copa do Mundo

Frequentemente, o mercado oferece informações que podem ajudar o processo de precificação discutido no tópico anterior. Clique aqui para ver como andam as expectativas, nos sites de apostas, com relação ao país que ganhará a próxima Copa do Mundo de futebol.

As indicações das expectativas existentes são apresentadas em odds (chances relativas)
Significado de odds $V/1$ num time: para cada 1 Unidade Monetária ou U.M. apostada
se o time ganhar: apostador recebe a 1 U.M. apostada + $V$ U.M.s, com ganho de $V$ U.M.s
se o time perder: não recebe nada e perde a 1 U.M. apostada

Obs: se o valor das “odds” mencionado no site for, por exemplo, $7/2$ ele equivale a $3,5/1$ na notação apresentada.

Suponha que $X$ é uma v.a. que representa o “payoff” de uma aposta de $1$ U.M. num time cujas “odds” apresentadas são $V/1$.

Podemos representar o custo dessa “loteria” por $c=1$, para payoffs $X=1+V$ com probabilidade $p$ (time apostado ganha) e $X=0$ (time apostado perde) com probabilidade $1-p$.

Assumindo que esse mercado de apostas é “informacionalmente eficiente”, pelo menos de forma aproximada, poderíamos utilizar o critério da “precificação neutra quanto a risco”, assumindo que o custo (c=1) será igual à esperança matemática (média teórica) do “payoff” ou seja,

$c=0 \times (1-p)+ (1+V)\times p$ ou $1=0 \times (1-p)+ (1+V)\times p$
Se conhecemos $V$ podemos resolver em $p$ a última expressão, chegando a
$p = \frac{1}{1+V}$

Logo se, num dado momento, temos “odds” de $4/1$ para o Brasil, isso significa que uma estimativa da probabilidade do Brasil ganhar, derivada indiretamente do mercado de apostas, por esse último raciocínio, seria de * $p=1/(1+4)=1/5$, ou seja, 20%.

Assim, voltando ao problema do tópico anterior, $ $0{,}2$ é uma estimativa razoavelmente defensável, nesse momento, para o valor máximo título, pelos critérios discutidos (neutralidade com relação ao risco e eficiência do mercado), sem considerações associadas ao custo de oportunidade do dinheiro no tempo. Se o “titulo” está sendo vendido por $0{,}40$, esse parece ser um valor relativamente exagerado tendo em vista as expectativas de vitória do Brasil avaliadas pelo mercado no momento da análise.

Nota: se desejamos incorporar o custo de oportunidade, e estamos a $n$ anos da Copa, considerando uma taxa de juros $j$, esse valor máximo, utilizando o conceito do valor presente, seria definido por $0{,}2/(1+j)^n$

3.4 Precificação de situação envolvendo modelagem (Aniversários)

Suponha que está interessado em precificar a seguinte loteria, pelos critério da “neutralidade com relação ao risco” vista no tópico anterior:

23 pessoas são sorteadas ao acaso e perguntadas sobre a data de seu aniversário (dia e mês). A partir dai são definidos 2 eventos:
Evento $\bar C$: não há coincidências nas datas de aniversário dentre as 23 pessoas
Evento $C$: há coincidências nas datas de aniversário das 23 pessoas (2 ou mais pessoas fazem aniversário na mesma data)

Nesse contexto, suponha que a loteria está sendo vendida por $ $0{,}60$, especificada a seguir:

Será esse um “bom” investimento?

Para responder essa pergunta, podemos utilizar os conceitos dos últimos tópicos para análise da “precificação” adequada para desse “ativo financeiro”.

Se $X$ representa o “payoff”, $p=P(\bar C)$ será a probabilidade de $X=1$ e que, pelos resultados obtidos anteriormente, corresponderá ao máximo valor a ser pago numa precificação neutra com relação ao risco.

Só parece razoável adquirir essa “loteria” se tivermos $p\ge 0{,}60$, o valor que está sendo cobrado por ela.
Como estimar $p$? Há 3 caminhos.
Usando a intuição: qual seria um valor adequado para $p$ baseado na nossa experiência e intuição? vamos pensar. Em situações como essas é comum pessoas indicarem valores de $p>0{,}9$ baseados no entendimento de que é parece ser muito mais provável não haver coincidências de aniversários num grupo de 23 pessoas. Muitos, nessa situação, acabam desenvolvendo um raciocínio que tem a intenção de acoplar (às vezes de forma equivocada) elementos informais de probabilidade.
Usando a teoria de probabilidades. Não será o caminho que seguiremos no momento dado que ainda não revisamos esse assunto (faremos mais adiante)
Usando técnicas de amostragem. Será o caminho que seguiremos.

Uma possibilidade no caso da estratégia que usa a amostragem, seria realizar uma pesquisa de campo, envolvendo vários grupos de 23 pessoas, com o objetivo de estimar $p$ a partir da frequência observada de coincidências de aniversários nesses vários grupos. Isso, contudo, seria caro e tedioso. Uma opção mais conveniente seria a utilização de amostragem sobre um modelo da situação real.

3.5 O que é um modelo?

Modelo: representação simplificada e útil do mundo real que visa seu entendimento. São utilizados em todas as áreas do conhecimento para a caracterização de fenômenos de interesse.

O uso de modelos pode aprimorar processos de decisão pela minimização de dificuldades (e erros) derivadas de decisões fundamentadas somente na intuição, que as vezes pode falhar horrivelmente num ambiente de muita complexidade e incerteza.

A construção de modelos como representações simplificadas da situação de interesse, pode facilitar muito o processo de tomada de decisão, como veremos nessa situação examinada. Essa estratégia é sumarizada pela figura a seguir.

Modelo para amostragem de datas de aniversário de 23 pessoas:
Premissa 1: os anos tem 365 dias (vamos “esquecer” os anos bissextos)
Premissa 2: as datas de aniversário são distribuídas homogeneamente ao longo do ano. Isso é uma simplificação do mundo real (há épocas em que os nascimentos são mais frequentes).
Implementação “fisica” do modelo:
Urna com 365 bolas de pingue-pongue, cada qual marcada com um número de 1 a 365, representando cada dia do ano.
Amostragem das 23 “datas de aniversário”: amostragem com reposição de 23 bolas dessa urna, com anotação das datas nas bolas, com verificação de coincidências de aniversários ou não (eventos $C$ e $\bar C$).
Podemos entender cada sorteio como uma amostra de uma variável aleatória $Z$ Bernoulli, em que $Z=1$, com probabilidade $p$, indica ausência de coincidências de aniversário e $Z=0$ indica ocorrência de coincidências (2 ou mais pessoas com aniversário no mesmo dia)
Se $Z_1, Z_2,\dots,Z_n$ representam os resultados obtidos em $n$ sorteios de 23 pessoas, podemos estimar $p$ através da estimativa do intervalo de confiança, a partir dessa amostra, usando funções desenvolvidas em outros módulos, como

intconfmedia<-function(x,q=0.95){
  n<-length(x)
  m<-mean(x)
  s<-sd(x)
  e<-qt((1+q)/2,n-1)*s/sqrt(n)
  cat(m," +/- ",e," ou [",m-e,",",m+e,"] n=",n,"\n",sep="")
}

3.6 Implementação computacional do modelo

A implementação fisica descrita no tópico anterior pode ser substituída, com vantagem, por uma

implementação digital ou computacional, que poderia considerar o comando sample do R, combinado com o comando table para visualização das frequências absolutas de aniversários.

Isso pode ser implementado por:

set.seed(10)
table(sample(1:365,23,replace=TRUE))

## 
##  19  32  42  83  97 100 101 112 131 146 156 157 186 208 218 225 238 253 
##   1   1   1   1   1   1   1   1   1   1   1   2   1   1   1   2   1   1 
## 283 306 316 
##   1   1   1

Nessa amostragem realizada (com resultados fixados por set.seed), em dois casos, nos dias 157 e 225, há 2 pessoas fazendo aniversário. Isso indica que houve coincidências de dias de aniversário nessa amostra, ou seja, ocorreu $C$ e $Z=0$. Para uma amostra tamanho $n=10000$, colocando os resultados de $Z$ em cada caso num vetor podemos utilizar:

set.seed(10)
n<-10000
Z<-0
for(i in 1:n) { 
   Z[i]<-ifelse(sum(table(sample(1:365,23,replace=TRUE))>1),0,1)
}
intconfmedia(Z)  ## para encontrar o intervalo de confiança para p a 95 %

## 0.4949 +/- 0.009800987 ou [0.485099,0.504701] n=10000

Esse resultado pode trazer uma certa surpresa para os que, pela intuição, acreditavam que o valor de $p$ seria mais elevado, superior a $0{,}90$, para uma amostra de 23 pessoas, o que não é incomum.

Nessa situação o resultado exato é conhecido, podendo ser obtido através de conceitos da teoria de probabilidadades (que não serão explicados nesse momento):

resultado teórico para $k$ pessoas: $P(\bar C)=\displaystyle \frac{365 \times 364\times \ldots \times(365-k+1)}{365}$
A seguinte função do R pode implementar esse último resultado:

probNC<-function(k){
  prod((365-k+1):365/365)
}

Quando $k=23$ temos

probNC(23)  ## probabilidade de não haver coincidência de aniversários

## [1] 0.4927028

Observe que o resultado teórico está dentro do intervalo de confiança computado.

3.7 Influência das premissas nos resultados

Os resultados obtidos no último tópico são dependentes das premissas utilizadas. A principal delas sendo:

Premissa 2: as datas de aniversário são distribuídas homogeneamente ao longo do ano. Isso é uma simplificação do mundo real (há épocas em que os nascimentos são mais frequentes).

É comum muitos pensarem que o mês que apresenta maior frequência de nascimentos no ano é aquele que tipicamente ocorre 9 meses depois do carnaval (ou seja, novembro). Vamos a seguir examinar essas conjecturas e verificar sua influência nos resultados.

Para uma análise mais técnica, podemos verificar a distribuição dos nascimentos pela dados do registro civil brasileiro, mantida pelo IBGE (clique aqui). Um acesso detalhado dos dados pode ser realizado através do Sistema Sidra da IBGE (clique aqui).

Para facilitar, os dados de 2010 dos nascidos vivos no Brasil e nos estados de SP, RJ e BA estão organizados no data frame definido a seguir:

nasc<-read.csv2('http://ihbs.com.br/html/nascvivos2010.csv')
nasc

##    mes Brasil    SP    RJ    BA
## 1  jan 236400 51801 18041 16569
## 2  fev 225619 50560 16765 16660
## 3  mar 263467 57434 19494 20600
## 4  abr 242924 51876 17479 18829
## 5  mai 246284 53294 17705 19013
## 6  jun 232612 50321 16793 17987
## 7  jul 233778 50077 16924 17358
## 8  ago 222425 46851 15171 16975
## 9  set 225076 47396 15103 17115
## 10 out 216795 46025 14986 16382
## 11 nov 203346 44473 15030 15271
## 12 dez 212235 48891 16766 14907

Para obter a frequência relativa dos nascimentos por mês, dos dados para o Brasil, podemos usar

propnasc<-nasc$Brasil/sum(nasc$Brasil)
data.frame(nasc$mes,propnasc)

##    nasc.mes   propnasc
## 1       jan 0.08562236
## 2       fev 0.08171756
## 3       mar 0.09542583
## 4       abr 0.08798531
## 5       mai 0.08920227
## 6       jun 0.08425038
## 7       jul 0.08467269
## 8       ago 0.08056072
## 9       set 0.08152089
## 10      out 0.07852157
## 11      nov 0.07365044
## 12      dez 0.07686997

O mês de março é o que apresenta a maior frequência de nascimentos no ano (9,5%) e o mês de novembro a menor frequência (7,4%). É interessante observar que o mês de novembro é exatamente 9 meses depois do mês de fevereiro (em 2010 a terça feira de carnaval foi o dia 16 de fevereiro). Mais uma vez a intuição de alguns foi contrariada!

Os dados mostram que a Premissa 2 não se verifica exatamente. A eliminação dessa premissa irá alterar muito os resultados obtidos no tópico anterior? eventualmente aumentando a probabilidade do evento $\bar C$ para as 23 pessoas? A resposta curta é não. Num argumento informal, a concentração de nascimentos em alguns meses terá o efeito de aumentar a coincidência de aniversários, ou seja, diminuir $P(\bar C)$.

Para examinar a magnitude do impacto, algo que seria difícil no contexto teórico, vamos supor uma situação estilizada em que as chances de cada data do ano ser sorteada apresentam uma variabilidade próxima (e até mais acentuada) que a observada para os nascimentos no Brasil em 2010. Nessa nova situação, as probabilidades que inicialmente eram 1/365 para cada dia (ou 0,002739726), passam a variar entre 0,002256 e 0,003223, algo que levaria a frequência de nascimentos nos meses variar entre 7% e 10% (variabilidade até maior que a observada no Brasil em 2010). Com essa nova premissa é obtida uma nova estimativa para $P(\bar C)$ considerando agora $n=1$ milhão. Os resultados da simulação são apresentados abaixo. Dependendo do desempenho do seu computador, as computações podem levar mais de 1 hora para terminar. A implementação utiliza a opção “prob” do comando “sample” que permite estabelecer probabilidades para cada elemento do vetor amostrado.

## As computações abaixo podem ser demoradas! tire os comentários para executar
# set.seed(10)
# n <- 1000000
# Z <- 0
# p<-seq(7,10,(10-7)/364)
# p<-p/sum(p)
# for (i in 1:n) {
#     Z[i] = ifelse(sum(table(sample(1:365, 23, replace = TRUE,prob=p)) > 1), 0, 1)
# }
#
# intconfmedia(Z,0.999)  ## para encontrar o intervalo de confiança para p a 99,9 %
# Resultado obtido:
## 0.489904 +/- 0.001644934 ou [0.4882591,0.4915489] n=1000000

O resultado indica que dentro de premissas mais realistas, aproximadamente, $0,4883 \le P(\bar C) \le 0,4915$ com 99,9% de probabilidade. Ou seja, o efeito de relaxar a Premissa 2 é pequeno e na direção de reduzir um pouco mais o valor de $P(\bar C)$ com relação ao resultado teórico considerando a Premissa 2, em que obtivemos $P(\bar C)=0{,}4927$.

3.8 Devemos ou não adquirir a loteria relacionada ao sorteio?

Pelas estimativas realizadas no tópico anterior, temos claramente $P(\bar C) \approx 0{,}49$. Podemos então concluir que o máximo valor a ser pago pelo ativo, num contexto de precificação neutra com relação ao risco, seria $\approx$ $ $0{,}49$.

Dado que o ativo está sendo vendido por $ $0{,}60$, sua aquisição não parece ser justificável como uma decisão razoável do ponto de vista econômico ou financeiro: em média (teórica) estaria-se tomando prejuizo pois o custo é superior à esperança matemática do “payoff”.

4 - Brevíssima revisão da “Teoria de probabilidades”

Revisamos neste tópico alguns resultados importantes da teoria de probabilidades de eventos, definidos no contexto de variáveis aleatórias. O tema “teoria de probabilidades” é complexo e não é o objetivo deste tópico um aprofundamento no assunto, algo que pode exigir todo um curso específico. Os resultados são apresentados a seguir sem demonstração.

4.1 Notação utilizada

Com relação a 2 eventos $A$ e $B$, definidos no contexto de uma variável aleatória, podemos estar interessados em saber: * probabilidades incondicionais dos eventos $A$ e $B$: são representadas por $P(A)$ e $P(B)$

probabilidade do evento complementar ao evento $A$: é representada por $P(\bar A)$
probabilidade de ocorrer $A$ e $B$: é representada por $P(A\cap B)$
probabilidade de ocorrer $A$ ou $B$: é representada por $P(A\cup B)$
probabilidade de ocorrer $A$ dado que ocorreu $B$: é representada por $P(A|B)$
espaço amostral $\Omega$: coleção de todos os resultados possíveis associados às variáveis aleatórias (também um evento)
o evento $\varnothing$, chamado conjunto vazio, indica um evento que não ocorrerá (por exemplo, resultados “cara” e “coroa” ocorrendo simultaneamente no lançamento de uma moeda)

4.2 Propriedades importantes:

$0\le P(A)\le 1$ (prop. 1)
$P(\Omega)=1$ (prop. 2)
$P(A\cup B)=P(A)+P(B)-P(A\cap B)$ (prop. 3)
$P(A\cap B)=P(A|B)P(B)$ e $P(A\cap B)=P(B|A)P(A)$ (prop. 4), obtendo-se
$P(A|B)=\frac{P(A\cap B)}{P(B)}\;\;\;\; \mbox{se}\ P(B)\not = 0$
$P(B|A)=\frac{P(A\cap B)}{P(A)}\;\;\;\; \mbox{se}\ P(A)\not = 0$
$P(\bar A)=1-P(A)$ (prop. 5)
$A$ e $B$ são eventos independentes se $P(A|B)=P(A)$ ou alternativamente $P(B|A)=P(B)$. Isso significa que a ocorrência de um dos eventos não altera a probabilidade de ocorrência do outro evento.
se $A$ e $B$ independentes: $P(A\cap B)=P(A)P(B)$ (prop. 6)
se $A_1$, $A_2$,$\ldots$, $A_n$ são independentes: $P(A_1\cap A_2\cap\ldots\cap A_n)=P(A_1)P(A_2)\ldots P(A_n)$
$A$ e $B$ são eventos mutuamente exclusivos se a ocorrência de um dos eventos exclui a possibilidade de ocorrência do outro evento. Também indicado por $A\cap B=\varnothing$.
$P(\varnothing)=0$ , implicando que
para $A$ e $B$ mutuamente exclusivos: $P(A\cup B)=P(A)+P(B)$ (prop. 7)
eventos $A$ e $B$ são coletivamente exaustivos com relação ao espaço amostral $\Omega_X$ se esse evento $A\cup B$ for equivalente a ocorrência de qual resultado incluido em $\Omega_X$. Isso também indicado por $A\cup B=\Omega_X$. (prop. 8)
teorema de Bayes: se $A_1$, $A_2$,$\ldots$, $A_k$, são $k$ eventos mutuamente exclusivos e coletivamente exaustivos, temos que, para um evento $B$ qualquer, com $P(B)>0$: (prop. 9) \[P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{j=1}^k P(B|A_j)P(A_j)},\;\;\;\; i=1,\ldots,k\]

Exemplo 1: número de “caras” em 2 lançamentos de uma moeda

Considere que a v.a. $X$ representa o número de resultados “cara” observados no lançamento de 1 moeda, com chances iguais de “cara” e “coroa” em cada lançamento. Só para lembrar também, a distribuição teórica de $X$ é

Binomial(n=2,p=0,5): $\displaystyle P(X=x)={n\choose x}p^x(1-p)^{n-x},\ \ x\in\{0,1,2\}\ \ \mbox{e}\ \ P(X=x)=0,\ x\not \in \{0,1,2\}$
o espaço amostral de $X$ será definido por $\Omega_X=\{0,1,2\}$ (resultados possíveis)

Alguns eventos possíveis:

notação: $A\equiv\ X=1$ indica que o evento $A$ representa o evento $X=1$ ou seja 1 cara observada em uma realização de $X$.
$A\equiv\ X=0$
$B\equiv\ X=2$
$C\equiv\ X>0$
$D\equiv\ X<10$
$A\cap B$
$A\cup B$
$\bar A$

Notas:

$A$ é o evento em que observamos $X=0$
$A$ e $B$ são mutuamente exclusivos, $A$ e $C$ são mutualmente exclusivos
$A$ e $C$ são coletivamente exaustivos
$A\cap B$ é o evento que indica a observação de $X=0$ e $X=2$ numa realização de $X$. Mas isso não pode ocorrer, pois são mutuamente exclusivos $A\cap B=\varnothing$ e $P(A\cap B)=0$.
$A\cup B$ é o evento que indica a observação de $X=0$ ou $X=2$ numa realização de $X$. Logo $P(A\cup B)=P(A)+P(B)$ dado que $A$ e $B$ são mutuamente exclusivos.
$D$ é um evento que claramente tem probabilidade 1 ou seja $P(D)=1$ dado que uma realização de $X$ deve ser menor que 10 (só pode assumir valores 0, 1 ou 2). $D$ é um evento equivalente a $\Omega_X$, que também pode ser entendido como um evento que ocorrerá quando ocorrer qualquer resultado incluído em $\Omega_X$. Como sempre um resultado ocorrerá temos que $P(\Omega_X)=1$.
$\bar A$ é equivalente ao evento $C$ que é equivalente ao evento $(X=1)\cup (X=2)$

Exemplo 2: eventos definidos com relação a uma v.a. que representa uma Normal(0,1)

Considere que * $X\sim \text{N}(0,1)$ uma notação que indica uma forma compacta de representar que $X$ tem distribuição Normal(0,1), uma Normal padronizada.

Considere também os seguintes eventos:

$A\equiv\: X\in [-1,\ 1]$
$B\equiv\: X\in (-\infty,\ 0]$
$C\equiv\: X\in [0,\ \infty)$
$D\equiv\: X=1$

Com relação a esses eventos podemos afirmar que

$P(A)=\text{pnorm}(1,0,1)-\text{pnorm}(-1,0,1)$
$A$ e $C$ são mutuamente exclusivos
$A$, $B$ e $C$ são coletivamente exaustivos
$B$ e $C$ não são mutuamente exclusivos (o ponto $X=0$ é comum aos 2 eventos)
$A\cap B\equiv [-1,\ 0]$
$A\cup B\equiv (-\infty,\ 1]$
$P(D)=P(X=1)=0$

Aplicação da noção de probabilidade condicional e noção de independência

Encontre $P(A)$ e $P(A|B)$, ou seja a probabilidade de ter ocorrido o evento $A$ dado que ocorreu o evento $B$.
pelas propriedades temos que: $P(A|B)=\frac{P(A\cap B)}{P(B)}$

## P(A)
pnorm(1,0,1)-pnorm(-1,0,1)

## [1] 0.6826895

## P(A|B)
(pnorm(0,0,1)-pnorm(-1,0,1))/pnorm(0,0,1)

## [1] 0.6826895

Exemplo 3: probabilidades de filhos e filhas

Uma família tem 2 filhos, sabendo-se que um deles é homem. Qual é a probabilidade dessa família ter um casal de filhos (um homem e uma mulher)? Assuma que a probabilidade de menino ou menina em um nascimento qualquer é 0,5.

Essa é uma pergunta que muitos, usando a intuição, reponderão de pronto: 1/2. Essa resposta não é a correta.

Solução: Represente por $X_1$ e $X_2$, 2 variáveis aleatórias Bernoulli, o sexo do primeiro de segundo filhos respectivamente, com $X_i=1$ para sexo masculino e $X_i=0$ para sexo feminino, $i=\{1,2\}$. A seguir a situação é representada com o apoio de uma

Árvore de Probabilidade: representação muito usada para descrever problemas envolvendo v.a.s discretas. Uma árvore pode ter mais de 2 galhos por nível e mais de 2 níveis. As probabilidades não precisam ser idênticas. Níveis mais à direita são condicionados pelos níveis à sua esquerda esquerda.

Para facilitar, vamos criar 2 eventos $A\equiv$ “um dos filhos é menino” e $B\equiv$ “casal de filhos”. Esses dois eventos podem ser caracterizados formalmente por:

$A\equiv (X_1=1\cap X_2=1)\; \cup\; (X_1=0\cap X_2=1)\;\cup\; (X_1=1\cap X_2=0)$ (um dos filhos é homem)
$B\equiv (X_1=0\cap X_2=1)\; \cup\; (X_1=1\cap X_2=0)$ (casal de filhos)

Os eventos $A$ e $B$ estão representados na figura a seguir:

Problema: encontrar $P(B|A)$ (probabilidade de “casal de filhos”" dado que “um dos filhos é homem”)

Utilizando os resultados da teoria de probabilidade, sabemos que

*$\displaystyle P(B|A)=\frac{P(A\cap B)}{P(A)}$

Temos que

$A\cap B= B$ e, consequentemente,
$P(A\cap B)=P[(X_1=1\cap X_2=0)\; \cup\; (X_1=0\cap X_2=1)]= P[X_1=1\cap X_2=0]+P[X_1=0\cap X_2=1]=0{,}50$

De forma similar, podemos obter:

$P(A)=P[(X_1=1\cap X_2=1)\; \cup\; (X_1=1\cap X_2=0)\;\cup\; (X_1=0\cap X_2=1)]=0{,}75$

Os últimos desenvolvimentos utilizaram a propriedade prop. 7 descrita no início do tópico.

Finalmente:

$P(B|A)=\displaystyle \frac{0{,}50}{0{,}75}=\frac{2}{3}$

4.3 Exercícios para estudo

Num programa de televisão, o apresentador seleciona um membro da audiência e solicita que escolha uma porta dentre 3 disponíveis no palco: a, b ou c. Atrás de uma dessas portas está um prêmio que será “ganho” caso a escolha for correta. Suponha que a porta b foi a escolhida. O apresentador, que sempre sabe atras de que porta está o prêmio, abre uma das 2 portas restantes, que não contem o prêmio. Suponha que o apresentador abre a porta c. Depois disso, o apresentador pergunta ao membro da audiência se quer “trocar de porta”, ou seja, nesse caso, escolher a porta a em lugar da b escolhida originalmente, ou “ficar com a porta escolhida” (a porta b). (a) Se fosse você, ficaria com a porta b ou trocaria pela porta a? (b) Suponha que há um custo para participar do jogo e que o prêmio é $ 20. Se a participação no jogo fosse cobrada, qual seria o máximo valor que alguém (que sabe as regras) pagaria para participar sob o ponto de vista da “precificação neutra com relação a risco”?
Considere 3 tipos de avião: monomotor, bimotor e quadrimotor. Suponha que está interessado em saber qual deles é o mais seguro do ponto de vista da quebra de motores (há outros aspectos importantes na segurança de aeronaves). Suponha que a probabilidade de um motor quebrar é $p$ e que os motores quebram de forma independente (a probabilidade de quebrar um motor não é afetada pelo fato de outro motor quebrar ou estar funcionando). Adicionalmente, suponha que um avião cai se mais que metade de seus motores quebra. Dentro dessas premissas, encontre a probabilidade de cada um aviões cair em função da quebra de motores. Qual é o avião parece menos seguro dentro desse contexto? A resposta à essa pergunta depende do valor de $p$?
Mostre que a probabilidade do evento $\bar C\equiv$ “não observarmos coincidências de aniversário num grupo de $k$ pessoas”, no contexto do problema e premissas utilizadas no tópico 3, é dada por:

$P(\bar C|k)=\displaystyle \frac{365 \times 364\times \ldots \times(365-k+1)}{365}$

Considere uma linha de produção industrial de um certo produto. A probabilidade de um produto qualquer ser defeituoso é $p=0{,}05$. Considere que a empresa vende o produto em caixas com vários produtos e que há uma determinação legal que exige menos de 10% de produtos sem defeito nas caixas. Qual é a probabilidade de uma caixa qualquer estar fora desse mínimo legal? Considere caixas de 10, 100 e 1000 unidades desse produto. Resposta: $0,401$, $0,028$, $\approx 0$, respectivamente para caixas de 10, 100 e 1000 unidades.

5 - Variáveis aleatórias e sua distribuição “conjunta”, “marginal” e “condicional”

As noções discutidas nos tópicos anteriores focaram na situação em que temos variáveis aleatórias vistas num contexto individualizado. Este tópico apresenta uma visão mais geral.

Fenômenos de interesse em geral envolvem várias variáveis. Uma abstração que se faz usualmente em estatística é que esses fenômenos poderiam ser representado por variáveis aleatórias. As observações empíricas seriam entendidas como uma amostra aleatória (conjunta) dessas variáveis aleatórias, que por sua vez são caracterizadas por uma distribuição conjunta de probabilidade. O caso geral é chamado multivariado. Quando o foco é em 2 variáveis, o caso é chamado bivariado.

Ex: fenômeno que envolve 3 variáveis, $X$, $Y$ e $Z$
amostra tamanho $n$ antes de sua observação: $\{X_1, Y_1, Z_1\}$ $\{X_2, Y_2, Z_2\}$ $\ldots$ $\{X_n, Y_n, Z_n\}$
amostra tamanho $n$ depois de sua observação: $\{x_1, y_1, z_1\}$ $\{x_2, y_2, z_2\}$ $\ldots$ $\{x_n, y_n, z_n\}$

Para facilitar a exposição introduziremos os conceitos no contexto de 2 variáveis, ou seja, bivariado ou bidimensional. Todas as noções podem ser estendidas para a situação multivariada ou multidimensional.

5.1 Distribuição conjunta bivariada (caso discreto)

Suponha a situação de uma família com 2 crianças, cujo sexo é desconhecido. Considere que $X$ é uma variável Bernoulli que assume valor 1 se a primeira criança é um menino e 0 se é menina, e $Y$ é uma v.a. que representa o número de meninos nas 2 crianças. Assuma que as chances de menino ou menina num nascimento são iguais.

$X$ - menino ($X=1$) ou menina ($X=0$) na primeira criança com $\Omega_X=\{0,1\}$
$Y$ - total de meninos nas duas crianças com $\Omega_Y=\{0,1,2\}$

Desejamos caracterizar a distribuição conjunta de $X$ e $Y$, representada por $f_{XY}(x,y)$.

Nesse contexto, vamos introduzir a definição geral

Distribuição conjunta de variáveis aleatórias discretas: especificação das probabilidades de todos os possiveis resultados conjuntos envolvendo essas v.a.s. Todos os possíveis resultados conjuntos são computados a partir do produto cartesiano dos espaços amostrais das variáveis aleatórias envolvidas.
A distribuição conjunta de 2 ou mais variáveis aleatórias é a representação mais completa possível existente em estatística para caracterização de variáveis aleatórias. Da distribuição conjunta podem ser extraídas todos os conceitos estatísticos relacionados a essas variáveis aleatórias.

Para a situação em tela, o produto cartesiano de $X$ e $Y$ seria indicado por

$\Omega_X\times \Omega_Y$ ou $\{0,1\}\times\{0,1,2\}$ que corresponde aos resultados conjuntos $(0,0)$, $(0,1)$, $(0,2)$, $(1,0)$ $(1,1)$, $(1,2)$. O par $(0,0)$, por exemplo, representa o evento $(X=0)\cap (Y=0)$.

As probabilidades associadas à distribuição conjunta de probabilidade pode ser facilitada pela observação da árvore de probabilidades descrita na figura a seguir, em que o sexo de cada criança é representado pelas v.a.s $Z_1$ e $Z_2$.

Dessa “árvore” podemos observar que os eventos $(X=0)\cap(Y=2)$ e $(X=1)\cap(Y=0)$ terão probabilidade 0 (zero), sendo equivalentes ao evento $\varnothing$. Com esses resultados podemos facilmente caracterizar a distribuição conjunta de probabilidade (uma função de massa conjunta)

$x$	$y$	$P(X=x\cap Y=y)$ ou $f_{XY}(x,y)$
$0$	$0$	$0{,}25$
$0$	$1$	$0{,}25$
$0$	$2$	$0$
$1$	$0$	$0$
$1$	$1$	$0{,}25$
$1$	$2$	$0{,}25$

Essa distribuição poderia ser representada graficamente pela figura a seguir:

Da distribuição conjunta é possível extrair as distribuições marginais das variáveis envolvidas, assim como as distribuições condicionais, examinadas a seguir.

5.2 Distribuição marginal ou incondicional (caso discreto)

Para 2 variáveis aleatórias $X$ e $Y$ com distribuição conjunta $f_{XY}(x,y)$ (discreta) podemos definir

distribuição marginal de $X$: a distribuição de $X$ “incondicional” ou seja $f_X(x)$, obtida através de
$f_X(x)=\displaystyle \sum_{y\,\in\, \Omega_Y} f_{XY}(x,y),\;\;\mbox{para}\;\; x\,\in \Omega_X$
distribuição marginal de $Y$: a distribuição de $Y$ “incondicional” ou seja $f_Y(y)$, obtida através de
$f_Y(y)=\displaystyle \sum_{x\,\in\, \Omega_X} f_{XY}(x,y),\;\;\mbox{para}\;\; y\,\in \Omega_Y$

Na situação da distribução conjunta definida no tópico 5.1 temos para $f_X(x)$ no domínio $\Omega_X=\{0,1\}$:

$f_X(0)=f_{XY}(0,0)+f_{XY}(0,1)+f_{XY}(0,2)=0{,}25+0{,}25+0=0{,}50$
$f_X(1)=f_{XY}(1,0)+f_{XY}(1,1)+f_{XY}(1,2)=0+0{,}25+0{,}25=0{,}50$

e para $f_Y(y)$, no domínio $\Omega_y=\{0,1,2\}$:

$f_Y(0)=f_{XY}(0,0)+f_{XY}(1,0)=0{,}25+0=0{,}25$
$f_Y(1)=f_{XY}(0,1)+f_{XY}(1,1)=0{,}25+0{,}25=0{,}50$
$f_Y(2)=f_{XY}(0,2)+f_{XY}(1,2)=0+0{,}25=0{,}25$

Essas as 2 distribuições marginais obtidas estão ilustradas na figura a seguir:

5.3 Distribuição condicional bivariada (caso discreto)

Para 2 variáveis aleatórias $X$ e $Y$ com distribuição conjunta $f_{XY}(x,y)$ podemos definir

distribuição condicional de $X$ dado $Y=y$: representada por $f_{X|Y}(x|y)$ ou $X|Y=y$, é obtida através de
$f_{X|Y}(x|y)=\displaystyle \frac{f_{XY}(x,y)}{f_{Y}(y)}\;\;=\;\;\frac{P(X=x\cap Y=y)}{P(Y=y)}, \;\; \mbox{para}\;\; x\in \Omega_X,\; y\in \Omega_Y\;\;\mbox{e}\;\; f_{Y}(y)\not =0$
distribuição condicional de $Y$ dado $X=x$: representada por $f_{Y|X}(y|x)$ ou $Y|X=x$, é obtida através de
$f_{Y|X}(y|x)=\displaystyle \frac{f_{XY}(x,y)}{f_{X}(x)}\;\;=\;\;\frac{P(X=x\cap Y=y)}{P(X=x)}, \;\;\mbox{para}\;\; x\in \Omega_X,\; y\in \Omega_Y\;\;\mbox{e}\;\; f_{X}(x)\not =0$

Dessas definições de distribuição condicional, é possível estabelecer 2 definições (equivalentes) para a distribuição conjunta, no caso bivariado:

$f_{XY}(x,y)=f_{X|Y}(x|y)f_{Y}(y)$ (produto da condicional pela marginal)
$f_{XY}(x,y)=f_{Y|X}(y|x)f_{X}(x)$ (produto da condicional pela marginal)

Na situação da distribução conjunta definida no tópico 5.1 temos, para $Y|X=0$

$f_{Y|X}(0|0)=\displaystyle \frac{f_{XY}(0,0)}{f_{X}(0)}\;\;=\frac{0{,}25}{0{,}50}=0{,}50$
$f_{Y|X}(1|0)=\displaystyle \frac{f_{XY}(0,1)}{f_{X}(0)}\;\;=\frac{0{,}25}{0{,}50}=0{,}50$
$f_{Y|X}(2|0)=\displaystyle \frac{f_{XY}(0,2)}{f_{X}(0)}\;\;=\frac{0}{0{,}50}=0$

para $Y|X=1$

$f_{Y|X}(0|1)=\displaystyle \frac{f_{XY}(1,0)}{f_{X}(1)}\;\;=\frac{0}{0{,}50}=0$
$f_{Y|X}(1|1)=\displaystyle \frac{f_{XY}(1,1)}{f_{X}(1)}\;\;=\frac{0{,}25}{0{,}50}=0{,}50$
$f_{Y|X}(2|1)=\displaystyle \frac{f_{XY}(1,2)}{f_{X}(1)}\;\;=\frac{0{,}25}{0{,}50}=0{,}50$

Essas distribuições condicionais $Y|X=0$ e $Y|X=1$ estão ilustradas na figura a seguir:

5.4 Noção de independência no contexto de 2 variáveis aleatórias

A noção de independência vista no contexto de eventos pode ser estendida para o contexto de variáveis aleatórias. Essa é uma noção central em estatística. Essa noção apresentada a seguir vale para variáveis aleatórias discretas (vistas nos tópicos anteriores) e também para variáveis contínuas (vistas nos próximos tópicos)

Se $X$ e $Y$ são variáveis aleatórias:

definição intuitiva de independência: $X$ e $Y$ são independentes (ou probabilisticamente independentes), se a distribuição de $X$ não é alterada por informação sobre $Y$ e vice-versa.

Uma definição mais técnica é oferecida a seguir:

$X$ e $Y$ são independentes ($\def\ci{\perp\!\!\!\perp} X\ci Y$) se qualquer uma das 3 condições abaixo for verificada (se uma for verificada as outras também serão)
$f_X(x)=f_{X|Y}(x|y)$ (a incondicional/marginal é idêntica à condicional)
$f_Y(y)=f_{Y|X}(y|x)$ (a incondicional/marginal é idêntica à condicional)
$f_{XY}(x,y)=f_{X}(x)f_{Y}(y)$ (a conjunta é o produto das incondicionais/marginais)

Última figura apresentada (tópico anterior) nos mostra um caso emblemático de 2 variáveis $X$ e $Y$ que claramente não são independentes. As distribuições $Y|X=0$ e $Y|X=1$ são claramente diferentes da distribuição incondicional de $Y$. Informação sobre $X$ afeta a distribuição de $Y$ nesse caso.

Suponha por outro lado, uma situação em que $Z_1$ e $Z_2$ são 2 amostras aleatórias tamanho 1 de uma variável $Z$ com distribuição $f_Z(z)$. Nesse caso, por construção, $Z_1\ci Z_2$. É por essa razão que se usa a sigla i.i.d. (independente e identicamente distribuída) para caracterizar amostras tipicamente usadas em estatística.

5.5 Distribuição conjunta bivariada (caso contínuo)

Focaremos o desenvolvimento no caso bivariado com o entendimento de que as noções se aplicam também ao caso multivariado.

Considere as variáveis aleatórias $X$ e $Y$ cuja distribuição conjunta é definida por $f_{XY}(x,y)=x+y$ para $x\in [0,1]$ e $y\in [0,1]$ e $f_{XY}(x,y)=0$ para outros valores de $x$ e $y$ . É uma situação teórica, que utilizaremos para ilustrar os conceitos importantes sem muitas dificuldades algébricas.

A figura a seguir ilustra essa distribuição conjunta bivariada:

Como requisito importante para uma função de densidade bivariada, o volume “embaixo” da função é igual a 1, na região do domínio da função, ou seja,

$\displaystyle \int_{0}^1 \int_{0}^1 f_{XY}(x,y)\,dx\,dy=\int_{0}^1 \int_{0}^1 (x+y)\,dx\,dy=1$

(verifique o resultado da última integral como exercício)

Esse mesmo requisito deve ser verificar para o caso geral multivariado (o volume nesse caso será multidimensional e também igual a 1).

5.6 Distribuição marginal ou incondicional (caso contínuo)

Para 2 variáveis aleatórias $X$ e $Y$ com distribuição conjunta $f_{XY}(x,y)$ (contínua) podemos definir

distribuição marginal de $X$: $f_X(x)$ é obtida através de
$f_X(x)=\displaystyle \int_{\Omega_Y} f_{XY}(x,y)\, dy,\;\;\mbox{para}\;\; x\,\in \Omega_X$
distribuição marginal de $Y$: $f_Y(y)$ é obtida através de
$f_Y(y)=\displaystyle \int_{\Omega_X} f_{XY}(x,y)\, dx,\;\;\mbox{para}\;\; y\,\in \Omega_Y$

Na situação da distribuição conjunta definida no tópico anterior temos

$f_X(x)=\displaystyle \int_{0}^1 f_{XY}\,dy = \int_{0}^1 (x+y)\,dy$
$f_X(x)=\displaystyle \left[xy+\frac{y^2}{2}\right]_0^1=x+0{,}5,\;\;\mbox{para}\;\; x\in [0,1]$

Usando o mesmo raciocínio para a marginal/incondicional de $Y$, chegamos a

$f_Y(y)=\displaystyle y+0{,}5,\;\;\mbox{para}\;\; y\in [0,1]$

5.7 Distribuição condicional bivariada (caso contínuo)

A obtenção da distribuição condicional para o caso contínuo segue o mesmo procedimento utilizado no caso discreto. Para 2 variáveis aleatórias $X$ e $Y$ com distribuição conjunta $f_{XY}(x,y)$ podemos definir

distribuição condicional de $X$ dado $Y=y$: representada por $f_{X|Y}(x|y)$ ou $X|Y=y$, é obtida através de
$f_{X|Y}(x|y)=\displaystyle \frac{f_{XY}(x,y)}{f_{Y}(y)} \;\; \mbox{para}\;\; x\in \Omega_X,\; y\in \Omega_Y\;\;\mbox{e}\;\; f_{Y}(y)\not =0$
distribuição condicional de $Y$ dado $X=x$: representada por $f_{Y|X}(y|x)$ ou $Y|X=x$, é obtida através de
$f_{Y|X}(y|x)=\displaystyle \frac{f_{XY}(x,y)}{f_{X}(x)} \;\;\mbox{para}\;\; x\in \Omega_X,\; y\in \Omega_Y\;\;\mbox{e}\;\; f_{X}(x)\not =0$

A obtenção da distribuição condicional $Y|X=x$ no caso da distribuição conjunta contínua definida nos tópicos anteriores pode se fazer através da aplicação dessas definições:

$f_{Y|X}(y|x)=\displaystyle \frac{f_{XY}(x,y)}{f_X(x)}\;\;=\;\frac{x+y}{x+0{,}5},\;\; \mbox{para}\;\; x\in[0,1], y\in[0,1]$

Essa distribuição $Y|X=x$ depende do valor de $x$, algo que sugere que $X$ e $Y$ não são independentes. Esse resultado que pode ser comprovado, verificando-se que

$f_Y(y) \not = f_{Y|X}(y|x)$ dado que $y+0,5 \not =\displaystyle \frac{x+y}{x+0{,}5}$

5.8 Recuperação da distribuição conjunta a partir das marginais/incondicionais

Como já mencionamos, com relação a um conjunto de variáveis aleatórias $X_1$, $X_2$,$\ldots$, $X_k$, a distribuição conjunta dessas variáveis, ou seja

$f_{X_1 X_2\ldots X_k}(x_1, x_2, \ldots, x_k)$ (distribuição conjunta)

contém o máximo de informação possivel sobre cada variável aleatória e seu comportamento conjunto. Em algumas situações, contudo, somente o conhecimento sobre as distribuições marginais

$f_{X_1}(x_1),\, f_{X_2}(x_2),\; \ldots, f_{X_k}(x_k)$ é disponível
seria possível recuperar a distribuição conjunta a partir dessas distribuições marginais?

A resposta geral a essa pergunta é não. Da distribuição conjunta podemos obter as marginais, mas o contrário não é necessáriamente válido.

Uma situação em que é possível recuperar a distribuição conjunta das marginais ocorre quando as variáveis são independentes do ponto de vista probabilístico:

se $X_1 X_2\ldots X_k$ são independentes: $f_{X_1 X_2\ldots X_k}(x_1, x_2, \ldots, x_k)= f_{X_1}(x_1)\times f_{X_2}(x_2)\times \ldots\times f_{X_k}(x_k)$

Nesse caso de independência, a distribuição conjunta é o produto das marginais. Caso não sejam independentes a obtenção da distribuição conjunta depende do conhecimento de distribuições condicionais. Para 2 v.a.s $X_1$ e $X_2$ temos sempre

$f_{X_1 X_2}(x_1,x_2)=f_{X_1|X_2}(x_1|x_2) f_{X_2}(x_2)$
$f_{X_1 X_2}(x_1,x_2)=f_{X_2|X_1}(x_2|x_1) f_{X_1}(x_1)$

se $X_1$ e $X_2$ são independentes, as distribuições condicionais nas expressões acima serão substituidas pelas marginais correspondentes.

Exemplo 1 - Distribuição Bernoulli bivariada (v.a. independentes)

Se $X$ e $Y$ são variáveis aleatórias com distribuição Bernoulli, com parâmetros $p_x$ e $p_y$, respectivamente, qual será a distribuição conjunta de $X$ e $Y$ se $X \ci Y$.

Temos que: $X\sim p_x^x(1-p_x)^{1-x}$ e $Y\sim p_y^y(1-p_y)^{1-y}$ com $X\in \{0,1\}$ e $Y\in \{0,1\}$
Logo, como $X \ci Y$, $f_{XY}(x,y)=p_x^x(1-p_x)^{1-x}p_y^y(1-p_y)^{1-y}$
no caso em que $p_x=p_y=p$ temos: $f_{XY}(x,y)=p^{x+y}(1-p)^{(1-x)+(1-y)}$

Esses resultados só são possíveis dado que $X \ci Y$. Se não pudermos garantir a independência, o resultado apresentado não será válido.

Exemplo 2 - Distribuição Normal bivariada (v.a. independentes)

Se $X$ e $Y$ são variáveis aleatórias com distribuição Normal, com parâmetros $\mu_x$, $\sigma_x$, $\mu_y$ e $\sigma_y$, respectivamente, qual será a distribuição conjunta de $X$ e $Y$ se $X \ci Y$.

Temos que: $X\sim \displaystyle \frac{1}{\sqrt{2\pi}\sigma_x}\;e^{\displaystyle -\frac{(x-\mu_x)^2}{2\sigma_x^2}}$ e $Y\sim \displaystyle \frac{1}{\sqrt{2\pi}\sigma_y}e^{\displaystyle -\frac{(y-\mu_y)^2}{2\sigma_y^2}}$
No caso em que $X\ci Y$: $f_{XY}(x,y)=\displaystyle \frac{1}{\sqrt{2\pi}\sigma_x}\;e^{\displaystyle -\frac{(x-\mu_x)^2}{2\sigma_x^2}}\times \frac{1}{\sqrt{2\pi}\sigma_y}\;e^{\displaystyle-\frac{(y-\mu_y)^2}{2\sigma_y^2}}$
ou seja, $f_{XY}(x,y)=\displaystyle \frac{1}{2\pi\sigma_x \sigma_y}\;e^{\displaystyle-\frac{(x-\mu_x)^2}{2\sigma_x^2}-\frac{(y-\mu_y)^2}{2\sigma_y^2}}$

Uma ilustração dessa distribuição Normal bivariada, na situação em que $\mu_x=\mu_y=0$ e $\sigma_x=\sigma_y=1$ e temos independência é apresentada na figura a seguir.

Um caso importante que comporta facilmente a possibilidade de não-independência no contexto multivariado é apresentado a seguir.

Exemplo 3 - Normal Multivariada (caso geral)

Se $X_1$, $X_2$, $\ldots$ $X_p$ tem distribuição Normal Multivariada, isso significa que sua distribuição será definida por:

$\def\X{{\mathbf X}} \def\x{{\mathbf x}} \def\bfmu{{\boldsymbol{\mu}}} \def\bfS{{\boldsymbol{\Sigma}}} \def\bfV{{\boldsymbol{\Sigma}}} \def\var{{\rm Var}} \def\cov{{\rm Cov}} \def\CV{{\rm cv}} \def\E{{\rm E}} \def\B{{\rm b}} f_{\X }(\x ) =\displaystyle {\frac{1}{(2\pi)^{\frac{p}{2}} {|\bfV |^{\frac{1}{2}}}}} \ \ e^{-\frac{1}{2}(\x -\bfmu )^T\bfV ^{-1}(\x -\bfmu )},$

Onde

$\X=\left(\begin{array}{c} X_1\\ X_2\\ \vdots\\ X_p\\ \end{array} \right)$ $\bfmu=\left(\begin{array}{c} \E(X_1)\\ \vdots\\ \E(X_p)\\ \end{array}\right)$ $\x=\left(\begin{array}{c} x_1\\ x_2\\ \vdots\\ x_p\\ \end{array} \right)$
$\bfV=\left(\begin{array}{cccc} \sigma_{11}&\sigma_{12}&\ldots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\ldots&\sigma_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ \sigma_{p1}&\sigma_{p2}&\ldots&\sigma_{pp}\\ \end{array}\right)$
$\sigma_{ij}=\cov(X_i,X_j)$.

Nessas expressões:

T em superescrito indica o operador de transposição (de vetores ou matrizes)
$| $ indica o determinante da matriz $\bfV$
$p$ indica o número de variáveis aleatórias consideradas
$\cov$ é a “covariância” entre 2 variáveis aleatórias, um conceito que será explicado em outro tópico. Quando há independência entre duas variáveis $X_i$ e $X_j$ com distribuição Normal multivariada, isso significa que $\cov(X_i,X_j)=0$. A covariância e o coeficiente de correlação são medidas de associação estatística entre 2 variáveis.

O exemplo anterior de uma distribuição Normal bivariada padronizada é um caso particular desse caso geral. Obtenha, como exercício, a espressão anterior a partir da expressão geral da Normal Multivariada (nesse caso $p=2$)

Na figura a seguir, também um caso bivariado, temos $\mu_{x1}=\mu_{x2}=0$ e $\sigma_{x1}=\sigma_{x2}=1$, e nesse caso $\cov(X_1,X_2)=-0,90$. As v.a.s $X_1$ e $X_2$ não são independentes nesse caso.

Distribuições marginais da Normal Multivariada conjunta: As distribuições marginais associadas a $X_1$, $X_2$, $\ldots$ $X_p$ serão Normais univariadas, com esperança matemática $\mu_i$ e desvio-padrão $\sigma_i$, para $i=1,\ldots, p$, definidos na Normal Multivariada.
Distribuição condicional da Normal Multivariada: no caso bivariado, envolvendo 2 variáveis $X$ e $Y$ com esperanças $\mu_x$ e $\mu_y$ desvios-padrão teóricos $\sigma_x$ e $\sigma_y$ e covariância $\sigma_{xy}$. Nesse caso a distribuição de $Y|X=x$ será dada por:
$Y|X=x\;\sim$ Normal univariada com
$E(Y|X=x) = \mu_y + \rho \frac{\sigma_y}{\sigma_x}[x-\mu_x]$ (esperança matemática)
$V(Y|X=x) = (1-\rho^2)\sigma_y^2$ (variância teórica)
$\rho$ é o coeficiente de correlação, definido por $\rho=\displaystyle \frac{\sigma_{xy}}{\sigma_x \sigma_y}$

Podem existir situações mais complexas de condicionamento, envolvendo mais de 2 variáveis, mas estas não serão aqui apresentadas.

Exemplo de implementação da Normal Multivariada

Como operacionalizar a formula no R num caso bivariado. Suponha uma situação em que temos 2 variáveis aleatórias $X$ e $Y$ com distribuição Normal Multivariada com parâmetros:

$\bfmu=\left(\begin{array}{c} 2\\ 3 \\ \end{array}\right)$
$\bfV=\left(\begin{array}{cc} 4&1\\ 1&2 \end{array}\right)$

e o objetivo é calcular a densidade de probabilidade $f_{XY}(2,1)$. Como poderíamos proceder para implementar a distribuição conjunta de $X$ e $Y$

p<-2  ## número de variáveis
mu<-c(2,3)  ## esperanças matemáticas
x<-c(2,1)   ## valores de x e y para cálculo da densidade de probabilidade
Sigma<-matrix(c(4,1,1,2),nrow=2)
Sigma

##      [,1] [,2]
## [1,]    4    1
## [2,]    1    2

solve(Sigma)%*% Sigma  ## inversa de Sigma x Sigma

##      [,1] [,2]
## [1,]    1    0
## [2,]    0    1

1/((2*pi)^(p/2)*det(Sigma)^(1/2))*exp(-0.5*(t(x-mu)%*%solve(Sigma)%*%(x-mu)))

##           [,1]
## [1,] 0.0191838

Conclui-se portanto que $f_{XY}(2,1)=0{,}01918$.

Os operadores no expoente da exponencial são matriciais, por essa razão eles ficam entre 2 %. A funções tem o seguinte significado:

det : calcula determinante
t : faz tranposição
solve : calcula inversa

5.9 Amostragem da distribuição conjunta vs. amostragem das distribuições marginais

Considere a situação das variáveis $X$ e $Y$ descritas no tópicos 5.1 e 5.2, sumarizada na figura a seguir:

Se $X$ e $Y$ fossem independentes, poderíamos criar observações conjuntas de $X$ e $Y$, simplesmente simulando independentemente valores das distribuições correspondentes, que seriam, respectivamente Bernoulli($p=0{,}5$) e Binomial($n=2, p=0{,}5$). Os comandos do R abaixo ilustram essa situação:

set.seed(20)
x<-rbinom(10,1,0.5)  ## amostra tamanho 10 de uma Bernoulli(p=0,5)
y<-rbinom(10,2,0.5)  ## amostra tamanho 10 de uma Binomial(n=10,p=0.5)
data.frame(x,y)

##    x y
## 1  1 1
## 2  1 2
## 3  0 0
## 4  1 1
## 5  1 0
## 6  1 1
## 7  0 1
## 8  0 0
## 9  0 1
## 10 0 2

Observe que nessa amostra, ocorre um par de valores (0,2), algo que não seria possível se fosse considerada a real distribuição conjunta de $X$ e $Y$.

Para obter uma amostra “correta” considerando a dependência entre essas variáveis, podemos utilizar a informação da distribuição condicional de $Y|X=x$:

set.seed(20)
x<-rbinom(10,1,0.5) ## amostra tamanho 10 de uma Bernoulli(p=0,5)
y<-0
for(i in 1:length(x)){
  if (x[i]==0) y[i]<-sample(c(0,1),1,replace=TRUE)
     else y[i]<-sample(c(1,2),1,replace=TRUE)      
}
data.frame(x,y)

##    x y
## 1  1 2
## 2  1 2
## 3  0 0
## 4  1 2
## 5  1 1
## 6  1 1
## 7  0 0
## 8  0 0
## 9  0 0
## 10 0 1

Agora os resultados são consistentes com a distribuição conjunta.

A simulação de variáveis aleatórias não-independentes pode algo relativamente complexo em muitas situações.

5.10 Exercícios recomendados

Considere 2 variáveis aleatórias Bernoulli($p=0{,}2$), $Z_1$ e $Z_2$, independentes. A partir dessas variáveis defina $X=Z_1$ e $Y=Z_1 \times Z_2$. Com essas informações:

caracterize a distribuição conjunta de $X$ e $Y$. Para isso faça uma árvore de probabilidade envolvendo $Z_1$ e $Z_2$ e a partir de cada resultado dos 4 possíveis, caracterize os resultados de $X$ e $Y$. Ilustre graficamente a distribuição conjunta.
caracterize a distribuição marginal de $X$ e a distribuição marginal de $Y$
caracterize a distribuição condicional $Y|X=0$ e $Y|X=1$
$X$ e $Y$ são variáveis aleatórias probabilisticamente independentes?

Considere as variáveis aleatórias $X$ e $Y$ com distribuição conjunta $f_{XY}(x,y)=4 xy$ para $x\in [0,1]$ e $y\in[0,1]$ e $f_{XY}(x,y)=0$ para $x$ e $y$ fora do domínio.

obtenha a distribuição marginal de $X$ e de $Y$
obtenha a distribuição condicional de $Y|X=x$
$X$ e $Y$ são variáveis aleatórias probabilisticamente independentes?

Considere as variáveis aleatórias $X$ e $Y$ com distribuição conjunta Normal Multivariada onde $\mu_x=1$, $\mu_y=2$, $\sigma_x=1$ e $\sigma_y=2$, são as esperanças e os desvios-padrão teóricos. As covariâncias são definidas por $\sigma_{xx}=1$ $\sigma_{yy}=4$, $\sigma_{xy}=1$ e $\sigma_{yx}=1$, algo necessário para definição de $\bfV$ (chamada matriz de covariância).

encontre o coeficiente de correlação entre $X$ e $Y$, representado por $\rho_{XY}$.
use os procedimentos utilizados no tutorial para calcular, nesse caso, $f_{XY}(1,0)$, a densidade de probabilidade nos pontos $X=1$ e $Y=0$.
faça uma função no R que retorne o valor da densidade de probabilidade da distribuição conjunta $f_{XY}(x,y)$, nesse caso bivariado.

\(i\)	\(x_i\)	\(P(X=x_i)\) ou \(f(x_i)\)
\(1\)	\(3\)	\(0{,}1\)
\(2\)	\(5\)	\(0{,}3\)
\(3\)	\(8\)	\(0{,}6\)

\(x\)	\(y\)	\(P(X=x\cap Y=y)\) ou \(f_{XY}(x,y)\)
\(0\)	\(0\)	\(0{,}25\)
\(0\)	\(1\)	\(0{,}25\)
\(0\)	\(2\)	\(0\)
\(1\)	\(0\)	\(0\)
\(1\)	\(1\)	\(0{,}25\)
\(1\)	\(2\)	\(0{,}25\)

Análise de Dados com o Software R: Métodos Estatísticos, Computacionais e Econométricos

Prof. Adriano Azevedo Filho (azevedofilho@usp.br)