Análise de Dados com o Software R:
Métodos Estatísticos, Computacionais e Econométricos

Prof. Adriano Azevedo Filho (azevedofilho@usp.br)

Funções de variáveis aleatórias e conceitos relacionados

sumário geral | anterior | próximo

Conteúdo do Módulo

 1 - Função de variáveis aleatórias: introdução
 
 2 - Função de variáveis aleatórias: formalização do problema e distribuições
 
 3 - Esperança matemática de função de v.a.s e propriedades fundamentais (soma e produto de v.a.s)
 
 4 - Variância, covariância e coeficiente de correlação
 
 5 - Momentos absolutos e centrais (teóricos e amostrais)
 
 6 - Síntese das propriedades da esperança matemática e da variância de funções de v.a.s
 

1 - Função de variáveis aleatórias: introdução

Neste tópico, discutiremos conceitos associados a funções de variáveis aleatórias. Para motivar o assunto, considere os problemas descritos a seguir. Nos 2 casos apresentados nos próximos tópicos, as funções envolvidas são lineares. Em outras situações as funções podem envolver componentes não-lineares, como \(\ln(x)\), \(x^2\), etc.

1.1 Funções de variáveis aleatórias na modelagem de riscos

Um investimento industrial de $100 no período 0 possibilitará a produção de 11 unidades 
de um produto no período 1. 

O preço X desse produto é incerto, e caracterizado por uma distribuição Normal(12,2).

Considerando que a taxa de juros por período é 10%, calcule a probabilidade 
do valor presente líquido (VPL) desse investimento ser negativo ou nulo, 
algo que é indesejável.
  • Se representarmos o VPL da situação descrita por \(Y\) temos que: \(Y=-100+\frac{11 X}{1{,}10}\)

Como \(X\) é uma variável aleatória, temos que \(Y\), também uma v.a., será uma função \(g(X)\) de \(X\), onde

  • \(Y=g(X)=-100+\frac{11 X}{1{,}10}\) e deseja-se saber \(P(Y\le 0)\) (probabilidade de VPL negativo ou nulo)

Esse é um problema que pode ser solucionado algebricamente sem muita dificuldade:

  • \(P(Y\le 0)=P(-100+\frac{11 X}{1{,}10}\le 0)=P(X\le 10)\)

Como \(X\sim\text{N}(12,2)\) podemos achar o resultado \(P(X\le 10)\) desejado por

pnorm(10,12,2)
## [1] 0.1586553

Essa mesma situação poderia ser tratada pela via amostral, algo que será a única alternativa disponível em situações mais complexas envolvendo variáveis aleatórias. O seguinte trecho de código ilustra o procedimento. Para utilizá-lo, inicialmente carregaremos a função definida anteriormente para cálculo do intervalo de confiança.

intconfmedia<-function(x,q=0.95){
  n<-length(x)
  m<-mean(x)
  s<-sd(x)
  e<-qt((1+q)/2,n-1)*s/sqrt(n)
  cat(m," +/- ",e," ou [",m-e,",",m+e,"] n=",n,"\n",sep="")
}
set.seed(20)
n<-10000
X<-rnorm(n,12,2)
Y<--100+11*X/(1.10)
sum(Y<=0)/n  ## frequência de casos em que Y<=0
## [1] 0.1598
intconfmedia(ifelse(Y<=0,1,0)) ## intervalo de confiança para P(Y<=0)
## 0.1598 +/- 0.007182938 ou [0.1526171,0.1669829] n=10000

Note que o valor exato (conhecido nesse caso) está contido no intervalo de confiança estimado. Se for necessário ter mais precisão na estimativa amostral, basta aumentar o valor de \(n\), o número valores amostrados, através do procedimento de simulação Monte Carlo.

O uso do procedimento amostral, recém ilustrado, é particularmente útil em situações envolvendo funções não-lineares e/ou muitas variáveis aleatórias, em situações mais complexas.

Para ilustrar isso, considere, no contexto do exemplo que estamos desenvolvendo, que a produção também é incerta, representada pela variável aleatória \(Z\), caracterizada por uma distribuição Normal(11, 1). Nesse caso, teríamos

  • \(Y=\displaystyle -100+\frac{Z \times X}{1{,}10}.\)

A informação fornecida seria insuficiente para qualquer inferência sobre \(Y\), a não ser que seja conhecida a distribuição conjunta de \(X\) e \(Z\).

Se soubermos que \(X\) e \(Z\) são independentes, podemos amostrar aleatoriamente, de forma independente, das distribuições de \(X\) e de \(Z\), através da simulação Monte Carlo, e proceder de forma similar à realizada acima no caso unidimensional:

set.seed(20)
n<-10000
X<-rnorm(n,12,2)
Z<-rnorm(n,11,1)
plot(X,Z,main="Diagrama de dispersão dos valores simulados",xlim=c(4,20))

Y<--100+Z*X/(1.10)
sum(Y<=0)/n  ## frequência de casos em que Y<=0
## [1] 0.1883
intconfmedia(ifelse(Y<=0,1,0)) ## ## intervalo de confiança para P(Y<=0)
## 0.1883 +/- 0.00766382 ou [0.1806362,0.1959638] n=10000

O código apresentado produziu também um diagrama de dispersão dos valores amostrados, os quais não apresentam qualquer indício de associação estatística ou correlação entre \(X\) e \(Z\) dado que por construção foram obtidos a partir de amostras independentes.

Note que a probabilidade de termos um VPL negativo aumentou com essa nova premissa, com relação à situação anterior. Esse resultado dependeu da premissa de independência entre \(X\) e \(Z\). Se \(X\) e \(Z\) não forem independentes, e tiverem, por exemplo distribuição conjunta caracterizada por uma Normal Multivariada, com coeficiente de correlação \(\rho=0{,}9\), e mesmos parâmetros originais, descritos nas distribuições marginais, poderíamos sortear conjuntamente valores de \(X\) e \(Z\) usando uma função do R que operacionaliza o procedimento (mvrnorm do Package MASS)

Para operacionalizar será necessário “montar” a matriz de covariância da Normal. Essa matriz terá as variâncias teóricas na diagonal e, fora da diagonal, as covariâncias de \(X\) e \(Z\). Como * \(\rho_{XZ}=\displaystyle \frac{\sigma_{xz}}{\sigma_x\, \sigma_z}\) temos * \(\sigma_{xz}=\rho_{XZ}\, \sigma_x\, \sigma_z\)

Podemos simular valores dessa distribuição utilizando a função mvrnorm do package MASS que já está instalado no módulo base do R.

require(MASS) ## carregamento do package MASS (já instalado)
set.seed(20)
n<-3
mu<-c(12,11)  ## esperanças de X e Z
rho<-0.9  ## coeficiente de correlação
dpX<-2    ## desvio padrão de X
dpZ<-1    ## desvio padrão de Z
covXZ<-rho*dpX*dpZ ## covariância de X e Z
mu<-c(12,11)  ## esperanças de X e Z
covXZ<-rho*dpX*dpZ
Sigma<-matrix(c(dpX^2,covXZ,covXZ,dpZ^2),nrow=2) 
Sigma ## variâncias na diagonal principal e covariâncias fora da diagonal principal
##      [,1] [,2]
## [1,]  4.0  1.8
## [2,]  1.8  1.0
mvrnorm(n,mu,Sigma) ## sorteando n pares de valores de X e Z
##           [,1]      [,2]
## [1,]  9.458943 10.392757
## [2,] 13.092672 11.707125
## [3,]  8.537402  9.129039

O último comando mostrou 3 pares de valores sorteados de \(X\) e \(Z\), a partir da distribuição conjunta dessas variáveis aleatórias. A seguir é apresentada a obtenção da resposta completa:

set.seed(20)
n<-10000
rho<-0.9  ## coeficiente de correlação
dpX<-2    ## desvio padrão de X
dpZ<-1    ## desvio padrão de Z
covXZ<-rho*dpX*dpZ ## covariância de X e Z
mu<-c(12,11)  ## esperanças de X e Z
covXZ<-rho*dpX*dpZ
Sigma<-matrix(c(dpX^2,covXZ,covXZ,dpZ^2),nrow=2) 
valores<-mvrnorm(n,mu,Sigma) ## sorteando n pares de valores de X e Z
X<-valores[,1] ## X definido como a coluna 1 de valores
Z<-valores[,2] ## Z definido como a coluna 2 de valores
plot(X,Z,main="Diagrama de dispersão dos valores simulados",xlim=c(4,20))

Y<- -100+Z*X/(1.10)
intconfmedia(ifelse(Y<=0,1,0)) ## intervalo de confiança para P(Y<=0)
## 0.2439 +/- 0.008418174 ou [0.2354818,0.2523182] n=10000

O resultado obtido foi substancialmente mais elevado que na situação que considera a independência entre \(X\) e \(Z\). O diagrama de dispersão mostra uma aparente associação estatística (positiva) entre \(X\) e \(Z\), dado que os valores foram amostrados considerando um coeficiente de correlação igual a 0,9. A situação anterior, envolvendo independência, poderia ser implementada utilizando o mesmo procedimento mas considerando, nesse caso, \(\rho=0\).

  • Um dos maiores problemas existentes na modelagem de riscos é a falta de atenção à distribuição conjunta na simulação das variáveis aleatórias envolvidas em modelos, assumindo-se independência (explicitamente ou mesmo não intencionalmente) quando essa premissa não se justifica. Os resultados obtidos podem mudar significativamente quando a informação do comportamento conjunto (não-independente) das variáveis é considerado.

  • Veja os problemas recomendados ao final deste tópico.

1.2 Estimadores como funções de variáveis aleatórias

Assumindo que \(X\sim f_X(x)\) é uma variável aleatória com distribuição conhecida, considere que \(X_1\), \(X_2\), \(\ldots\), \(X_n\) é uma amostra aleatória i.i.d. de \(X\) e definimos * \(\bar X=\displaystyle \frac{\sum_{i=1}^n X_i}{n}\)

Nesse contexto, \(X_1\), \(X_2\), \(\ldots\), \(X_n\), antes de observarmos seus valores, são variáveis aleatórias, com a mesma distribuição de \(X\) e * \(\bar X\) também será uma variável aleatória definida a partir de uma função de variaveis aleatórias, ou seja, * \(\displaystyle \bar X=g(X_1,X_2,\ldots,X_n)\) onde \(g(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n X_i}{n}\)

Para muitos problemas de interesse estatístico é necessário responder perguntas como

  • Qual é a distribuição teórica de \(\bar X\)? Qual o valor de \(E(\bar X)\)?

No fundo a média é um caso particular de uma ampla classe de funções de variáveis aleatórias, denominadas estimadores, que são utilizadas para estimar parâmetros ou quantidades de interesse. Genericamente, representamos um estimador fundamentado em uma amostra i.i.d. \(X_1\), \(X_2\), \(\ldots\), \(X_n\), por * \(T(X_1,X_2,\ldots,X_n)\)

Como exemplo, temos 3 possíveis “estimadores” da variância teórica dados por * \(T_0(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n}\) * \(T_1(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}\) * \(T_k(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-k}\)

A última expressão indica uma situação mais geral, que engloba as situações anteriores, quando \(k=0\) e \(k=1\). Uma questão prática pode ser a escolha do melhor estimador que deve ser utilizado em dada uma situação específica. Em outro tópico retomaremos a questão da seleção de estimadores (qual é o “melhor”?).

1.3 Problemas recomendados para estudo

  1. Na situação do tópico 1.1, repita o procedimento utilizado para estimar \(P(Y\le 0)\) mas considerando \(\rho=-0{,}9\) em lugar de \(\rho=0{,}9\). Verifique que \(P(Y\le 0)\) será menor que na situação envolvendo independência. Observe o diagrama de dispersão para se familiarizar com o impacto do valor do coeficiente de correlação no “formato” da núvem de pontos amostrados na simulação. Varie a magnitude do valor de \(\rho\) e observe seus efeitos.

  2. Considere um investidor que iniciará um processo de produção em que o custo, quantidade produzida e preço recebido são representados pelas variáveis aleatórias \(C\), \(Q\) e \(X\), de forma que o lucro no processo (desconsidere o custo do dinheiro no tempo) é dado por \(L=Q\,X-C\) Assuma que \(C\sim\mbox{Uniforme}[100,150]\), independente de \(Q\) e \(X\), que tem distribuição conjunta Normal Multivariada respectivamente com esperanças matemáticas 55 e 3, desvios-padrão 10 e 0,5, e coeficiente de correlação \(\rho\).
  • Obtenha o lucro médio (teórico) \(E(L)\) e estime a probabilidade de prejuízo \(P(L\le 0)\) nas seguintes condições: \(\rho=-0{,}9\), \(\rho=0\) e \(\rho=0{,}9\). Dica: para a esperança verifique as propriedades da esperança da soma e do produto, em próximos tópicos.
  • Suponha que pode fixar o preço em $ 3, a custo zero, por uma operação de hedge, sem alterar a distribuição marginal da quantidade produzida \(Q\). Compare \(P(L\le 0)\) dessa situação com hedge, com o caso anterior em que \(\rho=-0{,}9\), que indicava um certo “hedge natural” entre \(X\) e \(Q\). Houve “ganho” em redução de risco ao se introduzir a fixação de preço via hedge?

2 - Funções de variáveis aleatórias: formalização do problema e distribuições

2.1 Caracterização problema e notação

Suponha que \(X\sim f_X(x)\) e \(Y=g(X)\), ou seja, \(Y\) é uma função da variável aleatória \(X\).

Numa situação um pouco mais geral, podemos estar interessados em

  • \(Y=g(X_1,X_2,\ldots,X_k)\), onde \(Y\) é uma função de \(k\) variáveis aleatórias.

  • Nota: em estatística costuma-se utilizar a simbologia \(g(x)\) para indicar uma função qualquer, evitando-se a simbologia \(f(x)\) que é reservada para distribuições de probabilidade (funções de massa ou funções de densidade)

Algumas questões importantes que podem aparecer nesse contexto:

  • Qual é a distribuição de \(Y\), quando \(Y=g(X)\) e \(X\sim f(x)\) tem uma distribuição conhecida?

  • Como obter \(E(Y)\), quando \(Y=g(X)\) e \(X\sim f(x)\) tem uma distribuição conhecida?

  • A distribuição de \(Y=g(X_1,X_2,\ldots,X_n)\) converge (ou tem) alguma distribuição conhecida, na medida que \(n\) cresce? Em alguns casos de interesse é possivel uma resposta satisfatória.

Em algumas situações, como as existentes no caso discreto, é fácil responder às 2 perguntas sem grande dificuldade. No caso contínuo, a resposta pode não ser simples, exigindo técnicas mais avançadas, especialmente se desejamos conhecer a distribuição algébrica que caracteriza essa distribuição. Isso será discutido a seguir.

2.2 Função de variável aleatória \(Y=g(X)\) e \(E[g(X)]\): caso discreto

A figura a seguir ilustra a noção de função de variável aleatória, para o caso em que * \(X\) é uma variável discreta, com \(\Omega_X=\{-2,0,2\}\) com probabilidades indicadas na figura. * \(Z=g_1(X)\) onde \(g_1(X)=2 X\), e * \(Y=g_2(X)\) onde \(g_2(X)=X^2\)

distrib discretas exemplos

As distribuições das variáveis aleatórias \(Y\) e \(Z\) são construídas a partir de cada resultado possível com relação a \(X\), a partir das funções correspondentes a cada caso. Nos 2 casos os eventos \(Z=0\) e \(Y=0\) correspondem ao evento original \(X=0\). O evento \(Y=4\) corresponde às situações \(X=-2\) ou \(X=2\) e porisso tem sua probabilidade definida pela soma das probabilidades dos 2 eventos.

Alguns resultados importantes associados à Bernoulli, à Binomial e à Normal

  • Se \(X\sim\displaystyle \text{Bernoulli}(p)\) e \(X_1\), \(X_2\), \(\ldots\) \(X_n\) é uma amostra aleatória i.i.d. de \(X\)

  • \(Y=\displaystyle \sum_{i=1}^{n} X_i\sim \text{Binomial}(n,p)\) (soma de Bernoullis i.i.d. é Binomial)

  • Resultado útil: \(\text{Binomial}(n,p)\) converge para uma \(\text{N}(np,\sqrt{np(1-p)})\)

Uma regra prática sugere que a aproximação da Binomial pela Normal é boa se temos \(np>10\) e \(n(1-p)>10\) (quanto maior os valores melhor). Há critérios mais elaborados assim como procedimentos para melhorar a aproximação (ex. correção de continuidade). Contudo, com a facilidade de resolver problemas de inferência usando a própria Binomial, sem aproximações, através de metodos computacionais implementados em programas (ex. R, Excel e outros) o uso de aproximações não é algo tão importante quanto no passado.

2.3 Função de variável aleatória \(Y=g(X)\) e \(g(X_1,X_2,\ldots,X_n)\) : (caso contínuo)

Se \(X\) é uma v.a. contínua, com \(X\sim f_X(x)\), a função \(f_X(x)\) é uma distribuição de densidade de probabilidade ou simplesmente função de densidade. A caraterização algébrica da distribuição de \(Y=g(X)\), representada por \(f_Y(y)\), nesse caso contínuo, e usualmente envolve técnicas mais avançadas, relativamente mais complexas que as apresentadas no caso discreto, não sendo assunto deste desenvolvimento.

Alguns resultados importantes relacionados à distribuição Normal

Resultados como os abaixo descritos podem ser derivados com o uso de técnicas mais avançadas:

  • se \(X\sim\;\text{N}(\mu,\sigma)\) e \(Y=g(X)=a X+b\) temos que \(Y\sim\) \(\text{N}(a\, \mu+b\), \(|a|\, \sigma\)) (função linear de Normal é Normal)

  • se \(X\sim\;\text{N}(\mu,\sigma)\) e \(X_1\), \(X_2\), \(\ldots\) \(X_n\) é uma amostra aleatória i.i.d. de \(X\) temos que:

  • \(Y=\sum_{i=1}^{n} X_i \sim \text{N}(n \mu, \sqrt{n}\sigma)\) (soma de Normais é Normal)

  • \(Y=\bar X \sim \text{N}(\mu, \sigma/\sqrt{n})\) (média de Normais é Normal, resultado exato)

  • \(Y=\displaystyle \frac{\bar X - \mu}{\sigma/\sqrt{n}} \sim \text{N}(0, 1)\) (Normal padronizada, resultado exato)

  • \(Y=\displaystyle \frac{\bar X - \mu}{s/\sqrt{n}}\sim\displaystyle \text{t-Student}(n-1)\), se \(s=\displaystyle \sqrt{\frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}}\) é um estimador do desvio-padrão (note a diferença com relação ao caso anterior). O resultado é relativamente robusto com relação a desvios moderados da normalidade de \(X\).

  • se \(X\sim\;\text{N}(0,\;1)\) e \(Y=g(X)=X^2\), temos que \(Y\sim\) Qui-Quadrado com 1 grau de liberdade

Alguns resultados relacionados ao Teorema do Limite Central (convergência de \(\bar X\) para Normal)

  • se \(X\) tem uma distribuição qualquer (com esperança e variância teóricas finitas, representadas por \(\mu\) e \(\sigma^2\)) e \(X_1\), \(X_2\), \(\ldots\) \(X_n\) é uma amostra aleatória i.i.d. de \(X\), é verdade que

  • \(Y=\displaystyle \bar X\;\; \xrightarrow{n\to\infty}\;\; \text{N}(\mu, \sigma/\sqrt{n})\) (média converge para Normal - Teorema do Limite Central)

  • \(Y=\displaystyle \frac{\bar X - \mu}{\sigma/\sqrt{n}}\;\; \xrightarrow{n\to\infty}\;\;\text{N}(0, 1)\) (convergência para Normal padronizada - Teorema do Limite Central).

  • \(Y=\displaystyle \frac{\bar X - \mu}{s/\sqrt{n}}\;\; \xrightarrow{n\to\infty}\;\;\text{N}(0, 1)\) (convergência para Normal padronizada - Teorema do Limite Central).

  • \(Y=\displaystyle \sum_{i=1}^{n} X_i \xrightarrow{n\to\infty} \text{N}(n \mu, \sqrt{n}\sigma)\) (soma de v.a.s i.i.d. é aproximadamente Normal)

As setas longas com \(n\to \infty\) indicam convergência em distribuição na medida que \(n\) cresce, ou seja, a distribuição de probabilidade do termo da esquerda converge para a distribuição especificada à direita. A formalização das noções de convergência, ainda que muito importantes, não são objeto deste material. No último caso, o resultado é aproximado para valores elevados de \(n\), dado que o limite rigoroso em distribuição não será tecnicamente aplicável quando \(n\to\infty\).

De um modo geral, as situações possíveis para distribuições de funções de variáveis aleatórias podem ser muitas, bem específicas e, em muitos casos, difíceis de demonstrar. Nos momentos oportunos, quando necessário, introduziremos outros resultados de interesse.

2.4 Alguns exemplos de aplicação dos resultados

Exemplo 1: Função linear de Normal

Considere a situação já examinada anteriormente em que

  • \(X\sim\text{N}(12,2)\) e \(Y=-100+\frac{11\; X}{1,1}\)

  • Qual seria a distribuição de \(Y\)?

Pelo resultado especificado no tópico anterior, temos que

  • \(Y\sim\text{N}(\mu_y,\sigma_y)\) onde
  • \(\mu_y=-100+10\times E(X)=20\)
  • \(\sigma_y=10\times 2=20\)

Exemplo 2: derivação da fórmula do intervalo de confiança da média teórica

Suponha que \(X\sim \text{N}(\mu,\sigma)\) e obtivemos uma amostra i.i.d. de \(X\) representada por \(X_1\), \(X_2\),,\(X_n\). Com essa amostra desejamos estimar um intervalo de confiança para \(\mu\), a \(p\) de probabilidade, a partir do conhecimento dos estimadores da esperança matemática e variância teórica:

  • \(\bar X=\displaystyle \frac{\sum_{i=1}^n X_i}{n}\;\;\; \mbox{e}\;\;\;s^2=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}\)

Considere a variável aleatória \(T\) definida por

  • \(T=\displaystyle \frac{\bar X - \mu}{s/\sqrt{n}}\)

em função de resultados apresentados no tópico anterior, sabemos que

  • \(T\sim \text{t-Student}(n-1)\)

Como a \(\text{t-Student}\) é uma distribuição simétrica ao redor de 0 (muito parecida com a Normal padronizada), podemos encontrar valores simétricos \(-k_p\) e \(k_p\) de forma que

  • \(P(-k_p\le T\le k_p) = p\) onde \(p\) é a probabilidade de confiança de interesse.

Por exemplo, se \(p=0{,}95\) esses valores serão definidos pelos quantis 0,025 e 0,975 da distribuição, de forma a deixar uma probabilidade 0,95 na região central da distribuição. Se n=100, a distribuição t-Student terá 99 graus de liberdade (n-1) e os valores de \(-k_p\) e \(k_p\) serão dados por

qt(0.025,99)
## [1] -1.984217
qt(0.975,99)
## [1] 1.984217

Continuando o desenvolvimento, temos

  • \(P(-k_p\le T\le k_p) =\displaystyle P(-k_p\le \frac{\bar X - \mu}{s/\sqrt{n}}\le k_p) = p\)

Rearranjando o termo intermediário da última equação, chegamos ao resultado

  • \(\displaystyle P(\bar X -k_p \frac{s}{\sqrt{n}} \le \mu \le \bar X + k_p \frac{s}{\sqrt{n}})=p\)

que motiva a utilização de \(\bar X\pm\displaystyle k_p \frac{s}{\sqrt{n}}\) como o intervalo de confiança, entendido com um intervalo que conterá a esperança matemática ou média teórica com probabilidade \(p\).

  • especificamente, \(k_p\) será definido pelo quantil \(\displaystyle (1+p)/2\) da \(\text{t-Student}(n-1)\)

  • o valor de \(k_p\) converge para o quantil \(\displaystyle (1+p)/2\) da \(\text{N}(0,1)\), na medida que \(n\) cresce (para \(n>100\) os valores já são muito próximos)

Apesar do resultado exato apresentado depender da premissa de normalidade de \(X\), ele é bastante robusto com relação a desvios moderados da validade dessa premissa, especialmente em situações em que \(n\) é grande, podendo ser utilizado com relativa segurança nesse contexto. Na medida em que \(n\) cresce, há convergência para a própria Normal padronizada, por efeitos relacionados ao Teorema do Limite Central (e convergência do estimador da variância para a variância teórica), algo que minimiza a dependência do resultado na normalidade de \(X\).

2.5 Problemas recomendados para estudo

  1. Considere uma seguradora que faz seguro de vida. Cada segurado paga um prêmio anual de $3000 e a família do segurado recebe uma indenização de $100 mil caso ele venha a falecer. Assuma que a probabilidade de cada segurado morrer no espaço de 1 ano é \(0{,}02\) e que as mortes são fenômenos independentes na carteira de seguro. Desconsiderando outros custos e receitas de aplicações do prêmio, e que todos os seguros são realizados no início do ano, estime a esperança matemática do lucro por contrato e a probabilidade da seguradora tomar prejuízo num ano, considerando que \(n\), o número total de segurados é 50, 100, 500, 1000 e 10000. Dica: defina algebricamente a receita e custo da seguradora, considerando cada segurado como sendo uma variável Bernoulli, com probabilidade \(p=0{,}02\) de morrer (\(X_i=1\), se o segurado \(i\) morre no ano) e observe os resultados relativos à Binomial.

  2. Se \(X\) tem distribuição \(\mbox{N}(\mu,\sigma)\) e \(X_1\), \(X_2\),\(\ldots\),\(X_n\) é uma amostra aleatória i.i.d. de \(X\), e temos \(\bar X\) e \(s^2\) representando a média amostral e variância amostral (calculada com denominador \(n-1\)). Se definimos:
  • \(T_1=\displaystyle \frac{\bar X - \mu}{s/\sqrt{n}}\) e \(T_2=\displaystyle\frac{\bar X - \mu}{\sigma/\sqrt{n}}\)
  • Obtenha \(P(|T_1|\ge 2)\) e \(Q(0{,}99)\) (função quantil de \(T_1\)) para o caso de \(n=200\)? É necessário utilizar o valor de \(n\) nesse caso?
  • Obtenha \(P(|T_2|\ge 2)\) e \(Q(0{,}99)\) (função quantil de \(T_2\)) para o caso de \(n=200\)? É necessário utilizar o valor de \(n\) nesse caso?

3 - Esperança de funções de v.a.s e propriedades fundamentais (soma e produto de v.a.s)

A caracterização da esperança matemática e variância teórica (próximo tópico) de funções de variáveis aleatórias pode ser algo suficiente para resolver muitos problemas importantes, sem que seja necessário a especificação da distribuição de probabilidade.

Muitos dos resultados apresentados aqui serão utilizados no próximo tópico para obtenção da variância teórica, covariância teórica, coeficiente de correlação e momentos teóricos.

3.1 Esperança matemática de funções no caso discreto

  • caso discreto (univariado): \(\displaystyle E[g(X)] =\sum_{i=1}^k g(x_i) f_X(x_i)\)
    • para v.a. discreta \(X\), com \(\Omega_X=\displaystyle \{x_1,\ldots,x_k\}\) e probabilidades \(f_X(x_i)=P(X=x_i)\), \(i=1,\ldots,k\).
  • caso discreto (bivariado): \(\displaystyle E[g(X,Y)] =\displaystyle \sum_{i=1}^{k_x} \sum_{j=1}^{k_y} g(x_i,y_j) f_{XY}(x_i,y_j)\)
    • para v.a.s discretas \(X\) e \(Y\) com \(\Omega_X=\displaystyle \{x_1,\ldots,x_{k_x}\}\), \(\Omega_Y=\displaystyle \{y_1,\ldots,y_{k_y}\}\), \(i=1,\ldots, k_x\) e \(j=1,\ldots, k_y\)

Exemplo 1 - caso discreto univariado

Considere a situação anteriormente examinada das variáveis \(X\), \(Y\) e \(Z\) definidas na figura a seguir

VA

Nesse caso temos \(Z=2X\) e \(Y=X^2\), com \(X\) caracterizado pela distribuição de probabilidade ilustrada na figura.

Para obter \(E(Z)\) e \(E(Y)\) poderíamos utilizar a definição da esperança de função de variável aleatória:

  • \(\displaystyle E(Z)=2\times(-2)\times 0{,3}+ 2\times 0\times 0{,}5 + 2\times 2 \times 0{,}2 = -0{,}4\)
  • \(\displaystyle E(Y)=(-2)^2\times 0{,3}+ 0^2\times 0{,}5 + 2^2\times 0{,}2 = 2\)

Observe que se temos a distribuição de \(Z\) e \(Y\) podemos obter diretamente \(E(Z)\) e \(E(Y)\) pela própria definição da esperança matemática, a partir das distribuições de \(Z\) e \(Y\), usando:

  • \(\displaystyle E(Z)=-4\times 0{,3}+ 0\times 0{,}5 + 4 \times 0{,}2 = -0{,}4\)
  • \(\displaystyle E(Y)= 0\times 0{,}5 + 4\times 0{,}5 = 2\)

Exemplo 2 - caso discreto univariado e multivariado

Considere as distribuições conjunta e marginais relativas às v.a.s \(X\) e \(Y\), definidas em módulo anterior e ilustradas na figura a seguir.

VA

  • Encontre \(E(X)\), \(E(X^2)\), \(E(Y)\), \(E(Y^2)\) e \(E(XY)\)

Para os resultados envolvendo \(X\) temos

  • \(E(X)=0\times 0{,}5+1\times 0{,}5=0{,}5\)
  • \(E(X^2)=0^2\times 0{,}5+1^2\times 0{,}5=0{,}5\) (curiosamente o mesmo valor)

Para os resultados envolvendo \(Y\) temos

  • \(E(Y)=0\times 0{,}25+1\times 0{,}50+2\times 0{,}25=1\)
  • \(E(Y^2)=0^2\times 0{,}25+1^2\times 0{,}50+2^2\times 0{,}25=2\)

Para encontrar \(E(XY)\) é importante entender que \(g(X,Y)=X\times Y\) nesse caso: * \(E(XY)=0\times 0\times 0{,}25+0\times 1\times 0{,}25+1\times 1\times 0{,}25+1\times 2\times 0{,}25=0{,}75\)

Qualquer resultado envolvendo esperanças pode também ser obtido diretamente da distribuição conjunta. Por exemplo, \(E(X)\) poderia ser obtido entendendo-se que nesse caso teríamos \(g(X,Y)=X\):

  • \(E(X)=0\times 0{,}25+0\times 0{,}25+1 \times 0{,}25+1 \times 0{,}25=0{,}50\) (mesmo resultado anterior usando a marginal)

3.2 Esperança matemática de funções no caso contínuo

Se \(X\) e \(Y\) são v.a. caracterizadas por uma distribuição conjunta bivariada \(f_{XY}(x,y)\), com marginais definidas por \(f_X(x)\) e \(f_Y(y)\)

  • caso contínuo (univariado): \(\displaystyle E[g(X)] =\int_{-\infty}^{\infty} g(x) f_X(x)\,dx\)

  • caso contínuo (bivariado): \(\displaystyle E[g(X,Y)] =\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x,y) f_{XY}(x,y)\,dx\,dy\)

Em muitas situações os resultados algébricos das integrais indefinidas são difíceis de obter (ou até mesmo não definidos algébricamente, como ocorre no caso da distribuição Normal). Nesses casos os resultados são obtidos por técnicas núméricas/computacionais.

Alguns exemplos de fácil solução algébrica são apresentados a seguir para ilustrar as definições:

Exemplo 3 - caso contínuo univariado: \(X\sim\) Uniforme\((0,\;5)\), \(Y=g(X)=X^2\), \(E(Y)\)?

Temos que

  • \(f_X(x)=\frac{1}{5}\) para \(x\in [0,\;5]\) e \(f_X(x)=0\) para \(x\not \in [0,\;5]\).

Pela aplicação direta da definição, chega-se a

  • \(E(Y)=E(X^2)=\displaystyle \int_{0}^5 x^2 \frac{1}{5}\;dx\)

  • \(E(X^2)=\displaystyle \frac{1}{5}\left[\frac{x^3}{3}\right]_0^5\;\;=\frac{25}{3}\)

Observe que não foi necessário encontrar a distribuição de \(Y=X^2\) para obtenção de \(E(Y)\). Se a distribuição de \(Y\), \(f_Y(y)\), fosse conhecida, poderia-se, em princípio, obter \(E(Y)\) diretamente pela sua definição (em algumas situações isso também pode ser complicado, do ponto de vista algébrico)

Exemplo 4 - caso contínuo bivariado: \(X,Y\sim\) \(f_{XY}(x,y)=x+y\)

Considere a situação do módulo anterior em que tinhamos as v.a.s \(X\) e \(Y\) caracterizadas pela distribuição conjunta:

  • \(f_{XY}(x,y)=x+y,\;\;\; \mbox{para}\;\;\; x\in [0,1]\;\;\mbox{e}\;\;y\in [0, 1]\), e \(f_{XY}(x,y)=0\;\;\; \mbox{para}\;\;\; x\not \in [0,1]\;\;\mbox{e}\;\; y\not \in [0, 1]\)

Dessa distribuição conjunta obtivemos as distribuições marginais

  • \(f_X(x)=x+0{,}5, \;\;\; \mbox{para}\;\;\; x\in [0,1]\;\;\;\mbox{e}\;\; f_X(x)=0\;\; \;\;\; \mbox{para}\;\;\; x\not \in [0,1]\)
  • \(f_Y(y)=y+0{,}5, \;\;\; \mbox{para}\;\;\; y\in [0,1]\;\;\;\mbox{e}\;\; f_Y(y)=0\;\; \;\;\; \mbox{para}\;\;\; y\not \in [0,1]\)

e também a distribuição condicional \(Y|X=x\) dada por

  • \(f_{Y|X}(y|x)=\frac{x+y}{x+0{,}5}\;\;\; \mbox{para}\;\;\; x\in [0,1];\; y \in [0, 1] \;\;\;\mbox{e}\;\; f_{Y|X}(y|x)=0\;\;\;\mbox{em outros casos}\)

Com essas informações obtenha

  • \(E(Y), E(Y^2), E(Y|X=x), E(Y^2|X=x)\) e \(E(XY)\).

Na ordem solicitada temos:

  • \(E(Y)=\displaystyle \int_{0}^{1} y\times (y+0{,}5)\,dy=\left[\frac{y^3}{3}+0{,}5\frac{y^2}{2}\right]_0^1=\frac{7}{12}\approx 0{,}583\)

  • \(E(Y^2)=\displaystyle \int_{0}^{1} y^2\times (y+0{,}5)\,dy=\left[\frac{y^4}{4}+0{,}5\frac{y^3}{3}\right]_0^1=\frac{5}{12}\approx 0{,}417\)

  • \(E(Y|X=x)=\displaystyle \int_{0}^{1} y\times \frac{x+y}{x+0{,}5}\;\;dy=\frac{1}{x+0{,}5}\;\;\,\int_{0}^{1} xy+y^2\,dy= \frac{1}{x+0{,}5}\;\;\left[x\frac{y^2}{2}+\frac{y^3}{3}\right]_0^1=\frac{x/2+1/3}{x+0{,}5}\)

Esse último resultado é de particular importância conceitual, sendo chamado de curva de regressão, que é definida a seguir:

  • curva de regressão: a caracterização algébrica de \(E(Y|X=x)\), ou a esperança condicional de \(Y|X=x\). É chamada tecnicamente em estatística de curva de regressão de \(Y|X=x\). Essa noção é fundamental em estatística e econometria para a caracterização de fenômenos empíricos e testes de hipoteses. A curva de regressão pode ser estendida ao caso multidimensional com relação aos condicionantes:

  • \(E(Y|X_1=x_1\cap X_2=x_2\cap\ldots\cap X_k=x_k)\) representa a curva de regressão da distribuição condicional \(Y|X_1=x_1\cap X_2=x_2\cap\ldots\cap X_k=x_k\) que pode ser representada também por \(Y|X_1=x_1, X_2=x_2,\ldots, X_k=x_k\), ou simplesmente por \(Y|x_1,x_2,\ldots,x_k\).

Continuando os resultados solicitados:

  • \(E(Y^2|X=x)=\displaystyle \int_{0}^{1} y^2\times \frac{x+y}{x+0{,}5}\;\;dy=\frac{1}{x+0{,}5}\;\;\,\int_{0}^{1} xy^2+y^3\,dy= \frac{1}{x+0{,}5}\;\;\left[x\frac{y^3}{3}+\frac{y^4}{4}\right]_0^1=\frac{x/3+1/4}{x+0{,}5}\)

  • \(E(XY)=\displaystyle \int_{0}^{1}\int_{0}^{1} xy\times (x+y)\;\;dx\,dy=\int_{0}^{1} y \left[\int_{0}^{1} x\times (x+y)\;\;dx\right]\,\,dy=\int_{0}^{1} y \left[\frac{x^3}{3}+y\frac{x^2}{2}\right]_0^1\,dy\)

  • \(E(XY)=\displaystyle \int_{0}^{1} y \left[\frac{1}{3}+y\frac{1}{2}\right]\,dy=\left[\frac{1}{3}\frac{y^2}{2}+\frac{1}{2}\frac{y^4}{4}\right]_0^1=\frac{7}{24}\approx 0{,}292\)

3.3 Propriedades fundamentais da esperança da soma e do produto de variáveis aleatórias

Propriedade 1 - Esperança da função soma \(E[g(X,Y)]=E[a X + b Y + k]\)

Considere que \(X\), \(Y\) são variáveis aleatórias com esperança matemática \(E(X)\) e \(E(Y)\) e \(a\), \(b\), e \(k\) são constantes. Nesse contexto apresentamos a seguinte propriedade da esperança matemática:

  • esperança da soma: \(E(a\, X +b \, Y+ k)=a\, E(X)+ b\, E(Y) + k\) (soma das esperanças)

  • Nota: a propriedade não depende das variáveis envolvidas na soma serem independentes: vale sempre.

demostração: considere o caso contínuo em que temos a distribuição conjunta de \(X\) e \(Y\) dada por \(f_{XY}(x,y)\)

O que precisamos saber é a \(E(g(X,Y))\) onde \(g(x,y)=a\, x + b\, y + k\).

  • \(E[g(X,Y)]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} (a\, x + b\, y +k) f_{XY}(x,y)\;dx\,dy\)

  • \(E[g(X,Y)]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} a\, x\; f_{XY}(x,y)\;dx\,dy+\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} b\, y\; f_{XY}(x,y)\;dx\,dy+\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} k\; f_{XY}(x,y)\;dx\,dy\)

  • \(E[g(X,Y)]=a \,\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} x\; f_{XY}(x,y)\;dx\,dy+b\,\,\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} y\; f_{XY}(x,y)\;dx\,dy+k\,\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\; f_{XY}(x,y)\;dx\,dy\)

  • \(E[g(X,Y)]=a\,E(X)+b\,E(Y)+k\)

O resultado usou dos seguintes fatos, sempre válidos (se as integrais convergirem)

  • \(E(X)= \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} x\; f_{XY}(x,y)\;dx\,dy=\int_{-\infty}^{\infty} x\; f_{X}(x)\;dx\)

  • \(\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\; f_{XY}(x,y)\;dx\,dy=1\)

Desenvolvimento similar pode ser utilizado para demonstração do caso discreto.

Exemplos de aplicação da propriedade fundamental da esperança da soma

Alguns exemplos de aplicação desse resultado serão apresentados no contexto dos Problemas 1 e 2 desenvolvidos no tópico 1. Mais exemplos serão apresentados nos tópicos de aplicação, mais ao final do módulo.

  • se \(Y=-100+\frac{11 X}{1{,}10}\), pela propriedade, \(E(Y)=-100+\frac{11}{1{,}1}E(X)\)

  • como no problema, \(E(X)=12\), concluímos que \(E(Y)=20\).

No caso do Problema 2, se \(E(X)=\mu\), temos também \(E(X_i)=\mu\) para \(i=1,\ldots,n\). e

  • \(E(\bar X)=E\left[\frac{\sum_{i=1}^n X_i}{n}\right]\)

  • \(E(\bar X)=E\left[\frac{X_1+X_2+\ldots+X_n}{n}\right]\)

  • \(E(\bar X)=\displaystyle \frac{E(X_1)+E(X_2)+\ldots+E(X_n)}{n}\)

mas \(E(X_i)=\mu\), para \(i=1,\ldots,n\), de onde se conclui que

  • \(E(\bar X)=\displaystyle \frac{\mu + \mu + \ldots + \mu}{n}\;\;=\frac{n\;\mu}{n}=\mu\)

O último resultado mostra que a esperança da média é igual \(\mu\) (a média teórica ou esperança). Esse resultado motiva uma definição importante no contexto de estimadores:

  • estimador não tendencioso: esperança do estimador é igual ao parâmetro a ser estimado.

A média aritmética é, portanto, um estimador não tendencioso da média teórica. Em geral esse é um requisito muito forte para estimadores. Em geral já é suficiente o atendimento a uma propriedade um pouco mais fraca que se chama consistência, que, intuitivamente, e com pouco rigor, indica que a não tendenciosidade ocorrerá na medida que \(n\to \infty\).

Propriedade 2 - Esperança da função produto \(E[g(X,Y)]=E[XY]\) (\(X\) e \(Y\) independentes)

  • Se as v.a.s \(X\) e \(Y\) são independentes podemos concluir que \(E(XY)=E(X)E(Y)\)

demonstração: em geral temos

  • \(E(XY)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} xy\; f_{XY}(x,y)\;dx\,dy\)

mas, se \(X\) e \(Y\) são independentes, é verdade que \(f_{XY}(x,y)=f_X(x)f_Y(y)\) ou seja, a distribuição conjunta é o produto das distribuições marginais, logo

  • \(E(XY)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} xy\; f_{X}(x) f_{Y}(y)\;dx\,dy=\int_{-\infty}^{\infty}x\; f_{X}(x)\,dx\;\int_{-\infty}^{\infty} y\;f_{Y}(y) \,dy=E(X)E(Y)\)

Note que a independência é uma condição suficiente para \(E(XY)=E(X)E(Y)\) mas não é uma condição necessária. Observe o contra-exemplo a seguir.

  • \(X\) é uma v.a. com distribuição descrita na figura abaixo e \(Y=X^2\).

VA

Claramente, \(X\) e \(Y\) não são independentes. Por exemplo \(f_Y(0)=0{,}5\) e \(f_{Y|X}(0|0)=1\), o que mostra que a informação sobre \(X\) afeta a distribuição de \(Y\) (algo que exclui independência). Mas, nesse caso temos:

  • \(E(XY)=-1\times 0{,}25+0\times 0{,}5+1\times 0{,}25=0\)

  • como \(E(X)=0\) temos que \(E(X)E(Y)=0\) e \(E(XY)=E(X)E(Y)\) (com \(X\) e \(Y\) não-independentes)

Portanto, podemos concluir que:

  • \(X\) e \(Y\) independentes \(\Rightarrow\) \(E(XY)=E(X)E(Y)\) (o símbolo \(\Rightarrow\) significa implicação lógica)

  • \(E(XY)\not = E(X)E(Y)\) \(\Rightarrow\) \(X\) e \(Y\) não-independentes

  • \(E(XY)=E(X)E(Y)\) não implica \(X\) e \(Y\) independentes (cuidado!)

3.4 Problemas recomendados para estudo

  1. Se \(X\) tem uma distribuição de probabilidade conhecida \(f_X(x)\) e \(Y=X^2\), a v.a. \(Y\) pode ter uma distribuição de probabilidade igual à distribuição de \(X\). Falso ou Verdadeiro?

  2. Suponha que \(X_1\), \(X_2\), \(\ldots\), \(X_k\) são v.a.s i.i.d. que representam as produções por hora de um processo. Sabe-se que \(E(X_i)=10\) e \(V(X_i)=16\), para \(i=1,\ldots,k\). Se \(S\) representa a produção total durante 30 dias de operação do processo, estime \(P(S\le 7000 )\), ou seja, a probabilidade de terem sido produzidas 7000 ou menos de 7000 unidades ao longo dos 30 dias.

  3. Se \(X\) e \(Y\) tem distribuição \(f_{XY}(x,y)=4xy\) para \(x\in [0,1]\) e \(y\in[0,1]\) e \(f_{XY}(x,y)=0\) para outros casos, obtenha \(E(XY)\) e \(E(X)E(Y)\). Com base nesses resultados podemos concluir que \(X\) e \(Y\) são independentes?

  4. Sabemos que \(E(X)E(Y)=0\). Podemos concluir que \(X\) e \(Y\) não são independentes. Falso ou Verdadeiro?

4 - Variância, covariância e coeficiente de correlação

A definição da variância teórica e dos momentos teóricos é facilitada pelas noções de função de variáveis aleatórias e propriedades da esperança matemática introduzidas nos últimos tópicos.

4.1 Variância teórica

Se \(X\) é uma v.a., representa-se a variância teórica de \(X\) por \(V(X)\), \(\sigma_X^2\) ou simplesmente \(\sigma^2\), quando o contexto está claro. Sua definição (que vale para os casos discreto e contínuo) é dada por:

  • \(V(X)=E\left[(X-E[X])^2\right]\) ou, equivalentemente, \(V(X)=E[X^2]-(E[X])^2\)

A segunda definição pode ser obtida facilmente pelo uso da propriedade fundamental da esperança matemática introduzida no último tópico:

  • \(E\left[(X-E[X])^2\right]=E\left[X^2-2 X E[X]+(E[X])^2\right]=E[X^2]-(E[X])^2\)

O último desenvolvimento usa o fato de que \(E[X]\) é uma constante (um valor fixo).

É importante distinguir a variância teórica dos “estimadores da variância teórica”, como

  • \(T_0(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n}\)
  • \(T_1(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}\)
  • \(T_k(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-k}\)

Para uma variável aleatória \(X\) qualquer, temos

  • desvio-padrão teórico: é representado por \(\sigma_X\) e definido por \(\sigma_X=\sqrt{V(X)}\).

4.2 Covariância teórica - \(\text{cov}(X,Y)\)

Para 2 variáveis aleatórias \(X\) e \(Y\) com distribuição conjunta de probabilidade \(f_{XY}(x,y)\) definimos a covariância (teórica) por

  • \(\mbox{cov}(X,Y)=E\left[(X-E(X))(Y-E(Y))\right]\)

ou, pela definição equivalente

  • \(\mbox{cov}(X,Y)=E(XY)-E(X)E(Y)\)

Também é usual representar \(\mbox{cov}(X,Y)\) por \(\sigma_{xy}\), como fizemos quando introduzimos a Normal Multivariada no módulo anterior.

Note que

  • \(\mbox{cov}(X,X)=E(X^2)-[E(X)]^2=V(X)\) (variância é a covariância da variável com ela mesma)

Se \(X\) e \(Y\) são duas v.a. a covariância é uma medida teórica da associação estatística entre elas que tem relação com a independência. A covariância é mais facilmente interpretada através do

  • coeficiente de correlação (Pearson): \(\rho_{XY}=\frac{\mbox{cov}(X,Y)}{\sigma_X\,\sigma_Y}\)

Na última expressão, \(\sigma_X\) e \(\sigma_Y\) são os desvios-padrões teóricos associados a \(X\) e \(Y\), respectivamente.

  • temos que \(-1 \le \rho \le 1\)

A figura a seguir ilustra diagramas de dispersão de possíveis situações associadas valores conjuntos amostrados de 2 variáveis aleatórias \(X\) e \(Y\) com diferentes coeficientes de correlação. Na medida que o valor de \(\rho\) se aproxima de -1 ou 1 os pontos tende a ficar mais concentrados sobre uma reta virtual que passa pelos pontos (com inclinação diferente de zero ou de 90 graus). Os pontos tendem mostrar um comportamento mais “independente” na medida que \(\rho\) fica mais próximo de \(0\).

VA

Existem outros 2 conceitos de coeficiente de correlação (menos) usados em estatística: coeficiente de correlação de Spearman e coeficiente de correlação de Kendall, que são calculados sobre a posição de ordem dos valores de \(X\) e \(Y\) no conjunto de dados.

Estimadores da covariância e do coeficiente de correlação

Da mesma forma que temos estimadores para a esperança matemática e variância teórica (mais de 1), também para a covariância teórica temos também estimadores.

Se \(X\) e \(Y\) são variáveis aleatórias com distribuição conjunta \(f_{XY}(x,y)\), e \((X_1,Y_1)\), \((X_2,Y_2)\), \(\ldots\), \((X_n,Y_n)\) é uma amostra aleatória i.i.d. de \(n\) pares de valores dessas v.a.s, obtida da distribuição conjunta:

  • alguns estimadores amostrais da covariância utilizados em estatística:

  • \(\hat{\mbox{cov}}_1(X,Y)=\displaystyle \frac{\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{n-1}\)

  • \(\hat{\mbox{cov}}_2(X,Y)=\displaystyle\frac{\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{n}\)

A estimativa do coeficiente de correlação pode se fazer através de

  • \(\hat \rho = \displaystyle \frac{\hat{\mbox{cov}}(X,Y)}{s_x s_y}\)

onde \(s_x\) e \(s_y\) são estimadores dos desvios padrão de \(X\) e \(Y\), respectivamente. O acento circunflexo é comumente utilizado para indicar que a expressão ou símbolo é um estimador. Os estimadores do desvio padrão poderiam ter sido representados por \(\hat{\sigma}_x\) e \(\hat{\sigma}_y\).

  • No R as funções cov e cor implementam esses estimadores (usando a fórmula que tem \(n-1\) no denominador, tanto para a covariância como para as variâncias estimadas para efeito da obtenção dos desvios-padrão)

Vamos usar o nosso “velho amigo” data frame “alunos” para ilustrar a estimativa da covariância e coeficiente de correlação entre o peso e a altura dos alunos, juntamente com o diagrama de dispersão envolvendo essas variáveis:

alunos<-read.csv2("http://ihbs.com.br/html/esalq2012mod.csv")
plot(alunos$pes,alunos$alt,pch=16, col="blue",xlab="peso",ylab="altura")

cat("cov=",cov(alunos$pes,alunos$alt),"coef. correlação=",cor(alunos$pes,alunos$alt),"\n")
## cov= 85.34649 coef. correlação= 0.6644868

Covariância, coeficiente de correlação e independência

Vimos no tópico anterior que

  • Se \(X\) e \(Y\) são independentes podemos concluir que \(E(XY)=E(X)E(Y)\)

  • desse resultado concluimos que \(X\) e \(Y\) independentes \(\Rightarrow\;\;\;\mbox{cov}(X,Y)=0\;\;\Rightarrow\;\; \rho_{XY}=0\)

mas a conclusão contrária não se verifica:

  • \(\mbox{cov}(X,Y)=0\;\;\Rightarrow\;\; \rho_{XY}=0\) não implicam \(X\) e \(Y\) independentes

Por outro lado, podemos concluir que

  • \(\mbox{cov}(X,Y)\not =0\;\;\Rightarrow\;\; \rho_{XY}\not =0\) \(\Rightarrow\) \(X\) e \(Y\) não-independentes

Definição geral da esperança do produto de 2 v.a.s, \(E(XY)\) a partir da covariância

No tópico anterior mostramos uma definição da expressão que caracteriza \(E(XY)\), a esperança do produto de duas variáveis aleatórias \(X\) e \(Y\) na situação em que elas são independentes. Com a definição da covariância é possível apresentar a definição geral (obtida da definição da covariância)

  • \(E(XY)=E(X)E(Y)+\mbox{cov}(X,Y)\) (caso geral)

  • \(E(XY)=E(X)E(Y)\) (quando \(X\) e \(Y\) independentes e/ou não-correlacionados)

4.3 Exemplos de obtenção da variância, covariância e coeficiente de correlação

Exemplo 1 - Caso discreto (v.a. Bernoulli)

Se \(X\) é uma v.a. Bernoulli(\(p\)) obtenha \(V(X)\).

  • \(E(X)=0\times (1-p)+ 1\times p= p\)

  • \(E(X^2)=0^2\times (1-p)+ 1^2\times p= p\)

  • \(V(X)=E(X^2)-[E(X)]^2=p-p^2=p(1-p)\)

Exemplo 2 - Caso discreto (situação anterior)

Considere as variáveis \(X\) e \(Y\), definidas em módulo anterior e ilustradas na figura a seguir.

VA

Obtenha: \(V(X)\), \(V(Y)\), \(\mbox{cov(X,Y)}\) e \(\rho_{XY}\)

No tópico anterior, obtivemos:

  • \(E(X)=0{,}5\), \(E(X^2)=0{,}5\), \(E(Y)=1\), \(E(Y^2)=2\), \(E(XY)=0{,}75\)

A partir desses resultados podemos obter:

  • \(V(X)=E(X^2)-[E(X)]^2= 0{,}5^2 - 0{,}5=0{,}25\)

  • \(V(Y)=E(Y^2)-[E(Y)]^2= 2 -1^2=1\)

  • \(\mbox{cov}(X,Y)=E(XY)-E(X)E(Y)=0{,}75-0,5\times 1=0{,}25\)

  • \(\rho_{XY}=\displaystyle \;\;\frac{\mbox{cov(X,Y)}}{\sigma_x\,\sigma_y}\;\;=\;\;\frac{0{,}25}{\sqrt{0{,}25}\sqrt{1}}=0{,}50\)

Por esse resultado poderíamos concluir que \(X\) e \(Y\) não são independentes (algo que já verificamos anteriormentepor outro caminho)

Exemplo 3 - Caso contínuo (situação anterior)

Considere a situação do módulo anterior em que tinhamos as v.a.s \(X\) e \(Y\) caracterizadas pela distribuição conjunta:

  • \(f_{XY}(x,y)=x+y,\;\;\; \mbox{para}\;\;\; x\in [0,1]\;\;\mbox{e}\;\;y\in [0, 1]\), e \(f_{XY}(x,y)=0\;\;\; \mbox{para}\;\;\; x\not \in [0,1]\;\;\mbox{e}\;\; y\not \in [0, 1]\)

Obtenha: \(V(Y)\), \(V(X)\), \(\mbox{cov(X,Y)}\) e \(\rho_{XY}\)

No tópico anterior, obtivemos \(E(Y)=7/12\), \(E(Y^2)=5/12\) e \(E(XY)=7/24\). Os resultados relativos a \(X\) são iguais em função de que sua distribuição marginal é idêntica à de \(Y\).

Com esses resultados, podemos obter:

  • \(V(Y)=E(Y^2)-[E(Y)]^2=5/12-(7/12)^2=109/144\approx 0{,}7569\)

  • \(V(X)=V(Y)\) (distribuições são iguais)

  • \(\mbox{cov(X,Y)}=E(XY)-E(X)E(Y)=7/25-(7/12)(7/12)\approx -0{,}06028\)

  • \(\rho_{XY}=\displaystyle \frac{\mbox{cov}(X,Y)}{\sigma_x\,\sigma_y}\;\;=\frac{-0{,}06028}{\sqrt{109/144}\sqrt{109/144}}\;\; \approx -0{,}0796\)

Também nesse caso, por esses resultados, podemos concluir que \(X\) e \(Y\) são independentes (algo que já concluímos anteriormente, usando outros procedimentos)

4.4 Propriedades fundamentais da variância e covariância

Considere que \(X\), \(Y\) são variáveis aleatórias com variâncias teóricas \(V(X)\) e \(V(Y)\), coeficiente de correlação \(\rho_{XY}\). Adicionalmente, \(a\), \(b\), e \(k\) são constantes. Nesse contexto apresentamos a seguinte propriedade da esperança matemática:

Propriedades da variância

  • \(V(k)=0\)

  • \(V(a X)=a^2 V(X)\)

  • \(V(a X + k)= a^2 V(X)\)

  • \(V(a X + b Y + k)=\displaystyle a^2 V(X)+b^2 V(Y)+ 2 a\,b\, \rho_{XY}\,\sqrt{V(X)}\sqrt{V(Y)}\)

  • Se \(X_1\), \(X_2\), \(\ldots\), \(X_k\) são variáveis aleatórias independentes (ou, de forma menos restritiva, tem correlação zero entre todos os possíveis pares de variáveis) e \(a_1\), \(a_2\),\(\ldots\), \(a_k\) são constantes, temos que

  • \(V(a_1 X_1+a_2 X_2+\ldots+a_k X_k)=a_1^2 V(X_1)+a_2^2 V(X_2)+\ldots+a_k^2 V(X_k)\) (se independentes)

Provaremos a segunda propriedade apresentada, a título de ilustrar o procedimento geral de demonstração.

  • Assuma que \(Z=aX\), logo

  • \(V(aX)=V(Z)=E(Z^2)-[E(Z)]^2=E[(aX)^2]-[E(aX)]^2=a^2E[X^2]-a^2[E(X)]^2\)

  • \(V(aX)=a^2[E(X^2)-[E(X)]^2]=a^2 V(X)\)

[Nota: veja a extensão dessa última propriedade para caso de não-independência, no tópico final com a síntese das propriedades]

Propriedades da covariância

  • \(\mbox{cov}(X,a)=0\)

  • \(\mbox{cov}(X,a+b Y)=\mbox{cov}(X,a)+b\; \mbox{cov}(X,Y)=b\;\mbox{cov}(X,Y)\)

4.5 Alguns exemplos de aplicação das propriedades da variância (e revisão das propriedades da esperança)

Exemplo 1 - esperança e variância teórica do valor presente do investimento (problema anterior)

Em tópico anterior, \(X\) representava o preço de um produto, uma v.a. com distribuição \(\text{N}(12,2)\) e

  • \(Y=-100+\frac{11\times X}{1{,}1}=-100+10 X\)

representava o valor presente do investimento. Encontre \(E(Y)\) e \(V(Y)\) pelas propriedades da esperança e variâcia teórica.

  • \(E(Y)=E(-100+10 X)=E(-100)+E(10 X)=-100+10E(X)=20\) (dado que \(E(X)=12\))

  • \(V(Y)=V(-100+10 X)=V(10 X)=10^2 V(X)=400\) (dado que \(V(X)=4\))

Note que não foi necessário utilizar a informação da Normalidade de \(Y\) para obtenção da esperança e variância teórica.

Exemplo 2 - esperança e variância teórica de v.a. padronizada

Suponha que \(X\) é uma v.a. com \(E(X)=\mu\) e \(V(X)=\sigma_X^2\).

Defina:

  • \(Z=\displaystyle \frac{X-\mu_X}{\sigma_X}\)

Esse procedimento é chamado de operação de padronização da variável \(X\).

Usando as propriedades da esperança e variância, mostre que, qualquer que seja a distribuição de \(X\) (desde que \(\mu_X\) e \(\sigma_X^2\) existam), é verdade que

  • \(E(Z)=0\) e \(V(X)=1\).

Resolvendo o problema para a esperança matemática:

  • \(E(Z)=\displaystyle E\left[\frac{X-\mu_X}{\sigma_X}\right]=\frac{1}{\sigma_X}\;\;\;E\left[X-\mu_X\right]\)
  • \(E(Z)=\displaystyle \frac{1}{\sigma_X} \left[E(X)-E(\mu_X)\right]=\frac{1}{\sigma_X}[\mu_X-\mu_X]=0\)

Resolvendo o problema para a variância teórica:

  • \(V(Z)=\displaystyle V\left[\frac{X-\mu_X}{\sigma_X}\right]\;\;=\frac{1}{\sigma_X^2}\;V\left[X-\mu_X\right]\)

  • \(V(Z)=\displaystyle \frac{1}{\sigma_X^2}V(X)\;\;=\frac{\sigma_X^2}{\sigma_X^2}\;\;=1\)

Exemplo 3 - variância teórica da média como estimador da esperança (definição de consistência)

Assuma que \(X\sim f_X(x)\) é uma variável aleatória com distribuição conhecida com

  • \(E(X)=\mu_X\) e \(V(X)=\sigma_X^2\)

e que \(X_1\), \(X_2\), \(\ldots\), \(X_n\) é uma amostra aleatória i.i.d. de \(X\) onde

  • \(\bar X=\displaystyle \frac{\sum_{i=1}^n X_i}{n}\)

Em tópico anterior, verificamos que \(E(\bar X)=\mu\)

Obtenha \(V(\bar X)\).

Das propriedades da variância temos:

  • \(V(\bar X)=\displaystyle V\left[\frac{\sum_{i=1}^n X_i}{n}\right]=\frac{1}{n^2}V\left[\sum_{i=1}^n X_i\right]\)

  • \(V(\bar X)=\displaystyle \frac{1}{n^2}\sum_{i=1}^n V(X_i)\) (pela independência)

  • \(V(\bar X)=\displaystyle \frac{1}{n^2} \sum_{i=1}^n \sigma_X^2 = \frac{n\sigma_X^2}{n^2}\)

  • \(V(\bar X)=\displaystyle \frac{\sigma_X^2}{n}\) (resultado muito importante!)

Podemos observar pela última fórmula que

  • \(V(\bar X)\xrightarrow{n\to\infty} 0\)

Juntando esses resultados, podemos definir um conceito muito importante em estatística que é a

  • consistencia de estimadores: se \(T(X_1,X_2,\ldots,X_n)\) é utilizado como estimador de um parâmetro “k” esse estimador será consistente se as duas condições a seguir forem atendidas (condições suficientes)

  • \(E[T(X_1,X_2,\ldots,X_n)]\xrightarrow{n\to\infty} k\)

  • \(V[T(X_1,X_2,\ldots,X_n)]\xrightarrow{n\to\infty} 0\)

Desse resultado, podemos afirmar que a média aritmética é um estimador consistente da esperança matemática.

Exemplo 4 - Esperança e variância teórica de estimadores da variância

Assuma que \(X\sim f_X(x)\) é uma variável aleatória com distribuição conhecida com

  • \(E(X)=\mu_X\) e \(V(X)=\sigma_X^2\)

e que \(X_1\), \(X_2\), \(\ldots\), \(X_n\) é uma amostra aleatória i.i.d. de \(X\) onde

  • \(\bar X=\displaystyle \frac{\sum_{i=1}^n X_i}{n}\)

Considere o estimador de \(\sigma_X\) dado por

  • \(T_k(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-k}\)

onde \(k\) é um valor fixo conhecido.

Obtenha \(E[T_k(X_1,X_2,\ldots,X_n)]\) e \(V[T_k(X_1,X_2,\ldots,X_n)]\).

Inicialmente, obteremos \(E[T_k((X_1,X_2,\ldots,X_n)]\), ou simplesmente \(E(T_k)\) para facilitar a notação.

  • \(E(T_k)=E\left[\frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-k}\right]\)

  • \(E(T_k)=\frac{1}{n-k}\;E\left[\sum_{i=1}^n X_i^2-2 X_i \bar X+(\bar X)^2\right]\)

  • \(E(T_k)=\frac{1}{n-k}\;E\left[\sum_{i=1}^n (X_i^2)-2 n (\bar X)^2+ n (\bar X)^2\right]\) (passando o somatório)

  • \(E(T_k)=\frac{1}{n-k}\;E\left[\sum_{i=1}^n (X_i^2)-n (\bar X)^2\right]\)

  • \(E(T_k)=\frac{1}{n-k}\;E\left[\sum_{i=1}^n (X_i^2)-n (\bar X)^2\right]\)

  • \(E(T_k)=\frac{1}{n-k}\;\left[\sum_{i=1}^n E(X_i^2)-n E(\bar X)^2\right]\)

mas pelas propriedades da variância, temos \(V(X_i)=E(X_i^2)-(E(X_i))^2\) de onde podemos concluir que

  • \(E(X_i^2)=V(X_i)+[E(X_i)]^2=\sigma_X^2+\mu_X^2\)

adicionalmente, usando o mesmo racicínio,

  • \(E[(\bar X)^2]=V(\bar X)+[E(\bar X)]^2=\frac{\sigma_X^2}{n}+\mu_X^2\)

substituindo esses últimos 2 resultados na expressão anterior, chegamos a

  • \(E(T_k)=\displaystyle\frac{1}{n-k}\;E\left[n(\sigma_X^2+\mu_X^2)-n (\frac{\sigma_X^2}{n}+\mu_X^2)\right]\)

  • \(E(T_k)=\sigma_X^2\;\;\frac{(n-1)}{n-k}\)

O se \(k=1\) temos que \(E(T_k)=\sigma_X^2\) ou seja, o estimador será não tendencioso. Essa é uma razão importante para justificar o uso de \(n-1\) no estimador da variância comumente utilizado.

Obtenção de \(V(T_k)\):

A obtenção desse resultado envolve muitas operações algébricas relativamente tediosas. O resultado final será dado por:

  • \(V(T_k)=\displaystyle \left(\frac{n-1}{n-k}\right)^2 \frac{1}{n}\left(\gamma_2+\frac{2n}{n-1}\right)\sigma_X^4\)

onde \(\gamma_2\) é o coeficiente de curtose (teórico) e \(\sigma_X^4\) é a variância ao quadrado, ambos associados à distribuição de \(X\).

se \(X\) tem distribuição \(\text{N}(\mu,\sigma)\), temos \(\gamma_2=0\), essa fórmula será simplificada para:

  • \(V(T_k)=\displaystyle \frac{n-1}{(n-k)^2}\;\; 2\;\sigma^4\) (\(X\) é Normal)

É fácil observar, especialmente no caso particular em que \(X\sim \text{N}(\mu,\sigma)\) que

  • \(E(T_k)\xrightarrow{n\to\infty}\sigma_X^2\)

  • \(V(T_k)\xrightarrow{n\to\infty}0\)

O que mostra que toda a classe de estimadores definidos por \(T_k(X_1,X_2,\ldots,X_n)\) é consistente com relação ao parâmetro \(\sigma_X^2\).

Curiosamente, no caso de \(X\sim \text{N}(\mu,\sigma)\), o estimador \(T_0\), que considera \(k=0\), apesar de não ser não-tendencioso, é consistente e tem variância menor que a observada para \(T_{1}\) (\(k=1\)) algo que sugere a conclusão de que esse estimador não seria necessáriamente superior a \(T_0\) com relação à variância do estimador (em geral deseja-se a menor variância) dado (para \(n>2\)) temos:

  • \(\displaystyle \frac{n-1}{n^2} < \frac{n-1}{(n-1)^2}\)

4.6 Problemas recomendados para estudo

  1. Se \(X\) é uma v.a. \(\mbox{Bernoulli}(p=0{,}1)\) e \(Y=X^2+1\) obtenha \(E(X)\), \(E(Y)\), \(V(X)\), \(V(Y)\) e \(E(XY)\) e \(\rho_{XY}\).

  2. Se \(X\) é uma v.a. \(\mbox{Uniforme}[0,\;1]\) e \(Y=2-X\) obtenha \(E(X)\), \(E(Y)\), \(V(X)\), \(V(Y)\), \(E(XY)\) e \(\rho_{XY}\). Dica: encontre primeiro os resultados relativos a \(X\) e posteriormente, usando as propriedades da esperança e variância, os resultados relativos a \(Y\) e \(XY\).

  3. Se \(X_1\) e \(X_2\) é uma amostra aleatória i.i.d. tamanho 2, em que \(E(X_i)=\mu\) e \(V(X_i)=\sigma^2\), e
  • \(T_1(X_1,X_2)=0,5 X_1+ 0,5 X_2\) e \(T_2(X_1,X_2)=0,75 X_1+ 0,25 X_2\) são dois estimadores possíveis para \(\mu\) (observe que \(T_1\) é a própria média arimética)
  • Obtenha \(E[T_i(X_1,X_2)]\), \(i=\{1,2\}\) e verifique se esses estimadores são não tendenciosos.
  • Obtenha \(V[T_i(X_1,X_2)]\), \(i=\{1,2\}\), a variância de cada estimador e verifique qual deles tem a menor variância. A comparar 2 estimadores não-tendenciosos, aquele que tem a menor variância é considerado o melhor deles (também chamado “mais eficiente” em estatística)
  • Qual dos dois estimadores é o melhor dentro desse contexto?
  1. No tópico anterior (3), no exemplo 4, foi encontrada a curva de regressão \(E(Y|X=x)\). A partir dessa mesma situação obtenha a variância condicional de \(Y|X=x\) ou seja \(V(Y|X=x)\) utilizando resultados já calculados no exemplo 4 do tópico anterior e considerando que:
  • \(V(Y|X=x)=E(Y^2|X=x)-[E(Y|X=x)]^2\)
  • observe que a fórmula é a mesma da variância, incluindo o condicionamento em todos os termos.
  1. O “viés” de um estimador \(T(X_1,\ldots,X_n)\) de um parâmetro \(p\) é dado por
  • \(\mbox{viés}=E[T(X_1,\ldots,X_n)]-p\)
  • para um estimador não-tendencioso o “viés” será zero.
  • Qual seria o viés existente no estimador \(T_0\) da variância em função de \(n\)?
  • Observe que esse viés tenderá a zero quando \(n\to\infty\).

5 - Momentos absolutos e centrais (teóricos e amostrais)

5.1 Momento absoluto teórico (\(\mu'_k\)) e momento absoluto amostral (\(M'_k\)) de ordem \(k\)

Definições:

Para uma variável aleatória \(X\), com \(E(X)=\mu\) e \(V(X)=\sigma_X^2\), e \(X_1\), \(X_2\),\(\ldots\),\(X_n\) é uma amostra aleatória i.i.d. de \(X\), definimos:

  • momento absoluto teórico de ordem \(k\): \(\mu'_k=E[X^k]\)

  • momento absoluto amostral de ordem \(k\): \(M'_k=\displaystyle \frac{\sum_{i=1}^n X_i^k}{n}\)

Os momentos absolutos também são chamados momentos com relação à origem.

Observe que a esperança matemática é o momento absoluto teórico de ordem 1 e a média aritmética é o momento absoluto amostral de ordem 1.

5.2 Momento central amostral (\(\mu_k\)) e momento central amostral (\(M_k\)) de ordem \(k\)

Definições:

Para uma variável aleatória \(X\), com \(E(X)=\mu\) e \(V(X)=\sigma_X^2\), e \(X_1\), \(X_2\),\(\ldots\),\(X_n\) é uma amostra aleatória i.i.d. de \(X\), definimos:

  • momento central teórico de ordem \(k\): \(\mu'_k=E[(X-\mu)^k]\)

  • momento central amostral de ordem \(k\): \(M'_k=\displaystyle \frac{\sum_{i=1}^n(X_i ^k-\bar X)^2}{n}\)

Observe que a variância teórica é o momento central teórico de ordem 2 e o estimador da variância (com \(n\) no denominador) é o momento central amostral de ordem 2 (veja mais detalhes abaixo)

5.3 Resultados gerais relativos a “Lei do Grandes Números” e “Teorema do Limite Central”

  • \(M'_k\xrightarrow{n\to\infty}\;\; \mu'_k\) (convergência em probabilidade ou consistência)

  • \(M_k\xrightarrow{n\to\infty}\;\; \mu_k\) (convergência em probabilidade ou consistência)

  • \(M'_k\xrightarrow{n\to\infty}\;\; \text{N}[E(M'_k),V(M'_k)]\) (convergência em distribuição)

  • \(M_k\xrightarrow{n\to\infty}\;\; \text{N}[E(M'_k),V(M'_k)]\) (convergência em distribuição)

Esses resultados ampliam substancialmente o escopo de aplicação da LGN e do TLC a muitos problemas em estatística.

5.4 Alguns exemplos

Exemplo 1 - Coeficiente teórico de assimetria

O coeficiente teórico de assimetria (cujo possível estimador já foi visto anteriormente) é definido por

  • coeficiente de assimetria teórico: \(\gamma_1=E\left[\left(\frac{X-\mu_X}{\sigma_X}\right)^3\right]\)

com as definições de momentos realizadas, poderíamos reescrever o coeficiente de assimetria por:

  • \(\gamma_1=\displaystyle \frac{\mu_3}{\mu_2^{3/2}}\)

Uma estimador para \(\gamma_1\) poderia considerar a substituição dos momentos absolutos pelos momentos amostrais na fórmula (método dos momentos para obtenção de estimadores).

Exemplo 2 - Coeficiente teórico de curtose (teórico)

O coeficiente teórico de curtose (cujo possível estimador já foi visto anteriormente) é definido por

  • coeficiente de curtose teórico: \(\gamma_2=E\left[\frac{(X-\mu_X)^4}{\sigma_X^4}\right]-3\)

com as definições de momentos realizadas, poderíamos reescrever o coeficiente de curtose por:

  • \(\gamma_2=\displaystyle \frac{\mu_4}{(\mu_2)^2}-3\)

Uma estimador para \(\gamma_2\) poderia considerar a substituição dos momentos absolutos pelos momentos amostrais na fórmula (método dos momentos para obtenção de estimadores)

5.5 Definição de momentos centrais a partir de momentos absolutos

É sempre possível redefinir os momentos centrais de uma certa ordem a partir dos momentos absolutos de ordens diversas. Por exemplo:

  • \(\mu_2=\mu_2'+(\mu_1')^2\), dado que \(V(X)=E(X^2)-[E(X)]^2\).

Algumas outras relações úteis (nas fórmulas \(\mu\) representa \(\mu'_1\), para simplificar)

  • \(\mu_3=\mu_3'-3\mu\mu_2'+2\mu^3\)
  • \(\mu_4=\mu_4'-4\mu\mu_3'+6\mu^2\mu_2'-3\mu^4\)

5.6 Problemas recomendados para estudo

  1. Encontre expressão algébrica de \(\mu_k'\) (momento absoluto teórico de ordem \(k\)) em função de \(k\) para uma variável aleatória \(X\sim\mbox{Uniforme}(0,1)\).

  2. Pela via amostral, simule 100000 valores de \(X\sim\mbox{Uniforme}(0,1)\). e obtenha o intervalo de confiança a 99% para o momento absoluto teórico estimado pelo momento absoluto amostral, verificando que o momento teórico de ordem \(k\) é bem estimado pelo momento amostral de ordem \(k\), como prevê a lei dos grandes números. Verifique para \(k=2,3,4\).

  3. Usando o resultado do exercício 1 e outros resultados neste último tópico, encontre o coeficiente de assimetria (teórico) e o coeficiente de curtose teórico para a v.a. \(X\).

6 - Síntese das propriedades da esperança e da variância:

Nas fórmulas, \(X\) e \(Y\) são variáveis aleatórias com \(E(X)\), \(E(Y)\), \(V(X)\), \(V(Y)\), \(\mbox{cov}(X,Y)\) e \(\rho_{XY}\) definidos. \(X_1\), \(X_2\), \(\ldots\), \(X_n\) representa uma amostra aleatória i.i.d. de \(X\). As letras minúsculas identificam constantes. Em algumas fórmulas para simplificar usamos a notação \(\sigma_X^2\), \(\sigma_Y^2\), \(\sigma_X\) e \(\sigma_Y\) para representar \(V(X)\), \(V(Y)\) e os desvios-padrão associados.

6.1 Esperança matemática

  • \(E(k)=k\)

  • \(E(X+k)=E(X)+k\)

  • \(E(aX+k)= aE(X)+k\)

  • \(E(aX+bY+k)=a E(X)+bE(Y)+k\)

  • \(E(XY)=E(X)E(Y)+\mbox{cov}(X,Y)\) (caso geral)

  • \(E(XY)=E(X)E(Y)\) (\(X\) e \(Y\) independentes e/ou não-correlacionados)

  • \(E[g(X)]\approx \displaystyle g[E(X)]+\frac{g'[E(X)]}{2}\;\;V(X)\) (resultado aproximado)

6.2 Variância teórica

  • \(V(k)=0\)

  • \(V(X+k)=V(X)\)

  • \(V(aX+k)= a^2\,V(X)\)

  • \(V(aX+bY+k)=a^2 V(X)+b^2 V(Y)+ 2\,a\,b\,\rho_{XY} \sigma_X\,\sigma_Y\)

6.3 Covariância teórica e coeficiente de correlação teóricos

  • \(\mbox{cov}(X,Y)=E(XY)-E(X)E(Y)\)

  • \(\rho_{XY}=\displaystyle \frac{\mbox{cov}(X,Y)}{\sigma_X\,\sigma_Y}\)

  • \(\mbox{cov}(X,Y)=\rho_{XY}\,\sigma_X\,\sigma_Y\)

6.4 Resultado geral relativo a variância de uma soma de v.a.s

Se \(Z_1\), \(Z_2\),\(\ldots\),\(Z_p\) são variáveis aleatórias com matriz de covariância definida por

  • \(\def\X{{\mathbf X}} \def\x{{\mathbf x}} \def\bfmu{{\boldsymbol{\mu}}} \def\bfa{{\boldsymbol{a}}} \def\bfS{{\boldsymbol{\Sigma}}} \def\bfV{{\boldsymbol{\Sigma}}} \def\var{{\rm Var}} \def\cov{{\rm Cov}} \def\CV{{\rm cv}} \def\E{{\rm E}} \def\B{{\rm b}} \bfV=\left(\begin{array}{cccc} \sigma_{11}&\sigma_{12}&\ldots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\ldots&\sigma_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ \sigma_{p1}&\sigma_{p2}&\ldots&\sigma_{pp}\\ \end{array}\right)\)

  • com \(\sigma_{ij}=\mbox{cov}(Z_i,Z_j)\),

e \(a_1\), \(a_2\),\(\ldots\), \(a_p\) são constantes, temos que

  • \(V(a_1\,Z_1+a_2\,Z_2+\ldots+a_p\,Z_p)= \bfa^{T}\,\bfV\, \bfa\)

onde

  • \(\bfa=\left(\begin{array}{c} a_1\\ a_2\\ \vdots\\ a_p\\ \end{array} \right)\)

6.5 Problemas recomendados para estudo

  1. Obtenha a formula de \(V(aX+bY)\) a partir do resultado geral matricial para a variância de uma soma, dada no tópico 6.4.

  2. Se \(Y=b_0+b_1 x_1 + b_2 x_2 + E\) onde \(b_0\), \(b_1\), \(b_2\), \(x_1\) e \(x_2\) são constantes definidas e \(E\sim\mbox{N}(0,\sigma)\):
  • Encontre \(E(Y)\) e \(V(Y)\).
  • Qual será a distribuição de probabilidade de \(Y\)?
  1. Se \(X\) e \(Y\) são independentes, temos que \(V(X+Y)=V(X-Y)\). Falso ou Verdadeiro?

  2. Se \(X\) e \(Y\) não são independentes, temos que \(V(X+Y)=V(X-Y)\). Falso ou Verdadeiro?

  3. Obtenha \(V(a X+b Y+c Z)\) onde \(X\), \(Y\) e \(Z\) são variáveis aleatórias com matriz de covariância definida por
  • \(S=\left(\begin{array}{ccc} 1&0{,}5&-0{,}5\\ 0{,}5&1&0{,}5\\ -0{,}5&0{,}5&1\\ \end{array}\right)\)
  • essa matriz pode ser definida no R por:
    S<-matrix(c(1,0.5,-0.5,0.5,1,0.5,-0.5,0.5,1),nrow=3)