Conteúdo do Módulo
1 - Função de variáveis aleatórias: introdução
2 - Função de variáveis aleatórias: formalização do problema e distribuições
3 - Esperança matemática de função de v.a.s e propriedades fundamentais (soma e produto de v.a.s)
4 - Variância, covariância e coeficiente de correlação
5 - Momentos absolutos e centrais (teóricos e amostrais)
6 - Síntese das propriedades da esperança matemática e da variância de funções de v.a.s
Neste tópico, discutiremos conceitos associados a funções de variáveis aleatórias. Para motivar o assunto, considere os problemas descritos a seguir. Nos 2 casos apresentados nos próximos tópicos, as funções envolvidas são lineares. Em outras situações as funções podem envolver componentes não-lineares, como \(\ln(x)\), \(x^2\), etc.
Um investimento industrial de $100 no período 0 possibilitará a produção de 11 unidades
de um produto no período 1.
O preço X desse produto é incerto, e caracterizado por uma distribuição Normal(12,2).
Considerando que a taxa de juros por período é 10%, calcule a probabilidade
do valor presente líquido (VPL) desse investimento ser negativo ou nulo,
algo que é indesejável.
Como \(X\) é uma variável aleatória, temos que \(Y\), também uma v.a., será uma função \(g(X)\) de \(X\), onde
Esse é um problema que pode ser solucionado algebricamente sem muita dificuldade:
Como \(X\sim\text{N}(12,2)\) podemos achar o resultado \(P(X\le 10)\) desejado por
pnorm(10,12,2)
## [1] 0.1586553
Essa mesma situação poderia ser tratada pela via amostral, algo que será a única alternativa disponível em situações mais complexas envolvendo variáveis aleatórias. O seguinte trecho de código ilustra o procedimento. Para utilizá-lo, inicialmente carregaremos a função definida anteriormente para cálculo do intervalo de confiança.
intconfmedia<-function(x,q=0.95){
n<-length(x)
m<-mean(x)
s<-sd(x)
e<-qt((1+q)/2,n-1)*s/sqrt(n)
cat(m," +/- ",e," ou [",m-e,",",m+e,"] n=",n,"\n",sep="")
}
set.seed(20)
n<-10000
X<-rnorm(n,12,2)
Y<--100+11*X/(1.10)
sum(Y<=0)/n ## frequência de casos em que Y<=0
## [1] 0.1598
intconfmedia(ifelse(Y<=0,1,0)) ## intervalo de confiança para P(Y<=0)
## 0.1598 +/- 0.007182938 ou [0.1526171,0.1669829] n=10000
Note que o valor exato (conhecido nesse caso) está contido no intervalo de confiança estimado. Se for necessário ter mais precisão na estimativa amostral, basta aumentar o valor de \(n\), o número valores amostrados, através do procedimento de simulação Monte Carlo.
O uso do procedimento amostral, recém ilustrado, é particularmente útil em situações envolvendo funções não-lineares e/ou muitas variáveis aleatórias, em situações mais complexas.
Para ilustrar isso, considere, no contexto do exemplo que estamos desenvolvendo, que a produção também é incerta, representada pela variável aleatória \(Z\), caracterizada por uma distribuição Normal(11, 1). Nesse caso, teríamos
A informação fornecida seria insuficiente para qualquer inferência sobre \(Y\), a não ser que seja conhecida a distribuição conjunta de \(X\) e \(Z\).
Se soubermos que \(X\) e \(Z\) são independentes, podemos amostrar aleatoriamente, de forma independente, das distribuições de \(X\) e de \(Z\), através da simulação Monte Carlo, e proceder de forma similar à realizada acima no caso unidimensional:
set.seed(20)
n<-10000
X<-rnorm(n,12,2)
Z<-rnorm(n,11,1)
plot(X,Z,main="Diagrama de dispersão dos valores simulados",xlim=c(4,20))
Y<--100+Z*X/(1.10)
sum(Y<=0)/n ## frequência de casos em que Y<=0
## [1] 0.1883
intconfmedia(ifelse(Y<=0,1,0)) ## ## intervalo de confiança para P(Y<=0)
## 0.1883 +/- 0.00766382 ou [0.1806362,0.1959638] n=10000
O código apresentado produziu também um diagrama de dispersão dos valores amostrados, os quais não apresentam qualquer indício de associação estatística ou correlação entre \(X\) e \(Z\) dado que por construção foram obtidos a partir de amostras independentes.
Note que a probabilidade de termos um VPL negativo aumentou com essa nova premissa, com relação à situação anterior. Esse resultado dependeu da premissa de independência entre \(X\) e \(Z\). Se \(X\) e \(Z\) não forem independentes, e tiverem, por exemplo distribuição conjunta caracterizada por uma Normal Multivariada, com coeficiente de correlação \(\rho=0{,}9\), e mesmos parâmetros originais, descritos nas distribuições marginais, poderíamos sortear conjuntamente valores de \(X\) e \(Z\) usando uma função do R que operacionaliza o procedimento (mvrnorm do Package MASS)
Para operacionalizar será necessário “montar” a matriz de covariância da Normal. Essa matriz terá as variâncias teóricas na diagonal e, fora da diagonal, as covariâncias de \(X\) e \(Z\). Como * \(\rho_{XZ}=\displaystyle \frac{\sigma_{xz}}{\sigma_x\, \sigma_z}\) temos * \(\sigma_{xz}=\rho_{XZ}\, \sigma_x\, \sigma_z\)
Podemos simular valores dessa distribuição utilizando a função mvrnorm do package MASS que já está instalado no módulo base do R.
require(MASS) ## carregamento do package MASS (já instalado)
set.seed(20)
n<-3
mu<-c(12,11) ## esperanças de X e Z
rho<-0.9 ## coeficiente de correlação
dpX<-2 ## desvio padrão de X
dpZ<-1 ## desvio padrão de Z
covXZ<-rho*dpX*dpZ ## covariância de X e Z
mu<-c(12,11) ## esperanças de X e Z
covXZ<-rho*dpX*dpZ
Sigma<-matrix(c(dpX^2,covXZ,covXZ,dpZ^2),nrow=2)
Sigma ## variâncias na diagonal principal e covariâncias fora da diagonal principal
## [,1] [,2]
## [1,] 4.0 1.8
## [2,] 1.8 1.0
mvrnorm(n,mu,Sigma) ## sorteando n pares de valores de X e Z
## [,1] [,2]
## [1,] 9.458943 10.392757
## [2,] 13.092672 11.707125
## [3,] 8.537402 9.129039
O último comando mostrou 3 pares de valores sorteados de \(X\) e \(Z\), a partir da distribuição conjunta dessas variáveis aleatórias. A seguir é apresentada a obtenção da resposta completa:
set.seed(20)
n<-10000
rho<-0.9 ## coeficiente de correlação
dpX<-2 ## desvio padrão de X
dpZ<-1 ## desvio padrão de Z
covXZ<-rho*dpX*dpZ ## covariância de X e Z
mu<-c(12,11) ## esperanças de X e Z
covXZ<-rho*dpX*dpZ
Sigma<-matrix(c(dpX^2,covXZ,covXZ,dpZ^2),nrow=2)
valores<-mvrnorm(n,mu,Sigma) ## sorteando n pares de valores de X e Z
X<-valores[,1] ## X definido como a coluna 1 de valores
Z<-valores[,2] ## Z definido como a coluna 2 de valores
plot(X,Z,main="Diagrama de dispersão dos valores simulados",xlim=c(4,20))
Y<- -100+Z*X/(1.10)
intconfmedia(ifelse(Y<=0,1,0)) ## intervalo de confiança para P(Y<=0)
## 0.2439 +/- 0.008418174 ou [0.2354818,0.2523182] n=10000
O resultado obtido foi substancialmente mais elevado que na situação que considera a independência entre \(X\) e \(Z\). O diagrama de dispersão mostra uma aparente associação estatística (positiva) entre \(X\) e \(Z\), dado que os valores foram amostrados considerando um coeficiente de correlação igual a 0,9. A situação anterior, envolvendo independência, poderia ser implementada utilizando o mesmo procedimento mas considerando, nesse caso, \(\rho=0\).
Um dos maiores problemas existentes na modelagem de riscos é a falta de atenção à distribuição conjunta na simulação das variáveis aleatórias envolvidas em modelos, assumindo-se independência (explicitamente ou mesmo não intencionalmente) quando essa premissa não se justifica. Os resultados obtidos podem mudar significativamente quando a informação do comportamento conjunto (não-independente) das variáveis é considerado.
Veja os problemas recomendados ao final deste tópico.
Assumindo que \(X\sim f_X(x)\) é uma variável aleatória com distribuição conhecida, considere que \(X_1\), \(X_2\), \(\ldots\), \(X_n\) é uma amostra aleatória i.i.d. de \(X\) e definimos * \(\bar X=\displaystyle \frac{\sum_{i=1}^n X_i}{n}\)
Nesse contexto, \(X_1\), \(X_2\), \(\ldots\), \(X_n\), antes de observarmos seus valores, são variáveis aleatórias, com a mesma distribuição de \(X\) e * \(\bar X\) também será uma variável aleatória definida a partir de uma função de variaveis aleatórias, ou seja, * \(\displaystyle \bar X=g(X_1,X_2,\ldots,X_n)\) onde \(g(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n X_i}{n}\)
Para muitos problemas de interesse estatístico é necessário responder perguntas como
No fundo a média é um caso particular de uma ampla classe de funções de variáveis aleatórias, denominadas estimadores, que são utilizadas para estimar parâmetros ou quantidades de interesse. Genericamente, representamos um estimador fundamentado em uma amostra i.i.d. \(X_1\), \(X_2\), \(\ldots\), \(X_n\), por * \(T(X_1,X_2,\ldots,X_n)\)
Como exemplo, temos 3 possíveis “estimadores” da variância teórica dados por * \(T_0(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n}\) * \(T_1(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}\) * \(T_k(X_1,X_2,\ldots,X_n)=\displaystyle \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-k}\)
A última expressão indica uma situação mais geral, que engloba as situações anteriores, quando \(k=0\) e \(k=1\). Uma questão prática pode ser a escolha do melhor estimador que deve ser utilizado em dada uma situação específica. Em outro tópico retomaremos a questão da seleção de estimadores (qual é o “melhor”?).
Na situação do tópico 1.1, repita o procedimento utilizado para estimar \(P(Y\le 0)\) mas considerando \(\rho=-0{,}9\) em lugar de \(\rho=0{,}9\). Verifique que \(P(Y\le 0)\) será menor que na situação envolvendo independência. Observe o diagrama de dispersão para se familiarizar com o impacto do valor do coeficiente de correlação no “formato” da núvem de pontos amostrados na simulação. Varie a magnitude do valor de \(\rho\) e observe seus efeitos.
Suponha que \(X\sim f_X(x)\) e \(Y=g(X)\), ou seja, \(Y\) é uma função da variável aleatória \(X\).
Numa situação um pouco mais geral, podemos estar interessados em
\(Y=g(X_1,X_2,\ldots,X_k)\), onde \(Y\) é uma função de \(k\) variáveis aleatórias.
Nota: em estatística costuma-se utilizar a simbologia \(g(x)\) para indicar uma função qualquer, evitando-se a simbologia \(f(x)\) que é reservada para distribuições de probabilidade (funções de massa ou funções de densidade)
Algumas questões importantes que podem aparecer nesse contexto:
Qual é a distribuição de \(Y\), quando \(Y=g(X)\) e \(X\sim f(x)\) tem uma distribuição conhecida?
Como obter \(E(Y)\), quando \(Y=g(X)\) e \(X\sim f(x)\) tem uma distribuição conhecida?
A distribuição de \(Y=g(X_1,X_2,\ldots,X_n)\) converge (ou tem) alguma distribuição conhecida, na medida que \(n\) cresce? Em alguns casos de interesse é possivel uma resposta satisfatória.
Em algumas situações, como as existentes no caso discreto, é fácil responder às 2 perguntas sem grande dificuldade. No caso contínuo, a resposta pode não ser simples, exigindo técnicas mais avançadas, especialmente se desejamos conhecer a distribuição algébrica que caracteriza essa distribuição. Isso será discutido a seguir.
A figura a seguir ilustra a noção de função de variável aleatória, para o caso em que * \(X\) é uma variável discreta, com \(\Omega_X=\{-2,0,2\}\) com probabilidades indicadas na figura. * \(Z=g_1(X)\) onde \(g_1(X)=2 X\), e * \(Y=g_2(X)\) onde \(g_2(X)=X^2\)
As distribuições das variáveis aleatórias \(Y\) e \(Z\) são construídas a partir de cada resultado possível com relação a \(X\), a partir das funções correspondentes a cada caso. Nos 2 casos os eventos \(Z=0\) e \(Y=0\) correspondem ao evento original \(X=0\). O evento \(Y=4\) corresponde às situações \(X=-2\) ou \(X=2\) e porisso tem sua probabilidade definida pela soma das probabilidades dos 2 eventos.
Se \(X\sim\displaystyle \text{Bernoulli}(p)\) e \(X_1\), \(X_2\), \(\ldots\) \(X_n\) é uma amostra aleatória i.i.d. de \(X\)
\(Y=\displaystyle \sum_{i=1}^{n} X_i\sim \text{Binomial}(n,p)\) (soma de Bernoullis i.i.d. é Binomial)
Resultado útil: \(\text{Binomial}(n,p)\) converge para uma \(\text{N}(np,\sqrt{np(1-p)})\)
Uma regra prática sugere que a aproximação da Binomial pela Normal é boa se temos \(np>10\) e \(n(1-p)>10\) (quanto maior os valores melhor). Há critérios mais elaborados assim como procedimentos para melhorar a aproximação (ex. correção de continuidade). Contudo, com a facilidade de resolver problemas de inferência usando a própria Binomial, sem aproximações, através de metodos computacionais implementados em programas (ex. R, Excel e outros) o uso de aproximações não é algo tão importante quanto no passado.
Se \(X\) é uma v.a. contínua, com \(X\sim f_X(x)\), a função \(f_X(x)\) é uma distribuição de densidade de probabilidade ou simplesmente função de densidade. A caraterização algébrica da distribuição de \(Y=g(X)\), representada por \(f_Y(y)\), nesse caso contínuo, e usualmente envolve técnicas mais avançadas, relativamente mais complexas que as apresentadas no caso discreto, não sendo assunto deste desenvolvimento.
Resultados como os abaixo descritos podem ser derivados com o uso de técnicas mais avançadas:
se \(X\sim\;\text{N}(\mu,\sigma)\) e \(Y=g(X)=a X+b\) temos que \(Y\sim\) \(\text{N}(a\, \mu+b\), \(|a|\, \sigma\)) (função linear de Normal é Normal)
se \(X\sim\;\text{N}(\mu,\sigma)\) e \(X_1\), \(X_2\), \(\ldots\) \(X_n\) é uma amostra aleatória i.i.d. de \(X\) temos que:
\(Y=\sum_{i=1}^{n} X_i \sim \text{N}(n \mu, \sqrt{n}\sigma)\) (soma de Normais é Normal)
\(Y=\bar X \sim \text{N}(\mu, \sigma/\sqrt{n})\) (média de Normais é Normal, resultado exato)
\(Y=\displaystyle \frac{\bar X - \mu}{\sigma/\sqrt{n}} \sim \text{N}(0, 1)\) (Normal padronizada, resultado exato)
\(Y=\displaystyle \frac{\bar X - \mu}{s/\sqrt{n}}\sim\displaystyle \text{t-Student}(n-1)\), se \(s=\displaystyle \sqrt{\frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}}\) é um estimador do desvio-padrão (note a diferença com relação ao caso anterior). O resultado é relativamente robusto com relação a desvios moderados da normalidade de \(X\).
se \(X\sim\;\text{N}(0,\;1)\) e \(Y=g(X)=X^2\), temos que \(Y\sim\) Qui-Quadrado com 1 grau de liberdade
se \(X\) tem uma distribuição qualquer (com esperança e variância teóricas finitas, representadas por \(\mu\) e \(\sigma^2\)) e \(X_1\), \(X_2\), \(\ldots\) \(X_n\) é uma amostra aleatória i.i.d. de \(X\), é verdade que
\(Y=\displaystyle \bar X\;\; \xrightarrow{n\to\infty}\;\; \text{N}(\mu, \sigma/\sqrt{n})\) (média converge para Normal - Teorema do Limite Central)
\(Y=\displaystyle \frac{\bar X - \mu}{\sigma/\sqrt{n}}\;\; \xrightarrow{n\to\infty}\;\;\text{N}(0, 1)\) (convergência para Normal padronizada - Teorema do Limite Central).
\(Y=\displaystyle \frac{\bar X - \mu}{s/\sqrt{n}}\;\; \xrightarrow{n\to\infty}\;\;\text{N}(0, 1)\) (convergência para Normal padronizada - Teorema do Limite Central).
\(Y=\displaystyle \sum_{i=1}^{n} X_i \xrightarrow{n\to\infty} \text{N}(n \mu, \sqrt{n}\sigma)\) (soma de v.a.s i.i.d. é aproximadamente Normal)
As setas longas com \(n\to \infty\) indicam convergência em distribuição na medida que \(n\) cresce, ou seja, a distribuição de probabilidade do termo da esquerda converge para a distribuição especificada à direita. A formalização das noções de convergência, ainda que muito importantes, não são objeto deste material. No último caso, o resultado é aproximado para valores elevados de \(n\), dado que o limite rigoroso em distribuição não será tecnicamente aplicável quando \(n\to\infty\).
De um modo geral, as situações possíveis para distribuições de funções de variáveis aleatórias podem ser muitas, bem específicas e, em muitos casos, difíceis de demonstrar. Nos momentos oportunos, quando necessário, introduziremos outros resultados de interesse.
Considere a situação já examinada anteriormente em que
\(X\sim\text{N}(12,2)\) e \(Y=-100+\frac{11\; X}{1,1}\)
Qual seria a distribuição de \(Y\)?
Pelo resultado especificado no tópico anterior, temos que
Suponha que \(X\sim \text{N}(\mu,\sigma)\) e obtivemos uma amostra i.i.d. de \(X\) representada por \(X_1\), \(X_2\),,\(X_n\). Com essa amostra desejamos estimar um intervalo de confiança para \(\mu\), a \(p\) de probabilidade, a partir do conhecimento dos estimadores da esperança matemática e variância teórica:
Considere a variável aleatória \(T\) definida por
em função de resultados apresentados no tópico anterior, sabemos que
Como a \(\text{t-Student}\) é uma distribuição simétrica ao redor de 0 (muito parecida com a Normal padronizada), podemos encontrar valores simétricos \(-k_p\) e \(k_p\) de forma que
Por exemplo, se \(p=0{,}95\) esses valores serão definidos pelos quantis 0,025 e 0,975 da distribuição, de forma a deixar uma probabilidade 0,95 na região central da distribuição. Se n=100, a distribuição t-Student terá 99 graus de liberdade (n-1) e os valores de \(-k_p\) e \(k_p\) serão dados por
qt(0.025,99)
## [1] -1.984217
qt(0.975,99)
## [1] 1.984217
Continuando o desenvolvimento, temos
Rearranjando o termo intermediário da última equação, chegamos ao resultado
que motiva a utilização de \(\bar X\pm\displaystyle k_p \frac{s}{\sqrt{n}}\) como o intervalo de confiança, entendido com um intervalo que conterá a esperança matemática ou média teórica com probabilidade \(p\).
especificamente, \(k_p\) será definido pelo quantil \(\displaystyle (1+p)/2\) da \(\text{t-Student}(n-1)\)
o valor de \(k_p\) converge para o quantil \(\displaystyle (1+p)/2\) da \(\text{N}(0,1)\), na medida que \(n\) cresce (para \(n>100\) os valores já são muito próximos)
Apesar do resultado exato apresentado depender da premissa de normalidade de \(X\), ele é bastante robusto com relação a desvios moderados da validade dessa premissa, especialmente em situações em que \(n\) é grande, podendo ser utilizado com relativa segurança nesse contexto. Na medida em que \(n\) cresce, há convergência para a própria Normal padronizada, por efeitos relacionados ao Teorema do Limite Central (e convergência do estimador da variância para a variância teórica), algo que minimiza a dependência do resultado na normalidade de \(X\).
Considere uma seguradora que faz seguro de vida. Cada segurado paga um prêmio anual de $3000 e a família do segurado recebe uma indenização de $100 mil caso ele venha a falecer. Assuma que a probabilidade de cada segurado morrer no espaço de 1 ano é \(0{,}02\) e que as mortes são fenômenos independentes na carteira de seguro. Desconsiderando outros custos e receitas de aplicações do prêmio, e que todos os seguros são realizados no início do ano, estime a esperança matemática do lucro por contrato e a probabilidade da seguradora tomar prejuízo num ano, considerando que \(n\), o número total de segurados é 50, 100, 500, 1000 e 10000. Dica: defina algebricamente a receita e custo da seguradora, considerando cada segurado como sendo uma variável Bernoulli, com probabilidade \(p=0{,}02\) de morrer (\(X_i=1\), se o segurado \(i\) morre no ano) e observe os resultados relativos à Binomial.
A caracterização da esperança matemática e variância teórica (próximo tópico) de funções de variáveis aleatórias pode ser algo suficiente para resolver muitos problemas importantes, sem que seja necessário a especificação da distribuição de probabilidade.
Muitos dos resultados apresentados aqui serão utilizados no próximo tópico para obtenção da variância teórica, covariância teórica, coeficiente de correlação e momentos teóricos.
Considere a situação anteriormente examinada das variáveis \(X\), \(Y\) e \(Z\) definidas na figura a seguir
Nesse caso temos \(Z=2X\) e \(Y=X^2\), com \(X\) caracterizado pela distribuição de probabilidade ilustrada na figura.
Para obter \(E(Z)\) e \(E(Y)\) poderíamos utilizar a definição da esperança de função de variável aleatória:
Observe que se temos a distribuição de \(Z\) e \(Y\) podemos obter diretamente \(E(Z)\) e \(E(Y)\) pela própria definição da esperança matemática, a partir das distribuições de \(Z\) e \(Y\), usando:
Considere as distribuições conjunta e marginais relativas às v.a.s \(X\) e \(Y\), definidas em módulo anterior e ilustradas na figura a seguir.
Para os resultados envolvendo \(X\) temos
Para os resultados envolvendo \(Y\) temos
Para encontrar \(E(XY)\) é importante entender que \(g(X,Y)=X\times Y\) nesse caso: * \(E(XY)=0\times 0\times 0{,}25+0\times 1\times 0{,}25+1\times 1\times 0{,}25+1\times 2\times 0{,}25=0{,}75\)
Qualquer resultado envolvendo esperanças pode também ser obtido diretamente da distribuição conjunta. Por exemplo, \(E(X)\) poderia ser obtido entendendo-se que nesse caso teríamos \(g(X,Y)=X\):
Se \(X\) e \(Y\) são v.a. caracterizadas por uma distribuição conjunta bivariada \(f_{XY}(x,y)\), com marginais definidas por \(f_X(x)\) e \(f_Y(y)\)
caso contínuo (univariado): \(\displaystyle E[g(X)] =\int_{-\infty}^{\infty} g(x) f_X(x)\,dx\)
caso contínuo (bivariado): \(\displaystyle E[g(X,Y)] =\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x,y) f_{XY}(x,y)\,dx\,dy\)
Em muitas situações os resultados algébricos das integrais indefinidas são difíceis de obter (ou até mesmo não definidos algébricamente, como ocorre no caso da distribuição Normal). Nesses casos os resultados são obtidos por técnicas núméricas/computacionais.
Alguns exemplos de fácil solução algébrica são apresentados a seguir para ilustrar as definições:
Temos que
Pela aplicação direta da definição, chega-se a
\(E(Y)=E(X^2)=\displaystyle \int_{0}^5 x^2 \frac{1}{5}\;dx\)
\(E(X^2)=\displaystyle \frac{1}{5}\left[\frac{x^3}{3}\right]_0^5\;\;=\frac{25}{3}\)
Observe que não foi necessário encontrar a distribuição de \(Y=X^2\) para obtenção de \(E(Y)\). Se a distribuição de \(Y\), \(f_Y(y)\), fosse conhecida, poderia-se, em princípio, obter \(E(Y)\) diretamente pela sua definição (em algumas situações isso também pode ser complicado, do ponto de vista algébrico)
Considere a situação do módulo anterior em que tinhamos as v.a.s \(X\) e \(Y\) caracterizadas pela distribuição conjunta:
Dessa distribuição conjunta obtivemos as distribuições marginais
e também a distribuição condicional \(Y|X=x\) dada por
Com essas informações obtenha
Na ordem solicitada temos:
\(E(Y)=\displaystyle \int_{0}^{1} y\times (y+0{,}5)\,dy=\left[\frac{y^3}{3}+0{,}5\frac{y^2}{2}\right]_0^1=\frac{7}{12}\approx 0{,}583\)
\(E(Y^2)=\displaystyle \int_{0}^{1} y^2\times (y+0{,}5)\,dy=\left[\frac{y^4}{4}+0{,}5\frac{y^3}{3}\right]_0^1=\frac{5}{12}\approx 0{,}417\)
\(E(Y|X=x)=\displaystyle \int_{0}^{1} y\times \frac{x+y}{x+0{,}5}\;\;dy=\frac{1}{x+0{,}5}\;\;\,\int_{0}^{1} xy+y^2\,dy= \frac{1}{x+0{,}5}\;\;\left[x\frac{y^2}{2}+\frac{y^3}{3}\right]_0^1=\frac{x/2+1/3}{x+0{,}5}\)
Esse último resultado é de particular importância conceitual, sendo chamado de curva de regressão, que é definida a seguir:
curva de regressão: a caracterização algébrica de \(E(Y|X=x)\), ou a esperança condicional de \(Y|X=x\). É chamada tecnicamente em estatística de curva de regressão de \(Y|X=x\). Essa noção é fundamental em estatística e econometria para a caracterização de fenômenos empíricos e testes de hipoteses. A curva de regressão pode ser estendida ao caso multidimensional com relação aos condicionantes:
\(E(Y|X_1=x_1\cap X_2=x_2\cap\ldots\cap X_k=x_k)\) representa a curva de regressão da distribuição condicional \(Y|X_1=x_1\cap X_2=x_2\cap\ldots\cap X_k=x_k\) que pode ser representada também por \(Y|X_1=x_1, X_2=x_2,\ldots, X_k=x_k\), ou simplesmente por \(Y|x_1,x_2,\ldots,x_k\).
Continuando os resultados solicitados:
\(E(Y^2|X=x)=\displaystyle \int_{0}^{1} y^2\times \frac{x+y}{x+0{,}5}\;\;dy=\frac{1}{x+0{,}5}\;\;\,\int_{0}^{1} xy^2+y^3\,dy= \frac{1}{x+0{,}5}\;\;\left[x\frac{y^3}{3}+\frac{y^4}{4}\right]_0^1=\frac{x/3+1/4}{x+0{,}5}\)
\(E(XY)=\displaystyle \int_{0}^{1}\int_{0}^{1} xy\times (x+y)\;\;dx\,dy=\int_{0}^{1} y \left[\int_{0}^{1} x\times (x+y)\;\;dx\right]\,\,dy=\int_{0}^{1} y \left[\frac{x^3}{3}+y\frac{x^2}{2}\right]_0^1\,dy\)
\(E(XY)=\displaystyle \int_{0}^{1} y \left[\frac{1}{3}+y\frac{1}{2}\right]\,dy=\left[\frac{1}{3}\frac{y^2}{2}+\frac{1}{2}\frac{y^4}{4}\right]_0^1=\frac{7}{24}\approx 0{,}292\)
Considere que \(X\), \(Y\) são variáveis aleatórias com esperança matemática \(E(X)\) e \(E(Y)\) e \(a\), \(b\), e \(k\) são constantes. Nesse contexto apresentamos a seguinte propriedade da esperança matemática:
esperança da soma: \(E(a\, X +b \, Y+ k)=a\, E(X)+ b\, E(Y) + k\) (soma das esperanças)
Nota: a propriedade não depende das variáveis envolvidas na soma serem independentes: vale sempre.
demostração: considere o caso contínuo em que temos a distribuição conjunta de \(X\) e \(Y\) dada por \(f_{XY}(x,y)\)
O que precisamos saber é a \(E(g(X,Y))\) onde \(g(x,y)=a\, x + b\, y + k\).
\(E[g(X,Y)]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} (a\, x + b\, y +k) f_{XY}(x,y)\;dx\,dy\)
\(E[g(X,Y)]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} a\, x\; f_{XY}(x,y)\;dx\,dy+\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} b\, y\; f_{XY}(x,y)\;dx\,dy+\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} k\; f_{XY}(x,y)\;dx\,dy\)
\(E[g(X,Y)]=a \,\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} x\; f_{XY}(x,y)\;dx\,dy+b\,\,\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} y\; f_{XY}(x,y)\;dx\,dy+k\,\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\; f_{XY}(x,y)\;dx\,dy\)
\(E[g(X,Y)]=a\,E(X)+b\,E(Y)+k\)
O resultado usou dos seguintes fatos, sempre válidos (se as integrais convergirem)
\(E(X)= \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} x\; f_{XY}(x,y)\;dx\,dy=\int_{-\infty}^{\infty} x\; f_{X}(x)\;dx\)
\(\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\; f_{XY}(x,y)\;dx\,dy=1\)
Desenvolvimento similar pode ser utilizado para demonstração do caso discreto.
Alguns exemplos de aplicação desse resultado serão apresentados no contexto dos Problemas 1 e 2 desenvolvidos no tópico 1. Mais exemplos serão apresentados nos tópicos de aplicação, mais ao final do módulo.
se \(Y=-100+\frac{11 X}{1{,}10}\), pela propriedade, \(E(Y)=-100+\frac{11}{1{,}1}E(X)\)
como no problema, \(E(X)=12\), concluímos que \(E(Y)=20\).
No caso do Problema 2, se \(E(X)=\mu\), temos também \(E(X_i)=\mu\) para \(i=1,\ldots,n\). e
\(E(\bar X)=E\left[\frac{\sum_{i=1}^n X_i}{n}\right]\)
\(E(\bar X)=E\left[\frac{X_1+X_2+\ldots+X_n}{n}\right]\)
\(E(\bar X)=\displaystyle \frac{E(X_1)+E(X_2)+\ldots+E(X_n)}{n}\)
mas \(E(X_i)=\mu\), para \(i=1,\ldots,n\), de onde se conclui que
O último resultado mostra que a esperança da média é igual \(\mu\) (a média teórica ou esperança). Esse resultado motiva uma definição importante no contexto de estimadores:
A média aritmética é, portanto, um estimador não tendencioso da média teórica. Em geral esse é um requisito muito forte para estimadores. Em geral já é suficiente o atendimento a uma propriedade um pouco mais fraca que se chama consistência, que, intuitivamente, e com pouco rigor, indica que a não tendenciosidade ocorrerá na medida que \(n\to \infty\).
demonstração: em geral temos
mas, se \(X\) e \(Y\) são independentes, é verdade que \(f_{XY}(x,y)=f_X(x)f_Y(y)\) ou seja, a distribuição conjunta é o produto das distribuições marginais, logo
Note que a independência é uma condição suficiente para \(E(XY)=E(X)E(Y)\) mas não é uma condição necessária. Observe o contra-exemplo a seguir.
Claramente, \(X\) e \(Y\) não são independentes. Por exemplo \(f_Y(0)=0{,}5\) e \(f_{Y|X}(0|0)=1\), o que mostra que a informação sobre \(X\) afeta a distribuição de \(Y\) (algo que exclui independência). Mas, nesse caso temos:
\(E(XY)=-1\times 0{,}25+0\times 0{,}5+1\times 0{,}25=0\)
como \(E(X)=0\) temos que \(E(X)E(Y)=0\) e \(E(XY)=E(X)E(Y)\) (com \(X\) e \(Y\) não-independentes)
Portanto, podemos concluir que:
\(X\) e \(Y\) independentes \(\Rightarrow\) \(E(XY)=E(X)E(Y)\) (o símbolo \(\Rightarrow\) significa implicação lógica)
\(E(XY)\not = E(X)E(Y)\) \(\Rightarrow\) \(X\) e \(Y\) não-independentes
\(E(XY)=E(X)E(Y)\) não implica \(X\) e \(Y\) independentes (cuidado!)
Se \(X\) tem uma distribuição de probabilidade conhecida \(f_X(x)\) e \(Y=X^2\), a v.a. \(Y\) pode ter uma distribuição de probabilidade igual à distribuição de \(X\). Falso ou Verdadeiro?
Suponha que \(X_1\), \(X_2\), \(\ldots\), \(X_k\) são v.a.s i.i.d. que representam as produções por hora de um processo. Sabe-se que \(E(X_i)=10\) e \(V(X_i)=16\), para \(i=1,\ldots,k\). Se \(S\) representa a produção total durante 30 dias de operação do processo, estime \(P(S\le 7000 )\), ou seja, a probabilidade de terem sido produzidas 7000 ou menos de 7000 unidades ao longo dos 30 dias.
Se \(X\) e \(Y\) tem distribuição \(f_{XY}(x,y)=4xy\) para \(x\in [0,1]\) e \(y\in[0,1]\) e \(f_{XY}(x,y)=0\) para outros casos, obtenha \(E(XY)\) e \(E(X)E(Y)\). Com base nesses resultados podemos concluir que \(X\) e \(Y\) são independentes?
Sabemos que \(E(X)E(Y)=0\). Podemos concluir que \(X\) e \(Y\) não são independentes. Falso ou Verdadeiro?
A definição da variância teórica e dos momentos teóricos é facilitada pelas noções de função de variáveis aleatórias e propriedades da esperança matemática introduzidas nos últimos tópicos.
Se \(X\) é uma v.a., representa-se a variância teórica de \(X\) por \(V(X)\), \(\sigma_X^2\) ou simplesmente \(\sigma^2\), quando o contexto está claro. Sua definição (que vale para os casos discreto e contínuo) é dada por:
A segunda definição pode ser obtida facilmente pelo uso da propriedade fundamental da esperança matemática introduzida no último tópico:
O último desenvolvimento usa o fato de que \(E[X]\) é uma constante (um valor fixo).
É importante distinguir a variância teórica dos “estimadores da variância teórica”, como
Para uma variável aleatória \(X\) qualquer, temos
Para 2 variáveis aleatórias \(X\) e \(Y\) com distribuição conjunta de probabilidade \(f_{XY}(x,y)\) definimos a covariância (teórica) por
ou, pela definição equivalente
Também é usual representar \(\mbox{cov}(X,Y)\) por \(\sigma_{xy}\), como fizemos quando introduzimos a Normal Multivariada no módulo anterior.
Note que
Se \(X\) e \(Y\) são duas v.a. a covariância é uma medida teórica da associação estatística entre elas que tem relação com a independência. A covariância é mais facilmente interpretada através do
Na última expressão, \(\sigma_X\) e \(\sigma_Y\) são os desvios-padrões teóricos associados a \(X\) e \(Y\), respectivamente.
A figura a seguir ilustra diagramas de dispersão de possíveis situações associadas valores conjuntos amostrados de 2 variáveis aleatórias \(X\) e \(Y\) com diferentes coeficientes de correlação. Na medida que o valor de \(\rho\) se aproxima de -1 ou 1 os pontos tende a ficar mais concentrados sobre uma reta virtual que passa pelos pontos (com inclinação diferente de zero ou de 90 graus). Os pontos tendem mostrar um comportamento mais “independente” na medida que \(\rho\) fica mais próximo de \(0\).
Existem outros 2 conceitos de coeficiente de correlação (menos) usados em estatística: coeficiente de correlação de Spearman e coeficiente de correlação de Kendall, que são calculados sobre a posição de ordem dos valores de \(X\) e \(Y\) no conjunto de dados.
Da mesma forma que temos estimadores para a esperança matemática e variância teórica (mais de 1), também para a covariância teórica temos também estimadores.
Se \(X\) e \(Y\) são variáveis aleatórias com distribuição conjunta \(f_{XY}(x,y)\), e \((X_1,Y_1)\), \((X_2,Y_2)\), \(\ldots\), \((X_n,Y_n)\) é uma amostra aleatória i.i.d. de \(n\) pares de valores dessas v.a.s, obtida da distribuição conjunta:
alguns estimadores amostrais da covariância utilizados em estatística:
\(\hat{\mbox{cov}}_1(X,Y)=\displaystyle \frac{\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{n-1}\)
\(\hat{\mbox{cov}}_2(X,Y)=\displaystyle\frac{\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{n}\)
A estimativa do coeficiente de correlação pode se fazer através de
onde \(s_x\) e \(s_y\) são estimadores dos desvios padrão de \(X\) e \(Y\), respectivamente. O acento circunflexo é comumente utilizado para indicar que a expressão ou símbolo é um estimador. Os estimadores do desvio padrão poderiam ter sido representados por \(\hat{\sigma}_x\) e \(\hat{\sigma}_y\).
Vamos usar o nosso “velho amigo” data frame “alunos” para ilustrar a estimativa da covariância e coeficiente de correlação entre o peso e a altura dos alunos, juntamente com o diagrama de dispersão envolvendo essas variáveis:
alunos<-read.csv2("http://ihbs.com.br/html/esalq2012mod.csv")
plot(alunos$pes,alunos$alt,pch=16, col="blue",xlab="peso",ylab="altura")
cat("cov=",cov(alunos$pes,alunos$alt),"coef. correlação=",cor(alunos$pes,alunos$alt),"\n")
## cov= 85.34649 coef. correlação= 0.6644868
Vimos no tópico anterior que
Se \(X\) e \(Y\) são independentes podemos concluir que \(E(XY)=E(X)E(Y)\)
desse resultado concluimos que \(X\) e \(Y\) independentes \(\Rightarrow\;\;\;\mbox{cov}(X,Y)=0\;\;\Rightarrow\;\; \rho_{XY}=0\)
mas a conclusão contrária não se verifica:
Por outro lado, podemos concluir que
No tópico anterior mostramos uma definição da expressão que caracteriza \(E(XY)\), a esperança do produto de duas variáveis aleatórias \(X\) e \(Y\) na situação em que elas são independentes. Com a definição da covariância é possível apresentar a definição geral (obtida da definição da covariância)
\(E(XY)=E(X)E(Y)+\mbox{cov}(X,Y)\) (caso geral)
\(E(XY)=E(X)E(Y)\) (quando \(X\) e \(Y\) independentes e/ou não-correlacionados)
Se \(X\) é uma v.a. Bernoulli(\(p\)) obtenha \(V(X)\).
\(E(X)=0\times (1-p)+ 1\times p= p\)
\(E(X^2)=0^2\times (1-p)+ 1^2\times p= p\)
\(V(X)=E(X^2)-[E(X)]^2=p-p^2=p(1-p)\)
Considere as variáveis \(X\) e \(Y\), definidas em módulo anterior e ilustradas na figura a seguir.
Obtenha: \(V(X)\), \(V(Y)\), \(\mbox{cov(X,Y)}\) e \(\rho_{XY}\)
No tópico anterior, obtivemos:
A partir desses resultados podemos obter:
\(V(X)=E(X^2)-[E(X)]^2= 0{,}5^2 - 0{,}5=0{,}25\)
\(V(Y)=E(Y^2)-[E(Y)]^2= 2 -1^2=1\)
\(\mbox{cov}(X,Y)=E(XY)-E(X)E(Y)=0{,}75-0,5\times 1=0{,}25\)
\(\rho_{XY}=\displaystyle \;\;\frac{\mbox{cov(X,Y)}}{\sigma_x\,\sigma_y}\;\;=\;\;\frac{0{,}25}{\sqrt{0{,}25}\sqrt{1}}=0{,}50\)
Por esse resultado poderíamos concluir que \(X\) e \(Y\) não são independentes (algo que já verificamos anteriormentepor outro caminho)
Considere a situação do módulo anterior em que tinhamos as v.a.s \(X\) e \(Y\) caracterizadas pela distribuição conjunta:
Obtenha: \(V(Y)\), \(V(X)\), \(\mbox{cov(X,Y)}\) e \(\rho_{XY}\)
No tópico anterior, obtivemos \(E(Y)=7/12\), \(E(Y^2)=5/12\) e \(E(XY)=7/24\). Os resultados relativos a \(X\) são iguais em função de que sua distribuição marginal é idêntica à de \(Y\).
Com esses resultados, podemos obter:
\(V(Y)=E(Y^2)-[E(Y)]^2=5/12-(7/12)^2=109/144\approx 0{,}7569\)
\(V(X)=V(Y)\) (distribuições são iguais)
\(\mbox{cov(X,Y)}=E(XY)-E(X)E(Y)=7/25-(7/12)(7/12)\approx -0{,}06028\)
\(\rho_{XY}=\displaystyle \frac{\mbox{cov}(X,Y)}{\sigma_x\,\sigma_y}\;\;=\frac{-0{,}06028}{\sqrt{109/144}\sqrt{109/144}}\;\; \approx -0{,}0796\)
Também nesse caso, por esses resultados, podemos concluir que \(X\) e \(Y\) são independentes (algo que já concluímos anteriormente, usando outros procedimentos)
Considere que \(X\), \(Y\) são variáveis aleatórias com variâncias teóricas \(V(X)\) e \(V(Y)\), coeficiente de correlação \(\rho_{XY}\). Adicionalmente, \(a\), \(b\), e \(k\) são constantes. Nesse contexto apresentamos a seguinte propriedade da esperança matemática:
\(V(k)=0\)
\(V(a X)=a^2 V(X)\)
\(V(a X + k)= a^2 V(X)\)
\(V(a X + b Y + k)=\displaystyle a^2 V(X)+b^2 V(Y)+ 2 a\,b\, \rho_{XY}\,\sqrt{V(X)}\sqrt{V(Y)}\)
Se \(X_1\), \(X_2\), \(\ldots\), \(X_k\) são variáveis aleatórias independentes (ou, de forma menos restritiva, tem correlação zero entre todos os possíveis pares de variáveis) e \(a_1\), \(a_2\),\(\ldots\), \(a_k\) são constantes, temos que
\(V(a_1 X_1+a_2 X_2+\ldots+a_k X_k)=a_1^2 V(X_1)+a_2^2 V(X_2)+\ldots+a_k^2 V(X_k)\) (se independentes)
Provaremos a segunda propriedade apresentada, a título de ilustrar o procedimento geral de demonstração.
Assuma que \(Z=aX\), logo
\(V(aX)=V(Z)=E(Z^2)-[E(Z)]^2=E[(aX)^2]-[E(aX)]^2=a^2E[X^2]-a^2[E(X)]^2\)
\(V(aX)=a^2[E(X^2)-[E(X)]^2]=a^2 V(X)\)
[Nota: veja a extensão dessa última propriedade para caso de não-independência, no tópico final com a síntese das propriedades]
\(\mbox{cov}(X,a)=0\)
\(\mbox{cov}(X,a+b Y)=\mbox{cov}(X,a)+b\; \mbox{cov}(X,Y)=b\;\mbox{cov}(X,Y)\)
Em tópico anterior, \(X\) representava o preço de um produto, uma v.a. com distribuição \(\text{N}(12,2)\) e
representava o valor presente do investimento. Encontre \(E(Y)\) e \(V(Y)\) pelas propriedades da esperança e variâcia teórica.
\(E(Y)=E(-100+10 X)=E(-100)+E(10 X)=-100+10E(X)=20\) (dado que \(E(X)=12\))
\(V(Y)=V(-100+10 X)=V(10 X)=10^2 V(X)=400\) (dado que \(V(X)=4\))
Note que não foi necessário utilizar a informação da Normalidade de \(Y\) para obtenção da esperança e variância teórica.
Suponha que \(X\) é uma v.a. com \(E(X)=\mu\) e \(V(X)=\sigma_X^2\).
Defina:
Esse procedimento é chamado de operação de padronização da variável \(X\).
Usando as propriedades da esperança e variância, mostre que, qualquer que seja a distribuição de \(X\) (desde que \(\mu_X\) e \(\sigma_X^2\) existam), é verdade que
Resolvendo o problema para a esperança matemática:
Resolvendo o problema para a variância teórica:
\(V(Z)=\displaystyle V\left[\frac{X-\mu_X}{\sigma_X}\right]\;\;=\frac{1}{\sigma_X^2}\;V\left[X-\mu_X\right]\)
\(V(Z)=\displaystyle \frac{1}{\sigma_X^2}V(X)\;\;=\frac{\sigma_X^2}{\sigma_X^2}\;\;=1\)
Assuma que \(X\sim f_X(x)\) é uma variável aleatória com distribuição conhecida com
e que \(X_1\), \(X_2\), \(\ldots\), \(X_n\) é uma amostra aleatória i.i.d. de \(X\) onde
Em tópico anterior, verificamos que \(E(\bar X)=\mu\)
Obtenha \(V(\bar X)\).
Das propriedades da variância temos:
\(V(\bar X)=\displaystyle V\left[\frac{\sum_{i=1}^n X_i}{n}\right]=\frac{1}{n^2}V\left[\sum_{i=1}^n X_i\right]\)
\(V(\bar X)=\displaystyle \frac{1}{n^2}\sum_{i=1}^n V(X_i)\) (pela independência)
\(V(\bar X)=\displaystyle \frac{1}{n^2} \sum_{i=1}^n \sigma_X^2 = \frac{n\sigma_X^2}{n^2}\)
\(V(\bar X)=\displaystyle \frac{\sigma_X^2}{n}\) (resultado muito importante!)
Podemos observar pela última fórmula que
Juntando esses resultados, podemos definir um conceito muito importante em estatística que é a
consistencia de estimadores: se \(T(X_1,X_2,\ldots,X_n)\) é utilizado como estimador de um parâmetro “k” esse estimador será consistente se as duas condições a seguir forem atendidas (condições suficientes)
\(E[T(X_1,X_2,\ldots,X_n)]\xrightarrow{n\to\infty} k\)
\(V[T(X_1,X_2,\ldots,X_n)]\xrightarrow{n\to\infty} 0\)
Desse resultado, podemos afirmar que a média aritmética é um estimador consistente da esperança matemática.
Assuma que \(X\sim f_X(x)\) é uma variável aleatória com distribuição conhecida com
e que \(X_1\), \(X_2\), \(\ldots\), \(X_n\) é uma amostra aleatória i.i.d. de \(X\) onde
Considere o estimador de \(\sigma_X\) dado por
onde \(k\) é um valor fixo conhecido.
Obtenha \(E[T_k(X_1,X_2,\ldots,X_n)]\) e \(V[T_k(X_1,X_2,\ldots,X_n)]\).
Inicialmente, obteremos \(E[T_k((X_1,X_2,\ldots,X_n)]\), ou simplesmente \(E(T_k)\) para facilitar a notação.
\(E(T_k)=E\left[\frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-k}\right]\)
\(E(T_k)=\frac{1}{n-k}\;E\left[\sum_{i=1}^n X_i^2-2 X_i \bar X+(\bar X)^2\right]\)
\(E(T_k)=\frac{1}{n-k}\;E\left[\sum_{i=1}^n (X_i^2)-2 n (\bar X)^2+ n (\bar X)^2\right]\) (passando o somatório)
\(E(T_k)=\frac{1}{n-k}\;E\left[\sum_{i=1}^n (X_i^2)-n (\bar X)^2\right]\)
\(E(T_k)=\frac{1}{n-k}\;E\left[\sum_{i=1}^n (X_i^2)-n (\bar X)^2\right]\)
\(E(T_k)=\frac{1}{n-k}\;\left[\sum_{i=1}^n E(X_i^2)-n E(\bar X)^2\right]\)
mas pelas propriedades da variância, temos \(V(X_i)=E(X_i^2)-(E(X_i))^2\) de onde podemos concluir que
adicionalmente, usando o mesmo racicínio,
substituindo esses últimos 2 resultados na expressão anterior, chegamos a
\(E(T_k)=\displaystyle\frac{1}{n-k}\;E\left[n(\sigma_X^2+\mu_X^2)-n (\frac{\sigma_X^2}{n}+\mu_X^2)\right]\)
\(E(T_k)=\sigma_X^2\;\;\frac{(n-1)}{n-k}\)
O se \(k=1\) temos que \(E(T_k)=\sigma_X^2\) ou seja, o estimador será não tendencioso. Essa é uma razão importante para justificar o uso de \(n-1\) no estimador da variância comumente utilizado.
Obtenção de \(V(T_k)\):
A obtenção desse resultado envolve muitas operações algébricas relativamente tediosas. O resultado final será dado por:
onde \(\gamma_2\) é o coeficiente de curtose (teórico) e \(\sigma_X^4\) é a variância ao quadrado, ambos associados à distribuição de \(X\).
se \(X\) tem distribuição \(\text{N}(\mu,\sigma)\), temos \(\gamma_2=0\), essa fórmula será simplificada para:
É fácil observar, especialmente no caso particular em que \(X\sim \text{N}(\mu,\sigma)\) que
\(E(T_k)\xrightarrow{n\to\infty}\sigma_X^2\)
\(V(T_k)\xrightarrow{n\to\infty}0\)
O que mostra que toda a classe de estimadores definidos por \(T_k(X_1,X_2,\ldots,X_n)\) é consistente com relação ao parâmetro \(\sigma_X^2\).
Curiosamente, no caso de \(X\sim \text{N}(\mu,\sigma)\), o estimador \(T_0\), que considera \(k=0\), apesar de não ser não-tendencioso, é consistente e tem variância menor que a observada para \(T_{1}\) (\(k=1\)) algo que sugere a conclusão de que esse estimador não seria necessáriamente superior a \(T_0\) com relação à variância do estimador (em geral deseja-se a menor variância) dado (para \(n>2\)) temos:
Se \(X\) é uma v.a. \(\mbox{Bernoulli}(p=0{,}1)\) e \(Y=X^2+1\) obtenha \(E(X)\), \(E(Y)\), \(V(X)\), \(V(Y)\) e \(E(XY)\) e \(\rho_{XY}\).
Se \(X\) é uma v.a. \(\mbox{Uniforme}[0,\;1]\) e \(Y=2-X\) obtenha \(E(X)\), \(E(Y)\), \(V(X)\), \(V(Y)\), \(E(XY)\) e \(\rho_{XY}\). Dica: encontre primeiro os resultados relativos a \(X\) e posteriormente, usando as propriedades da esperança e variância, os resultados relativos a \(Y\) e \(XY\).
Definições:
Para uma variável aleatória \(X\), com \(E(X)=\mu\) e \(V(X)=\sigma_X^2\), e \(X_1\), \(X_2\),\(\ldots\),\(X_n\) é uma amostra aleatória i.i.d. de \(X\), definimos:
momento absoluto teórico de ordem \(k\): \(\mu'_k=E[X^k]\)
momento absoluto amostral de ordem \(k\): \(M'_k=\displaystyle \frac{\sum_{i=1}^n X_i^k}{n}\)
Os momentos absolutos também são chamados momentos com relação à origem.
Observe que a esperança matemática é o momento absoluto teórico de ordem 1 e a média aritmética é o momento absoluto amostral de ordem 1.
Definições:
Para uma variável aleatória \(X\), com \(E(X)=\mu\) e \(V(X)=\sigma_X^2\), e \(X_1\), \(X_2\),\(\ldots\),\(X_n\) é uma amostra aleatória i.i.d. de \(X\), definimos:
momento central teórico de ordem \(k\): \(\mu'_k=E[(X-\mu)^k]\)
momento central amostral de ordem \(k\): \(M'_k=\displaystyle \frac{\sum_{i=1}^n(X_i ^k-\bar X)^2}{n}\)
Observe que a variância teórica é o momento central teórico de ordem 2 e o estimador da variância (com \(n\) no denominador) é o momento central amostral de ordem 2 (veja mais detalhes abaixo)
\(M'_k\xrightarrow{n\to\infty}\;\; \mu'_k\) (convergência em probabilidade ou consistência)
\(M_k\xrightarrow{n\to\infty}\;\; \mu_k\) (convergência em probabilidade ou consistência)
\(M'_k\xrightarrow{n\to\infty}\;\; \text{N}[E(M'_k),V(M'_k)]\) (convergência em distribuição)
\(M_k\xrightarrow{n\to\infty}\;\; \text{N}[E(M'_k),V(M'_k)]\) (convergência em distribuição)
Esses resultados ampliam substancialmente o escopo de aplicação da LGN e do TLC a muitos problemas em estatística.
O coeficiente teórico de assimetria (cujo possível estimador já foi visto anteriormente) é definido por
com as definições de momentos realizadas, poderíamos reescrever o coeficiente de assimetria por:
Uma estimador para \(\gamma_1\) poderia considerar a substituição dos momentos absolutos pelos momentos amostrais na fórmula (método dos momentos para obtenção de estimadores).
O coeficiente teórico de curtose (cujo possível estimador já foi visto anteriormente) é definido por
com as definições de momentos realizadas, poderíamos reescrever o coeficiente de curtose por:
Uma estimador para \(\gamma_2\) poderia considerar a substituição dos momentos absolutos pelos momentos amostrais na fórmula (método dos momentos para obtenção de estimadores)
É sempre possível redefinir os momentos centrais de uma certa ordem a partir dos momentos absolutos de ordens diversas. Por exemplo:
Algumas outras relações úteis (nas fórmulas \(\mu\) representa \(\mu'_1\), para simplificar)
Encontre expressão algébrica de \(\mu_k'\) (momento absoluto teórico de ordem \(k\)) em função de \(k\) para uma variável aleatória \(X\sim\mbox{Uniforme}(0,1)\).
Pela via amostral, simule 100000 valores de \(X\sim\mbox{Uniforme}(0,1)\). e obtenha o intervalo de confiança a 99% para o momento absoluto teórico estimado pelo momento absoluto amostral, verificando que o momento teórico de ordem \(k\) é bem estimado pelo momento amostral de ordem \(k\), como prevê a lei dos grandes números. Verifique para \(k=2,3,4\).
Usando o resultado do exercício 1 e outros resultados neste último tópico, encontre o coeficiente de assimetria (teórico) e o coeficiente de curtose teórico para a v.a. \(X\).
Nas fórmulas, \(X\) e \(Y\) são variáveis aleatórias com \(E(X)\), \(E(Y)\), \(V(X)\), \(V(Y)\), \(\mbox{cov}(X,Y)\) e \(\rho_{XY}\) definidos. \(X_1\), \(X_2\), \(\ldots\), \(X_n\) representa uma amostra aleatória i.i.d. de \(X\). As letras minúsculas identificam constantes. Em algumas fórmulas para simplificar usamos a notação \(\sigma_X^2\), \(\sigma_Y^2\), \(\sigma_X\) e \(\sigma_Y\) para representar \(V(X)\), \(V(Y)\) e os desvios-padrão associados.
\(E(k)=k\)
\(E(X+k)=E(X)+k\)
\(E(aX+k)= aE(X)+k\)
\(E(aX+bY+k)=a E(X)+bE(Y)+k\)
\(E(XY)=E(X)E(Y)+\mbox{cov}(X,Y)\) (caso geral)
\(E(XY)=E(X)E(Y)\) (\(X\) e \(Y\) independentes e/ou não-correlacionados)
\(E[g(X)]\approx \displaystyle g[E(X)]+\frac{g'[E(X)]}{2}\;\;V(X)\) (resultado aproximado)
\(V(k)=0\)
\(V(X+k)=V(X)\)
\(V(aX+k)= a^2\,V(X)\)
\(V(aX+bY+k)=a^2 V(X)+b^2 V(Y)+ 2\,a\,b\,\rho_{XY} \sigma_X\,\sigma_Y\)
\(\mbox{cov}(X,Y)=E(XY)-E(X)E(Y)\)
\(\rho_{XY}=\displaystyle \frac{\mbox{cov}(X,Y)}{\sigma_X\,\sigma_Y}\)
\(\mbox{cov}(X,Y)=\rho_{XY}\,\sigma_X\,\sigma_Y\)
Se \(Z_1\), \(Z_2\),\(\ldots\),\(Z_p\) são variáveis aleatórias com matriz de covariância definida por
\(\def\X{{\mathbf X}} \def\x{{\mathbf x}} \def\bfmu{{\boldsymbol{\mu}}} \def\bfa{{\boldsymbol{a}}} \def\bfS{{\boldsymbol{\Sigma}}} \def\bfV{{\boldsymbol{\Sigma}}} \def\var{{\rm Var}} \def\cov{{\rm Cov}} \def\CV{{\rm cv}} \def\E{{\rm E}} \def\B{{\rm b}} \bfV=\left(\begin{array}{cccc} \sigma_{11}&\sigma_{12}&\ldots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\ldots&\sigma_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ \sigma_{p1}&\sigma_{p2}&\ldots&\sigma_{pp}\\ \end{array}\right)\)
com \(\sigma_{ij}=\mbox{cov}(Z_i,Z_j)\),
e \(a_1\), \(a_2\),\(\ldots\), \(a_p\) são constantes, temos que
onde
Obtenha a formula de \(V(aX+bY)\) a partir do resultado geral matricial para a variância de uma soma, dada no tópico 6.4.
Se \(X\) e \(Y\) são independentes, temos que \(V(X+Y)=V(X-Y)\). Falso ou Verdadeiro?
Se \(X\) e \(Y\) não são independentes, temos que \(V(X+Y)=V(X-Y)\). Falso ou Verdadeiro?