Normal Univariada

Seja \(X\) uma variável aleatória normalmente distribuída com média \(\mu \in \Re\) e variância \(\sigma^2>0\), isto é, \(X \sim N(\mu,\sigma^2)\).

A função de densidade de \(X\) é dada por \[ f_X(x)= \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x-\mu)^2}, \ \ -\infty < x <\infty \] A função \(f_X(x)\) é simétrica em torno da média e sua dispersão em relação a \(\mu\) dependerá do parâmetro de variância \(\sigma^2\).

Note que podemos reescrever \(f_X(x)\) da seguinte forma \[ f_X(x)= (2\pi)^{-\frac{1}{2}}(\sigma^2)^{-\frac{1}{2}} e^{-\frac{1}{2}(x-\mu)(\sigma^2)^{-1}(x-\mu)}, \ \ -\infty < x <\infty \]

Normal Multivariada

Seja \(\textbf{X}=(X_1,\ldots,X_n)^{T}\) um vetor de variáveis aleatórias independentes, onde \(X_i \sim N(\mu_i,\sigma_i^2)\), \(i=1,\ldots,n\). Portanto, a densidade conjunta é dada por:

\[ \begin{align} f_{\textbf{X}}(x_1,\ldots,x_n) & = \prod_{i=1}^n (2\pi)^{-\frac{1}{2}}(\sigma_i^2)^{-\frac{1}{2}} e^{-\frac{1}{2}(x_i-\mu_i)(\sigma_i^2)^{-1}(x_i-\mu_i)} \\ & = (2\pi)^{-\frac{n}{2}}(\sigma_1^2\sigma_2^2 \ldots \sigma_n^2)^{-\frac{1}{2}} e^{-\frac{1}{2} \sum_{i=1}^n \left[(x_i-\mu_i)(\sigma_i^2)^{-1}(x_i-\mu_i)\right]} \end{align} \]

Note que

\[ (\sigma_1^2\sigma_2^2 \ldots \sigma_n^2)^{-\frac{1}{2}} = det \begin{bmatrix} \sigma_1^2 & 0 & \ldots & 0\\ 0 & \sigma_2^2 & \ldots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & \sigma_n^2 \end{bmatrix} = | \Sigma | \] e que \[ \begin{align} \sum_{i=1}^n \left[(x_i-\mu_i)(\sigma_i^2)^{-1}(x_i-\mu_i)\right] & = \begin{bmatrix} (x_1-\mu_1) & \ldots & (x_n-\mu_n)\\ \end{bmatrix} \begin{bmatrix} 1/\sigma_1^2 & 0 & \ldots & 0\\ 0 & 1/\sigma_2^2 & \ldots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & 1/\sigma_n^2 \end{bmatrix} \begin{bmatrix} (x_1-\mu_1)\\ \vdots\\ (x_n-\mu_n) \end{bmatrix}\\ & = \begin{bmatrix} (x_1-\mu_1) & \ldots & (x_n-\mu_n)\\ \end{bmatrix} \begin{bmatrix} \sigma_1^2 & 0 & \ldots & 0\\ 0 & \sigma_2^2 & \ldots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & \sigma_n^2 \end{bmatrix}^{-1} \begin{bmatrix} (x_1-\mu_1)\\ \vdots\\ (x_n-\mu_n) \end{bmatrix}\\ & = (\textbf{X}-\boldsymbol{\mu})^{T} \Sigma^{-1}(\textbf{X}-\boldsymbol{\mu}) \end{align} \]

onde \(\boldsymbol{\mu}=(\mu_1,\mu_2,\ldots,\mu_n)^{T}\) é o vetor de médias e \(\Sigma\) é a matriz de covariância. Neste caso, \(\Sigma\) é diagonal pois as variáveis são independentes.

Sendo assim, podemos escrever a densidade conjunta da seguinte forma \[ f_{\textbf{X}}(x_1,\ldots,x_n) = (2\pi)^{-\frac{n}{2}}|\Sigma|^{-\frac{1}{2}} e^{-\frac{1}{2}(\textbf{X}-\boldsymbol{\mu})^{T} \Sigma^{-1}(\textbf{X}-\boldsymbol{\mu})} \]

A distribuição normal multivariada é uma generalização da normal univariada. Se as variáveis não forem independentes, a densidade conjunta continua a mesma. Entranto, a matriz de covariância não será apenas diagonal. Será uma matriz cheia, onde os elementos fora da diagonal medem a dependência entre cada variável. De fato, neste caso, temos que

\[ \Sigma=\begin{bmatrix} \sigma_{11} & \sigma_{12} & \ldots & \sigma_{1n}\\ \sigma_{21} & \sigma_{22} & \ldots & \sigma_{2n}\\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{n1} & \sigma_{n2} & \ldots & \sigma_{nn}\\ \end{bmatrix} \] onde \(\sigma_{ij}=Cov(X_i,X_j)\) e \(\Sigma\) é uma matriz simétrica e positiva definida. Assim, denotamos

\[ \textbf{X} \sim N_n(\boldsymbol{\mu},\Sigma) \Longrightarrow \begin{bmatrix} X_1\\ \vdots\\ X_n \end{bmatrix} \sim N_n \left( \begin{bmatrix} \mu_1\\ \vdots\\ \mu_n \end{bmatrix}, \begin{bmatrix} \sigma_{11} & \ldots & \sigma_{1n}\\ \vdots & \ddots & \vdots \\ \sigma_{n1} & \ldots & \sigma_{nn}\\ \end{bmatrix} \right) \]

Exemplos

Vamos avaliar o caso particular em que \(n=2\). Nesse caso, temos \(\textbf{X}=(X_1,X_2)^{T}\) e a distribuição é chamada de Normal Bivariada.

  • \(\boldsymbol{\mu}=\begin{bmatrix} 0\\ 0 \end{bmatrix}\) e \(\Sigma=\begin{bmatrix} 1 & 0\\ 0 & 1\\ \end{bmatrix}\). Neste caso, \(X_1\) e \(X_2\) são e independentes. Observe que os eixos da elipse são pararelos aos eixos das variáveis, formando um círculo. Note também que a curva está centrada em zero nas duas variáveis.

  • \(\boldsymbol{\mu}=\begin{bmatrix} 0\\ 0 \end{bmatrix}\) e \(\Sigma=\begin{bmatrix} 1 & 0.75\\ 0.75 & 1\\ \end{bmatrix}\). Neste caso, \(X_1\) e \(X_2\) não são independentes e a correlação entre elas é positiva. Observe que os eixos da elipse são inclinados em relação aos eixos das variáveis, mostrando a associação positiva.

  • \(\boldsymbol{\mu}=\begin{bmatrix} 0\\ 0 \end{bmatrix}\) e \(\Sigma=\begin{bmatrix} 1 & -0.75\\ -0.75 & 1\\ \end{bmatrix}\). Neste caso, \(X_1\) e \(X_2\) não são independentes e a correlação entre elas é negativa. Observe que os eixos da elipse são inclinados em relação aos eixos das variáveis, mostrando a associação negativa. Mesmo assim, o ponto de centralidade continua sendo \((0,0)\).

\(\textbf{Observação:}\) Quanto maior for a correlação entre as variáveis, mais estreitas serão as curvas de nível. Para variáveis independentes, teremos um círculo (caso particular da elipse).

Propriedades da Normal Multivariada


  1. Covariância nula implica independência. \[ \Sigma= \begin{bmatrix} \sigma_{11} & 0\\ 0 & \sigma_{22} \end{bmatrix} \Longleftrightarrow X_1 \mbox{ e } X_2 \mbox{ são independentes.} \]


  1. Combinação Linear de \(\textbf{X}\) também é uma normal multivariada. Seja \(\textbf{A}= \begin{bmatrix}a_{11} & \ldots & a_{1n}\\ \vdots & \ddots & \vdots \\ a_{q1} & \ldots & a_{qn} \end{bmatrix}\), então \[ \textbf{Y} = \begin{bmatrix} Y_1\\ \vdots\\ Y_q \end{bmatrix} = \begin{bmatrix} a_{11} & \ldots & a_{1n}\\ \vdots & \ddots & \vdots \\ a_{q1} & \ldots & a_{qn} \end{bmatrix} \begin{bmatrix} X_{1}\\ \vdots \\ X_{n} \end{bmatrix} = \textbf{AX} \Longrightarrow \textbf{Y} \sim N_q(\textbf{A}\boldsymbol{\mu}, \textbf{A} \Sigma \textbf{A}^T) \]

  2. Subconjuntos das componentes de \(\textbf{X}\) também têm distribuição normal multivariada.

\[ \textbf{X} = \begin{bmatrix} X_{1}\\ X_{2}\\ \vdots\\ X_{p}\\ \hline X_{p+1}\\ X_{p+2}\\ \vdots\\ X_{n}\\ \end{bmatrix} =\begin{bmatrix} \textbf{X}_1 \\ \textbf{X}_2 \end{bmatrix}, \ \ \boldsymbol{\mu} = \begin{bmatrix} \mu_{1}\\ \mu_{2}\\ \vdots\\ \mu_{p}\\ \hline \mu_{p+1}\\ \mu_{p+2}\\ \vdots\\ \mu_{n}\\ \end{bmatrix} =\begin{bmatrix} \boldsymbol{\mu}_1 \\ \boldsymbol{\mu}_2 \end{bmatrix}, \ \ \Sigma = \left[ \begin{array}{c|c} \begin{matrix} \sigma_{1,1} & \ldots & \sigma_{1,p}\\ \vdots & \ddots & \vdots\\ \sigma_{p,1} & \ldots & \sigma_{p,p}\\ \end{matrix} & \begin{matrix} \sigma_{1,p+1} & \ldots & \sigma_{1,n}\\ \vdots & \ddots & \vdots\\ \sigma_{p,p+1} & \ldots & \sigma_{p,n}\\ \end{matrix}\\ \hline \begin{matrix} \sigma_{p+1,1} & \ldots & \sigma_{p+1,p}\\ \vdots & \ddots & \vdots\\ \sigma_{n,1} & \ldots & \sigma_{n,p}\\ \end{matrix} & \begin{matrix} \sigma_{p+1,p+1} & \ldots & \sigma_{p+1,n}\\ \vdots & \ddots & \vdots\\ \sigma_{n,p+1} & \ldots & \sigma_{n,n}\\ \end{matrix} \end{array} \right] = \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{12} & \Sigma_{22} \end{bmatrix} \] Então, \[ \textbf{X}_1 \sim N_p(\boldsymbol{\mu}_1,\Sigma_{11}) \ \ \ \mbox{ e }\ \ \ \textbf{X}_2 \sim N_{n-p}(\boldsymbol{\mu}_2,\Sigma_{22}) \]

  1. A distribuição condicional também é normal. Novamente, seja \(\textbf{X}=(\textbf{X}_1,\textbf{X}_2)^T\), então

\[ \textbf{X}_1 \mid \textbf{X}_2 \sim N_p(\boldsymbol{\mu}_{1\mid 2},\Sigma_{1 \mid 2}) \]
onde \[ \begin{align} \mu_{1\mid 2}& =\boldsymbol{\mu}_{1}+\Sigma_{12}\Sigma_{22}^{-1}(\textbf{x}_{2}-\boldsymbol{\mu}_2)\\ \Sigma_{1 \mid 2}& = \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{12} \end{align} \] O resultado é recíproco para \(\textbf{X}_2 \mid \textbf{X}_1\).