Seja \(X\) uma variável aleatória normalmente distribuída com média \(\mu \in \Re\) e variância \(\sigma^2>0\), isto é, \(X \sim N(\mu,\sigma^2)\).
A função de densidade de \(X\) é dada por \[ f_X(x)= \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x-\mu)^2}, \ \ -\infty < x <\infty \] A função \(f_X(x)\) é simétrica em torno da média e sua dispersão em relação a \(\mu\) dependerá do parâmetro de variância \(\sigma^2\).
Note que podemos reescrever \(f_X(x)\) da seguinte forma \[ f_X(x)= (2\pi)^{-\frac{1}{2}}(\sigma^2)^{-\frac{1}{2}} e^{-\frac{1}{2}(x-\mu)(\sigma^2)^{-1}(x-\mu)}, \ \ -\infty < x <\infty \]
Seja \(\textbf{X}=(X_1,\ldots,X_n)^{T}\) um vetor de variáveis aleatórias independentes, onde \(X_i \sim N(\mu_i,\sigma_i^2)\), \(i=1,\ldots,n\). Portanto, a densidade conjunta é dada por:
\[ \begin{align} f_{\textbf{X}}(x_1,\ldots,x_n) & = \prod_{i=1}^n (2\pi)^{-\frac{1}{2}}(\sigma_i^2)^{-\frac{1}{2}} e^{-\frac{1}{2}(x_i-\mu_i)(\sigma_i^2)^{-1}(x_i-\mu_i)} \\ & = (2\pi)^{-\frac{n}{2}}(\sigma_1^2\sigma_2^2 \ldots \sigma_n^2)^{-\frac{1}{2}} e^{-\frac{1}{2} \sum_{i=1}^n \left[(x_i-\mu_i)(\sigma_i^2)^{-1}(x_i-\mu_i)\right]} \end{align} \]
Note que
\[ (\sigma_1^2\sigma_2^2 \ldots \sigma_n^2)^{-\frac{1}{2}} = det \begin{bmatrix} \sigma_1^2 & 0 & \ldots & 0\\ 0 & \sigma_2^2 & \ldots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & \sigma_n^2 \end{bmatrix} = | \Sigma | \] e que \[ \begin{align} \sum_{i=1}^n \left[(x_i-\mu_i)(\sigma_i^2)^{-1}(x_i-\mu_i)\right] & = \begin{bmatrix} (x_1-\mu_1) & \ldots & (x_n-\mu_n)\\ \end{bmatrix} \begin{bmatrix} 1/\sigma_1^2 & 0 & \ldots & 0\\ 0 & 1/\sigma_2^2 & \ldots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & 1/\sigma_n^2 \end{bmatrix} \begin{bmatrix} (x_1-\mu_1)\\ \vdots\\ (x_n-\mu_n) \end{bmatrix}\\ & = \begin{bmatrix} (x_1-\mu_1) & \ldots & (x_n-\mu_n)\\ \end{bmatrix} \begin{bmatrix} \sigma_1^2 & 0 & \ldots & 0\\ 0 & \sigma_2^2 & \ldots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & \sigma_n^2 \end{bmatrix}^{-1} \begin{bmatrix} (x_1-\mu_1)\\ \vdots\\ (x_n-\mu_n) \end{bmatrix}\\ & = (\textbf{X}-\boldsymbol{\mu})^{T} \Sigma^{-1}(\textbf{X}-\boldsymbol{\mu}) \end{align} \]
onde \(\boldsymbol{\mu}=(\mu_1,\mu_2,\ldots,\mu_n)^{T}\) é o vetor de médias e \(\Sigma\) é a matriz de covariância. Neste caso, \(\Sigma\) é diagonal pois as variáveis são independentes.
Sendo assim, podemos escrever a densidade conjunta da seguinte forma \[ f_{\textbf{X}}(x_1,\ldots,x_n) = (2\pi)^{-\frac{n}{2}}|\Sigma|^{-\frac{1}{2}} e^{-\frac{1}{2}(\textbf{X}-\boldsymbol{\mu})^{T} \Sigma^{-1}(\textbf{X}-\boldsymbol{\mu})} \]
A distribuição normal multivariada é uma generalização da normal univariada. Se as variáveis não forem independentes, a densidade conjunta continua a mesma. Entranto, a matriz de covariância não será apenas diagonal. Será uma matriz cheia, onde os elementos fora da diagonal medem a dependência entre cada variável. De fato, neste caso, temos que
\[ \Sigma=\begin{bmatrix} \sigma_{11} & \sigma_{12} & \ldots & \sigma_{1n}\\ \sigma_{21} & \sigma_{22} & \ldots & \sigma_{2n}\\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{n1} & \sigma_{n2} & \ldots & \sigma_{nn}\\ \end{bmatrix} \] onde \(\sigma_{ij}=Cov(X_i,X_j)\) e \(\Sigma\) é uma matriz simétrica e positiva definida. Assim, denotamos
\[ \textbf{X} \sim N_n(\boldsymbol{\mu},\Sigma) \Longrightarrow \begin{bmatrix} X_1\\ \vdots\\ X_n \end{bmatrix} \sim N_n \left( \begin{bmatrix} \mu_1\\ \vdots\\ \mu_n \end{bmatrix}, \begin{bmatrix} \sigma_{11} & \ldots & \sigma_{1n}\\ \vdots & \ddots & \vdots \\ \sigma_{n1} & \ldots & \sigma_{nn}\\ \end{bmatrix} \right) \]
Vamos avaliar o caso particular em que \(n=2\). Nesse caso, temos \(\textbf{X}=(X_1,X_2)^{T}\) e a distribuição é chamada de Normal Bivariada.
\(\textbf{Observação:}\) Quanto maior for a correlação entre as variáveis, mais estreitas serão as curvas de nível. Para variáveis independentes, teremos um círculo (caso particular da elipse).
Combinação Linear de \(\textbf{X}\) também é uma normal multivariada. Seja \(\textbf{A}= \begin{bmatrix}a_{11} & \ldots & a_{1n}\\ \vdots & \ddots & \vdots \\ a_{q1} & \ldots & a_{qn} \end{bmatrix}\), então \[
\textbf{Y} =
\begin{bmatrix}
Y_1\\
\vdots\\
Y_q
\end{bmatrix}
= \begin{bmatrix}
a_{11} & \ldots & a_{1n}\\
\vdots & \ddots & \vdots \\
a_{q1} & \ldots & a_{qn}
\end{bmatrix}
\begin{bmatrix}
X_{1}\\
\vdots \\
X_{n}
\end{bmatrix}
= \textbf{AX}
\Longrightarrow \textbf{Y} \sim N_q(\textbf{A}\boldsymbol{\mu}, \textbf{A} \Sigma \textbf{A}^T)
\]
Subconjuntos das componentes de \(\textbf{X}\) também têm distribuição normal multivariada.
\[
\textbf{X} =
\begin{bmatrix}
X_{1}\\
X_{2}\\
\vdots\\
X_{p}\\
\hline
X_{p+1}\\
X_{p+2}\\
\vdots\\
X_{n}\\
\end{bmatrix}
=\begin{bmatrix}
\textbf{X}_1 \\
\textbf{X}_2
\end{bmatrix}, \ \
\boldsymbol{\mu} =
\begin{bmatrix}
\mu_{1}\\
\mu_{2}\\
\vdots\\
\mu_{p}\\
\hline
\mu_{p+1}\\
\mu_{p+2}\\
\vdots\\
\mu_{n}\\
\end{bmatrix}
=\begin{bmatrix}
\boldsymbol{\mu}_1 \\
\boldsymbol{\mu}_2
\end{bmatrix}, \ \
\Sigma =
\left[
\begin{array}{c|c}
\begin{matrix}
\sigma_{1,1} & \ldots & \sigma_{1,p}\\
\vdots & \ddots & \vdots\\
\sigma_{p,1} & \ldots & \sigma_{p,p}\\
\end{matrix}
&
\begin{matrix}
\sigma_{1,p+1} & \ldots & \sigma_{1,n}\\
\vdots & \ddots & \vdots\\
\sigma_{p,p+1} & \ldots & \sigma_{p,n}\\
\end{matrix}\\
\hline
\begin{matrix}
\sigma_{p+1,1} & \ldots & \sigma_{p+1,p}\\
\vdots & \ddots & \vdots\\
\sigma_{n,1} & \ldots & \sigma_{n,p}\\
\end{matrix} &
\begin{matrix}
\sigma_{p+1,p+1} & \ldots & \sigma_{p+1,n}\\
\vdots & \ddots & \vdots\\
\sigma_{n,p+1} & \ldots & \sigma_{n,n}\\
\end{matrix}
\end{array}
\right] =
\begin{bmatrix}
\Sigma_{11} & \Sigma_{12}\\
\Sigma_{12} & \Sigma_{22}
\end{bmatrix}
\] Então, \[
\textbf{X}_1 \sim N_p(\boldsymbol{\mu}_1,\Sigma_{11}) \ \ \ \mbox{ e }\ \ \ \textbf{X}_2 \sim N_{n-p}(\boldsymbol{\mu}_2,\Sigma_{22})
\]
\[
\textbf{X}_1 \mid \textbf{X}_2 \sim N_p(\boldsymbol{\mu}_{1\mid 2},\Sigma_{1 \mid 2})
\]
onde \[
\begin{align}
\mu_{1\mid 2}& =\boldsymbol{\mu}_{1}+\Sigma_{12}\Sigma_{22}^{-1}(\textbf{x}_{2}-\boldsymbol{\mu}_2)\\
\Sigma_{1 \mid 2}& = \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{12}
\end{align}
\] O resultado é recíproco para \(\textbf{X}_2 \mid \textbf{X}_1\).