Variáveis aleatórias

Dado um fenômeno aleatório qualquer, com um certo espaço amostral, desejamos estudar a estrutura probabilística de quantidades associadas a esse fenômeno. Em muitos experimentos é mais fácil lidar com uma variável sumária do que com a estrutura de probabilidade original.

Exemplo: Em uma pesquisa de opiniões, decidimos perguntar a 50 pessoas se elas concordam ou discordam de uma determinada questão, sendo atribuído o valor \(1\) se elas concordam e o valor \(0\) caso elas não concordem. O espaço amostral possui, portanto, \(2^{50}\) elementos. No entanto, pode ser que a única questão que importe é o número de pessoas que concordam entre as 50, então se definirmos \(X=\{\text{número de 1's registrados}\}\), o espaço amostral para \(X\) é o conjunto de números inteiros \(\{0,1,\ldots,50\}\), que é muito mais fácil de lidar do que o original.

Ao especificarmos a quantidade \(X\), definimos uma transformação (uma função) a partir do espaço amostral original para um novo espaço amostral.

Variável aleatória

Definição

Consideremos um experimento e \(\Omega\) o espaço amostral associado a esse experimento. Uma função \(X\), que associa a cada elemento \(\omega \in \Omega\) um número real, \(X(\omega)\), é denominada variável aleatória (v.a.). Ou seja, uma v.a. é uma função de um espaço amostral \(\Omega\) nos números reais.

Observação: As variáveis aleatórias representam as características de interesse em uma população.

Suponha que tenhamos um espaço amostral \(\Omega=\{w_1,\ldots,w_n\}\) com uma função de probabilidade \(P\) e definimos uma v.a. \(X\) com valores em \(\chi=\{x_1,\ldots,x_n\}\). Podemos definir uma função de probabilidade \(P_X\) em \(\chi\) como \[P_X(X=x_i)=P(\{w_j\in \Omega:X(w_j)=x_i\}).\]

Ou seja, \(X=x_i\) se e somente se o resultado do experimento aleatório for \(w_j\in \Omega\) de modo que \(X(w_j)=x_i\).

Observação 1: Podemos escrever \(P_X(X=x_i)=P(X=x_i)\)

Observação 2: V.a.’s sempre devem ser denotadas com letras maiúsculas e os valores assumidos pelas variáveis serão denotados pelas letras minúsculas correspondentes. Portanto, a v.a. \(X\) pode assumir o valor \(x\).

Exemplo: Considerando o experimento do lançamento de três moedas, vamos definir \(X=\)“número caras observadas”:

\(\Omega\) KKK KKC KCK CKK CCK CKC KCC CCC
X(w) 3 2 2 2 1 1 1 0

O espaço amostral é \(\chi=\{0,1,2,3\}\) e a função de probabilidade de \(X\), \(P(X=x_i)\) é:

\(x\) 0 1 2 3
\(P(X=x)\) \(\frac{1}{8}\) \(\frac{3}{8}\) \(\frac{3}{8}\) \(\frac{1}{8}\)


Se \(\chi\) for não contável, definimos a função de probabilidade, \(P_X\), para qualquer conjunto \(A\subset \chi\) \[P_X(X\subset A)=P(\{w\in \Omega:X(w)\in A\}).\]

Isto define uma legítima função de probabilidade para a qual os Axiomas de Kolmogorov podem ser verificados.

Funções de distribuição

Função de distribuição acumulada

Definição

A função de distribuição acumulada, ou fda, de uma v.a. \(X\), denotada por \(F_X(x)\), é definida por \[F_X(x)=P(X\leq x)\in [0,1]\]

Exemplo: No experimento de lançar três moedas onde \(X\)=“número de caras observadas”, a fda de \(X\) é:

\(F_X(x)=\begin{cases} 0, & \mbox{se } -\infty<x<0 \\ \frac{1}{8}, & \mbox{se } 0\leq x < 1 \\ \frac{4}{8}, & \mbox{se } 1\leq x < 2 \\ \frac{7}{8}, & \mbox{se } 2\leq x < 3 \\ 1, & \mbox{se } 3\leq x < +\infty \end{cases}\)

Pontos a serem notados:

  • \(F_X\) é definida para todos os valores de \(x\), não somente para aqueles em \(\chi\)
  • \(F_X\) tem saltos nos valores de \(x_i\in \chi\) e o tamanho do salto em \(x_i\) é \(P(X=x_i)\)
  • \(F_X(x)=0\) \(\forall x<0\) e \(F_X(x)=1\) \(\forall x\geq \max\{\chi\}\)
  • \(F_X\) pode ser descontinuada, com saltos em determinados valores de \(x\), contudo, nos pontos de saltos, \(F_X\) assume o valor na parte superior do salto (continuidade à direita)


O conhecimento da função de distribuição acumulada é suficiente para entendermos o comportamento de uma variável aleatória. Mesmo que a variável assuma valores apenas num subconjunto dos reais, a função de distribuição é definida em toda a reta. Ela é chamada de função de distribuição acumulada, pois acumula as probabilidades dos valores inferiores ou iguais a \(x\).

Teorema

Uma função \(F_X(x)\) é uma fda, se e somente se:

  1. \(\lim_{x \to -\infty} F(x)=0\) e \(\lim_{x \to +\infty} F(x)=1\)
  2. \(F(x)\) é uma função não decrescente de \(x\)
  3. \(F(x)\) é contínua à direita

Exemplo: Considere \[F(x)=\frac{1}{1+e^{-x}},\] vamos mostrar que \(F(x)\) é uma fda.

\(\lim_{x \to -\infty} F(x)=\lim_{x \to -\infty} \frac{1}{1+e^{-x}}\)

\(\lim_{x \to -\infty} e^{-x} = +\infty \implies \lim_{x \to -\infty} \frac{1}{1+e^{-x}} =0\)

\(\lim_{x \to +\infty} F(x)=\lim_{x \to +\infty} \frac{1}{1+e^{-x}}\)

\(\lim_{x \to +\infty} e^{-x} = 0 \implies \lim_{x \to +\infty} \frac{1}{1+e^{-x}} =1\)

Se \(\frac{dF(x)}{dx}>0\), então \(F(x)\) é crescente.

\(\frac{dF(x)}{dx}=\frac{d}{dx}\big(\frac{1}{1+e^{-x}}\big)=\frac{(1)'(1+e^{-x})-(1+e^{-x})'(1)}{(1+e^{-x})^2}=\frac{e^{-x}}{(1+e^{-x})^2}>0\)

Definição

As v.a.’s \(X\) e \(Y\) são identicamente distribuídas se, para cada conjunto \(A\in \Sigma^1, P(X\in A)=P(Y\in A)\). Onde, \(\Sigma^1\) é a menor \(\sigma\)-algebra contendo todos os intervalos de números reais da forma \((a,b), [a,b), (a,b]\) e \([a,b]\).

  • Observação: duas v.a.’s que são identicamente distribuídas não são necessariamente iguais. Isto é, \(F_X(x)=F_Y(y)\) não garante \(X=Y\).

Desafio: dê um exemplo.

Variável aleatória discreta

Definição

Seja \(X\) uma variável aleatória (v.a.). Se o número de valores possíveis de \(X\) for enumerável (finito ou infinito), dizemos que \(X\) é uma variável aleatória discreta. Isto é, os possíveis valores de \(X\) podem ser postos em lista como \(x_1,x_2,\ldots\). No caso finito, a lista possui um valor final \(x_n\), e no caso infinito, a lista continua indefinidamente.

Função de probabilidade

Definição

A função de probabilidade, fp, de uma v.a. discreta \(X\) é dada por \[f_X(x)=P(X=x)\] e deve satisfazer:

  1. \(f(x)\geq 0\) \(\forall x\)
  2. \(\sum_{x}f(x)=1\)

Exemplo: Ainda no experimento de lançamento de três moedas e considerando \(X\)=“número caras observadas”:

\(x\) 0 1 2 3
\(P(X=x)\) \(\frac{1}{8}\) \(\frac{3}{8}\) \(\frac{3}{8}\) \(\frac{1}{8}\)

Relação entre a função de distribuição acumulada e a distribuição discreta

Seja \(X\) uma variável aleatória discreta cuja distribuição de probabilidade associa aos valores \(x_1,x_2,\ldots\) as respectivas probabilidades \(P(X=x_1),P(X=x_2),\ldots\). Como os valores de \(X\) são mutuamente exclusivos, temos que a função de distribuição acumulada é dada por \[F(x)=\sum_{i\in A_x}P(X=x_i)\text{, com } A_x=\{i:x_i\leq x\}.\]

Assim, dada a distribuição de probabilidade de uma variável aleatória discreta, conseguimos determinar sua função de distribuição acumulada, ou ainda, dada a função de distribuição acumulada, podemos determinar a sua distribuição de probabilidade.

Variável aleatória contínua

Definição

Seja \(X\) uma variável aleatória (v.a.). Suponha que o contradomínio (\(\mathbb{R}_x\)) de \(X\) seja um intervalo ou uma coleção de intervalos. Então diremos que \(X\) é uma variável aleatória contínua.

Função densidade de probabilidade

Definição

A função densidade de probabilidade, fdp, de uma v.a. contínua \(X\) é dada por \(f_X(x)\), onde \[f_X(x)=\frac{\partial }{\partial x}F_X(x)\implies F_X(x)=\int_{-\infty}^xf_X(t)dt\] e deve satisfazer:

  1. \(f(x)\geq 0\) \(\forall x \in \mathbb{R}_x\)
  2. \(\int_{-\infty}^{+\infty}f(x)dx=1\)


Além disso, definimos para qualquer \(c,d \in \mathbb{R}_x\), com \(c<d\) que \[P(c<X<d)=\int_{c}^{d}f(x)dx.\]

Vale a pena notar que, da forma como a probabilidade foi definida, a probabilidade de um ponto isolado é sempre zero, ou seja, \(P(X=c)=\int_{c}^{c}f(x)dx=0\). Desta forma, podemos concluir que, quando \(X\) é uma variável aleatória contínua, a probabilidade de ocorrer um valor especifico é zero.

Relação entre a função de distribuição acumulada e a densidade de probabilidade

Se \(X\) é uma variável aleatória absolutamente contínua, então \[\frac{\partial }{\partial x}F_X(x)=f_X(x)\]

Exemplo: Para a distribuição logística, \[F(x)=\frac{1}{1+e^{-x}}\implies f(x)=\frac{e^{-x}}{(1+e^{-x})^2}.\]

A área sob a curva de \(f(x)\) que nos dá probabilidades dos intervalos \([a,b)\) \[P(a<X<b)=\int_{a}^{b}f(x)dx\]

Observação: a expressão “\(X\) tem uma distribuição \(F_X(x)\)” pode ser abreviada simbolicamente por \(X\sim F_X(x)\), de modo similar \(X\sim f_X(x)\) ou \(X\sim Y\) (quando possuem a mesma distribuição).

Transformações e expectâncias

Geralmente, se somos capazes de modelar um fenômeno em termos de uma v.a. \(X\) com fda \(F(x)\), também poderemos estar interessados em modelar o comportamento de funções de \(X\).

Distribuições de funções de uma variável aleatória

Se \(X\) é uma v.a. com fda \(F(x)\), então qualquer função de \(X\), digamos \(g(X)\), também é uma v.a. Geralmente, \(g(X)\) é de nosso interesse e escrevemos \(Y=g(X)\) para denotar a nova v.a. \(g(X)\). Portanto, para qualquer conjunto \(A\), \[P(Y\in A)=P(g(X)\in A),\] mostrando que a distribuição de \(Y\) depende das funções \(F_X\) e \(g\).

Formalmente, \(g(x):\chi\rightarrow\Upsilon,\) isto é, se escrevermos \(y=g(x)\), a função \(g(x)\) define uma função do espaço amostral original de \(X\), \(\chi\), para um novo espaço amostral, \(\Upsilon\), o espaço amostral da v.a. \(Y\).

Associamos a \(g\) uma função inversa, denotada por \(g^{-1}\), que é uma função de subconjuntos de \(\Upsilon\) para subconjuntos de \(\chi\), e é definida por \[g^{-1}(A)=\{x\in\chi:g(x)\in A\}.\]

Como a v.a. \(Y\) é definida por \(Y=g(X)\), podemos escrever para qualquer conjunto \(A\subset\Upsilon\), \[P(Y\in A)=P(g(X)\in A)=P(\{x\in\chi\}:g(x)\in A\})=P(\chi\in g^{-1}(A)).\]

Isto define a distribuição de probabilidades de \(Y\). É possível demonstrar diretamente que esta distribuição de probabilidade satisfaz os Axiomas de Kolmogorov.

Se \(X\) for uma v.a. discreta, então \(\chi\) é contável. O espaço amostral para \(Y=g(X)\) é \(\Upsilon=\{y:y=g(x),x\in\chi\}\), que é também um conjunto contável. Portanto, \(Y\) é também uma v.a. discreta e

\[ \begin{aligned} f_Y(y) & = P(Y=y) \\ & = P(X\in g^{-1}(y)) \\ & =\sum_{x\in g^{-1}(y)}P(X=x) \\ & = \sum_{x\in g^{-1}(y)}f_X(x)\text{, para }y\in\Upsilon, \end{aligned} \]

\(f_Y(y)=0\) para \(y\notin\Upsilon\). Neste caso, encontrar a fp de \(Y\) envolve simplesmente identificar \(g^{-1}(y)\), para cada \(y\in\Upsilon\), e somar as probabilidades apropriadas


Exemplo: Uma v.a. discreta \(X\) tem a seguinte fp:

\[f_X(x) = P(X=x) = {n \choose x}p^x(1-p)^{n-x},x=0,1,\ldots,n,\] onde \(n\) é um número inteiro positivo e \(0\leq p\leq 1\). Valores como \(n\) e \(p\) que podem ser especificados para diferentes valores, produzindo diferentes distribuições de probabilidades, são chamados de parâmetros.

Considere a v.a. \(Y=g(X)\), onde \(g(x)=n-x\); isto é, \(Y=n-X\). Aqui \(\chi=\{0,1,\ldots,n\}\) e \(\Upsilon=\{y:y=g(x),x\in\chi\}=\{0,1,\ldots,n\}\). Para qualquer \(y\in\Upsilon\), \(n-x=g(x)=y\) se, e somente se, \(x=n-y\). Deste modo, \(g^{-1}(y)\) é o ponto único \(x=n-y\), e

\[ \begin{aligned} f_Y(y) & = \sum_{x\in g^{-1}(y)}f_X(x) \\ & = f_X(n-y) \\ & = {n \choose n-y}p^{(n-y)}(1-p)^{[n-(n-y)]} \\ & = {n \choose n-y}p^{(n-y)}(1-p)^{y} \\ & \text{Por definição } {n\choose n-y} = {n\choose y} \\ & = {n \choose y}(1-p)^{y}p^{(n-y)} \end{aligned} \]

Assim, observamos que \(Y\) tem a mesma distribuição de \(X\), porém com parâmetros \(n\) e \(1-p\).


Se \(X\) e \(Y\) são v.a. contínuas, então, em alguns casos, é possível encontrar fórmulas simples para a fda e a fdp de \(Y\) em termos da fda e da fdp de \(X\) e da função \(g\).

A fda de \(Y=g(X)\) é

\[ \begin{aligned} F_Y(y) & = P(Y\leq y) \\ & = P(g(X) \leq y) \\ & = P(\{x\in\chi:g(x)\leq y\}) \\ & = \int_{\{x\in\chi:g(x)\leq y\}}f_X(x)dx \end{aligned} \]

Teorema

Seja \(X\) com fda \(F_X(x)\), que \(Y=g(X)\), e que \(\chi=\{x:f_X(x)>0\}\text{ e }\Upsilon=\{y:y=g(x)\text{ para algum }x\in \chi\}\).

  1. Se \(g\) for uma função crescente em \(\chi\), \(F_Y(y)=F_X\big(g^{-1}(y)\big)\).
  2. Se \(g\) for uma função decrescente em \(\chi\) e \(X\) for uma v.a. contínua, \(F_Y(y)=1-F_X\big(g^{-1}(y)\big)\) para \(y\in\Upsilon\).

Exemplo: Suponha que \(X\sim f_X(x)=1\) se \(0<x<1\) e \(0\) do contrário, portanto \(F_X(x)=x\) se \(0<x<1\). Agora, considere \(Y=g(X)=-\log X\) e encontre \(F_Y(y)\). O primeiro passo é verificar se \(g(x)\) é uma função crescente ou descrescente e monótona em \((0,1)\). Uma vez que \[\frac{d}{dx}g(x)=\frac{d}{dx}(-\log x)=\frac{-1}{x}<0\text{, para }0<x<1,\] \(g(x)\) é uma função decrescente. Como \(X\) varia entre \(0\) e \(1\), \(-\log x\) varia entre \(0\) e \(+\infty\), isto é, \(\Upsilon=(0,\infty)\). Para \(y>0,y=-\log x\implies x=e^{-y}\), deste modo, \(g^{-1}(y)=e^{-y}\). Portanto, para \(y>0\), \[F_Y(y)=1-F_X\big(g^{-1}(y)\big)=1-F_X(e^{-y})=1-e^{-y}.\] Naturalmente, \(F_Y(y)=0\) para \(y\leq 0\).

Teorema

Seja \(X\) com fdp \(f_X(x)\) e \(Y=g(X)\), onde \(g\) é uma função monótona. Sejam \(\chi=\{x:f_X(x)>0\}\text{ e }\Upsilon=\{y:y=g(x)\text{ para algum }x\in \chi\}\). Então, a fdp de \(Y\) é dada por

\[f_Y(y)=\begin{cases} f_X\big(g^{-1}(y)\big)\Big|\frac{d}{dy}g^{-1}(y)\Big| & y\in\Upsilon\\ 0 & \text{do contrário.} \end{cases}\]

Em muitas aplicações, a função \(g\) pode não ser nem crescente nem decrescente; portando, os resultados anteriores não se aplicam. Entretanto, este geralmente é o caso em que \(g\) será monótona em determinados intervalos, e isto permite a obtenção de uma uma expressão para \(Y=g(X)\).

Teorema

Se \(X\) tem fdp \(f_X(x)\), seja \(Y=g(X)\), e \(\chi=\{x:f_X(x)>0\}\) onde \(\chi\) é o espaço amostral. Suponha que exista uma partição, \(A_0,A_1,\ldots,A_k\), de \(\chi\) de modo que \(P(X\in A_0)=0\) e \(f_X(x)\) é contínua em cada \(A_i\). Além disso, suponha que existam funções \(g_1(x),\ldots,g_k(x)\), definidas em \(A_0,A_1,\ldots,A_k\), respectivamente, satisfazendo

  1. \(g(x)=g_i(x)\), para \(x\in A_i\),
  2. \(g_i(x)\) é monótona em \(A_i\),
  3. O conjunto \(\Upsilon=\{y:y=g_i(x)\text{ para algum } x\in A_i\}\) é o mesmo para cada \(i=1,\ldots,k\), e
  4. \(g_i^{-1}(y)\) tem uma derivada contínua em \(\Upsilon\), para cada \(i=1,\ldots,k\).

Então,

\[f_Y(y)=\begin{cases} \sum_{i=1}^kf_X\big(g_i^{-1}(y)\big)\Big|\frac{d}{dy}g_i^{-1}(y)\Big| & y\in\Upsilon\\ 0 & \text{do contrário.} \end{cases}\]


O aspecto importante neste teorema é que \(\chi\) pode ser dividido em conjuntos \(A_1,\ldots,A_k\), de modo que \(g(x)\) é monótona em cada \(A_i\).


EXERCÍCIO: Seja \(X\) com \[f_X(x)=\frac{1}{\sqrt{2\pi}}e^{\frac{-x^2}{2}},-\infty<x<\infty.\] Considere \(Y=X^2\). A função \(g(x)=x^2\) é monótona em \((-\infty,0)\) e em \((0,\infty)\). Defina a fdp de \(Y\).


Transformação da integral probabilidade

Teorema

Seja \(X\) com fda contínua \(F_X(x)\) e definimos a v.a. \(Y=F_X(x)\). Então, \(Y\) é uniformemente distribuída em \((0,1)\), isto é, \(P(Y\leq y)=y,0<y<1\).

Prova

Para \(Y=F_X(X)\) temos, para \(0<y<1\),

\[ \begin{aligned} F_Y(y) = P(Y \leq y) &= P(F_X(X)\leq y) \\ &= P\big(F_X^{-1}\big[F_X(X)\big]\leq F_X^{-1}(y)\big) \\ &= P\big(X\leq F_X^{-1}(y)\big) \\ &= F_X\big(F_X^{-1}(y)\big) \\ &= y. \end{aligned} \]

Valores Esperados

O valor esperado, ou a expectância, de uma v.a. é meramente seu valor médio, em que nos referimos a um valor “médio” como aquele que é avaliado de acordo com a distribuição de probabilidade. O valor esperado de uma distribuição pode ser entendido como uma medida central, assim como pensamos em médias como sendo valores médios. Ponderando os valores da v.a. de acordo com a distribuição de probabilidade, esperamos obter um número que possa resumir um valor típico ou esperado de uma observação da v.a.

Definição

O valor esperado de uma v.a. \(X\), denotado por \(E\big[X\big]\), é

\[E\big[X\big]= \begin{cases} \int_{-\infty}^{+\infty} xf_X(x)dx & \text{ se } X \text{ for contínuo} \\ \sum_{x\in\chi} xf_X(x)=\sum_{x\in\chi}xP(X=x) & \text{ se } X \text{ for discreto,} \end{cases} \]

desde que exista a integral ou a soma. Se \(E\big[X\big]=\infty\), dizemos que \(E\big[X\big]\) não existe.

Exemplo: Suponha \(X\) com \[f_X(x)=\frac{1}{\lambda}e^{\frac{-x}{\lambda}},0\leq x<\infty, \lambda>0.\]

Então \(E\big[X\big]\) é dado por

\[ \begin{aligned} E\big[X\big] &= \int_0^{+\infty}x \frac{1}{\lambda}e^{\frac{-x}{\lambda}}dx\\ &= -xe^{-\frac{x}{\lambda}}\Big|_0^{+\infty} + \int_0^{+\infty}e^{\frac{-x}{\lambda}}dx\\ &= \int_0^{+\infty}e^{\frac{-x}{\lambda}}dx \\ &= \lambda. \end{aligned} \]


O processo de calcular expectâncias é uma operação linear, o que significa que a expectância de uma função linear de \(X\) pode ser facilmente avaliada, observando-se que para quaisquer constantes \(a\) e \(b\), \[E\big[aX+b\big]=aE[X]+b.\]

Teorema

Seja \(X\) uma v.a. e que \(a,b\) e \(c\) são constantes. Então, para quaisquer funções \(g_1(X)\) e \(g_2(X)\) cujas expectâncias existam,

  1. \(E\big[ag_1(X)+bg_2(X)+c\big]=aE\big[g_1(X)\big]+bE\big[g_2(X)\big]+c\).
  2. Se \(g_1(x)\geq 0\) para todo \(x\), então \(E\big[g_1(X)\big]\geq 0\).
  3. Se \(g_1(x)\geq g_2(x)\) para todo \(x\), então \(E\big[g_1(X)\big]\geq E\big[g_2(X)\big]\).
  4. Se \(a\leq g_1(X)\leq b\) para todo \(x\), então \(a\leq E\big[g_1(X)\big]\leq b\)

Desafio: Prove o teorema.


Ao avaliar expectâncias de funções não lineares de \(X\), podemos proceder de duas maneiras:

  1. A partir da definição de \(E\big[g(X)\big]=\int_{-\infty}^{+\infty} g(x)f_X(x)dx\), ou
  2. Encontrar a fdp \(f_Y(y)\) de \(Y=g(X)\) e então calcular \(E\big[Y\big]=\int_{-\infty}^{+\infty} yf_Y(y)dy.\)