Os vários momentos de uma distribuição são uma importante classe de expectâncias.
Definição
Para cada número inteiro \(n\), o \(n\)-ésimo momento de \(X\) (ou \(F_X(x)\)), \(\mu'_n\), é \[\mu'_n=E\big[X^n\big].\]
O \(n\)-ésimo momento central de \(X\), \(\mu_n\), é \[\mu_n=E\big[(X-\mu)^n\big],\] onde \(\mu=\mu'_1=E[X].\)
Juntamente com a média (\(E[X]\)) de uma v.a., talvez o mais importante momento seja o segundo momento central, mais comumente conhecido como variância.
Definição
A variância de uma v.a. \(X\) é o seu segundo momento central, \(Var[X]=E\big[(X-\mu)^2\big]\). A raiz quadrada positiva de \(Var[X]\) é o desvio padrão de \(X\).
A variância é uma medida do grau de dispersão de uma distribuição ao redor de sua média. A interpretação relacionada à variância é de que valores maiores significam que \(X\) é mais variável. No extremo, se \(Var[X]=0\), então \(X\) é igual a \(E[X]\) com probabilidade \(1\), e não existe variação em \(X\). O desvio padrão tem a mesma interpretação qualitativa: valores pequenos significam que é muito provável que \(X\) esteja perto de \(E[X]\), e grandes valores, que \(X\) é muito variável. O desvio padrão é mais fácil de ser interpretado, no sentido de que a unidade de medida no desvio padrão é a mesma que para a variável original \(X\). A unidade de medida na variância é o quadrado da unidade original.
Teorema
Se \(X\) é uma v.a. com variância finita, então, para quaisquer constantes \(a\) e \(b\), \[Var\big[aX+b\big]=a^2Var[X].\]
Prova: Temos que,
\[ \begin{aligned} Var[aX+b] &= E\big[\big((aX+b)-E[aX+b]\big)^2\big] \\ &= E\big[\big(aX-aE[X]\big)^2\big] \\ &= a^2E\big[\big(X-E[X]\big)^2\big] \\ &= a^2Var[X] \end{aligned}\]
Algumas vezes, é mais fácil utilizar uma fórmula alternativa para a variância, dada por \[Var[X]=E[X^2]-\big(E[X]\big)^2,\] que é estabelecida por
\[\begin{aligned} Var[X] &= E\big[(X-E[X])^2\big] \\ &= E\Big[X^2-2XE[X]+\big(E[X]\big)^2\Big] \\ &= E\big[X^2\big]-2\big(E[X]\big)^2+\big(E[X]\big)^2 \\ &= E[X^2]-\big(E[X]\big)^2 \end{aligned}\]
Exemplo: Suponha \(X\) com \[f_X(x)=\lambda e^{-\lambda x},0\leq x<\infty, \lambda>0.\]
Vamos calcular \(E[X]\).
\[ \begin{aligned} \mu_1=E[X] &= \int_0^{+\infty} x\lambda e^{-\lambda x}dx \\ &= \begin{cases} u = x \implies du=dx \\ dv = \lambda e^{-\lambda x}dx \implies v = \int_0^{+\infty} \lambda e^{-\lambda x}dx = -\lambda\frac{1}{\lambda}e^{-\lambda x}=-e^{-\lambda x} \end{cases} \\ &=x\Big(-e^{-\lambda x}\Big)\Big|_0^{+\infty}-\int_0^{+\infty}-e^{-\lambda x}dx \\ &=0+\int_0^{+\infty}e^{-\lambda x}dx \\ &=-\frac{1}{\lambda}e^{-\lambda x}\Big|_0^{+\infty} \\ &=\frac{1}{\lambda} \end{aligned} \] Dado que \(E\big[X\big]=\frac{1}{\lambda}\), então \(Var[X]\) é dado por
\[ \begin{aligned} Var\big[X\big] = E\Big[\Big(X-\frac{1}{\lambda}\Big)^2\Big] &= E(X^2)-E(X)^2 \\ &= \int_0^{+\infty}x^2\lambda e^{-\lambda x}dx - \frac{1}{\lambda^2}\\ &= \begin{cases} u = x^2 \implies du = 2xdx \\ dv = \lambda e^{-\lambda x}dx \implies v = -e^{-\lambda x} \\ \end{cases}\\ &= -x^2e^{-\lambda x}\Big|_0^{+\infty}+2\int_0^{+\infty}xe^{-\lambda x}dx- \frac{1}{\lambda^2}\\ &= 2\int_0^{+\infty}xe^{-\lambda x}dx- \frac{1}{\lambda^2}\\ &= \begin{cases} u = x \implies du = dx \\ dv = e^{-\lambda x}dx \implies v = -\frac{1}{\lambda}e^{-\lambda x} \\ \end{cases}\\ &= 2\Big[-x\frac{1}{\lambda}e^{-\lambda x}\Big|_0^{+\infty}+\int_0^{+\infty}\frac{1}{\lambda}e^{-\lambda x}dx\Big]- \frac{1}{\lambda^2}\\ &= 2\Big[\int_0^{+\infty}\frac{1}{\lambda}e^{-\lambda x}dx\Big]- \frac{1}{\lambda^2}\\ &= -\frac{2}{\lambda^2}e^{-\lambda x}\Big|_0^{+\infty}- \frac{1}{\lambda^2}\\ &= \frac{2}{\lambda^2}- \frac{1}{\lambda^2}\\ &= \frac{1}{\lambda^2}. \end{aligned} \]
Repare que a variância desta distribuição (exponencial) está diretamente relacionada ao parâmetro \(\lambda\). Na Figura abaixo estão representadas as distribuições exponenciais correspondendo a diferentes valores de \(\lambda\). Observe como a distribuição é mais concentrada em sua média para valores menores de \(\lambda\).
Para o cálculo de momentos de maior ordem deve-se proceder de maneira análoga, mas geralmente as manipulações matemáticas se tornam bastante complicadas. Ás vezes, em aplicações, momentos da ordem 3 ou 4 são de interesse, mas normalmente existe pouca razão, em termos estatísticos, para examinar momentos maiores que estes.
Como seu nome sugere, uma função geradora de momentos, fgm, pode ser utilizada para gerar momentos. Contudo, seu principal uso não é gerar momentos, mas ajudar a caracterizar uma distribuição.
Definição
Seja \(X\) uma v.a. com fda \(F_X\). A função geradora de momentos (fgm) de \(X\) (ou \(F_X\)), denotada por \(M_X(t)\), é \[M_X(t)=E\big[e^{tX}\big],\] considerando que a expectância exista para \(t\) em alguma vizinhança de \(0\). Isto é, existe um \(h>0\) de modo que, para todo \(t\) em \(-h<t<h\), \(E\big[e^{tX}\big]\) existe. Se a expectância não existir em uma vizinhança de \(0\), dizemos que a fgm não existe.
Mais explicitamente, podemos escrever a fgm de \(X\) como \[M_X(t)=\int_{-\infty}^{+\infty}e^{tX}f_X(x)dx, \text{ se $X$ for contínua,}\] ou \[M_X(t)=\sum_xe^{tX}P(X=x), \text{ se $X$ for discreta.}\]
Teorema
Se \(X\) tem fgm \(M_X(t)\), então \[E[X^n]=M_X^{(n)}(0),\] onde definimos \[M_X^{(n)}(0)=\frac{d^n}{dt^n}M_X(t)\Big|_{t=0}.\]
Isto é, o \(n\)-ésimo momento é igual à \(n\)-ésima derivada de \(M_X(t)\) avaliada em \(t=0\).
Exemplo: Uma v.a. discreta \(X\) tem a seguinte fp:
\[f_X(x) = P(X=x) = {n \choose x}p^x(1-p)^{n-x},x=0,1,\ldots,n,\] onde \(n\) é um número inteiro positivo e \(0\leq p\leq 1\). Assim, \[M_X(t)=\sum_{x=0}^ne^{tx}{n \choose x}p^x(1-p)^{n-x}=\sum_{x=0}^n{n \choose x}(pe^t)^x(1-p)^{n-x}\]
Por propriedade, temos que \[\sum_{x=0}^n{n \choose x}(u)^x(v)^{n-x}=(u+v)^n.\]
Portanto, considerando que \(u=pe^t\) e \(v=1-p\), temos que \[M_X(t)=[pe^t+(1-p)]^n.\]
Podemos encontrar a média e a variância através da função geradora de momentos. Assim,
\[\begin{aligned} M^{(1)}_X(t)=E(X)&=\frac{d^1}{dt^1}M_X(t) \\ &=\frac{d}{dt}[pe^t+(1-p)]^n \\ &=n[pe^t+(1-p)]^{(n-1)}pe^t \end{aligned}\]
Então, como \(E[X]=M^{(1)}_X(0)=n[pe^t+(1-p)]^{(n-1)}pe^t=np\)
Para encontrarmos a variância basta derivarmos duas vezes a função \(M_X(t)\) ou uma vez a função \(M^{(1)}_X(t)\). Assim temos que:
\[\begin{aligned} M^{(2)}_X(t)&=\frac{d^2}{dt^2}M_X(t)\\ &=\frac{d}{dt}M^{(1)}_X(t) \\ &=\frac{d}{dt}(pe^t+1-p)^n\\ &=n(n-1)(pe^t+1-p)^{n-2}pe^t pe^t+pe^t n(pe^t+1-p)^{n-1} \end{aligned}\]
e, portanto,
\[M^{(2)}_X(t)=n(n-1)(pe^t+1-p)^{n-2}(pe^t)^2+npe^t (pe^t+1-p)^{n-1}.\]
Logo, segue que \(E\left[X^2\right]=M^{(2)}_X(0)=n(n-1)p^2+ pn\), então obtemos que:
\[Var[X]=E[X^2]-E^2[X]=[n(n-1)p^2+pn] -(np)^2=np^2(n-1)+np-n^2p^2=np(1-p).\]
Teorema
Para quaisquer constantes \(a\) e \(b\), a fgm da v.a. \(aX+b\) é dada por \[M_{aX+b}(t)=e^{bt}M_X(at).\]
Distribuições estatísticas são utilizadas para modelar populações; deste modo, geralmente lidamos com uma família de distribuições em vez de uma única. Esta família é indexada por um ou mais parâmetros, o que nos permite variar certas características da distribuição, ao mesmo tempo em que permanece com uma forma funcional.
Para construir o modelo binomial vamos introduzir uma sequência de ensaios de Bernoulli. Tal sequência é definida por meio das seguintes condições:
Para um experimento que consiste na realização de \(n\) ensaios independentes de Bernoulli, o espaço amostral pode ser considerado como o conjunto de \(n\)-uplas, em que cada posição há um sucesso (\(S\)) ou uma falha (\(F\)).
A probabilidade de um ponto amostral com sucessos nos \(k\) primeiros ensaios e falhas nos \(n-k\) ensaios seguintes é \(p^k(1-p)^{n-k}.\) Note que esta é a probabilidade de qualquer ponto com \(k\) sucessos e \(n-k\) falhas. O número de pontos do espaço amostral que satisfaz essa condição é igual ao número de maneiras com que podemos escolher \(k\) ensaios para a ocorrência de sucesso dentre o total de \(n\) ensaios, pois nos \(n-k\) restantes deverão ocorrer falhas. Este número é igual ao número de combinações de \(n\) elementos tomados \(k\) a \(k\), ou seja,
\[\left(\begin{array}{c}n\\k\end{array}\right)=\frac{n!}{k!(n-k)!}.\]
Definição
Seja \(X\) o número de sucessos obtidos na realização de \(n\) ensaios de Bernoulli independentes. Diremos que \(X\) tem distribuição binomial com parâmetros \(n\) e \(p\), em que \(p\) é a probabilidade de sucesso em cada ensaio, se sua função de probabilidade for dada por
\[p(x) = P(X=k)={n\choose k} p^k(1-p)^{n-k}.\]
Usaremos a notação \(X \sim b(n,p)\).
Exemplo
Suponha que numa linha de produção a probabilidade de se obter uma peça defeituosa (sucesso) é \(p = 0,1\). Toma-se uma amostra de \(10\) peças para serem inspecionadas. Qual a probabilidade de se obter:
\[P(X=1)={10\choose 1}(0,1)^1(1-0,1)^{10-1}=\frac{10!}{1!(10-9)!}0,1(0,9^9)=0,3874\]
\[P(X=0)={10\choose 0}(0,1)^0(1-0,1)^{10-0}=\frac{10!}{0!(10-0)!}(0,9^{10})=0,3486\]
\[P(X=2)={10\choose 2}(0,1)^2(1-0,1)^{10-2}=\frac{10!}{2!(10-2)!}0,1^2(0,9^8)=0,1937\]
\[\begin{aligned} P(X\geq2)&=P(X=2)+P(X=3)+\ldots+P(X=9)+P(X=10) \\ &=1-[P(X=0)+P(X=1)]=0,2639 \end{aligned}\]
\[P(X\leq2)=P(X=0)+P(X=1)+P(X=2)=0,9298\]
Seja \(X\) uma variável aleatória com distribuição Binomial \((n,p)\). Então a função geradora de momentos de \(X\), \(M_X(t)\) é dada por
\[M_{X}(t)=E\left(e^{tX}\right)=\sum_{k=0}^{n}e^{tk}\left(\begin{array}{c}n\\k\end{array}\right)p^k(1-p)^{n-k}=\sum_{k=0}^{n}\left(\begin{array}{c}n\\k\end{array}\right)(e^t p)^k(1-p)^{n-k}=(pe^t+1-p)^{n}.\]
Podemos encontrar a média e a variância de \(X\) através da função geradora de momentos. Assim
\[M^{(1)}_X(t)= \frac{d}{dt}(p e^t+ 1-p)^n=n(pe^t+1-p)^{n-1}pe^t\]
e, como \(E(X)=M^{(1)}_X(0)\), segue que \(E(X)=n(p+1-p)^{n-1}p=np\).
Para encontrarmos a variância basta derivarmos mais uma vez a função \(M_X(t)\).
Assim temos que:
\[M^{(2)}_X(t)=\frac{d^2}{dt^2}(p e^t+ 1-p)^n=n(n-1)(pe^t+1-p)^{n-2}(pe^t)^2+npe^t (pe^t+1-p)^{n-1}.\]
E, portanto, obtemos que \(E(X^2)=M^{(2)}_X(0)=n(n-1)p^2+ pn\). Desta forma, \(\text{Var}(X)\) pode ser calculada por
\[\text{Var}(X)=E(X^2)-E^2(X)=[n(n-1)p^2+pn] -(np)^2=n^2p^2-np^2+np-n^2p^2=np(1-p).\]
Em muitas situações nos deparamos com a situação em que o número de ensaios \(n\) é grande (\(n\rightarrow \infty\)) e \(p\) é pequeno (\(p\rightarrow 0\)), no cálculo da função binomial, o que nos leva a algumas dificuldades, pois, como podemos analisar, para \(n\) muito grande e \(p\) pequeno, fica relativamente difícil calcularmos a probabilidade de \(k\) sucessos a partir do modelo binomial. Reescrevendo a função de probabilidade da distribuição binomial e tomando o limite quando \(n\rightarrow \infty\) obtemos a distribuição de Poisson.
Definição
Uma variável aleatória discreta \(X\) segue a distribuição de Poisson com parâmetro \(\lambda\), \(\lambda > 0\), se sua função de probabilidade for dada por
\[P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}.\]
Utilizamos a notação \(X \sim \text{Poisson}(\lambda)\) ou \(X\sim \text{Poi}(\lambda)\). O parâmetro \(\lambda\) indica a taxa de ocorrência por unidade medida.
Exemplo
Considere um processo que têm uma taxa de \(0,2\) defeitos por unidade. Qual a probabilidade de uma unidade qualquer apresentar:
\[P(X=2)=\frac{e^{-0,2}0,2^2}{2!}=0,0164\]
\[P(X=1)=\frac{e^{-0,2}0,2^1}{1!}=0,1637\]
\[P(X=0)=\frac{e^{-0,2}0,2^0}{0!}=0,8187\]
Seja \(X\) uma variável aleatória discreta com distribuição de Poisson, com parâmetro \(\lambda\), ou seja, \(X\sim\text{Poisson}(\lambda)\). Então sua função geradora de momentos é dada por:
\[M_{X}(t)=E[e^{tX}]=\sum_{k=0}^{\infty}\frac{e^{tk}e^{\lambda}\lambda^k}{k!}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{(\lambda e^t)^k}{k!}=e^{-\lambda}e^{\lambda e^t}=e^{\lambda[e^t-1]}.\]
O valor esperado de \(X\), que frequentemente é chamado de taxa de defeitos, é dado por:
\[\begin{aligned} M^{(1)}(t)=\frac{d}{dt}e^{\lambda[e^t-1]}&=\frac{d}{dt}e^{\lambda e^t}e^{-\lambda} \\ &=e^{-\lambda}\lambda e^te^{\lambda e^t}\\ &=\lambda e^{\lambda(e^t-1)+t} \end{aligned}\]
e então, \[E(X)=M^{(1)}(0)=\lambda e^{1-1+0}=\lambda.\]
Da mesma forma como feito para a esperança vamos usar a função gerradora de momentos para calcular a a variância, pois temos que \(E[X^2]=M^{(2)}(0)\). Assim
\[M^{(2)}(t)=\lambda(e^{\lambda(e^t - 1)+t}(\lambda e^t +1))\]
e então,
\[E(X^2) = M^{(2)}(0)=\lambda(\lambda+1)\]
de onde segue que
\[\text{Var}(X)=E(X^2)-E^2(X)=\lambda(\lambda+1)-\lambda^2=\lambda.\]
Consideremos uma sequência ilimitada de ensaios de Bernoulli, com probabilidade de sucesso p em cada ensaio. Designemos sucesso por \(S\) e falha por \(F\). Realizamos os ensaios até que ocorra o primeiro sucesso.
O espaço amostral para este experimento é o conjunto \(\{S, FS, FFS, FFFS,\ldots\}\).
Ou seja, um elemento típico desse espaço amostral é uma sequência de \(n\) em que nos \(n-1\) primeiros ensaios temos \(F\) e na \(n\)-ésima temos S.
A distribuição geométrica apresenta duas parametrizações importantes, que têm interpretações distintas. Uma das parametrizações da função geométrica conta o número de falhas até que ocorra o primeiro sucesso. Notemos que nessa parametrização podemos incluir o zero como sendo um possível resultado, pois podemos ter sucesso já no primeiro ensaio de Bernoulli.
A segunda parametrização da geométrica conta o número de ensaios de bernoulli necessário para se obter um sucesso. Assim nessa parametrização não é possível se ter o zero, portanto nessa parametrização da geométrica o domínio será os números naturais sem o zero.
Definição
Seja \(X\) a variável aleatória que fornece o número de falhas até o primeiro sucesso. A variável \(X\) tem distribuição Geométrica com parâmetro \(p\), \(0<p<1\), se sua função de probabilidade é dada por
\[P\left(X=j\right)=(1-p)^jp, \quad j=0,1,\ldots\]
Usaremos a notação \(X \sim \text{Geo}(p)\).
O evento \([X=j]\) ocorre se, e somente se, ocorrem somente falhas nos \(j\) primeiros ensaios e sucesso no \((j+1)\)-ésimo ensaio.
Exemplo
Um pesquisador está realizando um experimentos químico independentes e sabe que a probabilidade de que cada experimento apresente uma reação positiva é \(0,3\). Qual é a probabilidade de que menos de 5 reações negativas ocorram antes da primeira positiva?
Para resolver este problema, considere \(X\) como sendo a variável aleatória que representa o número de reações negativas até a ocorrência da primeira positiva. Neste caso, temos que \(X\sim \text{Geo}(0,3)\) e então
\[P(X < \ 5) = \sum_{i=0}^4P(X=i)=0,3+0,7\cdot 0,3 + 0,7^2\cdot 0,3 + 0,7^3\cdot 0,3 + 0,7^4\cdot 0,3 = 0,83193.\]
Seja \(X\) uma variável aleatória discreta com distribuição geométrica. Então a função geradora de momentos é dada por:
\[M_{X}(t)=E\left(e^{tX}\right)=\sum_{k=0}^{\infty}e^{tk}(1-p)^{k}p=p\sum_{k=0}^{\infty}(e^{t})^{k}(1-p)^{k}=p\sum_{k=0}^{\infty}[e^{t}(1-p)]^{k} =\frac{p}{1-(1-p)e^t}.\]
Sabendo que \(E(X)=M^{(1)}(0)\),
\[M^{(1)}_X(t)=-\frac{(1-p)pe^t}{((p-1)e^t+1)^2}.\]
Assim o valor esperado é dado por:
\[E(X)=M^{(1)}_X(0)=-\frac{(p-1)pe^0}{((p-1)e^0+1)^2}=-\frac{(p-1)p}{((p-1)+1)^2}=-\frac{(p-1)p}{p^2}=\frac{(1-p)}{p}.\]
Também podemos utilizar a função geradora de momentos para calcular a variância da variável \(X\), sabendo que $E(X2)=M{(2)}(0) $. Para isto, temos que
\[M^{(2)}_X(t)=\frac{(p-1)pe^t((p-1)e^t -1)}{((p-1)e^t+1)^3}\]
e, portanto
\[E(X^2)=M^{(2)}_X(0)=\frac{(p-1)p((p-1)-1)}{((p-1)+1)^3}=\frac{p(p-1)(p-2)}{p^3}=\frac{p^3-3p^2+2p}{p^3}\]
e a variância é dada por
\[\text{Var}(X)=E(X^2)-E^2(X)=\frac{p^3-3p^2+2p}{p^3}-\frac{(1-p)^2}{p^2}=\frac{1-p}{p^2}.\]
A distribuição uniforme é a mais simples distribuição contínua, entretanto uma das mais importantes e utilizadas dentro da teoria de probabilidade. A distribuição uniforme tem uma importante característica a qual a probabilidade de acontecer um fenômeno de mesmo comprimento é a mesma.
Definição
Uma variável aleatória \(X\) tem distribuição Uniforme no intervalo \([a,b]\) se sua função densidade de probabilidade for dada por:
\[f(x)=\left\{\begin{array}{l} \frac{1}{b-a}, \ \hbox{se} \ a\leq x\leq b;\\ 0, \ \hbox{caso contrário}\end{array}\right.\]
Usamos a notação \(X\sim \text{Unif}(a,b).\)
Exemplo
A ocorrência de panes em qualquer ponto de uma rede telefônica de \(7\) km foi modelada por uma distribuição Uniforme no intervalo \([0, 7]\). Qual é a probabilidade de que uma pane venha a ocorrer nos primeiros \(800\) metros? E qual a probabilidade de que ocorra nos \(3\) km centrais da rede?
A função densidade da distribuição Uniforme é dada por \(f(x)=\frac{1}{7}\) se \(0\leq x\leq 7\) e zero, caso contrário. Assim, a probabilidade de ocorrer pane nos primeiros 800 metros é
\[P\left(X\leq 0,8\right)=\int_0^{0,8} f(x)dx=\frac{0,8-0}{7}=0,1142.\]
e a probabilidade de ocorrer pane nos 3 km centrais da rede é
\[P\left(2\leq X\leq 5\right)=\int_2^5f(x)dx=P\left(X\leq 5\right)-P\left(X\leq 2\right)=5/7-2/7\approx 0,4285.\]
Seja \(X\) uma variável contínua com distribuição uniforme então sua função geradora de momentos é dada por:
\[M_X(t)=E[e^{tX}]=\int_{a}^{b}\frac{e^{tx}}{b-a}dx=\frac{e^{tx}}{t(b-a)}\Big|_{a}^{b}=\frac{e^{tb}-e^{ta}}{t(b-a)}\]
O valor esperado de uma variável aleatória \(X\) com distribuição uniforme é dado por
\[M^{(1)}_X(t)=\frac{e^{at}(at-1)+e^{bt}(1-bt)}{t^2(a-b)}\]
de onde segue que
\[E(X) = M^{(1)}_X(0)=\lim_{t\rightarrow 0}\frac{e^{at}(at-1)+e^{bt}(1-bt)}{t^2(a-b)}.\]
Aplicando a regra de L’Hospital (uma vez que, no limite, tanto o numerador quanto o numerador vão para zero), temos que
\[M^{(1)}_X(0)=\lim_{t\rightarrow 0}\frac{t(e^{at}a^2-e^{bt}b^2)}{2t(a-b)}=\frac{(a-b)(a+b)}{2(a-b)}=\frac{a+b}{2}\]
e, portanto,
\[E(X) = \frac{a+b}{2}.\]
Calculemos agora \(E[X^2]\) a partir da função geradora de momentos.
\[M^{(2)}_X(t)=\frac{e^{at}(a^2t^2-2at+2)-e^{bt}(b^2 t^2-2bt+2)}{t^3(a-b)}.\]
E então,
\[E(X^2)=M^{(2)}_X(0)=\lim_{t\rightarrow 0}\frac{e^{at}(a^2t^2-2at+2)-e^{bt}(b^2t^2-2bt+2)}{t^3(a-b)}\]
e aplicando a regra de L’Hospital, segue que
\[M^{(2)}_X(0)=\lim_{t\rightarrow 0}\frac{t^2(a^3 e^{at}-b^3e^{bt})}{3(a-b)}=\frac{a^3-b^3}{3(a-b)}=\frac{(a-b)(a^2+ab+b^2)}{3(a-b)}\]
Desta forma, temos que a variância \(\text{Var}(X)\) é dada por
\[\text{Var}\left(X\right)=E\left(X^2\right)-E^2\left(X\right)=M^{(2)}_X(0)-(M^{(1)}_X(0))^2=\frac{(a^2+ab+b^2)}{3}-\left(\frac{(a+b)}{2}\right)^2=\frac{b^2-2ab+a^2}{12}.\]
Assim
\[\text{Var}(X)=E(X^2)-E^2(X)=\frac{(b-a)^2}{12}.\]
Esta é uma distribuição que se caracteriza por ter uma função de taxa de falha constante. A distribuição exponencial é a única com esta propriedade. Ela é considerada uma das mais simples em termos matemáticos. Esta distribuição tem sido usada extensivamente como um modelo para o tempo de vida de certos produtos e materiais.
Definição
A variável aleatória \(X\) tem distribuição Exponencial com parâmetro \(\lambda\), \(\lambda\ > 0\), se tiver função densidade de probabilidade dada por:
\[f(x)=\left\{\begin{array}{l}\lambda e^{-\lambda x} \ \hbox{se} \ x\geq 0\\0 \ \hbox{se} \ x < 0\end{array}\right.\]
em que \(\lambda\) é o parâmetro de taxa da distribuição e deve satisfazer \(\lambda > 0\).
No exemplo do tempo de vida de óleos isolantes e dielétricos, \(\lambda\) é o tempo médio de vida e \(x\) é um tempo de falha. O parâmetro deve ter a mesma unidade do tempo da falha \(x\). Isto é, se \(x\) é medido em horas, \(\lambda\) também será medido em horas.
Exemplo
O tempo até a falha do ventilador de motores a diesel tem uma distribuição Exponencial com parâmetro \(\lambda = \frac{1}{28700}\) horas. Qual a probabilidade de um destes ventiladores falhar nas primeiras 24000 horas de funcionamento?
\[P[0\leq X\leq 24000]=\int_0^{24000}f(x)dx=\int_0^{24000}\frac{1}{28700}\exp\left(-\frac{x}{28.700}\right)=0,567.\]
Ou seja, a probabilidade de um destes ventiladores falhar nas primeiras \(24000\) horas de funcionamento é de, aproximadamente, 56,7%.
Seja \(X\) um variável aleatória com distribuição exponencial com parâmetro \(\lambda\). Então sua função geradora de momentos é dada por:
\[M_X(t)=E\left(e^{tX}\right)=\int_{0}^{\infty}\lambda e^{-\lambda x}dx=\int_{0}^{\infty}\lambda e^{(t-\lambda)x}=\left|^{\infty}_0\frac{\lambda}{t-\lambda}\right.=\frac{\lambda}{\lambda-t}.\]
Podemos calcular o valor esperado e a variância utilizando a função geradora de momentos
\[M^{(1)}_X(t)=\frac{\lambda}{(\lambda -t )^2}\]
e
\[M^{(2)}_X(t)=\frac{2\lambda}{(\lambda-t)^3}.\]
Portanto, o valor esperado e a variância podem ser calculados por
\[E\left(X\right)=M^{(1)}_X(0)=\frac{1}\lambda\]
e
\[\text{Var}\left(X\right)=\mathbb{E}\left(X^2\right)-\mathbb{E}^2\left(X\right)=M^{(2)}_X(0)-(M^{(1)}_X(0))=\frac{2}{\lambda^2}-\frac{1}{\lambda^2}=\frac{1}{\lambda^2}.\]
A distribuição normal conhecida também como distribuição gaussiana é sem dúvida a mais importante distribuição contínua. Sua importância se deve a vários fatores, entre eles podemos citar que diversos estudos práticos tem como resultado uma distribuição normal.
Definição
Uma variável aleatória contínua \(X\) tem distribuição Normal se sua função densidade de probabilidade for dada por:
\[f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}\Big(\frac{x-\mu}{\sigma}\Big)^2},x\in (-\infty,+\infty)\]
Usamos a notação \(X\sim N(\mu,\sigma^2).\)
Para cada valor de \(\mu\) e/ou \(\sigma\) temos uma curva de distribuição de probabilidade. Porém, para se calcular áreas específicas, faz-se uso de uma distribuição particular: a “distribuição normal padronizada”, também chamada de Standartizada ou reduzida, o qual é a distribuição normal com \(\mu=0\) e \(\sigma=1\). Para obter tal distribuição, isto é, quando se tem uma variável \(X\) com distribuição normal com média \(\mu\) diferente de \(0\) (zero) e/ou desvio padrão \(\sigma\) diferente de \(1\) (um), devemos reduzi-la a uma variável \(Z\), efetuando o seguinte cálculo
\[Z=\frac{x-\mu}{\sigma}.\]
Assim, a distribuição passa a ter média \(\mu=0\) e desvio padrão \(\sigma= 1\). Pelo fato da distribuição ser simétrica em relação à média \(\mu= 0\), a área à direita é igual a área à esquerda de \(\mu\). Por ser uma distribuição muito usada, existem tabelas a qual encontramos a resolução de suas integrais.
Exemplo
Suponha que a espessura média de arruelas produzidas em uma fábrica tenha distribuição normal com média \(11,15\)mm e desvio padrão \(2,238\)mm. Qual a porcentagem de arruelas que tem espessura entre \(8,70\)mm e \(14,70\)mm?
Para encontrar a porcentagem de arruelas com a espessura desejada devemos encontrar a área abaixo da curva normal, compreendida entre os pontos \(8,70\) e \(14,7\)mm.
Para isso, temos que encontrar dois pontos da distribuição normal padronizada.
O primeiro ponto é
\[Z_1 = \frac{8,70 - 11,15 }{2,238} = -1,09.\]
A área para valores maiores do que \(-1,09\) é \(0,8621\), ou seja, \(86,21\%\). Portanto, a área para valores menores do que \(-1,09\) é de \(0,1379\).
O segundo ponto é:
\[Z_2 = \frac{14,70 - 11,15 }{2,238} = 1,58.\]
A área para valores maiores do que \(1,58\) é \(0,0571\), ou seja, \(5,71\%\). Logo, o que procuramos é a área entre \(Z_1\) e \(Z_2\), que é dada por
\[1 - (0,1379 + 0,0571) = 1 - 0,195 = 0,8050.\]
Logo, a porcentagem de arruelas com espessura entre \(8,70\) e \(14,70\) (limites de tolerância da especificação) é de \(80,50\%\).
Para calcular a função geradora de momentos para uma variável aleatória com distribuição normal trataremos do caso em que a variável \(X\) possui uma distribuição padronizada para tratar do caso geral posteriormente. Portanto, considere inicialmente que \(X\sim N(0,1)\). Então sua função geradora de momentos é dada por
\[M_{X}(t)=E\left(e^{tX}\right)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{tx}e^{-x^2/2}dx=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{(x^2-2tx)/2}=\frac{e^{t^2/2}}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-(x-t)^2/2}dx\]
de onde concluímos que
\[M_X(t) = e^{t^2/2}.\]
Agora vamos calcular a função geradora de momentos para uma variável aleatória Z, tal que \(Z\sim N(\mu,\sigma)\). Lembremo-nos de que \(Z=\sigma X +\mu\) com \(X\sim N(0,1)\). Assim
\[M_Z(t)=E\left(e^{tZ}\right)=E(e^{t(\sigma X+\mu)})=e^{t\mu}E(e^{t\sigma X})=e^{\frac{\sigma^2t^2}{2}+\mu t}.\]
Se \(X\) tem distribuição Normal, podemos calcular o valor esperado de \(X\) a partir da função geradora de momentos.
\[M^{(1)}_X(t)=\frac{d}{dt}e^{\frac{\sigma^2t^2}{2}+ \mu t}=(\mu+t\sigma^2)e^{\frac{\sigma^2t^2}{2}+ \mu t}\]
e assim
\[E\left(X\right)=M^{(1)}_X(0)=(\mu+0\sigma^2)e^{\frac{\sigma^20}{2}+\mu 0}=\mu\]
Agora iremos calcular a variância de \(X\) utilizando a função geradora de momentos.
\[M^{(2)}_X(t)=\frac{d^2}{dt^2}e^{\frac{\sigma^2t^2}{2}+ \mu t}=(\mu+ t\sigma^2)^2 e^{\frac{\sigma^2t^2}{2}+ \mu t}+ \sigma^2 e^{\frac{\sigma^2t^2}{2}+ \mu t}\]
Desta forma temos que
\[E\left(X^2\right)=M^{(2)}_X(0)=(\mu+ 0\sigma^2)^2 e^{\frac{\sigma^20^2}{2}+ \mu 0}+ \sigma^2 e^{\frac{\sigma^20^2}{2}+\mu 0}=\mu^2+\sigma^2\]
e, portanto
\[\text{Var}\left(X\right)=E\left(X^2\right)-E^2\left(X\right)=\mu^2+\sigma^2-\mu_2=\sigma^2.\]
A distribuição qui-quadrada pode ser interpretada como sendo a soma de normais padronizadas ao quadrado. Tome \(X_i\sim N(0,1)\) então
\[\sum_{j=1}^{r}X^2_j=\chi^{2}_{r}.\]
Definição
Uma variável aleatória contínua \(X\) tem distribuição qui-quadrado com \(\nu\) graus de liberdade se sua função densidade for dada por:
\[f(x)=\frac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{(v/2)-1}e^(-\frac{x}{2}); \nu > 0, x > 0\]
sendo \(\Gamma(\omega)=\displaystyle\int_0^{\infty}x^{\omega-1}e^{-x}dx, \omega > 0\). Denotamos \(X\sim \chi_{\nu}^2\).
se \(X\) é uma variável aleatória com distribuição qui-quadrado com \(\nu\) graus de liberdades, sua função geradora de momentos é dada por:
\[M_X(t)=E\left(e^{tX}\right)=\left(\frac{1}{1-2t}\right)^{\frac{\nu}{2}}.\]
Desta forma, temos que
\[M^{(1)}_X(t)=\nu\left(\frac{1}{1-2t}\right)^{\frac{\nu+2}{2}}\]
e
\[M^{(2)}_X(t)=(\nu^2+2\nu)\left(\frac{1}{1-2t}\right)^{\frac{\nu+4}{2}}.\]
Portanto, podemos calcular o valor de esperado e a variância da variável \(X\). De fato, temos que
\[E\left(X\right)=M^{(1)}_X(0)=\nu\left(\frac{1}{1}\right)^{\frac{\nu+2}{2}}=\nu\]
e
\[\text{Var}\left(X\right)=E\left(X^2\right)-E^2\left(X\right)=M^{(2)}_X(0)-(M^{(1)}_X(0))^2\]
de onde concluímos que
\[\text{Var}\left(X\right)=(\nu^2+2\nu)\left(\frac{1}{1}\right)^{\frac{\nu+4}{2}}-\nu^2=\nu^2+2\nu-\nu^2=2\nu.\]
A distribuição t de Student é uma das distribuições mais utilizadas na estatística, com aplicações que vão desde a modelagem estatística até testes de hipóteses.
Definição
Uma variável aleatória contínua \(X\) tem distribuição \(t\) de Student com \(\nu\) graus de liberdade se sua função densidade de probabilidade é dada por
\[f(x)=\frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\Gamma\left(\frac{\nu}{2}\right)}\left(1+\frac{x^2}{\nu}\right)^{-\left(\frac{\nu+1}{2}\right)}\qquad x \in(-\infty,\infty).\]
Utilizamos a notação \(X\sim t_\nu\).
A t-Student pode ser vista como a divisão entre uma v.a. com distribuição Normal e a raiz quadrada de uma Qui-quadrado dividida por seus graus de liberdade.
Teorema
Considere \(Z\) e \(V\) duas variáveis aleatórias independentes tal que \(Z\sim N(0,1)\) e \(V\sim\chi_k^2\). Defina \(X\) como sendo uma variável aleatória de tal forma que
\[X=\frac{Z}{\sqrt{V/k}}.\]
Temos que a variável aleatória \(X\) tem distribuição \(t\) de Student com \(k\) graus de liberdade.
A função geradora de momentos da \(t\) de Student não está definida para todos os graus de liberdade, entretanto podemos encontrar os momentos da função t de Student para alguns graus de liberdade.
Desta forma seja \(X \sim t_{\nu}\), então
\[E\left(X^k\right) = \left\{ \begin{array}{l} 0, \ \text{se} \ 0\leq k \ < \ \nu \ \text{e k é ímpar}\\ \frac{1}{\sqrt{\pi}\Gamma\left(\frac{\nu}{2}\right)}\left[\Gamma\left(\frac{k+1}{2}\right)\Gamma\left(\frac{\nu-k}{2}\right)\nu^{k/2}\right], \ \text{se} \ 0\leq k \leq \nu \ \text{e k é par};\\ \text{indefinido}, \ \text{se} \ k \geq \nu \ \hbox{e k é ímpar} \\ \infty, \ \text{se} \ k \geq \nu \ \hbox{e k é par}.\end{array} \right.\]
O valor esperado da \(t\) de student, é zero se \(\nu \ > \ 1\) caso contrário não está definido. Basta observarmos que \(E\left(X\right)=E\left(X^1\right)\), ou seja, utilizando a formula dos momentos temos que \(k\) é ímpar e assim, está definido apenas se \(\nu \ > k=1\).
Utilizando a fórmula dos momentos da distribuição \(t\) de Student podemos calcular a variância de \(X\).
\[E\left(X^2\right) = \left\{ \begin{array}{l} \frac{\nu}{\nu -2}, \ \text{se} \ \nu \ > \ 2 \\ \infty, \ \text{se} \ 0 \ < \ \nu\leq 2 .\end{array} \right.\]
Entretanto para que variância esteja definida necessitamos que \(\nu \ > \ 1\), caso contrário, \(E^2\left(X\right)\) não estará definida. Assim
\[\text{Var}\left(X\right) = \left\{ \begin{array}{l} \frac{\nu}{\nu -2}, \ \hbox{ se } \ \nu \ > \ 2 \\ \infty, \ \text{se} \ 1 \ < \ \nu \leq 2 .\end{array} \right.\]
A distribuição F de Snedecor também conhecida como distribuição de Fisher é frequentemente utilizada na inferência estatística para análise da variância.
Definição
Uma variável aleatória contínua \(X\) tem distribuição \(F\) de Snedecor com \(n\) graus de liberdade no numerador e \(m\) graus de liberdade no denominador se sua função densidade de probabilidade é definida por
\[f(x)=\frac{\Gamma\left[\frac{m+n}{2}\right]\left(\frac{m}{n}\right)^{\frac{m}{2}}x^{\frac{m}{2}-1}}{\Gamma\left[\frac{m}{2}\right]\Gamma\left[\frac{n}{2}\right]\left[\left(\frac{m}{n}\right)x+1\right]^{\frac{m+n}{2}}}\qquad x\in [0,\infty)\]
Neste caso, utilizamos a notação \(X\sim F(m,n)\).
Podemos interpretrar a distribuição F como sendo a divisão de duas distribuições qui-quadrado divididas por seus graus de liberdade.
Teorema
Considere \(Q_n\) e \(Q_m\) variáveis aleatórias com distribuição qui-quadrado com \(n\) e \(m\) graus de liberdade, respectivamente. Além disso, suponha que estas variáveis aleatórias são independentes. Então a variável aleatória
\[F=\frac{Q_m/m}{Q_n/n}\]
tem distribuição \(F\) de Snedecor com \(m\) graus de liberdade no numerador e \(n\) graus de liberdade no denominador.
Não existe função geradora de momentos para a distribuição \(F\) de Snedecor.
Assim vamos calcular o valor esperado de X com \(X\sim F(m,n)\).
\[E\left(X\right)=\int_{0}^{\infty}x\frac{\Gamma{\left(\frac{m+n}{2}\right)}\left(\frac{m}{n}\right)^{(m/2)-1}x^{(m/2)-1}}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)\left(1+\frac{m}{n}x\right)^{(m+n)/2}}=\frac{\Gamma{\left(\frac{m+n}{2}\right)}\left(\frac{m}{n}\right)^{(m/2)-1}}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)} \int_{0}^{\infty}\displaystyle \frac{x^{(m/2)}}{\left(1+\frac{m}{n}x\right)^{(m+n)/2}}\] e, portanto,
\[E\left(X\right)=\frac{n}{(n-2)}, \text{se} \ n \ > \ 2.\] A variância da distribuição \(X\sim F(m,n)\) é dada por
\[\text{Var}\left(X\right)=E\left(X^2\right)-E^2\left(X\right)=\frac{2n^2(m+n-2)}{m(n-2)^2(m-4)}, \ \text{se} \ n \ > \ 4.\]