Caso Discreto

Distribuição Hipergeométrica

Considere uma população finita composta de \(N\) itens. Algum número - digamos \(D(D\leq N)\) - desses itens pertence a uma determinada classe de interesse. Uma amostra aleatória de \(n\) itens é retirada da população sem reposição e o número de itens na amostra que se situa na classe de interesse - digamos, \(x\) - é observado. Então, \(x\) é uma variável aleatória hipergeométrica com distribuição de probabilidade definida como segue.

Definição

A distribuição de probabilidade hipergeométrica é

\(p(x)=\dfrac{{D\choose x}{N-D \choose n-x}}{{N\choose n}}, x=0,1,2,\dots,\min(n,D)\)

A média e a variância da distribuição hipergeométrica são:

\(\mu=\dfrac{nD}{N}\) e \(\sigma^{2}=\dfrac{nD}{N}\Big(1-\dfrac{D}{N}\Big)\Big(\dfrac{N-n}{N-1}\Big)\)

A quantidade \({a\choose b}=\dfrac{a!}{b!(a-b)!}\) é o número de combinações de \(a\) itens escolhidos \(b\) de cada vez.

A distribuição hipergeométrica é o modelo probabilístico apropriado para a seleção sem reposição de uma amostra de \(n\) itens de um lote de \(N\) itens dos quais \(D\) são defeituosos ou não-conformes. Por amostra aleatória queremos caracterizar uma amostra que é selecionada de tal forma que todas as possíveis amostras tenham a mesma chance de serem escolhidas. Nestas aplicações, \(x\) usualmente representa o número de itens não-conformes encontrados na amostra. Por exemplo, suponha que um lote contém 100 itens, dos quais 5 não satisfazem os requisitos. Se 10 itens são selecionados aleatoriamente sem reposição, então a probabilidade de achar no máximo um item não-conforme é

\(\mathbb P(X\leq 1)=\mathbb P(X=0)+\mathbb P(X=1)=\dfrac{{5\choose 0}{95 \choose 10}}{{100\choose 10}}+\dfrac{{5\choose 1}{95 \choose 9}}{{100\choose 10}}=0,923\)

No R os comandos são:

m <- 5; n <- 95; k <- 10
x <- 1
#probabilidade <=x
phyper(x,m,n,k)
## [1] 0.9231433

Distribuição Binomial

Considere um processo consistindo de uma sequência de \(n\) provas independentes. Por provas independentes entende-se que o resultado de cada prova não depende dos resultados das provas anteriores. Quando o resultado de cada prova é sucesso ou fracasso, as provas são chamadas provas de Bernoulli. Se a probabilidade de ``sucesso´´ em cada prova é constante \(p\), então o número de sucessos \(x\) em \(n\) provas de Bernoulli independentes tem distribuição binomial com parâmetros \(n\) e \(p\), definida como segue:

Definição

A distribuição binomial com parâmetros \(n\geq 0\) e \(0<p<1\) é

\(p(x)={n\choose x}p^{x}(1-p)^{n-x}, x=0,1,\dots,n\)

A média e a variância da distribuição binomial são:

\(mu=np\) e \(\sigma^{2}=np(1-p)\).

A distribuição binomial é usada frequentemente na engenharia da qualidade. Ela é o modelo apropriado para amostragem de uma população infinitamente grande, em que \(p\) representa a fração de itens defeituosos ou não-conformes na população. Nessas aplicações, \(x\) usualmente representa o número de itens não-conformes em uma amostra de tamanho \(n\). Por exemplo, se \(p=0,10\) e \(n=15\), então a probabilidade de se obter \(x\) itens não-conformes é calculada a partir da equação \(p(x)={n\choose x}p^{x}(1-p)^{n-x}\), para \(x=0,1,\dots,n\) como:

#binomial
p <- 0.10; n <- 15
x <- 0:15
prob <- round(dbinom(x,n,p),4)
prob_tab <-data.frame(x,prob)
prob_tab
##     x   prob
## 1   0 0.2059
## 2   1 0.3432
## 3   2 0.2669
## 4   3 0.1285
## 5   4 0.0428
## 6   5 0.0105
## 7   6 0.0019
## 8   7 0.0003
## 9   8 0.0000
## 10  9 0.0000
## 11 10 0.0000
## 12 11 0.0000
## 13 12 0.0000
## 14 13 0.0000
## 15 14 0.0000
## 16 15 0.0000

Obtenha diferentes distribuições binomiais. Inicialmente, com \(n\) fixo (por exemplo, \(n=15\)) variando \(p\) (por exemplo, \(p=0.1, 0.5, 0.9\)). Posteriormente, com \(p\) fixo (por exemplo, \(p=0.25\)) variando \(n\) (por exemplo, \(n=10, 20, 40\)). Esboce graficamente.

Uma variável aleatória que aparece frequentemente no controle estatístico de qualidade é

\(\hat{p}=\dfrac{x}{n}\)

em que \(x\) tem distribuição binomial de parâmetros \(n\) e \(p\). Muitas vezes \(\hat{p}\) é a razão do número observado de itens defeituosos ou fora das especificações em uma amostra \((x)\) para o tamanho da amostra \((n)\) e é usualmente chamado fração amostral de defeituosos ou fração amostral de não-conformes. O símbolo \(^\) é usado para indicar que \(\hat{p}\) é uma estimativa do verdadeiro e desconhecido valor do parâmetro binomial \(p\). A distribuição de probabilidade de \(\hat{p}\) é obtida a partir da binomial, uma vez que

\(\mathbb P(\hat{p}\leq a)=\mathbb P\Big(\frac{x}{n}\leq a\Big)=\mathbb P(X\leq na)\)

\(=\displaystyle\sum_{x=0}^{[na]}{n\choose x}p^{x}(1-p)^{n-x}\),

em que \([na]\) denota o maior inteiro menor ou igual a \(na\).

A média de \(\hat{p}\) é \(p\) e a variância de \(\hat{p}\) é \(\sigma^{2}_{\hat{p}}=\dfrac{p(1-p)}{n}\).

Distribuição de Poisson

Uma distribuição bastante útil no controle estatístico de qualidade é a distribuição de Poisson, definida como segue:

Definição

A distribuição de Poisson é \(p(x)=\dfrac{e^{-\lambda}\lambda^{x}}{x!},x=0,1,\dots\) com parâmetro \(\lambda>0\).

A média e a variância são \(\mu=\lambda\) e \(\sigma^{2}=\lambda\).

Uma applicação típica da distribuição de Poisson no controle estatístico de qualidade é como modelo do número de defeitos por unidade de produto. Qualquer fenômeno aleatório que ocorre em base unitária (por unidade de área, volume, tempo, etc) é bem aproximado pela distribuição de Poisson. Como exemplo, suponha que o número de circuitos defeituosos por unidade que ocorre em um semicondutor tenha distribuição de Poisson com parâmetro \(\lambda=4\). Então, a probabilidade de um semicondutor escolhido aleatoriamente conter no máximo dois circuitos defeituosos é

\(\mathbb P(X\leq 2)=\displaystyle\sum_{x=0}^{2}\dfrac{e^{-4}4^{x}}{x!}=\) \(e^{-4}\Big(\dfrac{4^{0}}{0!}+\dfrac{4^{1}}{1!}+\dfrac{4^{2}}{2!}\Big)=e^{-4}(1+4+8)=13e^{-4}=0,2381\)

lambda <-4
x<-0:2
ppois(x,lambda)
## [1] 0.01831564 0.09157819 0.23810331

A distribuição de Poisson é assimétrica, isto é, tem uma longa cauda à direita e à medida que o parâmetro \(\lambda\) aumenta, a distribuição se torna mais simétrica.

É possível derivar a distribuição de Poisson como uma forma limite da distribuição binomial, isto é, em uma distribuição binomial de parâmetros \(n\) e \(p\), fazendo \(n\rightarrow \infty\) e \(p\rightarrow 0\) de tal forma que \(np\approx \lambda\) se mantenha constante, então a distribuição resultante é a distribuição de Poisson.

Distriuição de Pascal

A distribuição de Pascal tem sua base em provas de Bernoulli, do mesmo modo que a distribuição binomial. Considere uma sequência de provas independentes, cada uma com probabilidade \(p\) de sucesso e seja \(x\) o número da prova na qual ocorre o \(r\)-ésimo sucesso. Então, \(X\) é uma variável aleatória de Pascal definida como segue:

Definiçao

A distribuição de Pascal é

\(p(x)={x-1 \choose r-1}p^{r}(1-p)^{x-r}, x=r,r+1,r+2,\dots\)

em que \(r\geq 1\) é um inteiro.

A média e a variância são \(\mu=\dfrac{r}{p}\) e a variância

Dois casos especiais da distribuição de Pascal merecem atenção. O primeiro é quando \(r>0\), mas não necessariamente um inteiro. A distribuição resultante é chamada binomial negativa. É prática comum se referir à equação de probabilidade da distribuição de Pascal como distribuição binomial negativa, mesmo quando \(r\) é inteiro. A distribuição binomial negativa, assim como a distribuição de Poisson, é algumas vezes utilizada como modelo estatístico subjacente para vários tipos de dados de ‘’contagem’’, tais como ocorrência de peças defeituosas em uma unidade de produção. Há uma importante dualidade entre as distribuições binomial e binomial negativa. Na distribuição binomial, fixa-se o tamanho da amostra (número de provas de Bernoulli) e observa-se o número de sucessos; na distribuição binomial negativa, fixa-se o número de sucessos e observa-se o tamanho da amostra (número de provas de Bernoulli) necessário para obtê-lo. Este conceito é particularmente importante em vários tipos de problemas de amostragem.

O outro caso especial da distribuição de Pascal surge quando \(r=1\), no qual tem-se a distribuiçao geométrica. Esta é a distribuição do número de provas de Bernoulli até o primeiro sucesso.

Caso Contínuo

Distribuição Normal ou Gaussiana

A distribuição normal é,provavelmente, a mais importante distribuição, tanto na teoria quanto na prática da estatística. Se \(X\) é uma variável aleatória normal, então, a distribuição de probabilidade é definida como segue,

Definição

A distribuição normal é dada pela função densidade

\(f(x)=\dfrac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\dfrac{1}{2\sigma^{2}}(x-\mu)^{2}}, -\infty<x<\infty\)

A média da distribuição normal é \(\mu (-\infty<\mu<\infty)\) e a variância é \(\sigma^{2}\).

A notação utilizada para indicar que uma variável aleatória \(X\) tem distribuição normal cmo média \(\mu\) e variância \(\sigma^{2}\) é \(X \sim N(\mu,\sigma^{2})\). A aparência de uma distribuição normal é a de uma curva simétrica, em forma de sino, unimodal.

A função de distribuição de uma variável aleatória normal é

\(\Phi(a)=\mathbb P(X\leq a)=\displaystyle\int_{-\infty}^{a}\dfrac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\dfrac{1}{2\sigma^{2}}(x-\mu)^{2}}dx\)

Porém, esta integral não pode ser calculada algebricamente, pois a função não tem primitiva. Então, recorre-se a uma mudança de variável

\(Z=\dfrac{x-\mu}{\sigma}\)

e o cálculo pode ser feito independentemente dos valores de \(\mu\) e \(\sigma^{2}\).

\(\mathbb P(X\leq a)=\mathbb P\Big(Z\leq \dfrac{a-\mu}{\sigma}\Big)=\Phi\Big(\dfrac{a-\mu}{\sigma}\Big)\),

em que \(\Phi(.)\) é a função de distribuição normal padrão, isto é, uma distribuição normal com média 0 e desvio-padrão 1. A mudança de variável indicada acima é denominada padronização, pois ela converte uma variável aleatória \(X\sim N(\mu,\sigma^{2})\) em uma variável aleatória \(Z\sim N(0,1)\).

Há uma interpretação simples do desvio-padrão \(\sigma\) de uma distribuição normal.

\(68.26\%\) das observações ficam no intervalo \(\mu\pm \sigma\).

\(95.46\%\) das observações ficam no intervalo \(\mu\pm 2\sigma\).

\(99.73\%\) das observações ficam no intervalo \(\mu\pm 3 \sigma\).

Exemplo 1: A força de tensão do papel usado na confecção de sacos para supermercados é uma característica importante de qualidade. Sabe-se que a força \(x\) é normalmente distribuída com média \(\mu=40 lb/in^{2}\) e desvio-padrão \(\sigma=2 lb/in^{2}\). Isto é denotado por \(X\sim N(40,2^{2})\). Um comprador desses sacos exige que eles tenham pelo menos \(35 lb/in^{2}\). Qual a probabilidade de que um saco confeccionado com este papel atenda a essa especificação?

\(\mathbb P(X\geq 35)=1-\mathbb P(X\leq 35)\)

Padonizando a variável, vem:

\(\mathbb P(X\leq 35)=\mathbb P\Big(Z\leq \dfrac{35-40}{2}\Big)=\mathbb P(Z\leq -2,5)=\Phi(-2,5)=0,0062\) (valor obtido pela tabela normal padronizada).

Logo, \(\mathbb P(X\geq 35)=1-\mathbb P(X\leq 35)=1-\mathbb P(Z\leq -2,5)=0,9938\).

Isto significa que a proporção fora das especificações é de 0,0062 ou 0,62%.

Graficamente,

Exemplo 2: O diâmetro de uma haste de metal usada em uma unidade de disco é normalmente distribuído com média 0,2508 in e desvio-padrão 0,0005 in. As especificações sobre a haste foram estabelecidas como \(0,2500\pm0,0015\) in. Deseja-se saber qual a fração das hastes produzidas que satisfaz as especificações.

As especificações levam a

\(\mathbb P(0,2485\leq X \leq 0,2515)=\mathbb P(X\leq 0,2515)-\mathbb P(X\leq 0,2485)=\Phi\Big(\dfrac{0,2515-0,2508}{0,0005}\Big)-\Phi\Big(\dfrac{0,2485-0,2508}{0,0005}\Big)\)

\(=\Phi(1,40)-\Phi(-4,60)=0,9265-0,0000=0,9265\)

Então, pode-se dizer que o aproveitamento do processo é de \(92,65\%\), isto é, cerca de \(92,65\%\) das hastes são produzidas de acordo com as especificações.

O Teorema Central do Limite

O teorema central do limite estabelece que a soma de \(n\) variáveis aleatórias independentes tem distribuição normal, à medida que \(n\rightarrow \infty\).

Considere uma sequência de variáveis aleatórias independentes \(X_{1},X_{2},\dots\) e seja \(S_{1},S_{2},\dots\) a sequência de somas parciais, definidas por \(S_{n}=X_{1}+\dots+S_{n}\).

O problema central do limite trata da convergência em distribuição das somas parciais normalizadas,

\(\dfrac{S_{n}-\mathbb E(S_n)}{\sqrt{Var(S_{n})}}\)

para a distribuição normal padrão \(N(0,1)\).

No caso de variáveis aleatórias independentes e identicamente distribuídas, com \(\mathbb E(X_{n})=\mu\) e Var\((X_{n})=\sigma^{2}\), com \(0<\sigma^{2}<\infty\), temos

\(\dfrac{S_{n}-n\mu}{\sqrt{n}\sigma}\rightarrow N(0,1)\)

Se tomarmos repetidas amostras de uma população com variância finita e calcularmos suas médias, então essaas médias serão normalmente distribuídas. Este é o significado prático do T.C.L. Tome, por exemplo, cinco números aleatórios de uma distribuição uniforme entre 0 e 10 e trabalhe com suas médias. Ela será baixa quando os valores forem baixos, digamos, 2,3,1,2,1 (média=1.8) e será alta quando os valores forem altos, digamos, 9,8,9,6,8 (média=8). Tipicamente, a média será próxima de \(5=\Big(\dfrac{0+10}{2}\Big)\). Se fizermos isso 10.000 vezes e olharmos a distribuição das 10.000 médias, os dados que inicialmente são retangulares (uniformemente distribuídos) no intervalo 0 a 10 terão distribuição em forma de sino.

Distribuição Exponencial

Definição Uma variável aleatória tem distribuição exponencial de parâmetro \(\lambda>0\) se possui função densidade dada por

\(f(x)=\left\{ \begin{array}{cc} \lambda e^{-\lambda x}, & x\geq 0\\ 0, & x<0\\ \end{array}\right.\)

A média é \(\mu=\dfrac{1}{\lambda}\) e a variância é \(\sigma^{2}=\dfrac{1}{\lambda^{2}}\).

O gráfico de uma variável aleatória xom distribuição exponencial de parâmetro \(\lambda=2\) é apresentado a seguir:

A função de distribuição de uma variável aleatória \(X\) com distribuição exponencial de parâmetro \(\lambda\) é \(F(x)=\mathbb P(X\leq x)=\displaystyle\int_{0}^{\infty}\lambda e^{-\lambda x}dx=1-e^{-\lambda x}\).

Exemplo de aplicação (Confiabilidade): Suponha que um componente eletrônico de um sistema de radar de aeronave tenha vida útil descrita por uma distribuiçao exponencial com taxa de falha \(10^{-4}/h\), isto é, \(\lambda=10^{-4}\). Isto significa que o tempo médio de falha é \(1/\lambda=10.000 h\). Qual a probabilidade desse componente falhar antes do seu tempo de vida esperado?

\(\mathbb P\Big(X\leq \dfrac{1}{\lambda}\Big)=\displaystyle\int_{0}^{1/\lambda}\lambda e^{-\lambda x}dx=1-e^{-1}=0,63212\).

Observe que este resultado é válido independentemente do valor de \(\lambda\). Ou seja, a probabilidade de que uma v.a. exponencial assuma um valor menor do que sua média é 0,63212. Isto ocorre porque a distribuição não é simétrica.

Importante relação entre as distribuições de Poisson e exponencial

Há uma importante relação entre as distribuições de Poisson e exponencial. Se considerarmos a distribuição de Poisson como o modelo do número de ocorrências de algum evento no intervalo \((0,t]\), então da equação \(p(x)=\dfrac{e^{-\lambda}\lambda^{x}}{x!},x=0,1,\dots\) resulta que \(p(x)=\dfrac{e^{-\lambda t}(\lambda t)^{x}}{x!}\).

Agora, \(x=0\) significa que não há ocorrência do evento em \((0,t]\) e \(\mathbb P(X=0)=p(0)=e^{-\lambda t}\). Podemos pensar \(p(0)\) como sendo a probabilidade de que o intervalo até a primeira ocorrência seja maior que \(t\) ou

\(\mathbb P(Y>t)=p(0)=e^{-\lambda t}\),

em que \(Y\) é a variável aleatória que denota o intervalo até a primeira ocorrência. Como

\(F(t)=\mathbb P(Y\leq t)=1-e^{-\lambda t}\) e usando o fato de que \(f(y)=\dfrac{dF(y)}{dy}\), temos

\[\begin{equation}\label{eqdefexpo2} f(y)=\lambda e^{-\lambda y} \end{equation}\]

como a distribuição do intervalo até a primeira ocorrência.

A equação \(f(y)=\lambda e^{-\lambda y}\) ppde ser identificada como a distribuição de uma variável exponencial com parâmetro \(\lambda\). Então, se o número de ocorrências de um evento tem distribuição de Poisson com parâmetro \(\lambda\), a distribuição do intervalo entre ocorrências é exponencial com parâmetro \(\lambda\).

Distribuição Gama

Definição

Dizemos que \(X\) tem uma distribuição Gama, ou segue o modelo Gama de dois parâmetros \(\alpha\) e \(\beta\), se sua densidade é:

\[f(x)=\displaystyle\frac{\beta^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}, x\geq 0, \alpha>0, \beta>0.\]

O denominador é a função gama, definida como \(\Gamma(r)=\displaystyle\int_{0}^{\infty}x^{r-1}e^{-x}dx, r>0\). Se \(r\) é um inteiro positivo, então \(\Gamma(r)=(r-1)!\).

A distribuição Gama não tem uma densidade com uma forma simples e única. Ao contrário, dependendo dos valores dos parâmetros \(\alpha\) e \(\beta\), sua densidade muda e, em alguns casos, recebe nome especial, como na tabela abaixo:

\(\begin{array}{llll} \mbox{ Parâmetros } & \mbox{ Nome } & \mbox{ Notação }\\ \alpha=1,\beta>0 & \mbox{ Exponencial } & exp(\beta)\\ \alpha=\frac{n}{2},n>0 \mbox{ inteiro },\beta=\frac{1}{2} & \mbox{ Qui-quadrado com } n \mbox{ graus de liberdade } & \chi^{2}(n)\\ \alpha=k,k>0 \mbox{ inteiro }, \beta>0 & \mbox{ Erlang de ordem } k & Erl_{k}(\beta)\\ \end{array}\)

A esperança e a variância são:

\(\mathbb E(X)=\dfrac{\alpha}{\beta}\) e Var\((X)=\dfrac{\alpha}{\beta^{2}}\)

A figura a seguir mostra três distribuições gama.

Exemplo: Considere um sistema comutador constituído por dois componentes em paralelo. Ele é chamado sistema redundante de espera, porque enquanto o componente 1 está ativo, o componente 2 está desativado e quando o componente 1 falha, o comutador automaticamente ativa o componente 2. Se cada componente tem vida útil descrita por uma distribuição exponencial com parâmetro \(\lambda=10^{-4}/h\), por exemplo, então a vida putil do sistema tem distribuição gama com parâmetros \(\alpha=2\) e \(\beta=10^{-4}\). Assim, o tempo médio de falha é \(\mu=\dfrac{\alpha}{\beta}=\dfrac{2}{10^{-4}}=2\times10^{4}h\),