Distribuição de probabilidade

A População é o conjunto completo de todos os dados de um determinado objeto de estudo. Uma Amostra é um conjunto de dados obtidos da População. Quanto mais dados tiver a Amostra, mais representativo será esse conjunto em relação a População. Usualmente o conjunto População é composto por uma quantidade extremamente grande de dados, o que torna trabalhoso e custoso o seu estudo, além da grande demanda de tempo. Por isso os estatísticos se munem de ferramentas para obter um subconjunto representativo da população (Espaço Amostral). Estatpistica pe a arte de prever resultados a partir de um histórico pré-definido.

Abaixo seguem algumas definições e exemplos de termos que serão bastantes úteis no processo de aprendizado da Estatística:

O espaço amostral é o conjunto de todos os dados medidos ou coletados de um determinado aspéctro. Uma variável aleatória seria qualquer um desses valores obtidos de forma não tendenciosa.

  • População: conjunto de peças de um equipamento
  • Espaço amostral: conjunto de todos os diâmetros atribuídos a uma peça
  • Variável aleatória: diâmetro das peças, o mesmo pode tomar qualquer um dos valores que constituem um espaço amostral

A obtenção de um Espaço Amostral representativo é de extrema importância para obter um resultado bom resultado. Através do conjunto Amostra podemos prevê a probabilidade de ocorrência de determinados fenômenos. Utilizaremos para tal a ferramenta: Distribuição de Probabilidade. Essa técnica tem por finalidade verificar como está distribuida a probabilidade do fenômeno estudado.

Distribuições Discretas

  • São aquelas em que os valores dos parâmetros obitidos sejam pontuais.
Exemplos:
  • Bernoulli
  • Binomial
  • Hipergeométrica
  • Poisson
Distribuição Binomial
  • Se aplica a um experimento aleatório consistindo em \(n\) tentativas repetidas, de modo que:
  • As tentativas sejam independentes;
  • Cada tentativa resulte em somente dois resultados possíveis (sucesso e falha);
  • A probabilidade de um sucesso em cada tentativa, denotada por \(p\), permaneça constante.

\[ P(X = x) = \frac{n!}{(n-x)!}\cdot x!\cdot p^x\cdot q^{(n-x)} \]

Funções nativas do R para representação da Distribuição Binomial
x <- 0:10
n = 5
p = 0.1

fx <- dbinom(x,n,p,log = FALSE) #Função de densidade
plot(x,fx, ylab = 'Função densidade', main = ' Função densidade', type = 'S', col = "blue")

Fx <-pbinom(x,n,p,log = FALSE) #Função de probabilidade
plot(x,Fx, ylab = 'Função probabilidade', main = 'Função Probabilidade', type = 'S', col = "red")

Exercícios:

Binomial

Ex.1: De uma linha de produção em série retiram-se 5 peças (uma em cada hora). Admitindo que a percentagem de peças defeituosas se mantém inalterada ao longo do tempo com o valor de 10%, calcular a probabilidade de, entre as 5 peças recolhidas existirem:

  1. 1 peça defeituosa

  2. até 2 peças defeituosas

Resolução:

Letra A

  • Programação
n = 5
x = 1
p = 0.1
q = 1 - p
P = factorial(n)/(factorial(n-x)*factorial(x))*p^x*q^(n-x)
print(P)
## [1] 0.32805
  • Função nativa do R
x = 1
n = 5
p = 0.1
fx <- dbinom(x, n, p, log = FALSE)
print(fx)
## [1] 0.32805
  • Representação gráfica da resolução do exercício
xfunc <- 0:10
n = 5
p = 0.1

func <- dbinom(xfunc,n,p,log = FALSE) 
plot(xfunc,func, ylab = 'Função densidade', main = ' Função densidade', type = 'S', col = "blue")

points(x, fx, col = "red", pch = 16) # Exercício

Letra B

  • Programação
n = 5
x = 3
p = 0.1
q = 1 - p
P = factorial(n)/(factorial(n-x)*factorial(x))*p^x*q^(n-x) 
Pr = 1 - P
print(Pr)
## [1] 0.9919
  • Função nativa do R
x = 3
n = 5
p = 0.1
fx <- dbinom(x,n,p,log = FALSE) 
Pr = 1 - fx
print(Pr)
## [1] 0.9919
  • Representação gráfica da resolução do exercício
xfunc <- 0:10
n = 5
p = 0.1

func <- pbinom(xfunc,n,p,log = FALSE) 
plot(xfunc,func, ylab = 'Função densidade', main = ' Função densidade', type = 'S', col = "blue")

points(x, Pr, col = "red", pch = 16) # Exercício

Distribuição de Poisson
  • Se aplica quando ocorre um acontecimento em um intervalo especificado;

  • A variável aleatória \(x\) representa o número de ocorrências em um determinado intervalo;

  • O \(\lambda\) representa a média de ocorrência do evento no intervalo;

  • O intervalo pode se referir a tempo, distância, área, volume, ou algum tipo de medida similar.

\[ P(X =x) = \frac{\lambda ^x\cdot e^{-\lambda}}{x!} \]

Funções nativas do R para representação da Distribuição de Poisson
x <- 0:15
lambda = 8

fx <- dpois(x, lambda, log = FALSE) 
plot(x, fx, xlab = 'Número de ocorrências', ylab = 'Probabilidade', main = ' Função distribuição de probabilidade', type = 'h', col = "brown")

Exercícios:

Poisson

Ex.2: O pessoal de inspeção de qualidade afirma que os rolos de fita isolante apresentam, em média, uma emenda a cada 50 metros. Admitindo que a distribuição do número de emendas é dada pela distribuição de Poisson, calcule a probabilidade de ocorrer nehuma emenda em um rolo de 125 metros.

Resolução:
  • Programação
x = 0 
lambda = 125/50
P = lambda^x*exp(-lambda)/factorial(x)
print(P)
## [1] 0.082085
  • Função nativa do R
x = 0
lambda = 125/50
fx <- dpois(x,lambda, log = FALSE) 
print(fx)
## [1] 0.082085
  • Representação gráfica da resolução do exercício
xfunc <- 0:15
lambda = 125/50

func <- dpois(xfunc, lambda, log = FALSE) 
plot(xfunc, func, xlab = 'Número de ocorrências', ylab = 'Probabilidade', main = ' Função distribuição de probabilidade', type = 'h', col = "blue")

points(x, fx, col = "red", pch = 16) # Exercício

Distribuições Contínuas

  • São aquelas em que os valores dos parâmetros obitidos sejam contínuos, ou seja, adimite qualquer valor entres os obtidos.

Exemplos:

  • Gama
  • Exponencial
  • Weibull
  • Normal
  • Lognormal
Distribuição Exponencial
  • Na distribuição Exponencial a variável aleatória é definida como o tempo entre duas ocorrências, sendo a média de tempo entre ocorrências de \(\lambda\).

  • Esta distribuição tem sido extensivamente utilizada para modelar o tempo de vida de certos produtos e materiais, tais como óleos isolantes, dielétricos, entre outros. A função densidade de probabilidade para um tempo de falha \(t\) com distribuição exponencial é dada por:

\[ f(x) = \frac{1}{\lambda }\cdot e^{\frac{-t}{\lambda }} \]

Funções nativas do R para representação da Distribuição Exponencial
t <- 0:20
lambda = 4

fx <- dexp(t,rate = 1/lambda) 
plot(t,fx, xlab = 'Tempo', ylab = 'Probabilidade', main = ' Função distribuição de probabilidade', type = 'l', col = "purple")

OBS: Na distribuição de Poisson, a variável aleatória é definida como o número de ocorrências em determinado período, sendo a média das ocorrências no período definida como \(\lambda\).

Exercício

Exponencial:

Ex.3: Seja X a distância entre defeitos sucessivos no isalomaneto de um cabo elétrico. Se lâmbida for 2 defeitos por km, e se iniciou a inspeção do cabo aos 0m, qual é a probabilidade de se encontrar um defeito até os 500m?

Resolução:
  • Programação
x = 0.5
lambda = 2
f = 1/lambda*exp(-x/lambda)
print(f)
## [1] 0.3894004
  • Função nativa do R
t <- 0.5
lambda = 2
fx <- dexp(t,rate = 1/lambda) 
print(fx)
## [1] 0.3894004
  • Representação gráfica da resolução do exercício
tfunc <- 0:10
lambda = 2

func <- dexp(tfunc,rate = 1/lambda) 
plot(tfunc,func, xlab = 'Tempo', ylab = 'Probabilidade', main = ' Função distribuição de probabilidade', type = 'l', col = "purple")

points(t, fx, col = "red", pch = 16) # Exercício

Distribuição Normal
  • É reprensetada apenas por dois parâmetros:
    • Média (\(\mu\));
    • Desvio padrão (\(\sigma\)).
  • Função contínua simétrica em torno do valor da média

\[ f(x) =\frac{1}{\sqrt{2\pi \sigma^{2} }} \cdot e^{\frac{-(x-\mu )^{2}}{2\sigma ^{2}}} \]

Funções nativas do R para representação da Distribuição Normal
x <- seq(-5,5,0.001)
y <- dnorm(x)

hist(h <- rnorm(10000), probability = TRUE, 
     col = "lightgreen", ylim = c(0,0.42), main = "", 
     xlab = "x", ylab = "Densidade de probabilidade")

lines(x, y, type = "l", col = "red")

Distribuição Normal Padronizada ou Normal Reduzida - Z

A probabilidade de uma função é calculada integrando a função densidade da distribuição. No caso da Normal, essa integração é bastante complicada. Para contornar esse problema é necessário uma mudança de variável, ou seja, a Distribuição Normal Padronizada ou Reduzida é uma distribuição normal cuja média é zero e o desvio padrão é um.

\[ Z = \frac{x-\mu }{\sigma } \]

Apresenta distribuição N(0,1) e mede o afastamento das variáveis em relação à média, em número de desvios padrões

Funções nativas do R para representação da Distribuição Normal Padronizada
n <- rnorm(50)
fx <- dnorm(n,mean = 0, sd = 1)
hist(h <- rnorm(10000), probability = TRUE, 
     col = "lightgreen", ylim = c(0,0.42), main = "", 
     xlab = "x", ylab = "Densidade de probabilidade")

Exercícios:

Normal:

Ex.4: Considere que a vazão de matéria prima é uma variável aleatória com distribuição N (90,5;8,4), calcule a probabilidade de se obter medidas de vazão inferiores a 85 m3/h.

Resolução:
  • Programação
X = 85
M = 90.5 # Média
dp = 8.4 # Desvio Padrão
f = 1/(sqrt(2*pi*dp^2))*exp(-1/(2*dp^2)*(X-M)^2) 
print(f)
## [1] 0.03832983
  • Função nativa do R
X = 85
M = 90.5 # Média
dp = 8.4 # Desvio Padrão
fx <- dnorm(X,mean = M, sd = dp) 
print(fx)
## [1] 0.03832983
Teste de Normalidade
  • Teste de Shapiro-Wilk - para pequenas amostras (n < 1000).

  • Teste de Kolmogorov-Smirnov - para grandes amostras (n > 1000)

Teste do Shapiro-Wilk
x <- rnorm(100,mean = 5, sd = 1)
shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.98553, p-value = 0.3467
Teste do Kolmogorov-Smirnov
ks.test(x,pnorm,mean(x),sd(x))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  x
## D = 0.059727, p-value = 0.8679
## alternative hypothesis: two-sided

Ex.5: Texte se o conjunto de dados segue a distribuição normal ou lognormal. Dados de concentração em micrograma por litro de mercúrico num rio foram obtidos como segue: 2.2; 1.5; 2.2; 3.8; 0.15; 0.45; 1.3; 6.4; 0.85.

Resolução:
H <- c(2.2, 1.5, 2.2, 3.8, 0.15, 0.45, 1.3, 6.4, 0.85)
shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.98553, p-value = 0.3467

Sugestões de Bibliografia

  • Montgomery, D.C. and Runger, G.C. Estatística Aplicada e Probabilidade para Engenheiros. Editora LTC (1999).

  • Devore, J. L.; “Probabilidade e Estatística para Engenharia e Ciências”, Editora Thomson, 6a edição (2006).

\[COMPLEMENTAR\]

  • Campos, M.C.; Desvendando o Minitab. Rio de Janeiro: Qualitymark (2003).

  • Hines, W.W., Montgomery, D.C., Goldsman, D. M., Borror, C. M.; Probabilidade e Estatística na Engenharia. Editora LTC, 4ª edição (2006).

  • Himmelblau, D.M.; “Process Analysis by Statistical Methods”, Editora Wiley (1970).

  • Lapponi, J.C.; Estatística usando Excel. Editora Campos (2005).