Estatística Descritiva Aplicada à Engenharia

Roberval Lima

1o. Semestre de 2018

local: “http://rpubs.com/roberval/notas_aula_01-2018

Capítulo 1. Introdução

Este texto é dirigido ao ensino da Estatística descritiva, especialmente para estudantes de engenharia.

A maioria das análises estatísticas são feitas usando uma biblioteca de comandos pré-escrita nos programas estatísticos. O usuário insere os dados e, em seguida, seleciona os tipos de análise e as saídas de interesse são exibidas. Muitos pacotes de software estatísticos estão disponíveis para computadores pessoais. Vamos apresentar exemplos de saída do programa R (um dos pacotes de PC mais utilizados e de uso segundo a filosofia livre), ao longo da apostila. No Cd que acompanha a apostila o aluno poderá exercitar os comandos no R.

A nossa proposta é ensinar a Estatística descritiva, abordando todos os seus conceitos básicos e ao mesmo tempo disponibilizar uma ferramenta computacional, onde o aluno poderá obter os resultados de suas análises através do uso do programa livre R, que estamos disponibilizando no CD da apostila.

R é um sistema para análises estatísticas e gráficos criado por Ross Lhaka y Robert Gentleman (Lhaka R. & Gentleman R. 1996. R: a language for data analysis and graphics. Journal of Computational and Graphical Statistics, 5:299-314. R tem uma característica dupla de programa e linguagem de programação e é considerado como um dialeto da linguagem S criada pelos laboratórios AT&T Bell.

R é distribuído gratuitamente sob os termos da GNU (General Public Licence). Seu desenvolvimento e distribuição são implementados por vários estatísticos conhecidos como o Grupo Nuclear de desenvolvimento do R.

1.1. Os métodos de engenharia e o pensamento estatístico

Um engenheiro é alguém que resolve problemas de interesse para sociedade pela eficiente aplicação de princípios científicos. Estes profissionais realizam isto, ou por refinar um produto existente ou processar ou por desenhar um novo produto ou processo de acordo com a necessidade de seus clientes. A engenharia ou método científico contribuem para formulação e soluções para esses problemas. Os passos nos métodos da engenharia são os seguintes:

  1. Desenvolver uma clara e concisa descrição do problema.

  2. Identificar os principais fatores que afetam este problema e qual pode ser o seu papel na solução.

  3. Propor um modelo para o problema, usando conhecimento científico do fenomeno que está sendo estudado. Identificar qualquer limitação ou assumpções do modelo.

  4. Conduzir apropriado experimentos e coletar dados para testar ou validar o modelo tentativo ou as conclusões obtidas nos passos 3 e 3.

  5. Refinar o modelo com base nos dados observados.

  6. Manipular o modelo para ajudar no desenvolvimento da solução do problema.

  7. Conduzir um apropriado experimento para confirmar que a solução proposta para o problema é ao mesmo tempo efetiva e eficiente.

  8. Expor as conclusões ou fazer recomendações baeadas na solução do problema.

Os passos dos métodos da engenharia são mostrados na figura 1.

Figura1.1 Os métodos da engenharia

Figura1.1 Os métodos da engenharia

Os passos 2-4 na Fig. 1 indicam que vários ciclos de iterações são necessários para obter a solução final. Consequentemente, engenheiros devem ter conhecimento para planejar eficientemente os experimentos, coletar, analizar e interpretar dados; e entender como os dados observados estão relacionados ao modelo proposto para o pproblema em estudo.

A ciência estatística trata da coleta, apresentação, análise, e uso dos dados para tomar decisões, solucionar problemas, e propor novos produtos e processos. Em função de muitos aspectos práticos da engenharia envolver o trabalho com dados, obviamente algum conhecimento de estatística é importante para qualquer engenheiro. Especificamente, as técnicas estatísticas podem dar uma forte ajuda no desenho de novos produtos e sistemas, melhorando os projetos existentes, e desevolvendo, e melhorando os processos de produção.

1.2. De que trata a Estatística

Estatística é ciência que se ocupa da obtençãoo de informação (amostragem, planejamento de experimentos), seu tratamento inicial (ordenação, cálculo de características amostrais, agrupamento em classes, representações gráficas - em suma, estatística descritiva e análise exploratória de dados), com a finalidade de, através de resultados probabílisticos adequados, inferir de uma amosra para a população (decisão sobre hipóteses, estimativa de parâmetros populacionais a partir de características amostrais relevantes, comparação de populações, relacionamento de uma variável resposta com variáveis controladas). Por outras palavras, é um instrumento de leitura de informação e da sua transformação em Conhecimento.

É, também, uma ciência que se ocupa de estratégias e decisão num contexto de variabilidade e incerteza.

Galileu afirmava que Deus escreveu o Mundo em linguagem matemática, e que competia ao homem decifrar esta linguagem. Caso Galileu vivesse hoje, teria certamente escrito “estatística” em vez de “matemática”: o âmago da Estatística é a decifração dos dados.

O propósito último da análise estatística é inferir, a partir de uma amostra as características de uma população, ou comparar populações; e se possível, predizer acontecimentos futuros (no sentido específico de avaliar as suas probabilidades). Inferência e predição decorrem de modelos probabilísticos, e só podem ser efetivados com estudo prévio da matemática das incertezas, a teoria da probabilidade.

DEFINIÇÃO

Estatística descritiva é o ramo que trata da organização, do resumo e da apresentaçao dos dados.

Estatística indutiva ou inferencial é o ramo que trata de tirar conclusões sobre uma população a partir de uma amostra. A ferramenta básica no estudo da estatística inferencial é a probabilidade.

População é o conjunto de elementos que formam o universo de nosso estudo que são passíves de ser observados, sob as mesmas condições.

Amostra é uma parte dos elementos de uma população, obtidos por um determinado critério.

Amostragem é um processo ou critério que será usado para selecionar as unidades que comporão a amostra.

Parâmetro é uma medida que descreve certa característica dos elementos da população.

Estatística é uma medida que descreve certa característica dos elementos da amostra.

Estimativa é um valor resultante do cálculo de uma estatística, quando usado para se ter uma idéia do parâmetro de interesse.

Variável

Constante

1.3. Coleta, registro e inspeção dos dados

Os objetos de estudo da Estatística são os dados estatísticos, e o objetivo da Estatística é obter dados, por observação ou produzindo-os intencionalmente, descrevê-los, sumarizá-los, agrupá-los, organizá-los, analisá-los e interpretar os resultados da análise.

Existem várias maneiras de recompilar datos. En termos gerais podem ser coletados conforme a figura 1.2.

Figura 1.2. Métodos de coleta de dados.

Figura 1.2. Métodos de coleta de dados.

1.4. Tipo de dados

No ambiente de engenharia, os dados são quase sempre uma amostra que tenha sido selecionada a partir de alguma população. Três métodos básicos de coleta de dados são:

Um procedimento de coleta de dados eficaz pode simplificar muito a análise e levar à melhorar a compreensão da população ou processo que está sendo estudado.

Para realizar cálculos estatísticos uma das primeiras coisas a serem feitas é caracterizar qual tipo de dados estão sendo trabalhados, pois muitos cálculos estatísticos aplicáveis a um, não são adequados para outros.

Chamamos unidades amostrais aos elementos sobre os quais temos acesso aos dados. Uma variável estatística é uma característica que pode ser diferente nas diversas observações feitas, e pode ser de natureza qualitativa ou quantitativa. Sobre qualquer unidade amostral, podemos observar qualidades ou medir quantidades.

A estatística qualitativa ocupa-se das variáveis qualitativas, em geral usando contagens ou frequências absolutas, ou percentagens ou frequências relativas das classes ou categorias, sendo as variáveis nominais ou ordinais.

A estatística quantitativa ocupa-se das variáveis quantitativas, que em geral resultam de medições. Os resultados das medições são expressos numa escala contínua ou intervalar ou numa escala absoluta (Figura 1.3).

Figura1.3 Classificação dos dados

Figura1.3 Classificação dos dados

Exemplo 1.1. Classificação dos dados

Exercício 1.1

  1. Nas questões de a-c, determine se a afirmação é verdadeira ou falsa
  1. Nas questões de a-d, determine se os dados são qualitativos ou quantitativos.
  1. Classifique as seguintes variáveis aleatórias como discretas ou contínuas:

Capítulo 2. Apresentação de dados em Tabelas.

Dados corretamente coletados fornecem conhecimentos que não seriam obtidos por simples especulação. Mas os dados precisam ser apresentados. A melhor e mais organizada forma de apresentar dados é por meio de tabelas, construídas de acordo com as normas técnicas.

Uma tabela deve ter:

Complementarmente, tem-se: fonte, notas e chamadas. A fonte cita o informante (caracterizando a confiabilidade dos dados); as notas esclarecem o conteúdo e indicam a metodologia adotada na obtenção dos dados; as chamadas clarificam pontos específicos na tabela.

Exemplo 2.1. Tabelas

Tabela 2.1 Histórico da população brasileira

Ano População
1920 30,6
1940 41,2
1950 51,9
1960 70,2
1970 93,1
Fonte: Censo demográfico do IBGE

2.1. Tabelas de distribuição de frequências

DEFINIÇÃO

Uma distribuição de frequências é uma tabela que mostra classes ou intervalos de entrada de dados com um número total de entradas em cada classe. A frequência f de uma classe é o número de entrada de dados na classe.

2.1.1 Apresentação de dados qualitativos

Nos dados de natureza qualitativa, cada unidade é classificada em determinada categoria. A tabela de distribuição de frequências apresenta a frequência de unidades em cada categoria, ou seja, quantas vezes você observou cada categoria da variável.

Exemplo 2.1 Para adequar os produtos à preferência dos clientes, um projetista de páginas de Internet pretende conhecer o perfil dos indivíduos que acessam um de seus sites. Pensando nisso, ele fez uma pesquisa e levantou algumas características dos visitantes de seu site. Os resultados são apresentados a seguir:

Tabela 2.2. Perfil de indíviduos que acessam diferentes provedores

indivíduo provedor indivíduo provedor
1 C 11 C
2 A 12 A
3 B 13 B
4 B 14 D
5 C 15 A
6 B 16 B
7 D 17 B
8 B 18 C
9 B 19 D
10 A 20 B

Para construir a distribuição de frequências com os dados, basta contar a quantidade de resultados observados em cada categoria, que corresponde a frequência absoluta (f) ou simplesmente frequência.

Além disso é usual fornecer, além das frequências absolutas as frequências relativas (frel), que corresponde ao quociente entre a frequência de cada categoria e o total. Estes valores podem ser apresentados também em percentual, bastando multiplicar por 100.

\(frel=\frac{f}{total}\)

Tabela 2.3 Distribuição de frequências do provedor usado pelo visitante no site.

Provedor f frel frel(%)
A 4 4/20=0,20 20
B 9 9/20=0,45 45
C 4 4/20=0,20 20
D 3 3/20=0,15 15
total 20 1 100

****Fonte: Barbeta et al., 2008

2.1.2. Apresentação de dados quantitativos discretos em tabela de distribuição de frequências

Se os dados são discretos, para organizar a tabela de distribuição de frequências;

  1. Conte quantas vezes cada valor se repete.

  2. Escreva os dados em ordem crescente.

  3. Organize a tabela como já foi feito para dados qualitativos, mas colocando os valores numéricos, em ordem natural, no lugar das categorias.

Exemplo 2.2. Foi feito inspeção de um produto na linha de saída e foram contados os defeitos em uma amostra de tamanho igual a 27. os dados estão a seguir.

1 0 2 2 1 0 2
3 4 2 2 2 6 1
0 2 1 0 6 3 3
3 2 3 0 3 7 7

Tabela 2.4 Distribuição de frequência dos defeitos em 27 amostras de um produto.

No. de defeitos f frel frel (%)
0 5 0,18 18,0
1 4 0,14 14,0
2 8 0,29 29,0
3 6 0,21 21,0
4 1 0,04 4,0
5 0 0,00 0,0
6 2 0,07 7,0
7 2 0,07 7,0
Total 28 1,00 100

2.1.3. Apresentação de dados quantitativos contínuos em tabelas de distribuição de frequências

Para construir uma tabela de distribuição de frequências com dados contínuos:

  1. Localize o valor máximo e o valor mínimo do conjunto de dados. Colocar os dados em ordem crescente facilita o processo.

  2. Calcule a amplitude total (At), que é a diferença entre o valor máximo e o valor mínimo.

  3. Estime o número de classes (k)

  4. Divida a amplitude total dos dados pelo número de classes (K) que pretende organizar.

  5. O resultado da divisão é a amplitude de classe (Ac). O melhor é arredondar esse número para o valor próximo mais alto (um número redondo) para facilitar o trabalho.

  6. Organize as classes, de maneira que a primeira contenha o menor valor observado, e apresente os resultados em uma tabela de frequência e/ou gráfico.

Cálculo do número de classes (K)

O número de classes deve ser escolhido, em função do que se quer mostrar. em geral, convém estabelecer de 5 a 20 classes. Se o número de classes for demasiado pequeno (por exemplo, 3), perde-se muita informação. Se for grande, têm-se pormenores desnecessários. O importante é saber que não existe um número “ideal” de classes para um conjunto de dados, embora existam até fórmulas para estabelecer quantas classes devem ser construídas.

Para usar uma dessas fórmulas, faça n indicar o número de dados. O número de classes será o inteiro mais próximo de K, obtido pela fórmula:

\(k = \sqrt{n}\)

Outras fórmulas utilizadas para o cálculo do número de classes:

Sturges: k = 1 + 3,3log(n), em que log é o logaritmo decimal

Milone: k = -1 + 2ln(n), em que ln é o logaritmo neperiano.

Após construir uma distribuição de frequências, há vários aspectos adicionais que pode-se incluir para uma melhor compreenssão dos dados. Esses aspectos são o ponto médio (pm) e as frequências relativa (frel) e acumuladas (facum), os quais podem ser adicionados nas colunas de sua tabela.

DEFINIÇÃO

O ponto médio (pm) de uma classe é a metade da soma entre os limites inferior e superior da classe.

\(pm=\frac{(lim\ inf\ da\ classe)+(lim\ sup\ da\ classe)}{2}\)

A frequência relativa (frel) de uma classe é a proporção ou porcentagem de dados que entra nessa classe. Para determinar divida a frequência absoluta f pelo tamanho da amostra n. As frequências relativas podem exigir arredondamentos nos cálculos individuais e nas totalizações, uma vez que elas devem totalizar 100. Os arredondamentos são os convencionais, isto é, abaixo de cinco, mantêm-se o valor até o último dígito significativo; para cinco ou mais soma-se um ao último dígito significativo.

\(frel = \frac{(frequência\ da\ classe)}{n}\)

A frequência acumulada (facum) de uma classe é a soma da frequência daquela classe com a de todas as classes anteriores. A frequência acumulada da última classe é igual ao tamanho da amostra n.

Exemplo 2.3 Os dados representam o tempo (segundos) para carga de um aplicativo, num sistema compartilhado. Construa a tabela de frequência.

5,3 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3
5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1
4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 14,1
5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9

Solução

  1. Amplitude total

At = Max - Min = 14,1-4,7 - 9,4

  1. Número de classes (k)

\(k=\sqrt{n}\)   \(k=\sqrt{50}\)   k = 7,07

k=7

  1. Amplitude ou Intervalo de classe (Ac)

\(Ac=\frac{At}{k}\)   \(c=\frac{9,4}{7}\)   c = 1,34   c = 1,5

  1. Construçao da tabela de frequência

Tabela 2.5. Distribuição de frequências do tempo para carga de um aplicativo.

Classes de tempo Ponto médio (pm) Frequência (f) facum Freq rel. (frel) (%) frel acum (%)
4,5 - 6,0
6,0 - 7,5
7,5 - 9,0
9,0 - 10,5
10,5 - 12,0
12,0 - 13,5
13,5 - 15,0
Total

Capítulo 3. Apresentação de dados em Gráficos

CD Material

Gráficos estatísticos são usados para apresentar informação quantitativa na forma de ilustrações, o que facilita a compreensão e visualização dos dados.

De acordo com as normas da ABNT, os gráficos devem:

Elementos de um gráfico:

Erros mais comuns em gráficos

  1. Em geral, excesso de decoração é um problema.

  2. Ausência de um título, marcas e indicadores.

  3. Excesso de informação.

  4. Falta de dados.

  5. Má qualidade de impressão.

3.1 Histograma e Polígono de frequência

A representação gráfica dos valores associados a uma tabela de frequência, que costuma ser feita por meio de colunas justapostas, dá-se o nome de histograma.

Os histogramas podem ser emoldurados por linhas contínuas, abertas ou fechadas, compatíveis e adequadas às distribuições dos dados que pretendem retratar. em caso de frequências simples, a linha fechada de contorno externo é denominada linha característica, A linha característica que une os pontos médios das classes de frequências simples é dita linha de frequências; a que une os pontos médios das classes de frequências acumuladas, ogiva. Se os dados estão uniformemente distribuídos no intervalo, as linhas são compostas por segmentos de retas e definem a poligonal característica da distribuição, a qual permite a obtenção de valores intermediários por interpolação linear. Quando o número de intervalos tende a infinito, a linha de frequências é dita função de densidade dos dados; similarmente, a ogiva é denominada função de distribuição dos dados.

A linha de frequência é fechada no eixo das abcissas; para tanto, acrescenta-se à distribuição uma classe à esquerda e outra à direita, ambas com frequência zero. Destaca-se que a área sob a linha de frequências assim construída é igual a àrea do histograma.

A ogiva, por sua vez, por indicar os valores inferiores ou superiores a dado valor, é aberta de um de seus lados e fechada do outro. Uma das aplicações da ogiva é na determinação das separatrizes da distribuição.

O polígono de frequências e a ogiva produzem figuras regulares ou irregulares, simétricas ou assimétricas, alongadas ou afiladas e nas posições as mais díspares (como em J ou em U). A comparação de duas ou mais distribuições pode ser feita colocando-se os respectivos gráficos lado a lado ou um sobre o outro.

Exemplos-Gráficos: histogramas, polígonos de frequências e ogivas

## Loading required package: agricolae
## Warning in plot.xy(xy.coords(x, y), type = type, ...): "density" is not a
## graphical parameter

##   Tempo de carga (s)  RCF
## 1                4.5 0.00
## 2                6.0 0.50
## 3                7.5 0.84
## 4                9.0 0.94
## 5               10.5 0.98
## 6               12.0 0.98
## 7               13.5 0.98
## 8               15.0 1.00
## 9               16.5 1.00

3.2 Gráfico de barras

O gráfico de barras assemelha-se ao histograma. Porém os dados referem-se as categorias. É um excelente recurso para apresentar dados qualitativos, como por exemplo respostas de questionários.

Tabela 3.1 Opinião dos brasileiros sobre determinado técnico de futebol

Respostas Frequência Frequência relativa (%)
Bom 1300 52
Regular 450 18
Ruim 125 5
N?o Sabe 625 25
Total 2500 100

3.3 Gráfico de setores

O gráfico de setores ou circular, também conhecido como “pizza” pode ser utilizado para representar a frequência de observações de diferentes categorias. O tamanho pode ser definido em números percentuais ou absolutos.

Em geral, um gráfico de setores não é um bom modo de representar dados porque o olho humano tem dificuldades para comparar áreas relativas com medidas lineares.

3.4 Gráfico de dispersão

Gráficos que mostram a dispersão de dados são úteis para identificar muitas características de dados. Além da dispersão, outliers, tendência entre outros aspectos.

3.5 Diagrama de caixa (Box-plot)

O box-plot é um gráfico que mostra a posição central, dispersão e simetria dos dados de uma amostra, comprimento de caudas e dados discrepantes. É utilizado para resumir as informações de um conjunto de dados.

São várias as informações mostradas em um boxplot. A caixa (box) corresponde aos dados observados. O traço horizontal destacado dentro do box corresponde à mediana. Os limites inferior e superior representam o primeiro (quartil inferior) e terceiro quartil (quartil superior), respectivamente. As linhas verticais pontilhadas são chamadas whiskers (bigodes) e indicam aproximadamente o valor de dois desvios-padrões. Todos os valores observados fora dos whiskers são plotados como pontos individuais e, em teoria, são outliers. São valores muito distantes, que estão além de 3 desvios quartílicos (quartil superior - quartil inferior).

O gráfico do exemplo 3.6 mostra que a distribuição dos dados não é exatamente simétrica em torno de um valor central porque as linhas abaixo e acima e as partes da caixa abaixo e acima da mediana não tem o mesmo comprimento.

Exercício 3.1

  1. A tabela 3.2 apresenta os pesos, em quilogramas, de uma equipe de 90 lutadores de sumô. Monte uma tabela de distribuição de frequências, construa os histogramas, o polígono de frequência e a ogiva, e interprete os resultados. Para os gráficos utilize o programa R.

Tabela 3.2 Peso (kg) de uma equipe de lutadores de sumô.

164,4 152,9 163,2 163,1 161,2 160,5 162,5 159,8 162,4 162,4
171,2 162,3 161,6 162,3 162,5 163,4 160,7 160,5 161,6 161,6
161,5 167,0 161,3 158,6 159,8 161,9 162,0 166,7 164,0 164,0
159,2 170,2 163,8 163,1 163,4 162,3 163,4 162,0 162,3 162,3
162,0 161,7 162,9 160,3 162,0 161,8 161,8 164,5 163,4 163,4
161,3 158,3 161,4 165,7 158,7 162,9 157,3 162,3 173,0 173,0
156,1 162,5 162,6 159,9 164,3 162,0 168,9 163,6 163,9 163,9
164,6 172,6 160,2 169,2 163,4 164,1 162,6 163,7 156,5 156,5
159,8 162,0 157,3 161,3 173,0 162,0 163,8 167,0 162,9 162,9
Fonte: Milone, 2006.
  1. A tabela abaixo apresenta o diâmetro interno (mm) de anéis de pistons. Monte uma tabela de distribuição de frequências, construa os histogramas, o polígono de frequência e a ogiva, e interprete os resultados. Utilize o programa R.

Tabela 3.3 Diâmetro interno (mm) de anéis de pistons.

74,030 74,002 74,019 73,992 74,008 73,995 73,992 74,001 74,011 74,004 73,988 74,024
74,021 74,005 74,002 74,002 73,996 73,993 74,015 74,009 73,992 74,007 74,015 73,989
74,014 74,009 73,994 73,997 73,985 73,993 73,995 74,006 73,994 74,000 74,005 73,985
74,003 73,993 74,015 73,988 74,008 73,995 74,009 74,005 74,004 73,998 74,000 73,990
74,007 73,995 73,994 73,998 73,994 73,995 73,990 74,004 74,000 74,007 74,000 73,996
73,983 74,002 73,998 73,997 74,012 74,006 73,967 73,994 74,000 73,984 74,012 74,014
73,998 73,999 74,007 74,000 73,984 74,005 73,998 73,996 73,994 74,012 73,986 74,005
74,007 74,006 74,010 74,018 74,003 74,000 73,984 74,002 74,003 74,005 73,997 74,000
74,010 74,013 74,020 74,003 73,988 74,001 74,009 74,005 73,996 74,004 73,999 73,990
74,006 74,009 74,010 73,989 73,990 74,009 74,014 74,015 73,993 74,000 74,010 73,982

Fonte: Montgomery, 2004

  1. A tabela 3.5 apresenta os dados de diâmetros de oríficio das nervuras do bordo de ataque da asa de um avião de transporte comercial. Esboce o diagrama de caixa (boxplot) e interprete, Use o programa R.

Tabela 3.4 Diâmetro dos orifícios (mm) da nervura do bordo de ataque da asa.

120,5 120,4 120,7
120,9 120,2 121,1
120,3 120,1 120,9
121,3 120,5 120,8
  1. No quadro abaixo estão organizados os resultados de 20 medições da espessura de uma peça (em mm), executadas com um micrômetro de precisão igual a 0,01 mm.
2,2 2,3 2,2 2,5 2,4 2,5 2,8 2,1 2,6 2,5
2,4 2,4 2,3 2,8 2,8 2,5 2,6 2,3 2,5 2,9

Pedem-se:

  1. Construir a tabela de distribuição de frequências;

  2. Construir o histograma e o polígono de frequências (programa R)

Capítulo 4. Medidas de Tendência Central

CD Material

Sumarização e apresentação de dados

Resumos e exibições de dados bem construídos são essenciais para um bom raciocínio estatístico, porque eles podem concentrar o engenheiro em características importantes dos dados ou fornecer informações sobre o tipo de modelo que deve ser utilizado na resolução do problema. O computador tornou-se uma ferramenta importante na apresentação e análise de dados. Embora muitas técnicas estatísticas requerem apenas uma calculadora de mão, muito tempo e esforço pode ser exigido por esta abordagem, e um computador irá executar as tarefas de forma muito mais eficiente.

Muitas vezes é útil descrever os dados numericamente. Por exemplo, podemos caracterizar a localização ou a tendência central dos dados pela média aritmética ordinária ou média.

4.1 Média amostral aritmética (sample mean)

É o centro de massa de um conjunto de dados, cuja regra de formação é dada por uma progresão aritmética. É representada por \(\mu \) quando se refere à população e por \(\bar{x}\), quando se refere à amostra.

DEFINIÇÃO

Se as n observações em uma amostra são denotadas por x1, x2,…, xn, a média amostral é:

\(\bar{x}\) = \(\frac{x_1+x_2+ ...+ x_n}{n}\) = \(\frac{\sum_{i=1}^n}{n}\)

Exemplo 4.1

Considere 8 observações coletadas de um protótipo de conectores de engenharia. As oito obervações são x1=12,6; x2=12,9; x3=13,4; x4=12,3; x5=13,6; x6=15,5; x7=12,6 e x8=13,1. A média amostral é:

\(\bar{x}\) = \(\frac{x_1+x_2+ ...+ x_8}{8}\) = \(\frac{\sum_{i=1}^8}{8}\)

\(=\frac{104}{8}\) = 13,0 gramas

A interpretação física da média amostral como medida de localização é mostrado no gráfico de pontos da figura 4. Note que a média \(\bar{x}\)=13,0 é o “ponto de equilíbrio”. Isto é, cada observação representa 1 grama de massa colocada sobre os pontos no eixo x; um fulcro localizado exatamente no ponto médio estabelece o balanço do sistema de pesos.

Figura 4.1 Média amostral como ponto de equilíbrio para um sistema de pesos

PROGRAMA R

A média pode ser obtida facilmente no R com o comando mean().

 #Resolvendo o exemplo 1.2 no programa R:

x<-c(12.6, 12.9, 13.4, 12.3, 13.6, 13.5, 12.6, 13.1) #criando um vetor
mean(x)                 #obtendo a média
## [1] 13

Em algumas situações é possível haver um ou mais dados ausentes (representados no R por “NA”) em seu conjunto de dados.

Neste caso, basta usar o argumento na.rm=T para que o R desconsidere os elementos NA no cálculo da média.

 #Exemplo com dados ausentes:

y<-c(12.6, 12.9, 13.4, NA, 13.6, 13.5) #criando um vetor
y                       # exbindo y
## [1] 12.6 12.9 13.4   NA 13.6 13.5
mean(y)                 #cálculo inapropriado
## [1] NA
mean(y, na.rm=T)        #cálculo correto
## [1] 13.2

Propriedades da média aritmética:

4.2 Médias aparadas:

Uma média aparada é calculada aparando-se certa porcentagem dos maiores e menores valores. Por exemplo, para calcular a média aparada de 10%, deve-se eliminar 10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valores remanescentes.

4.3 Média aritmética para dados agrupados em Tabela de frequência

\(\bar{x}\) = \(\frac{x_1.f_1+x_2.f_2+ ...+ x_n.f_n}{n}\) = \(\frac{\sum_{i=1}^n{x_i.f_i}}{n}\)

Em que n = \(\sum{f}\)

Exemplo 4.2 Foram medidas (em mm), as espessuras de 30 chapas produzidas por uma máquina, obtendo-se a distribuição de frequências mostrada na tabela 4.1. Calcule a espessura média.

Tabela 4.1 Espessura (mm) e número de chapas produzidas.

x f x.f
56 6
57 2
58 9
59 5
60 3
61 1
62 4
Total

\(\bar{x}\) = \(\frac{\sum_{i=1}^n{x_i.f_i}}{n}\) =

Observação: quando os dados são fornecidos por classe de frequências, utilizamos a mesma fómula, sendo xi, os pontos médios das classes.

Exemplo 4.3 Calcular a média da distribuição de frequências indicada na tabela 4.2,

Tabela 4.3 Distribuição de frequências

Classes Ponto médio f x.f
30\(\leq\) x < 33 31,5 3 94,5
33\(\leq\) x < 36 5
36\(\leq\) x < 39 2
39\(\leq\) x < 42 4
42\(\leq\) x < 45 6
45\(\leq\) x < 48 46,5 7 325,5
48\(\leq\) x < 51 3
Total

4.4 Mediana da amostra

A mediana (md) é um valor que caracteriza o centro da distribuição de frequências. É o valor que ocupa a posição central do conjunto dos dados ordenados.

Se o conjunto de dados é impar, existe um único valor na posição central. Esse valor é a mediana. Por exemplo, dados:

3,5,9,12,14

A mediana é 9.

Se o número de dados é par, existem dois valores na posição central. Então a mediana é a média desses dois valores. Por exemplo, dados:

3,5,7,9

A mediana é 6, isto é a média de 5 e 7.

Observação: quando ocorrem dados discrepantes (valores muito maiores ou menores do que os demais), o mais correto é usar a mediana para descrever a tendência central dos dados.

4.5 Moda da amostra

A moda (mo) é uma medida de tendência central, indicando a região das máximas frequências. É uma medida indicativa de concentração. Regra geral, a moda aponta o valor de maior frequência simples - absoluta ou relativa - ou o ponto isolado de maior peso no conjunto de dados.

Por suas propriedades, a moda é mais fortemente associada à VARIÁVEIS QUALITATIVAS.

A moda, por ser o ponto de maior concentração pontual, independe da ordenação dos elementos do conjunto X, de seus extremos e de qualquer valor intermediário.

Para sua obtenção, basta agrupar os dados em uma distribuição de frequência simples e tomar o valor de maior frequência.

Exemplo 4.4 Determinando a moda:

São dados: 0, 0. 2, 5, 3, 7, 4, 7, 8, 7, 9, 6

A moda é 7, porque é o valor que ocorre o maior número de vezes.

Um conjunto de dados pode ter mais que um valor modal. Dizemos então, bimodal (2 modal) ou trimodal (3 modas).

A moda é muito informativa quando o conjunto de dados é grande, mas se o conjunto de dados for pequenmo (20 ou 30 observações), a moda não tem, em geral, sentido prático.

Exemplo 4.5 Determinar a moda de: X={85,82,97,88,89,97,89,93,88,97,96,97,98,93,97}

x 82 85 88 89 93 96 97 98
f 1 1 2 2 2 1 5 1

Portanto, \(mo = 97\)

4.6 Escore padrão

Outra medida de posição é o escore padrão ou escore z.

DEFINIÇÂO

O escore padrão, ou escore z, representa o número de desvios padrão no qual está um valor dado x a partir da média m. Para obter o escore z de um valor dado, use a seguinte fórmula:

z = \(\frac{valor-média}{desvio-padrão}\)=\(\frac{x-\mu}{\sigma}\)

Um escore z pode ser negativo, positivo ou zero. Se z é negativo, o valor x está abaixo da média. Se z é positivo, o valor x correpondente está acima da média. E se z = 0, o valor x correspondente é igual a média.

Exemplo 4.6

O ponto de fusão do ouro é de 1060 graus Celsius. Isto é, evidentemente, um valor médio. O erro experimental inevitável, causa uma variação deste valor para mais ou para menos sempre que um teste é realizado. A melhor medida destas variações é o desvio padrão (s). Suponha que este foi calculado a partir de uma grande série de testes, e verificou-se ser de 3 graus Celsius.

Agora imagine que você está analisando um metal desconhecido, e um teste mostra que seu ponto de fusão é de 1072 graus Celsius. É provável que este metal desconhecido seja ouro? Em outras palavras, qual é a probabilidade de que uma amostra de ouro que apresenta um ponto de fusão médio de 1072 graus Celsius seja ouro.

Solução Vamos converter a observação x, 1072 em z-escore.

\(z = \frac{1072-1060}{3} = \frac{12}{3} = 4\)

Portanto, a observação de 1072 está 4 desvios padrões afastada da média. A probabilidade de uma observação posicionada à 4 desvios padrões de sua média é muito pequena, virtualmente zero; 99,8% da distribuição está dentro de 3 desvios padrões. Portanto, é muito improvável que a amostra em análise é de fato ouro.

Exercício 4.1

  1. Foram registradas as seguintes medidas para o tempo de secagem, em horas, de certa marca de tinta látex:
3,4 2,5 4,8 2,9 3,6
2,8 3,3 5,6 3,7 2,8
4,4 4,0 5,2 3,0 4,8

Suponha que as medidas sejam uma amostra aleatória simples.

  1. Qual o o tamanho da amostra acima?
  2. Calcule a média amostral para esse conjunto de dados.
  3. Calcule a mediana amostral.
  4. Faça um diagrama de pontos destes dados (Programa R).
  5. Calcule a média aparada de 20% para o conjunto de dados acima.
  1. Na tabela 4.3 apresenta-se a distribuição de frequências, que se refere ao número de defeitos encontrados em placas de circuito integrado. Calcule a média.
Defeitos Frequência
0 30
1 25
2 10
3 5
4 2
  1. Certo polímero é usado em sistemas de evacuação para aeronave. É importante que o polímero seja resistente ao processo de envelhecimento. Vinte amostras deles foram usados no experimento. Dez foram escolhidos aleatoriamente para ser exposto ao processo de aceleração de envelhecimento que envolve exposição a altas temperaturas por dez dias. Foram tomadas as medidas de resistência à tensão dos amostras, e os seguintes dados de resistência à tensão, em psi, foram registrados:

Sem envelhecimento:

227 222 218 217 225
218 216 229 228 221

Com envelhecimento:

219 214 215 211 209
218 203 204 201 205
  1. Faça um boxplot para cada conjunto de dados.
  2. Analisando os gráficos, podemos dizer que o processo de envelhecimento tem efeito na resistência à tensão desse polímero? Explique
  3. Calcule a média amostral da resistência à tensão nas duas amostras.
  4. Calcule a mediana de ambas. Discuta a similaridade ou a falta dela entre a média e a mediana de cada grupo.

Exercícios 5.1

  1. Uma indústria de pneus quer determinar o diâmetro interno de certa graduação de pneu. Idealmente, o diâmetro deveria ser de 570 mm. Os dados seguem abaixo:

572, 572, 573, 568, 569, 575, 565, 570

+a. Encontre a média e mediana amostrais. +b. Encontre a variância, o desvio-padrão, o coeficiente de variação e a amplitude amostral. +c. Usando as estatísticas calculadas em (a) e (b), comente sobre a qualidade dos pneus.

  1. Um estudo dos efeitos do tabagismo nos padrões de sono é conduzido. A medida observada é o tempo, em minutos, que se leva para dormir. Os dados obtidos são:

Fumantes:

69,3 56,0 22,1 47,6
53,2 48,1 52,7 34,4
60,2 43,8 23,2 13,8

Não fumantes:

28,6 25,1 26,4 34,9
29,8 28,4 38,5 30,2
30,6 31,8 41,6 21,1
36,0 37,9 13,9

+a. Encontre a média amostral em cada grupo. +b. Encontre o desvio-padrão amostral e o coeficiente de variação em cada grupo. +c. Faça um diagrama de dispersão e um boxplot dos dois conjuntos de dados. +d. Comente o tipo de impacto que o fumo aparenta ter no tempo que se leva para dormir.

  1. As seguintes pontuações representam as notas no exame final de um curso elementar de estatística:
23 60 79 32 57 74 52 70 82
36 80 77 81 95 41 65 92 85
55 76 52 10 64 75 78 25 80
98 81 67 41 71 83 54 64 72
88 62 74 43 60 78 89 76 84
48 84 90 15 79 34 67 17 82
69 74 63 80 85 61
  1. Uma determinada marca de pneus de carro tem vida média útil de 35.000 km e desvio padrão de 2.250 km. As durações de 3 pneus selecionados ao acaso são de 34000, 37000 e 31000 milhas. Encontre o escore z que corresponda a cada duração. De acordo com o escore z, alguma das durações poderia ser considerada incomum?

Capítulo 6. Introdução à Probabilidade

Conceitos básicos

O conceito de probabilidade nos ajuda a medir a chance (e avaliar o impacto) de resultados ou desfechos estocásticos, ou seja, desconhecidos previamente. Quando conhecemos previamente os resultados, dizemos que são determinísticos.

Compreender noções básicas sobre como medir a incerteza e então reduzi-lá, se possível, é uma habilidade fundamental.

O termo “aleatório” significa “de resultado incerto, devido à intervenção do acaso”, e tem origem no vocábulo latino “alea”, que designava os dados usados em jogos de azar (recorde o Júlio Cesar nos livros de Asterix a recitar-se “Alea jacta est”, “os dados estão lançados”). A probabilidade é a delimitação matemática do acaso.

Experimento probabilístico ou aleatório é uma ação ou um ensaio por meio do qual resultados específicos (contagens, medidas ou respostas) são obtidos. A consequência de um único ensaio em um experimento probabilístico é um resultado (ponto amostral). O conjunto de todos os resultados possíveis de um experimento probabilístico é o espaço amostral. Um evento, consiste em um ou mais resultados e é um subconjunto do espaço amostral (S). Em uma experiência aleatória não se sabe exatamente o resultado que se virá a observar, mas conhece-se o universo (S) dos resultados possíveis.

Exemplo:

Diagrama de árvore . . . . . . .

\(S_{3}\) = {c1,c2,c3,c4,c5,c6,k1,k2,k3,k4,k5,k6}

6.1 Probabilidade de um evento

A probabilidade de um evento A é a soma das probabilidades de todos os pontos amostrais em A. Então,

\(0 \leq P(A) \leq 1\), \(P(\phi)=0\) e P(S)=1.

Além disso, se \(A_1\), \(A_2\), \(A_3\), … é uma sequência de eventos mutuamente exclusivos, então

P(\(A_1 \cup A_2 \cup A_3\)) = \(P(A_1) + P(A_2) + P(A_3)\) + … .

A probabilidade de um evento “A” ocorrer é escrita como P(A)- lê-se “a probabilidade do evento A”.

6.2 Tipos de probabilidades

Há 3 tipos de probabilidades: Clássica, empírica e subjetiva.

Probabilidade clássica ou teórica É usada quando cada resultado no espaço amostral tem a mesma probabilidade de ocorrer.

P(E) = \(\frac{Número\ de\ resultados\ em\ E}{Número\ total\ de\ resultados} = \frac{n(E)}{n(S)}\)

Exemplo 6.1

No lançamento de um dado honesto de 6 faces, qual a probabilidade de ocorre ponto par?

Solução S={1,2,3,4,5,6} = n(S) = 6

E={2,4,6} = n(E) = 3

\(P(E) = \frac{3}{6} = \frac{1}{2}\)

Exemplo 6.2

Uma sala de aula de engenharia consiste em 25 estudantes de engenharia industrial, 10 de mecânica, 10 de elétrica e 8 de enhenharia civil. Se uma pessoa é selecionada aleatoriamente pelo instrutor para responder a uma pergunta, determine a probabilidade de que o estudante escolhido seja (a) um estudante de engenharia industrial, (b)um estudante de engenharia civil ou elétrica.

Solução Os estudantes de engenharia industrial, mecânica, elétrica e civil são designados por I, M, E e C, repectivamente. O número total de estudantes na classe é 53.

  1. \(P(I) = \frac{25}{53}\)

  2. Já que 18 dos 53 estudantes são e engenharia elétrica ou civil, segue-se que

    \(P(C \cup E) = \frac{18}{53}\)

Probabilidade empírica (ou estatística): Baseia-se em observações obtidas de experimentos probabilísticos. A probabilidade empírica de um evento “E” é a frequência relativa desse evento. As probabilidades são obtidas após a realização dos experimentos e a ocorrência dos eventos, razão pela qual é denominada a posteriori.

O princípio básico do método das frequências é que os resultados obtidos de um grande número de experimentos são representativos e servem de estimativa do futuro. A base de sustentação dessa hipótese é a lei dos grandes números.

P(E) = \(\frac{Freq.\ do\ Evento\ E}{Freq.\ total} = \frac{f(E)}{\sum f(n)}\)

Exemplo 6.3

Uma amostra aleatória de 200 adultos é classificada pelo seu sexo e nível e instrução.

Nível de instrução Sexo masculino Sexo feminino total
Elementar 38 45
Secundário 28 50
Universitário 22 17
total

Se uma pessoa desse grupo for escolhida aleatoriamente, determine a probabilidade de que:

Solução

\(P(A)= \frac{28}{88} = \frac{14}{39}\)

\(P(B)= \frac{95}{112}\)

Probabilidade subjetiva

É um valor entre 0 e 1, que reoresenta um ponto de vista pessoal sobre a possibilidade de ocorrer determinado evento.

6.3 Propriedades

6.4 Probabilidade condicionada e independência

Muitas vezes, há interesse em calcular a probabilidade de ocorrência de um evento A, dada a ocorrência de um evento B. Em outras palavras, queemos calcular a probabilidade de ocorrência de A condicionada à ocorrência prévia de B. Essa probabilidade é representada por P(A|B) - lê-se “probabilidade de A dado B”.

Sejam A e B eventos quaisquer, sendo P(B) > 0. Definimos a probabilidade condicional de A dado B por:

P(A|B) = \(\frac{P(A \cap B)}{P(B)} = \frac{n(A\cap B)}{n(B)}\)

Note que no denominador temos a probabilidade do evento que supostamente aconteceu, mas calculada na condições originais do experimento.

Exemplo 6.4 (probabilidade condicionada)

A tabela mostra os resultados de um estudo com o QI de 102 crianças e a presença de um gene específico nelas. Obtenha a probabilidade de uma criança ter QI alto, dado que ela tenha o gene.

Gene presente Gene Ausente Total
QI alto 33 19 52
QI normal 39 11 50
Total 72 30 102

A = evento presença do gene

B = evento ter QI alto

\(B \cap A\) = é o evento em que a criança tem QI alto dado que tem o gene.

\(P(B \cap A) = n (B \cap A) = 33\)

P(A) = n(A) = 72

P(B|A) = \(\frac{P(A \cap B)}{P(B)} = \frac{33}{57}\) \(\cong 0,458\)

Eventos independentes

DEFINIÇÃO

Dois eventos A e B são independentes se e somente se

P(B|A) = P(B) ou P(A|B) = P(A),

desde que as probabilidades condicionais existam. Caso contrário, A e B serão dependentes

Por independência de eventos queremos dizer que se um evento ocorre com uma certa probabilidade, um segundo evento do mesmo tipo ocorrerá com a mesma probabilidade, não sendo afetado pelo fato de que o primeiro evento se tenha ou não realizado.

6.5 Regras multiplicativas

Se em um experimento ambos os eventos A e B podem ocorrer, então

\(P(A \cap B)\) = P(A).P(B|A), desde que P(A) > 0

Dois eventos A e B são independentes se e somente se:

P(A|B) = P(A) P(B|A) = P(B)

Então: \(P(A\cap B)\) = P(A).P(B)

Portanto, para obter a probabilidade de que ambos os eventos ocorrerão, simplesmente, determina-se o produto de suas probabilidades individuais.

Se os eventos A e B são independentes, a regra pode ser simplificada para

P(A e B) = P(A).P(B). Essa regra pode ser estendida para qualquer número de eventos independentes.

Exemplo 6.5 (Evento independente)

Suponha que temos uma caixa com 20 fusíveis, dentre os quais cinco apresentam defeito. Se dois fusíveis são selecionados aleatoriamente e removidos da caixa, sucessivamente, sem reposição do primeiro, qual é a probabilidade de que ambos apresentem defeito?

Solução. A = evento no qual o primeiro fusível apresenta com defeito B = evento no qual o segundo apresenta com defeito

\(A \cap B\) = é o evento em que A ocorre, e então B ocorre após A ter ocorrido.

\(P(A) = \frac{5}{20} = \frac{1}{4}\)

\(P(B) = \frac{4}{19}\)

\(P(A \cap B)\) = P(A).P(B|A) = \(\frac{1}{4}\).\(\frac{4}{19}\) = \(\frac{1}{19}\)

Exemplo 6.6

A probabilidade de um salmão atravessar com sucesso uma barragem é de 0,85. Obtenha a probabilidade de 3 salmões atravessarem com sucesso a barragem.

Solução

A probabilidade de cada salmão conseguir atravessar a barragem é de 0,85. A chance de um salmão ter sucesso é independente do resultado dos outros,

logo:

P(3 salmões atravessarem) = 0,85. 0.85. 0,85 \(\cong\) 0,614

Exemplo 6.7

Obtenha a probabilidade de nenhum dos três salmões conseguir atravessar a barragem.

Solução

P(sucesso) = 0,85

P(fracasso) = 1-0,85 = 0,15

P(nenhum dos três) = P(três fracassarem) = 0,15. 0,15. 0,15 \(\cong\) 0,003

Exemplo 6.8

Obtenha a probabilidade de pelo menos um dos três salmões ter sucesso de atravessar a barragem.

A frase “pelo menos um” significa “um ou mais”. O complemento do evento “pelo menos um conseguir” é o evento “ nenhum conseguir”. Usando a regra dos complementos:

P(pelo menos um conseguir) = 1- P(nenhum conseguir)

P(pelo menos um conseguir) = 1-0,003 \(\cong\) 0,997

Exercício 6.1 (Probabilidade)

  1. Se P(A) = 0,25 e \(P(A \cup B)\) = 0,85. Determine P(B) sabendo que os eventos são:
  1. Em uma caixa com onze peças, quatro delas são defeituosa. São selecionadas duas peças ao acaso (uma após a outra), sem reposição.
  1. Obtenha a probabilidade de as duas peças serem defeituosas?

  2. Obtenha a probabilidade de ambas as peças não serem defeituosas?

  3. Obtenha a probabilidade de pelo menos uma peça ser defeituosa?

  1. As probabilidades de 3 jogadores marcarem um gol cobrando um pênalti são respectivamente: \(\frac{1}{3}\); \(\frac{1}{4}\); e \(\frac{1}{5}\). sabendo que cada jogador baterá um único pênalti, qual a probabilidade de todos errarem?

  2. Em Um círculo de raio R é inscrito um quadrado de lado l. encontre a probabilidade de que um ponto lançado aleatoriamente no interior do círculo, se encontre também no interior do quadrado, supondo que a probabilidade de queda dentro de qualquer uma das partes do círculo dependa apenas da área dessa parte e seja proporcional à mesma.

dica: use a fórmula da probabilidade clássica, P(E) = n(E)/n(S)

6.5 Distribuições de probabilidade

O histograma é usado para descrever dados de uma amostra. Uma amostra é um conjunto de medidas selecionado de uma população maior, por exemplo, os 125 diâmetros dos anéis de pistons da tabela 3.3 são uma amostra dos diâmetros selecionada do processo de produção. A população neste exemplo é o conjunto de todos os anéis de pistons produzidos por este processo.

Uma distribuição de probabilidade é um modelo matemático que relaciona o valor da variável com a probabilidade de ocorrência daquele valor na população. Em outras palavras, podemos visualizar o diâmetro dos anéis de pistons como uma variável aleatória, porque ele assume diferentes valores na população de acordo com algum mecânismo aleatório, e, assim a dstribuição de probabilidade dos diâmetros dos anéis descreve a probabilidade de ocorrência de qualquer valor do diâmetro na população. Há dois tipos de distribuição de probabilidade.

DEFINIÇÃO

1. Distribuições continuas. Quando a variável sendo medida é expressa em uma escala contínua; sua distribuição de probabilidade é chamada distribuição contínua. A distribuição de probabilidade dos diâmetros dos anéis de pistons é contínua.

2. Distribuições discretas. Quando o parâmetro sendo medido só pode assumir certos valores, tais como os inteiros 0,1,2,…, a distribuição de probabilidade é chamada distribuição discreta. Por exemplo, a distribuição do número de defeitos em placas de circuito seria uma variável discreta.

A probabilidade de uma variável aleatória x assumir o valor \(x_i\) é indicada por:

\(P(x=x_i) = p(x_i)\)

A aparência de uma distribuição contínua é a de uma curva suave, com a área sob a curva sendo igual à probabilidade, de modo que a probabilidade de x está no intervalo entre a e b é escrita como:

\(P(a \leq x \leq b) = \int_{a}^{b}f(x)dx\)

Figura 6.1 Distribuição de probabilidade contínua.

Capítulo 7. Distribuição de Probabilidade Contínua - Distribuição Normal

A distribuição normal é, provavelmente, a mais importante distribuição, tanto na teoria quanto na prática da estatística. Se x é uma variável aleatória normal, então a distribuição de probabilidade de x é definida como segue.

DEFINIÇÃO

A distribuição normal ou função de densidade normal é

\(f(x) = \frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}\) \({-\infty} < x < {\infty}\)

aonde f(x) indica a altura da ordenada da curva, que representa a densidade dos dados; é a variável dependente, sendo função da variável independente x. Existe na equação anterior duas constantes: \(\pi\), que como sabemos é 3,14159; a outra constante é e, a base dos logaritmos naturais, cujo valor aproximado é 2,71828. Existem dois parâmetros na função de densidade normal: a média paramétrica \(\mu\) e o desvio padrão paramétrico \(\sigma\), que determina a forma e a localização da distribuição.

A média da distribuição normal é \(\mu\) (\({-\infty} < \mu < {\infty}\)) e a variância é \(\sigma^2 > 0\)

A distribuição normal é tão usada que frequentemente usamos uma notação especial, \(*x* \sim N (\mu, \sigma^2)\)

As probabilidades de eventos associados a uma variável aleatória contínua X podem ser calculadas através de uma função densidade de probabilidade f, que deve satisfazer:

Se A = [a,b], então P(A) = \(\int_{a}^{b}f(x)dx\)

Não existe uma única distribuição normal, como poderia aparecer, mas existe uma infinidade de tais curvas, dado que os parâmetros podem tomar um número infinito de valores (Figura 7.1 e 7.2).

Quando uma variável aleatória x tem uma distribuição normal de probabilidade com parâmetros \(\mu\) e \(\sigma\); e precisamos calcular a probabilidade de x está entre dois valores a e b, ou seja para calcularmos o valor de \(P(a \leq x \leq b)\), precisamos calcular:

\(\int_{a}^{b}\frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} dx\)

Nenhuma das técnicas comuns de integração pode ser usada para avaliar a expressão acima. Entretanto, usando a mudança de variável \(*z* = \frac{x-\mu}{\sigma}\)

O cálculo pode ser feito independetemente de \(\mu\) e \({\sigma}^2\).

7.1 Distribuição normal padrão

A distribuição normal com parâmetros \(\mu = 0\) e \(\sigma = 1\) é chamada de distribuição normal padrão. A escala horizontal do gráfico da distribuição normal padrão corresponde aos escores de z. Na seção 4.6, você aprendeu que um escore z é uma medida de posição que indica o número de desvios padrão de um valor a partir da média. Você pode transformar um valor x em um escore z usando a seguinte fórmula:

\(*z* = \frac{valor-média}{desvio padrão} = \frac{x-\mu}{\sigma}\)

A variável aleatória que tem uma distribuição normal padrão é chamada variável normal padrão e será indicada por z. A função distribuição de probabilidade de z é:

\(f(z;0,1)=\frac{1}{\sqrt{2\pi}}\).\(e^{-\frac{x^2}{2}}\)

A curva característica de uma distribuição normal é simétrica em relação à média. Portanto, a média, a mediana e a moda estão todas sobre o mesmo ponto. As seguintes porcentagens dos dados em uma distribuição normal se extende dentro dos seguintes limítes:

\(\mu \pm \sigma\) contém 68,26% dos dados

\(\mu \pm 2\sigma\) contém 95,44% dos dados

\(\mu \pm 3\sigma\) contém 99,73% dos dados

\(\mu \pm 4\sigma\) contém 99,99% dos dados

Inversamente:

50% dos dados cai dentro dos limítes \(\mu \pm 0,674\sigma\)

95% dos dados cai dentro dos limítes \(\mu \pm 1,960\sigma\)

99% dos dados cai dentro dos limítes \(\mu \pm 2,576\sigma\)

Veja a figura 7.3

figura7.3Image

figura7.3Image

Figura 7.3 distribuição dos percentuais em função do número de desvios-padrão.

Propriedades da distribuição Normal padrão

Figura 7.3 Distribuição normal padrão \((\mu=0; \sigma=1)\)

Por causa da importância das áreas sob a curva normal padrão, tabelas dessas áreas foram construídas (Tabela 7.1). Os valores no corpo da tabela, representam a área sob a curva entre 0 e um valor especificado de z.

Tabela 7.1 Áreas (probabilidades)sob a curva normal padrão.

Segunda casa decimal de z
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0 0,004 0,008 0,012 0,016 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,091 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,148 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,17 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,195 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,219 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,258 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,291 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,334 0,3365 0,3389
1 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,377 0,379 0,381 0,383
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,398 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,437 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,475 0,4756 0,4761 0,4767
2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,483 0,4834 0,4838 0,4842 0,4846 0,485 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,489
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,492 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,494 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,496 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,497 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,498 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,499 0,499

Observação: A área é dada do zero até “z”.

7.2 Usando a tabela normal padrão

Exemplo 7.1 - Determine a área acumulada que corresponde ao escore z de 1,15.

Solução Encontre 1,1 na coluna à esquerda e então movendo pela linha até a coluna sob 0,05. A interseção da linha com a coluna corresponde ao número 0,3749. Assim, a área de 0 até 1,15 é 0,3749.

Observe que este valor corresponde a solução da integral, com \(\sigma\)=1 e \(\mu\)=0:

\(\int_{0}^{1.15}\frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} dx\) =

fn <- function(x) {
     fx <- dnorm(x,0,1)
     return(fx)
}
integrate(fn, 0, 1.15)
## 0.3749281 with absolute error < 4.2e-15

Exemplo 7.2 - Determine a área acumulada que corresponde ao escore z de -0,24.

Encontre 0,2 na coluna à esquerda e movendo-se então pela linha até a coluna sob 0,04. O número naquela linha e coluna é 0,0948. Como a curva é simétrica, a área que corresponde a z=-0,24 é 0,0948. Observe que não existe probabilidade negativa.

Exemplo 7.3 Determine a área sob a curva normal padrão à direita de z = 2,37.

Solução

A área total sob a curva é 1; e a curva é simétrica com relação a 0. Portanto, a área total à direita de z = 0 é 0,5. Da tabela vemos que a área entre 0 e 2,37 é 0,4911. Então a área à direita de z=2,37 é: 0,500 - 0,4911 = 0,0089.

fn <- function(x) {
     fx <- dnorm(x,0,1)
     return(fx)
}
integrate(fn, 2.37, +Inf)
## 0.008894043 with absolute error < 7.9e-07

Exemplo 7.4 - Determine a área sob a curva normal padrão entre z = 0,35 e z = 1,47.

Solução

Pela tabela, a área entre z = 0 e z = 0,35 é 0,1368 e a área entre z=0 e z=1,47 é 0,4292. Portanto, a área entre z=0,35 e z=1,47 é igual á diferença entre as duas áreas, ou seja:

Área = 0,4292 - 0,1368 = 0,2924

fn <- function(x) {
     fx <- dnorm(x,0,1)
     return(fx)
}
integrate(fn, 0.35, 1.47)
## 0.2923885 with absolute error < 3.2e-15

ORIENTAÇÕES GERAIS

  1. Esboce a curva normal padrão e hachure a área apropriada sob a curva.

  2. Obtenha a área por meio dos procedimentos a seguir para cada caso mostrado.

Exercício 7.1 (Utilização da Tabela Normal padrão)

  1. Qual é a média da distribuição normal padrão? Qual é o desvio da distribuição normal padrão?

  2. Descreva como você pode transformar uma distribuição normal qualquer em uma distribuição normal padrão?

  3. Nos exercícios a-l, determine a área indicada sob a curva normal padrão.

  1. Nos exercícios a-j, determine a probabilidade indicada usando a distribuição normal padrão.

7.1 Distribuições Normais: determinando probabilidades

Se uma variável aleatória x é distribuída normalmente, é possível obter a probabilidade de que x caia em um determinado intervalo calculando a área sob a curva normal para o intervalo dado.

Para determinar a área sob qualquer curva normal , é preciso converter os limites superior e inferior do intervalo para o escore z. Depois, é aplicada a distribuição normal padrão para obter a área.

Considere, uma curva normal com \(\mu=500\) e \(\sigma=100\), conforme a primeira figura. O valor de x um desvio padrão acima da média é \(\mu + \sigma = 500 + 100 = 600\). Considere então a curva normal padrão exibida na segunda figura. O valor de z um desvio padrão acima da média é \(\mu + \sigma = 0 + 1 = 1\). Uma vex que o escore z de 1 corresponde a um valor *x de 600 e as áreas não são modificadas com uma transformação para a curva normal padrão, as áreas sombreadas nos dois gráficos são iguais.

Determinação de áreas sob uma curva normal com parâmetros \(\mu\) e \(\sigma\)

Exemplo 7.4 - Determine a área sob a curva normal com parâmetros \(\mu=100\) e \(\mu=16\) que se encontra à direita de 120.

Solução

Determinação de z:

x=120

\(z = \frac{x - \mu}{\sigma} = \frac{120-100}{16}\) = 1,25

área entre 0 e 1,25 = 0,3944

área final = 0,500 - 0,3944 = 0,1056

Exemplo 7.5

Certo tipo de armazenador de bateria dura, em média, três anos, com desvio-padrão de 0,5 ano. Assumindo que a vida dos armazenadores é distribuída normalmente, encontre a probabilidade de que certo armazenador dure pelo menos 2,3 anos.

Solução: Primeiro, construa o diagrama, mostrando a distribuição da vida do acumulador e a área desejada.

Para determinar P(x < 2,3), precisamos avaliar a área abaixo da curva normal à esquerda de 2,3. Para isso, vamos determinar o valor de z correspondente:

\(z = \frac{2,3 - 3}{0,5}\) = -1,4

Então, usando a Tabela Normal, temos

P(X < 2,3) = P(z < -1,4)

= 0,5 - P(-1,4 < z < 0) = 0,5 - 0,4192

= 0,0808 ou 8,08%.

Portanto, estimamos que as chances do armazenador durar pelo menos 2,3 anos é de 8,08%.

Exemplo 7.6

Uma indústria elétrica fabrica lâmpadas que têm vida útil, antes de queimarem, normalmente distribuída com média igual a 800 horas e desvio-padrão de 40 horas. Encontre a probabilidade de que uma lâmpada queime entre 778 e 834 horas.

Solução: A distribuição da vida útil das lâmpadas é ilustrada na figura abaixo.

Os valores de z correspondentes a \(x_1\) = 778 e \(x_2\) = 834 são:

\(z_1 = \frac{778-899}{40}\)= -0,55

\(z_2 = \frac{834-800}{40}\)= 0,85

Então,

P(778 < x < 834) = P(-0,55 < z < 0,85) =

P(0 < z < 0,85)+P(-0,55 < z < 0) =

0,3023+0,2088 = 0,5111 ou 51,11%

Portanto, a probabilidade de uma lâmpada queime entre 778 e 834 horas é de 51,1%.

Exemplo 7.7 Em um processo industrial, o diâmetro de um rolamento é uma parte importante do processo. O comprador determina que as especificações para o diâmetro sejam 3,0 \(\pm\) 0,01 cm. A consequência é que nenhuma peça fora dessas especificações será aceita. Sabe-se que, no processo, o diâmetro do rolamento tem distribuição normal com média \(\mu\) = 3,0 e desvio-padrão \(\sigma\)=0,05. Em média, quantos rolamentos fabricados serão inutilizados?

Solução: A distribuição dos diâmetros é ilustrada na figura abaixo.

Os valores correspondentes aos limites das especificações são \(x_1\) = 2,99 e \(x_2\) = 3,01. Os valores de z correspondentes são

\(z_1 = \frac{2,99-3,0}{0,005}=-2,0\)

\(z_2 = \frac{3,01-3,0}{0,005}=+2,0\)

Assim,

P(2,99 < x < 3,01) = P(-2,0 < z < +2,0)

= [0,5-P(-2,0 < z < 0)]+[0,5-P(0 < z < +2,0)] = [0,5-0,4772]+[0,5-0,4772] = 0,0456 ou 4,56%

Portanto, como resultado, antecipamos, que em média, 4,56% dos rolamentos fabricados serão inutilizados.

Exemplo 7.8

Certa máquina fabrica resistores elétricos com uma resistência média de 40 ohms e desvio-padrão de 2 0hms. Supondo que a resistência siga uma distribuição normal e que pode ser medida para qualquer grau de acuidade, qual é a porcentagem de resistores que terão uma resistência excedendo 43 ohms?

Solução: Devemos encontrar a área à direita de x=43. Isso pode ser feito transformando-se x no valor de z correspondente, e obtendo a referida área.

\(z = \frac{43-40}{2}\) = 1,5

Portanto,

P(x>43)= P(z>1,5) = 0,5 - P(0

Precisamos de um valor de z que deixe uma área de 0.5 - 0,45 = 0,05 à esquerda. Da Tabela Normal, descobrimos que P(0 < z < 0,05) = 0,13. Então o valor desejado de z é -0,13. Portanto,

x = (6).(-0,13) + 40 = 39,22.

x = (6).(1,08)+40 = 46,48.

Exercício 7.2 (Curvas Normais)

  1. Os pães de centeio distribuídos por certa padaria para as lojas têm comprimento médio de 30 cm e desvio-padrão de 2 cm. Assumindo que os comprimentos são distribuídos normalmente, qual é a porcentagem de pães que
  1. O diâmetro interno de um anel de piston é distribuído normalmente com média de 10 cm e desvio-padrão de 0,03 cm.
  1. A força de tensão do papel usado na confecção de sacos para supermercados é uma característica importante de qualidade. Sabe-se que a força-digamos, x-é normalmente distribuída com média \(\mu=40 lb/pol^2\) e dsvio-padrão \(\sigma = 2 lb/pol^2\), denotada por x \(\sim\) N(40,\(2^2\)). Um comprador dos sacos exige que eles tenham pelo menos 35 \(lb/pol^2\). Qual a probabilidade de que um saco confeccionado com este papel atenda tal especificação?

  2. A força de tensão de uma parte metálica é normalmente distribuída com média de 40 lb e desvio padrão de 8 lb. Se 50000 partessão produzidas, quantas não atenderão à especificação limite mínima de 34 lb? Quantas terão força de tensão superior a 48 lb?

  3. A voltagem de saída de uma fonte de energia é normalmente distribuída com média 12 V e desvio-padrão de 0,05 V. Se as especificações inferior e superior para a voltagem são 11,90 V e 12,10 V, respectivamente, qual é a probabilidade de uma dessas fontes de energia, selecionada aleatoriamente, atender as especificações sobre a voltagem?

  4. Suponha que x seja normalmente distribuída com média \(\mu\) e desvio-padrão igual a 4; dado que a probabilidade de x ser menor que 32 é 0,0228, ache o valor de \(\mu\).

  5. Um ônibus chega a cada dez minutos em um ponto de parada. Assume-se que o tempo de espera para um indivíduo em particular é uma variável aleatória com distribuição uniforme contínua.

  1. Alunos de estatística de uma universidade tem notas que seguem uma distribuição normal, com média 6,5 e desvio-padrão igual a 2,0. Sabendo que a média para aprovação na disciplina deve ser maior ou igual a 7,0. Qual é a probabilidade de um aluno ser reprovado?

Capítulo 8. Distribuição Binomial

Considere um processo consistindo de uma sequência de n testes independentes. Por teste independentes queremos dizer que o resultado de cada teste não depende, de qualquer maneira, dos resultados de testes anteriores. Quando o resultado de cada teste é ou sucesso ou falha, o processo é chamado de processo de Bernoulli. Se a probabilidade de “sucesso” em qualquer teste - digamos, p-é constante, então o número de sucessos x em n provas de Bernoulli independentes tem distribuição binomial com parâmetros n e p, é definida como segue:

DEFINIÇÃO

A distribuição binomial com parâmetros n\(\geq\) 0 e \(0 \leq p \leq1\) é:

\(p(x) = {n \choose x}p^x(1-p)^{n-x} x=0,1,...,n\)

A média e a variância da distribuição binomial sâo:

\(\mu = n.p\)

\(\sigma^2 = n.p(1-p)\)

Note que, quando n=3 e p=1/4, a distribuição de probabilidade de x, o número de itens defeituosos, pode ser descrita como

\(p(x;3,1/4) = {3 \choose x}.(1/4)^x.(3/4)^{3-x}, x=0,1,2,3,...\)

A distribuição binomial é usada frequentemente na engenharia da qualidade. Ela é o modelo apropriado para amostragem de uma população infinitamente grande, onde p representa a fração ou probabilidade de itens defeituosos ou não-conformes na população. Nessas aplicações, x usualmente representa o número de itens não-conformes em uma amostra de tamanho n.

Propriedades do Processo de Bernoulli

NOTAÇÃO

Sucesso (s) ou falha (f) indicam as duas categorias de todos os resultados; p e q indicam as probabilidades de sucesso e de falha, ou seja:

P(s) = p

p(f) = 1-p = q

Em que, p indica a probabilidade de sucesso,e q indica a probabilidade de falha.

Passos para cálculo de uma distribuição binomial

\(P(x;n,p) = {n \choose x}p^x(1-p)^{n-x}\)

Exemplo 8.1

Sabe-se que uma máquina utilizada para a fabricação de parafusos produz 95% de peças dentro das dimensões padronizadas. Suponha que quatro parafusos sejam escolhidos aleatoriamente. Qual a probabilidade de que exatamente 2 deles atendam às especificações?

Solução Passo1. Identifique um sucesso.

Um sucesso será um parafuso atender as especificações.

Passo2. Determine p, a probabilidade de sucesso.

p=95%=0,95 q=1-0,95=0,05

Passo3. Determine n, o número de repetições.

n=4

x=2

Passo4. A fórmula da distribuição binomial para o número de sucessos x, será:

\(P(x;n,p) = {n \choose x}p^x(1-p)^{n-x}\)

\(P(x;4,0,95) = {4\choose x}.(0,95)^x.(0,05)^{4-x}\)

Desenvolvendo a fórmula para x=2,

\(P(2)=\frac{4!}{2!(4-2)!}.(0,95)^2 . (0,05)^2\)

P(2)=6 x 0,9025 x 0,0025 = 0,01353 ou 1,35%

Portanto, a probabilidade de que exatamente 2 deles atendam às especificações é de 1,35%.

## [1] 0.0135375

Figura 8.1 Funções de probabilidade (esquerda) e distribuição acumulada-ogiva (direita) da B(x,4, 0.95).

Exemplo 8.2

A probabilidade do pouso de um avião ser bem sucedido usando um simulador de vôo é dada por 0,70. seis estudantes de pilotagem, escolhidos aleatoriamente, são convidados a tentar voar no avião, usando o simulador. Qual é a probabilidade de dois dos seis estudantes pousarem com sucesso o avião?

Solução

Passo1. Identifique um sucesso.

Um sucesso será um estudante que realiza um pouso bem sucedido.

Passo2. Determine p, a probabilidade de sucesso.

p=0,70

Passo3. Determine n, o número de repetições.

n=6

Passo4. A fórmula da distribuição binomial para o número de sucessos x, será:

\(p(x) = {6 \choose x}(0,70)^x(0,30)^{6-x}\)

Respondendo a pergunta formulada:

A probabilidade de exatamente 2 estudantes pousarem com sucesso será (x=2):

\(p(x) = {6 \choose 2}(0,70)^2(0,30)^{4}\) = 0,0595

Portanto, existe 5,95% de probabilidade de que 2 estudantes consigam realizar o pouso com sucesso.

## [1] 0.059535

Figura 8.2 Funções de probabilidade (esquerda) e distribuição acumulada-ogiva (direita) da B(x,6, 0.70).

Exercício 8.1

  1. Se 20% dos parafusos produzidos por uma máquina são defeituosos, determinar a probabilidade de, entre 4 parafusos escolhidos ao acaso:

dica: P(nenhum)= 1- p(pelo menos 1)

  1. O submarino Corsário I dispara quatro torpedos, em cadência rápida, contra o návio Pégaso. Cada torpedo tem probabilidade igual a 90% de atingir o alvo. Qual a probabilidade de o návio receber pelo menos um torpedo?

dica: \(P(x \geq 1)=1-P(x=0)\)

  1. Um livro contém 500 páginas nas quais podem ocorrer erros tipográficos. Suponha que há exatamente 10 erros localizados aleatoriamente nestas páginas. Ache a probabilidade de que uma amostra de 50 páginas não contenha erros. Ache a probabilidade de que 50 páginas selecionadas aleatoriamente contenham pelo menos dois erros.

dica: \(P(x \geq 2)=1-P(x < 2)\) dica: \(P(x < 2) = P(0)+ P(1)\)

  1. Lotes, que consistem em 50 eixos provenientes de um processo de produção, são verificados em relação à conformidade às exigências dos consumidores. O número médio de eixos não conformes em um lote é igual a 5. Suponha que o número de eixos não conformes em um lote, denotado como x, seja uma variavel aleatória binomial. Qual é a probabilidade se detectar dois ou menos eixos não conformes (\(x \leq 2\)).

Capítulo 9. Distribuição de Poisson

Trata-se do caso limite da distribuição binomial quando o número de provas n tende para o infinito e a probabilidade p do evento em cada prova é vizinha de zero. Em essência, a distribuição de Poisson é a distribuição binomial adequada para eventos independentes e raros, ocorrendo em um periodo praticamente infinito de intervalos. Cumpre destacar que a unidade de medida é contínua ( em geral tempo ou espaçõ), mas a variável aleatória (número de ocorrências) é discreta.

É uma distribuição semelhante a binomial, exceto pelo fato de que os eventos ocorrem em tentativas fixadas. Por exemplo: número de falhas que ocorrem em um processo industrial em cada lote produzido ou a quantidade de mensagens que chegam por hora no servidor de uma rede de computadores.

DEFINIÇÃO

A **distribuição de Poisson é

\(p(x) = \frac{1}{2}\)

Referências

Milone, G. Estatística geral e aplicada. S?o Paulo:Thomson Learning, 2006.

Montgomery, D. Introdução ao controle estatístico de qualidade. Rio de Janeiro:LTC, 20014.