Roberval Lima
1o. Semestre de 2018
Este texto é dirigido ao ensino da Estatística descritiva, especialmente para estudantes de engenharia.
A maioria das análises estatísticas são feitas usando uma biblioteca de comandos pré-escrita nos programas estatísticos. O usuário insere os dados e, em seguida, seleciona os tipos de análise e as saídas de interesse são exibidas. Muitos pacotes de software estatísticos estão disponíveis para computadores pessoais. Vamos apresentar exemplos de saída do programa R (um dos pacotes de PC mais utilizados e de uso segundo a filosofia livre), ao longo da apostila. No Cd que acompanha a apostila o aluno poderá exercitar os comandos no R.
A nossa proposta é ensinar a Estatística descritiva, abordando todos os seus conceitos básicos e ao mesmo tempo disponibilizar uma ferramenta computacional, onde o aluno poderá obter os resultados de suas análises através do uso do programa livre R, que estamos disponibilizando no CD da apostila.
R é um sistema para análises estatísticas e gráficos criado por Ross Lhaka y Robert Gentleman (Lhaka R. & Gentleman R. 1996. R: a language for data analysis and graphics. Journal of Computational and Graphical Statistics, 5:299-314. R tem uma característica dupla de programa e linguagem de programação e é considerado como um dialeto da linguagem S criada pelos laboratórios AT&T Bell.
R é distribuído gratuitamente sob os termos da GNU (General Public Licence). Seu desenvolvimento e distribuição são implementados por vários estatísticos conhecidos como o Grupo Nuclear de desenvolvimento do R.
1.1. Os métodos de engenharia e o pensamento estatístico
Um engenheiro é alguém que resolve problemas de interesse para sociedade pela eficiente aplicação de princípios científicos. Estes profissionais realizam isto, ou por refinar um produto existente ou processar ou por desenhar um novo produto ou processo de acordo com a necessidade de seus clientes. A engenharia ou método científico contribuem para formulação e soluções para esses problemas. Os passos nos métodos da engenharia são os seguintes:
Desenvolver uma clara e concisa descrição do problema.
Identificar os principais fatores que afetam este problema e qual pode ser o seu papel na solução.
Propor um modelo para o problema, usando conhecimento científico do fenomeno que está sendo estudado. Identificar qualquer limitação ou assumpções do modelo.
Conduzir apropriado experimentos e coletar dados para testar ou validar o modelo tentativo ou as conclusões obtidas nos passos 3 e 3.
Refinar o modelo com base nos dados observados.
Manipular o modelo para ajudar no desenvolvimento da solução do problema.
Conduzir um apropriado experimento para confirmar que a solução proposta para o problema é ao mesmo tempo efetiva e eficiente.
Expor as conclusões ou fazer recomendações baeadas na solução do problema.
Os passos dos métodos da engenharia são mostrados na figura 1.
Figura1.1 Os métodos da engenharia
Os passos 2-4 na Fig. 1 indicam que vários ciclos de iterações são necessários para obter a solução final. Consequentemente, engenheiros devem ter conhecimento para planejar eficientemente os experimentos, coletar, analizar e interpretar dados; e entender como os dados observados estão relacionados ao modelo proposto para o pproblema em estudo.
A ciência estatística trata da coleta, apresentação, análise, e uso dos dados para tomar decisões, solucionar problemas, e propor novos produtos e processos. Em função de muitos aspectos práticos da engenharia envolver o trabalho com dados, obviamente algum conhecimento de estatística é importante para qualquer engenheiro. Especificamente, as técnicas estatísticas podem dar uma forte ajuda no desenho de novos produtos e sistemas, melhorando os projetos existentes, e desevolvendo, e melhorando os processos de produção.
1.2. De que trata a Estatística
Estatística é ciência que se ocupa da obtençãoo de informação (amostragem, planejamento de experimentos), seu tratamento inicial (ordenação, cálculo de características amostrais, agrupamento em classes, representações gráficas - em suma, estatística descritiva e análise exploratória de dados), com a finalidade de, através de resultados probabílisticos adequados, inferir de uma amosra para a população (decisão sobre hipóteses, estimativa de parâmetros populacionais a partir de características amostrais relevantes, comparação de populações, relacionamento de uma variável resposta com variáveis controladas). Por outras palavras, é um instrumento de leitura de informação e da sua transformação em Conhecimento.
É, também, uma ciência que se ocupa de estratégias e decisão num contexto de variabilidade e incerteza.
Galileu afirmava que Deus escreveu o Mundo em linguagem matemática, e que competia ao homem decifrar esta linguagem. Caso Galileu vivesse hoje, teria certamente escrito “estatística” em vez de “matemática”: o âmago da Estatística é a decifração dos dados.
O propósito último da análise estatística é inferir, a partir de uma amostra as características de uma população, ou comparar populações; e se possível, predizer acontecimentos futuros (no sentido específico de avaliar as suas probabilidades). Inferência e predição decorrem de modelos probabilísticos, e só podem ser efetivados com estudo prévio da matemática das incertezas, a teoria da probabilidade.
Estatística descritiva é o ramo que trata da organização, do resumo e da apresentaçao dos dados.
Estatística indutiva ou inferencial é o ramo que trata de tirar conclusões sobre uma população a partir de uma amostra. A ferramenta básica no estudo da estatística inferencial é a probabilidade.
População é o conjunto de elementos que formam o universo de nosso estudo que são passíves de ser observados, sob as mesmas condições.
Amostra é uma parte dos elementos de uma população, obtidos por um determinado critério.
Amostragem é um processo ou critério que será usado para selecionar as unidades que comporão a amostra.
Parâmetro é uma medida que descreve certa característica dos elementos da população.
Estatística é uma medida que descreve certa característica dos elementos da amostra.
Estimativa é um valor resultante do cálculo de uma estatística, quando usado para se ter uma idéia do parâmetro de interesse.
Variável
Constante
1.3. Coleta, registro e inspeção dos dados
Os objetos de estudo da Estatística são os dados estatísticos, e o objetivo da Estatística é obter dados, por observação ou produzindo-os intencionalmente, descrevê-los, sumarizá-los, agrupá-los, organizá-los, analisá-los e interpretar os resultados da análise.
Existem várias maneiras de recompilar datos. En termos gerais podem ser coletados conforme a figura 1.2.
Figura 1.2. Métodos de coleta de dados.
1.4. Tipo de dados
No ambiente de engenharia, os dados são quase sempre uma amostra que tenha sido selecionada a partir de alguma população. Três métodos básicos de coleta de dados são:
Um procedimento de coleta de dados eficaz pode simplificar muito a análise e levar à melhorar a compreensão da população ou processo que está sendo estudado.
Para realizar cálculos estatísticos uma das primeiras coisas a serem feitas é caracterizar qual tipo de dados estão sendo trabalhados, pois muitos cálculos estatísticos aplicáveis a um, não são adequados para outros.
Chamamos unidades amostrais aos elementos sobre os quais temos acesso aos dados. Uma variável estatística é uma característica que pode ser diferente nas diversas observações feitas, e pode ser de natureza qualitativa ou quantitativa. Sobre qualquer unidade amostral, podemos observar qualidades ou medir quantidades.
A estatística qualitativa ocupa-se das variáveis qualitativas, em geral usando contagens ou frequências absolutas, ou percentagens ou frequências relativas das classes ou categorias, sendo as variáveis nominais ou ordinais.
A estatística quantitativa ocupa-se das variáveis quantitativas, que em geral resultam de medições. Os resultados das medições são expressos numa escala contínua ou intervalar ou numa escala absoluta (Figura 1.3).
Figura1.3 Classificação dos dados
Exemplo 1.1. Classificação dos dados
Exercício 1.1
Dados corretamente coletados fornecem conhecimentos que não seriam obtidos por simples especulação. Mas os dados precisam ser apresentados. A melhor e mais organizada forma de apresentar dados é por meio de tabelas, construídas de acordo com as normas técnicas.
Uma tabela deve ter:
Complementarmente, tem-se: fonte, notas e chamadas. A fonte cita o informante (caracterizando a confiabilidade dos dados); as notas esclarecem o conteúdo e indicam a metodologia adotada na obtenção dos dados; as chamadas clarificam pontos específicos na tabela.
Exemplo 2.1. Tabelas
Tabela 2.1 Histórico da população brasileira
Ano | População |
---|---|
1920 | 30,6 |
1940 | 41,2 |
1950 | 51,9 |
1960 | 70,2 |
1970 | 93,1 |
Uma distribuição de frequências é uma tabela que mostra classes ou intervalos de entrada de dados com um número total de entradas em cada classe. A frequência f de uma classe é o número de entrada de dados na classe.
Nos dados de natureza qualitativa, cada unidade é classificada em determinada categoria. A tabela de distribuição de frequências apresenta a frequência de unidades em cada categoria, ou seja, quantas vezes você observou cada categoria da variável.
Exemplo 2.1 Para adequar os produtos à preferência dos clientes, um projetista de páginas de Internet pretende conhecer o perfil dos indivíduos que acessam um de seus sites. Pensando nisso, ele fez uma pesquisa e levantou algumas características dos visitantes de seu site. Os resultados são apresentados a seguir:
Tabela 2.2. Perfil de indíviduos que acessam diferentes provedores
indivíduo | provedor | indivíduo | provedor |
---|---|---|---|
1 | C | 11 | C |
2 | A | 12 | A |
3 | B | 13 | B |
4 | B | 14 | D |
5 | C | 15 | A |
6 | B | 16 | B |
7 | D | 17 | B |
8 | B | 18 | C |
9 | B | 19 | D |
10 | A | 20 | B |
Para construir a distribuição de frequências com os dados, basta contar a quantidade de resultados observados em cada categoria, que corresponde a frequência absoluta (f) ou simplesmente frequência.
Além disso é usual fornecer, além das frequências absolutas as frequências relativas (frel), que corresponde ao quociente entre a frequência de cada categoria e o total. Estes valores podem ser apresentados também em percentual, bastando multiplicar por 100.
\(frel=\frac{f}{total}\)
Tabela 2.3 Distribuição de frequências do provedor usado pelo visitante no site.
Provedor | f | frel | frel(%) |
---|---|---|---|
A | 4 | 4/20=0,20 | 20 |
B | 9 | 9/20=0,45 | 45 |
C | 4 | 4/20=0,20 | 20 |
D | 3 | 3/20=0,15 | 15 |
total | 20 | 1 | 100 |
****Fonte: Barbeta et al., 2008
Se os dados são discretos, para organizar a tabela de distribuição de frequências;
Conte quantas vezes cada valor se repete.
Escreva os dados em ordem crescente.
Organize a tabela como já foi feito para dados qualitativos, mas colocando os valores numéricos, em ordem natural, no lugar das categorias.
Exemplo 2.2. Foi feito inspeção de um produto na linha de saída e foram contados os defeitos em uma amostra de tamanho igual a 27. os dados estão a seguir.
1 | 0 | 2 | 2 | 1 | 0 | 2 |
---|---|---|---|---|---|---|
3 | 4 | 2 | 2 | 2 | 6 | 1 |
0 | 2 | 1 | 0 | 6 | 3 | 3 |
3 | 2 | 3 | 0 | 3 | 7 | 7 |
Tabela 2.4 Distribuição de frequência dos defeitos em 27 amostras de um produto.
No. de defeitos | f | frel | frel (%) |
---|---|---|---|
0 | 5 | 0,18 | 18,0 |
1 | 4 | 0,14 | 14,0 |
2 | 8 | 0,29 | 29,0 |
3 | 6 | 0,21 | 21,0 |
4 | 1 | 0,04 | 4,0 |
5 | 0 | 0,00 | 0,0 |
6 | 2 | 0,07 | 7,0 |
7 | 2 | 0,07 | 7,0 |
Total | 28 | 1,00 | 100 |
Para construir uma tabela de distribuição de frequências com dados contínuos:
Localize o valor máximo e o valor mínimo do conjunto de dados. Colocar os dados em ordem crescente facilita o processo.
Calcule a amplitude total (At), que é a diferença entre o valor máximo e o valor mínimo.
Estime o número de classes (k)
Divida a amplitude total dos dados pelo número de classes (K) que pretende organizar.
O resultado da divisão é a amplitude de classe (Ac). O melhor é arredondar esse número para o valor próximo mais alto (um número redondo) para facilitar o trabalho.
Organize as classes, de maneira que a primeira contenha o menor valor observado, e apresente os resultados em uma tabela de frequência e/ou gráfico.
Cálculo do número de classes (K)
O número de classes deve ser escolhido, em função do que se quer mostrar. em geral, convém estabelecer de 5 a 20 classes. Se o número de classes for demasiado pequeno (por exemplo, 3), perde-se muita informação. Se for grande, têm-se pormenores desnecessários. O importante é saber que não existe um número “ideal” de classes para um conjunto de dados, embora existam até fórmulas para estabelecer quantas classes devem ser construídas.
Para usar uma dessas fórmulas, faça n indicar o número de dados. O número de classes será o inteiro mais próximo de K, obtido pela fórmula:
\(k = \sqrt{n}\)
Outras fórmulas utilizadas para o cálculo do número de classes:
Sturges: k = 1 + 3,3log(n), em que log é o logaritmo decimal
Milone: k = -1 + 2ln(n), em que ln é o logaritmo neperiano.
Após construir uma distribuição de frequências, há vários aspectos adicionais que pode-se incluir para uma melhor compreenssão dos dados. Esses aspectos são o ponto médio (pm) e as frequências relativa (frel) e acumuladas (facum), os quais podem ser adicionados nas colunas de sua tabela.
O ponto médio (pm) de uma classe é a metade da soma entre os limites inferior e superior da classe.
\(pm=\frac{(lim\ inf\ da\ classe)+(lim\ sup\ da\ classe)}{2}\)
A frequência relativa (frel) de uma classe é a proporção ou porcentagem de dados que entra nessa classe. Para determinar divida a frequência absoluta f pelo tamanho da amostra n. As frequências relativas podem exigir arredondamentos nos cálculos individuais e nas totalizações, uma vez que elas devem totalizar 100. Os arredondamentos são os convencionais, isto é, abaixo de cinco, mantêm-se o valor até o último dígito significativo; para cinco ou mais soma-se um ao último dígito significativo.
\(frel = \frac{(frequência\ da\ classe)}{n}\)
A frequência acumulada (facum) de uma classe é a soma da frequência daquela classe com a de todas as classes anteriores. A frequência acumulada da última classe é igual ao tamanho da amostra n.
Exemplo 2.3 Os dados representam o tempo (segundos) para carga de um aplicativo, num sistema compartilhado. Construa a tabela de frequência.
5,3 | 6,4 | 5,7 | 8,3 | 7,0 | 5,4 | 4,8 | 9,1 | 5,5 | 6,2 | 4,9 | 5,7 | 6,3 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
5,1 | 8,4 | 6,2 | 8,9 | 7,3 | 5,4 | 4,8 | 5,6 | 6,8 | 5,0 | 6,7 | 8,2 | 7,1 |
4,9 | 5,0 | 8,2 | 9,9 | 5,4 | 5,6 | 5,7 | 6,2 | 4,9 | 5,1 | 6,0 | 4,7 | 14,1 |
5,3 | 4,9 | 5,0 | 5,7 | 6,3 | 6,0 | 6,8 | 7,3 | 6,9 | 6,5 | 5,9 |
Solução
At = Max - Min = 14,1-4,7 - 9,4
\(k=\sqrt{n}\) \(k=\sqrt{50}\) k = 7,07
k=7
\(Ac=\frac{At}{k}\) \(c=\frac{9,4}{7}\) c = 1,34 c = 1,5
Tabela 2.5. Distribuição de frequências do tempo para carga de um aplicativo.
Classes de tempo | Ponto médio (pm) | Frequência (f) | facum | Freq rel. (frel) (%) | frel acum (%) |
---|---|---|---|---|---|
4,5 - 6,0 | |||||
6,0 - 7,5 | |||||
7,5 - 9,0 | |||||
9,0 - 10,5 | |||||
10,5 - 12,0 | |||||
12,0 - 13,5 | |||||
13,5 - 15,0 | |||||
Total |
Gráficos estatísticos são usados para apresentar informação quantitativa na forma de ilustrações, o que facilita a compreensão e visualização dos dados.
De acordo com as normas da ABNT, os gráficos devem:
Elementos de um gráfico:
Erros mais comuns em gráficos
Em geral, excesso de decoração é um problema.
Ausência de um título, marcas e indicadores.
Excesso de informação.
Falta de dados.
Má qualidade de impressão.
A representação gráfica dos valores associados a uma tabela de frequência, que costuma ser feita por meio de colunas justapostas, dá-se o nome de histograma.
Os histogramas podem ser emoldurados por linhas contínuas, abertas ou fechadas, compatíveis e adequadas às distribuições dos dados que pretendem retratar. em caso de frequências simples, a linha fechada de contorno externo é denominada linha característica, A linha característica que une os pontos médios das classes de frequências simples é dita linha de frequências; a que une os pontos médios das classes de frequências acumuladas, ogiva. Se os dados estão uniformemente distribuídos no intervalo, as linhas são compostas por segmentos de retas e definem a poligonal característica da distribuição, a qual permite a obtenção de valores intermediários por interpolação linear. Quando o número de intervalos tende a infinito, a linha de frequências é dita função de densidade dos dados; similarmente, a ogiva é denominada função de distribuição dos dados.
A linha de frequência é fechada no eixo das abcissas; para tanto, acrescenta-se à distribuição uma classe à esquerda e outra à direita, ambas com frequência zero. Destaca-se que a área sob a linha de frequências assim construída é igual a àrea do histograma.
A ogiva, por sua vez, por indicar os valores inferiores ou superiores a dado valor, é aberta de um de seus lados e fechada do outro. Uma das aplicações da ogiva é na determinação das separatrizes da distribuição.
O polígono de frequências e a ogiva produzem figuras regulares ou irregulares, simétricas ou assimétricas, alongadas ou afiladas e nas posições as mais díspares (como em J ou em U). A comparação de duas ou mais distribuições pode ser feita colocando-se os respectivos gráficos lado a lado ou um sobre o outro.
Exemplos-Gráficos: histogramas, polígonos de frequências e ogivas
## Loading required package: agricolae
## Warning in plot.xy(xy.coords(x, y), type = type, ...): "density" is not a
## graphical parameter
## Tempo de carga (s) RCF
## 1 4.5 0.00
## 2 6.0 0.50
## 3 7.5 0.84
## 4 9.0 0.94
## 5 10.5 0.98
## 6 12.0 0.98
## 7 13.5 0.98
## 8 15.0 1.00
## 9 16.5 1.00
O gráfico de barras assemelha-se ao histograma. Porém os dados referem-se as categorias. É um excelente recurso para apresentar dados qualitativos, como por exemplo respostas de questionários.
Tabela 3.1 Opinião dos brasileiros sobre determinado técnico de futebol
Respostas | Frequência | Frequência relativa (%) |
---|---|---|
Bom | 1300 | 52 |
Regular | 450 | 18 |
Ruim | 125 | 5 |
N?o Sabe | 625 | 25 |
Total | 2500 | 100 |
O gráfico de setores ou circular, também conhecido como “pizza” pode ser utilizado para representar a frequência de observações de diferentes categorias. O tamanho pode ser definido em números percentuais ou absolutos.
Em geral, um gráfico de setores não é um bom modo de representar dados porque o olho humano tem dificuldades para comparar áreas relativas com medidas lineares.
Gráficos que mostram a dispersão de dados são úteis para identificar muitas características de dados. Além da dispersão, outliers, tendência entre outros aspectos.
O box-plot é um gráfico que mostra a posição central, dispersão e simetria dos dados de uma amostra, comprimento de caudas e dados discrepantes. É utilizado para resumir as informações de um conjunto de dados.
São várias as informações mostradas em um boxplot. A caixa (box) corresponde aos dados observados. O traço horizontal destacado dentro do box corresponde à mediana. Os limites inferior e superior representam o primeiro (quartil inferior) e terceiro quartil (quartil superior), respectivamente. As linhas verticais pontilhadas são chamadas whiskers (bigodes) e indicam aproximadamente o valor de dois desvios-padrões. Todos os valores observados fora dos whiskers são plotados como pontos individuais e, em teoria, são outliers. São valores muito distantes, que estão além de 3 desvios quartílicos (quartil superior - quartil inferior).
O gráfico do exemplo 3.6 mostra que a distribuição dos dados não é exatamente simétrica em torno de um valor central porque as linhas abaixo e acima e as partes da caixa abaixo e acima da mediana não tem o mesmo comprimento.
Exercício 3.1
Tabela 3.2 Peso (kg) de uma equipe de lutadores de sumô.
164,4 | 152,9 | 163,2 | 163,1 | 161,2 | 160,5 | 162,5 | 159,8 | 162,4 | 162,4 |
---|---|---|---|---|---|---|---|---|---|
171,2 | 162,3 | 161,6 | 162,3 | 162,5 | 163,4 | 160,7 | 160,5 | 161,6 | 161,6 |
161,5 | 167,0 | 161,3 | 158,6 | 159,8 | 161,9 | 162,0 | 166,7 | 164,0 | 164,0 |
159,2 | 170,2 | 163,8 | 163,1 | 163,4 | 162,3 | 163,4 | 162,0 | 162,3 | 162,3 |
162,0 | 161,7 | 162,9 | 160,3 | 162,0 | 161,8 | 161,8 | 164,5 | 163,4 | 163,4 |
161,3 | 158,3 | 161,4 | 165,7 | 158,7 | 162,9 | 157,3 | 162,3 | 173,0 | 173,0 |
156,1 | 162,5 | 162,6 | 159,9 | 164,3 | 162,0 | 168,9 | 163,6 | 163,9 | 163,9 |
164,6 | 172,6 | 160,2 | 169,2 | 163,4 | 164,1 | 162,6 | 163,7 | 156,5 | 156,5 |
159,8 | 162,0 | 157,3 | 161,3 | 173,0 | 162,0 | 163,8 | 167,0 | 162,9 | 162,9 |
Tabela 3.3 Diâmetro interno (mm) de anéis de pistons.
74,030 | 74,002 | 74,019 | 73,992 | 74,008 | 73,995 | 73,992 | 74,001 | 74,011 | 74,004 | 73,988 | 74,024 |
---|---|---|---|---|---|---|---|---|---|---|---|
74,021 | 74,005 | 74,002 | 74,002 | 73,996 | 73,993 | 74,015 | 74,009 | 73,992 | 74,007 | 74,015 | 73,989 |
74,014 | 74,009 | 73,994 | 73,997 | 73,985 | 73,993 | 73,995 | 74,006 | 73,994 | 74,000 | 74,005 | 73,985 |
74,003 | 73,993 | 74,015 | 73,988 | 74,008 | 73,995 | 74,009 | 74,005 | 74,004 | 73,998 | 74,000 | 73,990 |
74,007 | 73,995 | 73,994 | 73,998 | 73,994 | 73,995 | 73,990 | 74,004 | 74,000 | 74,007 | 74,000 | 73,996 |
73,983 | 74,002 | 73,998 | 73,997 | 74,012 | 74,006 | 73,967 | 73,994 | 74,000 | 73,984 | 74,012 | 74,014 |
73,998 | 73,999 | 74,007 | 74,000 | 73,984 | 74,005 | 73,998 | 73,996 | 73,994 | 74,012 | 73,986 | 74,005 |
74,007 | 74,006 | 74,010 | 74,018 | 74,003 | 74,000 | 73,984 | 74,002 | 74,003 | 74,005 | 73,997 | 74,000 |
74,010 | 74,013 | 74,020 | 74,003 | 73,988 | 74,001 | 74,009 | 74,005 | 73,996 | 74,004 | 73,999 | 73,990 |
74,006 | 74,009 | 74,010 | 73,989 | 73,990 | 74,009 | 74,014 | 74,015 | 73,993 | 74,000 | 74,010 | 73,982 |
Tabela 3.4 Diâmetro dos orifícios (mm) da nervura do bordo de ataque da asa.
120,5 | 120,4 | 120,7 |
---|---|---|
120,9 | 120,2 | 121,1 |
120,3 | 120,1 | 120,9 |
121,3 | 120,5 | 120,8 |
2,2 | 2,3 | 2,2 | 2,5 | 2,4 | 2,5 | 2,8 | 2,1 | 2,6 | 2,5 |
---|---|---|---|---|---|---|---|---|---|
2,4 | 2,4 | 2,3 | 2,8 | 2,8 | 2,5 | 2,6 | 2,3 | 2,5 | 2,9 |
Pedem-se:
Construir a tabela de distribuição de frequências;
Construir o histograma e o polígono de frequências (programa R)
Resumos e exibições de dados bem construídos são essenciais para um bom raciocínio estatístico, porque eles podem concentrar o engenheiro em características importantes dos dados ou fornecer informações sobre o tipo de modelo que deve ser utilizado na resolução do problema. O computador tornou-se uma ferramenta importante na apresentação e análise de dados. Embora muitas técnicas estatísticas requerem apenas uma calculadora de mão, muito tempo e esforço pode ser exigido por esta abordagem, e um computador irá executar as tarefas de forma muito mais eficiente.
Muitas vezes é útil descrever os dados numericamente. Por exemplo, podemos caracterizar a localização ou a tendência central dos dados pela média aritmética ordinária ou média.
É o centro de massa de um conjunto de dados, cuja regra de formação é dada por uma progresão aritmética. É representada por \(\mu \) quando se refere à população e por \(\bar{x}\), quando se refere à amostra.
Se as n observações em uma amostra são denotadas por x1, x2,…, xn, a média amostral é:
Exemplo 4.1
Considere 8 observações coletadas de um protótipo de conectores de engenharia. As oito obervações são x1=12,6; x2=12,9; x3=13,4; x4=12,3; x5=13,6; x6=15,5; x7=12,6 e x8=13,1. A média amostral é:
A interpretação física da média amostral como medida de localização é mostrado no gráfico de pontos da figura 4. Note que a média \(\bar{x}\)=13,0 é o “ponto de equilíbrio”. Isto é, cada observação representa 1 grama de massa colocada sobre os pontos no eixo x; um fulcro localizado exatamente no ponto médio estabelece o balanço do sistema de pesos.
Figura 4.1 Média amostral como ponto de equilíbrio para um sistema de pesos
A média pode ser obtida facilmente no R com o comando mean().
#Resolvendo o exemplo 1.2 no programa R:
x<-c(12.6, 12.9, 13.4, 12.3, 13.6, 13.5, 12.6, 13.1) #criando um vetor
mean(x) #obtendo a média
## [1] 13
Em algumas situações é possível haver um ou mais dados ausentes (representados no R por “NA”) em seu conjunto de dados.
Neste caso, basta usar o argumento na.rm=T para que o R desconsidere os elementos NA no cálculo da média.
#Exemplo com dados ausentes:
y<-c(12.6, 12.9, 13.4, NA, 13.6, 13.5) #criando um vetor
y # exbindo y
## [1] 12.6 12.9 13.4 NA 13.6 13.5
mean(y) #cálculo inapropriado
## [1] NA
mean(y, na.rm=T) #cálculo correto
## [1] 13.2
Propriedades da média aritmética:
Uma média aparada é calculada aparando-se certa porcentagem dos maiores e menores valores. Por exemplo, para calcular a média aparada de 10%, deve-se eliminar 10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valores remanescentes.
Em que n = \(\sum{f}\)
Exemplo 4.2 Foram medidas (em mm), as espessuras de 30 chapas produzidas por uma máquina, obtendo-se a distribuição de frequências mostrada na tabela 4.1. Calcule a espessura média.
Tabela 4.1 Espessura (mm) e número de chapas produzidas.
x | f | x.f |
---|---|---|
56 | 6 | |
57 | 2 | |
58 | 9 | |
59 | 5 | |
60 | 3 | |
61 | 1 | |
62 | 4 | |
Total |
Observação: quando os dados são fornecidos por classe de frequências, utilizamos a mesma fómula, sendo xi, os pontos médios das classes.
Exemplo 4.3 Calcular a média da distribuição de frequências indicada na tabela 4.2,
Tabela 4.3 Distribuição de frequências
Classes | Ponto médio | f | x.f |
---|---|---|---|
30\(\leq\) x < 33 | 31,5 | 3 | 94,5 |
33\(\leq\) x < 36 | 5 | ||
36\(\leq\) x < 39 | 2 | ||
39\(\leq\) x < 42 | 4 | ||
42\(\leq\) x < 45 | 6 | ||
45\(\leq\) x < 48 | 46,5 | 7 | 325,5 |
48\(\leq\) x < 51 | 3 | ||
Total |
A mediana (md) é um valor que caracteriza o centro da distribuição de frequências. É o valor que ocupa a posição central do conjunto dos dados ordenados.
Se o conjunto de dados é impar, existe um único valor na posição central. Esse valor é a mediana. Por exemplo, dados:
3,5,9,12,14
A mediana é 9.
Se o número de dados é par, existem dois valores na posição central. Então a mediana é a média desses dois valores. Por exemplo, dados:
3,5,7,9
A mediana é 6, isto é a média de 5 e 7.
Observação: quando ocorrem dados discrepantes (valores muito maiores ou menores do que os demais), o mais correto é usar a mediana para descrever a tendência central dos dados.
A moda (mo) é uma medida de tendência central, indicando a região das máximas frequências. É uma medida indicativa de concentração. Regra geral, a moda aponta o valor de maior frequência simples - absoluta ou relativa - ou o ponto isolado de maior peso no conjunto de dados.
Por suas propriedades, a moda é mais fortemente associada à VARIÁVEIS QUALITATIVAS.
A moda, por ser o ponto de maior concentração pontual, independe da ordenação dos elementos do conjunto X, de seus extremos e de qualquer valor intermediário.
Para sua obtenção, basta agrupar os dados em uma distribuição de frequência simples e tomar o valor de maior frequência.
Exemplo 4.4 Determinando a moda:
São dados: 0, 0. 2, 5, 3, 7, 4, 7, 8, 7, 9, 6
A moda é 7, porque é o valor que ocorre o maior número de vezes.
Um conjunto de dados pode ter mais que um valor modal. Dizemos então, bimodal (2 modal) ou trimodal (3 modas).
A moda é muito informativa quando o conjunto de dados é grande, mas se o conjunto de dados for pequenmo (20 ou 30 observações), a moda não tem, em geral, sentido prático.
Exemplo 4.5 Determinar a moda de: X={85,82,97,88,89,97,89,93,88,97,96,97,98,93,97}
x | 82 | 85 | 88 | 89 | 93 | 96 | 97 | 98 |
---|---|---|---|---|---|---|---|---|
f | 1 | 1 | 2 | 2 | 2 | 1 | 5 | 1 |
Portanto, \(mo = 97\)
Outra medida de posição é o escore padrão ou escore z.
O escore padrão, ou escore z, representa o número de desvios padrão no qual está um valor dado x a partir da média m. Para obter o escore z de um valor dado, use a seguinte fórmula:
z = \(\frac{valor-média}{desvio-padrão}\)=\(\frac{x-\mu}{\sigma}\)
Um escore z pode ser negativo, positivo ou zero. Se z é negativo, o valor x está abaixo da média. Se z é positivo, o valor x correpondente está acima da média. E se z = 0, o valor x correspondente é igual a média.
Exemplo 4.6
O ponto de fusão do ouro é de 1060 graus Celsius. Isto é, evidentemente, um valor médio. O erro experimental inevitável, causa uma variação deste valor para mais ou para menos sempre que um teste é realizado. A melhor medida destas variações é o desvio padrão (s). Suponha que este foi calculado a partir de uma grande série de testes, e verificou-se ser de 3 graus Celsius.
Agora imagine que você está analisando um metal desconhecido, e um teste mostra que seu ponto de fusão é de 1072 graus Celsius. É provável que este metal desconhecido seja ouro? Em outras palavras, qual é a probabilidade de que uma amostra de ouro que apresenta um ponto de fusão médio de 1072 graus Celsius seja ouro.
Solução Vamos converter a observação x, 1072 em z-escore.
\(z = \frac{1072-1060}{3} = \frac{12}{3} = 4\)
Portanto, a observação de 1072 está 4 desvios padrões afastada da média. A probabilidade de uma observação posicionada à 4 desvios padrões de sua média é muito pequena, virtualmente zero; 99,8% da distribuição está dentro de 3 desvios padrões. Portanto, é muito improvável que a amostra em análise é de fato ouro.
Exercício 4.1
3,4 | 2,5 | 4,8 | 2,9 | 3,6 |
---|---|---|---|---|
2,8 | 3,3 | 5,6 | 3,7 | 2,8 |
4,4 | 4,0 | 5,2 | 3,0 | 4,8 |
Suponha que as medidas sejam uma amostra aleatória simples.
Defeitos | Frequência |
---|---|
0 | 30 |
1 | 25 |
2 | 10 |
3 | 5 |
4 | 2 |
Sem envelhecimento:
227 | 222 | 218 | 217 | 225 |
---|---|---|---|---|
218 | 216 | 229 | 228 | 221 |
Com envelhecimento:
219 | 214 | 215 | 211 | 209 |
---|---|---|---|---|
218 | 203 | 204 | 201 | 205 |
Exercícios 5.1
572, 572, 573, 568, 569, 575, 565, 570
+a. Encontre a média e mediana amostrais. +b. Encontre a variância, o desvio-padrão, o coeficiente de variação e a amplitude amostral. +c. Usando as estatísticas calculadas em (a) e (b), comente sobre a qualidade dos pneus.
Fumantes:
69,3 | 56,0 | 22,1 | 47,6 |
---|---|---|---|
53,2 | 48,1 | 52,7 | 34,4 |
60,2 | 43,8 | 23,2 | 13,8 |
Não fumantes:
28,6 | 25,1 | 26,4 | 34,9 |
---|---|---|---|
29,8 | 28,4 | 38,5 | 30,2 |
30,6 | 31,8 | 41,6 | 21,1 |
36,0 | 37,9 | 13,9 |
+a. Encontre a média amostral em cada grupo. +b. Encontre o desvio-padrão amostral e o coeficiente de variação em cada grupo. +c. Faça um diagrama de dispersão e um boxplot dos dois conjuntos de dados. +d. Comente o tipo de impacto que o fumo aparenta ter no tempo que se leva para dormir.
23 | 60 | 79 | 32 | 57 | 74 | 52 | 70 | 82 |
---|---|---|---|---|---|---|---|---|
36 | 80 | 77 | 81 | 95 | 41 | 65 | 92 | 85 |
55 | 76 | 52 | 10 | 64 | 75 | 78 | 25 | 80 |
98 | 81 | 67 | 41 | 71 | 83 | 54 | 64 | 72 |
88 | 62 | 74 | 43 | 60 | 78 | 89 | 76 | 84 |
48 | 84 | 90 | 15 | 79 | 34 | 67 | 17 | 82 |
69 | 74 | 63 | 80 | 85 | 61 |
O conceito de probabilidade nos ajuda a medir a chance (e avaliar o impacto) de resultados ou desfechos estocásticos, ou seja, desconhecidos previamente. Quando conhecemos previamente os resultados, dizemos que são determinísticos.
Compreender noções básicas sobre como medir a incerteza e então reduzi-lá, se possível, é uma habilidade fundamental.
O termo “aleatório” significa “de resultado incerto, devido à intervenção do acaso”, e tem origem no vocábulo latino “alea”, que designava os dados usados em jogos de azar (recorde o Júlio Cesar nos livros de Asterix a recitar-se “Alea jacta est”, “os dados estão lançados”). A probabilidade é a delimitação matemática do acaso.
Experimento probabilístico ou aleatório é uma ação ou um ensaio por meio do qual resultados específicos (contagens, medidas ou respostas) são obtidos. A consequência de um único ensaio em um experimento probabilístico é um resultado (ponto amostral). O conjunto de todos os resultados possíveis de um experimento probabilístico é o espaço amostral. Um evento, consiste em um ou mais resultados e é um subconjunto do espaço amostral (S). Em uma experiência aleatória não se sabe exatamente o resultado que se virá a observar, mas conhece-se o universo (S) dos resultados possíveis.
Exemplo:
Diagrama de árvore . . . . . . .
\(S_{3}\) = {c1,c2,c3,c4,c5,c6,k1,k2,k3,k4,k5,k6}
A probabilidade de um evento A é a soma das probabilidades de todos os pontos amostrais em A. Então,
\(0 \leq P(A) \leq 1\), \(P(\phi)=0\) e P(S)=1.
Além disso, se \(A_1\), \(A_2\), \(A_3\), … é uma sequência de eventos mutuamente exclusivos, então
P(\(A_1 \cup A_2 \cup A_3\)) = \(P(A_1) + P(A_2) + P(A_3)\) + … .
A probabilidade de um evento “A” ocorrer é escrita como P(A)- lê-se “a probabilidade do evento A”.
Há 3 tipos de probabilidades: Clássica, empírica e subjetiva.
Probabilidade clássica ou teórica É usada quando cada resultado no espaço amostral tem a mesma probabilidade de ocorrer.
P(E) = \(\frac{Número\ de\ resultados\ em\ E}{Número\ total\ de\ resultados} = \frac{n(E)}{n(S)}\)
Exemplo 6.1
No lançamento de um dado honesto de 6 faces, qual a probabilidade de ocorre ponto par?
Solução S={1,2,3,4,5,6} = n(S) = 6
E={2,4,6} = n(E) = 3
\(P(E) = \frac{3}{6} = \frac{1}{2}\)
Exemplo 6.2
Uma sala de aula de engenharia consiste em 25 estudantes de engenharia industrial, 10 de mecânica, 10 de elétrica e 8 de enhenharia civil. Se uma pessoa é selecionada aleatoriamente pelo instrutor para responder a uma pergunta, determine a probabilidade de que o estudante escolhido seja (a) um estudante de engenharia industrial, (b)um estudante de engenharia civil ou elétrica.
Solução Os estudantes de engenharia industrial, mecânica, elétrica e civil são designados por I, M, E e C, repectivamente. O número total de estudantes na classe é 53.
\(P(I) = \frac{25}{53}\)
Já que 18 dos 53 estudantes são e engenharia elétrica ou civil, segue-se que
\(P(C \cup E) = \frac{18}{53}\)
Probabilidade empírica (ou estatística): Baseia-se em observações obtidas de experimentos probabilísticos. A probabilidade empírica de um evento “E” é a frequência relativa desse evento. As probabilidades são obtidas após a realização dos experimentos e a ocorrência dos eventos, razão pela qual é denominada a posteriori.
O princípio básico do método das frequências é que os resultados obtidos de um grande número de experimentos são representativos e servem de estimativa do futuro. A base de sustentação dessa hipótese é a lei dos grandes números.
P(E) = \(\frac{Freq.\ do\ Evento\ E}{Freq.\ total} = \frac{f(E)}{\sum f(n)}\)
Exemplo 6.3
Uma amostra aleatória de 200 adultos é classificada pelo seu sexo e nível e instrução.
Nível de instrução | Sexo masculino | Sexo feminino | total |
---|---|---|---|
Elementar | 38 | 45 | |
Secundário | 28 | 50 | |
Universitário | 22 | 17 | |
total |
Se uma pessoa desse grupo for escolhida aleatoriamente, determine a probabilidade de que:
Solução
\(P(A)= \frac{28}{88} = \frac{14}{39}\)
\(P(B)= \frac{95}{112}\)
Probabilidade subjetiva
É um valor entre 0 e 1, que reoresenta um ponto de vista pessoal sobre a possibilidade de ocorrer determinado evento.
\(0 \leq P(E) \leq 1\)
P(S) = 1 (evento certo)
\(P(\phi) = 0\) (evento impossível)
Se \(\bar{E}\) é o evento complementar de “E”, então: \(P(\bar{E})=1-(P(E)\)
Se E e F são dois eventos, então: \(P(E \cup F) = P(E) + P(F) - P(E \cap F)\)
Se \(E \cap F = \phi\), então E e F são eventos mutuamente exclusivos, Então: \(P(E \cup F) = P(E) + P(F)\)
Muitas vezes, há interesse em calcular a probabilidade de ocorrência de um evento A, dada a ocorrência de um evento B. Em outras palavras, queemos calcular a probabilidade de ocorrência de A condicionada à ocorrência prévia de B. Essa probabilidade é representada por P(A|B) - lê-se “probabilidade de A dado B”.
Sejam A e B eventos quaisquer, sendo P(B) > 0. Definimos a probabilidade condicional de A dado B por:
P(A|B) = \(\frac{P(A \cap B)}{P(B)} = \frac{n(A\cap B)}{n(B)}\)
Note que no denominador temos a probabilidade do evento que supostamente aconteceu, mas calculada na condições originais do experimento.
Exemplo 6.4 (probabilidade condicionada)
A tabela mostra os resultados de um estudo com o QI de 102 crianças e a presença de um gene específico nelas. Obtenha a probabilidade de uma criança ter QI alto, dado que ela tenha o gene.
Gene presente | Gene Ausente | Total | |
---|---|---|---|
QI alto | 33 | 19 | 52 |
QI normal | 39 | 11 | 50 |
Total | 72 | 30 | 102 |
A = evento presença do gene
B = evento ter QI alto
\(B \cap A\) = é o evento em que a criança tem QI alto dado que tem o gene.
\(P(B \cap A) = n (B \cap A) = 33\)
P(A) = n(A) = 72
P(B|A) = \(\frac{P(A \cap B)}{P(B)} = \frac{33}{57}\) \(\cong 0,458\)
Eventos independentes
Dois eventos A e B são independentes se e somente se
P(B|A) = P(B) ou P(A|B) = P(A),
desde que as probabilidades condicionais existam. Caso contrário, A e B serão dependentes
Por independência de eventos queremos dizer que se um evento ocorre com uma certa probabilidade, um segundo evento do mesmo tipo ocorrerá com a mesma probabilidade, não sendo afetado pelo fato de que o primeiro evento se tenha ou não realizado.
Se em um experimento ambos os eventos A e B podem ocorrer, então
\(P(A \cap B)\) = P(A).P(B|A), desde que P(A) > 0
Dois eventos A e B são independentes se e somente se:
P(A|B) = P(A) P(B|A) = P(B)
Então: \(P(A\cap B)\) = P(A).P(B)
Portanto, para obter a probabilidade de que ambos os eventos ocorrerão, simplesmente, determina-se o produto de suas probabilidades individuais.
Se os eventos A e B são independentes, a regra pode ser simplificada para
P(A e B) = P(A).P(B). Essa regra pode ser estendida para qualquer número de eventos independentes.
Exemplo 6.5 (Evento independente)
Suponha que temos uma caixa com 20 fusíveis, dentre os quais cinco apresentam defeito. Se dois fusíveis são selecionados aleatoriamente e removidos da caixa, sucessivamente, sem reposição do primeiro, qual é a probabilidade de que ambos apresentem defeito?
Solução. A = evento no qual o primeiro fusível apresenta com defeito B = evento no qual o segundo apresenta com defeito
\(A \cap B\) = é o evento em que A ocorre, e então B ocorre após A ter ocorrido.
\(P(A) = \frac{5}{20} = \frac{1}{4}\)
\(P(B) = \frac{4}{19}\)
\(P(A \cap B)\) = P(A).P(B|A) = \(\frac{1}{4}\).\(\frac{4}{19}\) = \(\frac{1}{19}\)
Exemplo 6.6
A probabilidade de um salmão atravessar com sucesso uma barragem é de 0,85. Obtenha a probabilidade de 3 salmões atravessarem com sucesso a barragem.
Solução
A probabilidade de cada salmão conseguir atravessar a barragem é de 0,85. A chance de um salmão ter sucesso é independente do resultado dos outros,
logo:
P(3 salmões atravessarem) = 0,85. 0.85. 0,85 \(\cong\) 0,614
Exemplo 6.7
Obtenha a probabilidade de nenhum dos três salmões conseguir atravessar a barragem.
Solução
P(sucesso) = 0,85
P(fracasso) = 1-0,85 = 0,15
P(nenhum dos três) = P(três fracassarem) = 0,15. 0,15. 0,15 \(\cong\) 0,003
Exemplo 6.8
Obtenha a probabilidade de pelo menos um dos três salmões ter sucesso de atravessar a barragem.
A frase “pelo menos um” significa “um ou mais”. O complemento do evento “pelo menos um conseguir” é o evento “ nenhum conseguir”. Usando a regra dos complementos:
P(pelo menos um conseguir) = 1- P(nenhum conseguir)
P(pelo menos um conseguir) = 1-0,003 \(\cong\) 0,997
Obtenha a probabilidade de as duas peças serem defeituosas?
Obtenha a probabilidade de ambas as peças não serem defeituosas?
Obtenha a probabilidade de pelo menos uma peça ser defeituosa?
As probabilidades de 3 jogadores marcarem um gol cobrando um pênalti são respectivamente: \(\frac{1}{3}\); \(\frac{1}{4}\); e \(\frac{1}{5}\). sabendo que cada jogador baterá um único pênalti, qual a probabilidade de todos errarem?
Em Um círculo de raio R é inscrito um quadrado de lado l. encontre a probabilidade de que um ponto lançado aleatoriamente no interior do círculo, se encontre também no interior do quadrado, supondo que a probabilidade de queda dentro de qualquer uma das partes do círculo dependa apenas da área dessa parte e seja proporcional à mesma.
dica: use a fórmula da probabilidade clássica, P(E) = n(E)/n(S)
O histograma é usado para descrever dados de uma amostra. Uma amostra é um conjunto de medidas selecionado de uma população maior, por exemplo, os 125 diâmetros dos anéis de pistons da tabela 3.3 são uma amostra dos diâmetros selecionada do processo de produção. A população neste exemplo é o conjunto de todos os anéis de pistons produzidos por este processo.
Uma distribuição de probabilidade é um modelo matemático que relaciona o valor da variável com a probabilidade de ocorrência daquele valor na população. Em outras palavras, podemos visualizar o diâmetro dos anéis de pistons como uma variável aleatória, porque ele assume diferentes valores na população de acordo com algum mecânismo aleatório, e, assim a dstribuição de probabilidade dos diâmetros dos anéis descreve a probabilidade de ocorrência de qualquer valor do diâmetro na população. Há dois tipos de distribuição de probabilidade.
DEFINIÇÃO
1. Distribuições continuas. Quando a variável sendo medida é expressa em uma escala contínua; sua distribuição de probabilidade é chamada distribuição contínua. A distribuição de probabilidade dos diâmetros dos anéis de pistons é contínua.
2. Distribuições discretas. Quando o parâmetro sendo medido só pode assumir certos valores, tais como os inteiros 0,1,2,…, a distribuição de probabilidade é chamada distribuição discreta. Por exemplo, a distribuição do número de defeitos em placas de circuito seria uma variável discreta.
A probabilidade de uma variável aleatória x assumir o valor \(x_i\) é indicada por:
\(P(x=x_i) = p(x_i)\)
A aparência de uma distribuição contínua é a de uma curva suave, com a área sob a curva sendo igual à probabilidade, de modo que a probabilidade de x está no intervalo entre a e b é escrita como:
\(P(a \leq x \leq b) = \int_{a}^{b}f(x)dx\)
Figura 6.1 Distribuição de probabilidade contínua.
A distribuição normal é, provavelmente, a mais importante distribuição, tanto na teoria quanto na prática da estatística. Se x é uma variável aleatória normal, então a distribuição de probabilidade de x é definida como segue.
DEFINIÇÃO
A distribuição normal ou função de densidade normal é
\(f(x) = \frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}\) \({-\infty} < x < {\infty}\)
aonde f(x) indica a altura da ordenada da curva, que representa a densidade dos dados; é a variável dependente, sendo função da variável independente x. Existe na equação anterior duas constantes: \(\pi\), que como sabemos é 3,14159; a outra constante é e, a base dos logaritmos naturais, cujo valor aproximado é 2,71828. Existem dois parâmetros na função de densidade normal: a média paramétrica \(\mu\) e o desvio padrão paramétrico \(\sigma\), que determina a forma e a localização da distribuição.
A média da distribuição normal é \(\mu\) (\({-\infty} < \mu < {\infty}\)) e a variância é \(\sigma^2 > 0\)
A distribuição normal é tão usada que frequentemente usamos uma notação especial, \(*x* \sim N (\mu, \sigma^2)\)
As probabilidades de eventos associados a uma variável aleatória contínua X podem ser calculadas através de uma função densidade de probabilidade f, que deve satisfazer:
Se A = [a,b], então P(A) = \(\int_{a}^{b}f(x)dx\)
Não existe uma única distribuição normal, como poderia aparecer, mas existe uma infinidade de tais curvas, dado que os parâmetros podem tomar um número infinito de valores (Figura 7.1 e 7.2).
Quando uma variável aleatória x tem uma distribuição normal de probabilidade com parâmetros \(\mu\) e \(\sigma\); e precisamos calcular a probabilidade de x está entre dois valores a e b, ou seja para calcularmos o valor de \(P(a \leq x \leq b)\), precisamos calcular:
\(\int_{a}^{b}\frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} dx\)
Nenhuma das técnicas comuns de integração pode ser usada para avaliar a expressão acima. Entretanto, usando a mudança de variável \(*z* = \frac{x-\mu}{\sigma}\)
O cálculo pode ser feito independetemente de \(\mu\) e \({\sigma}^2\).
A distribuição normal com parâmetros \(\mu = 0\) e \(\sigma = 1\) é chamada de distribuição normal padrão. A escala horizontal do gráfico da distribuição normal padrão corresponde aos escores de z. Na seção 4.6, você aprendeu que um escore z é uma medida de posição que indica o número de desvios padrão de um valor a partir da média. Você pode transformar um valor x em um escore z usando a seguinte fórmula:
\(*z* = \frac{valor-média}{desvio padrão} = \frac{x-\mu}{\sigma}\)
A variável aleatória que tem uma distribuição normal padrão é chamada variável normal padrão e será indicada por z. A função distribuição de probabilidade de z é:
\(f(z;0,1)=\frac{1}{\sqrt{2\pi}}\).\(e^{-\frac{x^2}{2}}\)
A curva característica de uma distribuição normal é simétrica em relação à média. Portanto, a média, a mediana e a moda estão todas sobre o mesmo ponto. As seguintes porcentagens dos dados em uma distribuição normal se extende dentro dos seguintes limítes:
\(\mu \pm \sigma\) contém 68,26% dos dados
\(\mu \pm 2\sigma\) contém 95,44% dos dados
\(\mu \pm 3\sigma\) contém 99,73% dos dados
\(\mu \pm 4\sigma\) contém 99,99% dos dados
Inversamente:
50% dos dados cai dentro dos limítes \(\mu \pm 0,674\sigma\)
95% dos dados cai dentro dos limítes \(\mu \pm 1,960\sigma\)
99% dos dados cai dentro dos limítes \(\mu \pm 2,576\sigma\)
Veja a figura 7.3
figura7.3Image
Figura 7.3 distribuição dos percentuais em função do número de desvios-padrão.
Propriedades da distribuição Normal padrão
Figura 7.3 Distribuição normal padrão \((\mu=0; \sigma=1)\)
Por causa da importância das áreas sob a curva normal padrão, tabelas dessas áreas foram construídas (Tabela 7.1). Os valores no corpo da tabela, representam a área sob a curva entre 0 e um valor especificado de z.
Tabela 7.1 Áreas (probabilidades)sob a curva normal padrão.
Segunda | casa | decimal | de | z | ||||||
---|---|---|---|---|---|---|---|---|---|---|
z | 0 | 0,01 | 0,02 | 0,03 | 0,04 | 0,05 | 0,06 | 0,07 | 0,08 | 0,09 |
0 | 0 | 0,004 | 0,008 | 0,012 | 0,016 | 0,0199 | 0,0239 | 0,0279 | 0,0319 | 0,0359 |
0,1 | 0,0398 | 0,0438 | 0,0478 | 0,0517 | 0,0557 | 0,0596 | 0,0636 | 0,0675 | 0,0714 | 0,0753 |
0,2 | 0,0793 | 0,0832 | 0,0871 | 0,091 | 0,0948 | 0,0987 | 0,1026 | 0,1064 | 0,1103 | 0,1141 |
0,3 | 0,1179 | 0,1217 | 0,1255 | 0,1293 | 0,1331 | 0,1368 | 0,1406 | 0,1443 | 0,148 | 0,1517 |
0,4 | 0,1554 | 0,1591 | 0,1628 | 0,1664 | 0,17 | 0,1736 | 0,1772 | 0,1808 | 0,1844 | 0,1879 |
0,5 | 0,1915 | 0,195 | 0,1985 | 0,2019 | 0,2054 | 0,2088 | 0,2123 | 0,2157 | 0,219 | 0,2224 |
0,6 | 0,2257 | 0,2291 | 0,2324 | 0,2357 | 0,2389 | 0,2422 | 0,2454 | 0,2486 | 0,2517 | 0,2549 |
0,7 | 0,258 | 0,2611 | 0,2642 | 0,2673 | 0,2704 | 0,2734 | 0,2764 | 0,2794 | 0,2823 | 0,2852 |
0,8 | 0,2881 | 0,291 | 0,2939 | 0,2967 | 0,2995 | 0,3023 | 0,3051 | 0,3078 | 0,3106 | 0,3133 |
0,9 | 0,3159 | 0,3186 | 0,3212 | 0,3238 | 0,3264 | 0,3289 | 0,3315 | 0,334 | 0,3365 | 0,3389 |
1 | 0,3413 | 0,3438 | 0,3461 | 0,3485 | 0,3508 | 0,3531 | 0,3554 | 0,3577 | 0,3599 | 0,3621 |
1,1 | 0,3643 | 0,3665 | 0,3686 | 0,3708 | 0,3729 | 0,3749 | 0,377 | 0,379 | 0,381 | 0,383 |
1,2 | 0,3849 | 0,3869 | 0,3888 | 0,3907 | 0,3925 | 0,3944 | 0,3962 | 0,398 | 0,3997 | 0,4015 |
1,3 | 0,4032 | 0,4049 | 0,4066 | 0,4082 | 0,4099 | 0,4115 | 0,4131 | 0,4147 | 0,4162 | 0,4177 |
1,4 | 0,4192 | 0,4207 | 0,4222 | 0,4236 | 0,4251 | 0,4265 | 0,4279 | 0,4292 | 0,4306 | 0,4319 |
1,5 | 0,4332 | 0,4345 | 0,4357 | 0,437 | 0,4382 | 0,4394 | 0,4406 | 0,4418 | 0,4429 | 0,4441 |
1,6 | 0,4452 | 0,4463 | 0,4474 | 0,4484 | 0,4495 | 0,4505 | 0,4515 | 0,4525 | 0,4535 | 0,4545 |
1,7 | 0,4554 | 0,4564 | 0,4573 | 0,4582 | 0,4591 | 0,4599 | 0,4608 | 0,4616 | 0,4625 | 0,4633 |
1,8 | 0,4641 | 0,4649 | 0,4656 | 0,4664 | 0,4671 | 0,4678 | 0,4686 | 0,4693 | 0,4699 | 0,4706 |
1,9 | 0,4713 | 0,4719 | 0,4726 | 0,4732 | 0,4738 | 0,4744 | 0,475 | 0,4756 | 0,4761 | 0,4767 |
2 | 0,4772 | 0,4778 | 0,4783 | 0,4788 | 0,4793 | 0,4798 | 0,4803 | 0,4808 | 0,4812 | 0,4817 |
2,1 | 0,4821 | 0,4826 | 0,483 | 0,4834 | 0,4838 | 0,4842 | 0,4846 | 0,485 | 0,4854 | 0,4857 |
2,2 | 0,4861 | 0,4864 | 0,4868 | 0,4871 | 0,4875 | 0,4878 | 0,4881 | 0,4884 | 0,4887 | 0,489 |
2,3 | 0,4893 | 0,4896 | 0,4898 | 0,4901 | 0,4904 | 0,4906 | 0,4909 | 0,4911 | 0,4913 | 0,4916 |
2,4 | 0,4918 | 0,492 | 0,4922 | 0,4925 | 0,4927 | 0,4929 | 0,4931 | 0,4932 | 0,4934 | 0,4936 |
2,5 | 0,4938 | 0,494 | 0,4941 | 0,4943 | 0,4945 | 0,4946 | 0,4948 | 0,4949 | 0,4951 | 0,4952 |
2,6 | 0,4953 | 0,4955 | 0,4956 | 0,4957 | 0,4959 | 0,496 | 0,4961 | 0,4962 | 0,4963 | 0,4964 |
2,7 | 0,4965 | 0,4966 | 0,4967 | 0,4968 | 0,4969 | 0,497 | 0,4971 | 0,4972 | 0,4973 | 0,4974 |
2,8 | 0,4974 | 0,4975 | 0,4976 | 0,4977 | 0,4977 | 0,4978 | 0,4979 | 0,4979 | 0,498 | 0,4981 |
2,9 | 0,4981 | 0,4982 | 0,4982 | 0,4983 | 0,4984 | 0,4984 | 0,4985 | 0,4985 | 0,4986 | 0,4986 |
3 | 0,4987 | 0,4987 | 0,4987 | 0,4988 | 0,4988 | 0,4989 | 0,4989 | 0,4989 | 0,499 | 0,499 |
Observação: A área é dada do zero até “z”.
Exemplo 7.1 - Determine a área acumulada que corresponde ao escore z de 1,15.
Solução Encontre 1,1 na coluna à esquerda e então movendo pela linha até a coluna sob 0,05. A interseção da linha com a coluna corresponde ao número 0,3749. Assim, a área de 0 até 1,15 é 0,3749.
Observe que este valor corresponde a solução da integral, com \(\sigma\)=1 e \(\mu\)=0:
\(\int_{0}^{1.15}\frac{1}{\sigma \sqrt{2\pi}}\).\(e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} dx\) =
fn <- function(x) {
fx <- dnorm(x,0,1)
return(fx)
}
integrate(fn, 0, 1.15)
## 0.3749281 with absolute error < 4.2e-15
Exemplo 7.2 - Determine a área acumulada que corresponde ao escore z de -0,24.
Encontre 0,2 na coluna à esquerda e movendo-se então pela linha até a coluna sob 0,04. O número naquela linha e coluna é 0,0948. Como a curva é simétrica, a área que corresponde a z=-0,24 é 0,0948. Observe que não existe probabilidade negativa.
Exemplo 7.3 Determine a área sob a curva normal padrão à direita de z = 2,37.
Solução
A área total sob a curva é 1; e a curva é simétrica com relação a 0. Portanto, a área total à direita de z = 0 é 0,5. Da tabela vemos que a área entre 0 e 2,37 é 0,4911. Então a área à direita de z=2,37 é: 0,500 - 0,4911 = 0,0089.
fn <- function(x) {
fx <- dnorm(x,0,1)
return(fx)
}
integrate(fn, 2.37, +Inf)
## 0.008894043 with absolute error < 7.9e-07
Exemplo 7.4 - Determine a área sob a curva normal padrão entre z = 0,35 e z = 1,47.
Solução
Pela tabela, a área entre z = 0 e z = 0,35 é 0,1368 e a área entre z=0 e z=1,47 é 0,4292. Portanto, a área entre z=0,35 e z=1,47 é igual á diferença entre as duas áreas, ou seja:
Área = 0,4292 - 0,1368 = 0,2924
fn <- function(x) {
fx <- dnorm(x,0,1)
return(fx)
}
integrate(fn, 0.35, 1.47)
## 0.2923885 with absolute error < 3.2e-15
ORIENTAÇÕES GERAIS
Esboce a curva normal padrão e hachure a área apropriada sob a curva.
Obtenha a área por meio dos procedimentos a seguir para cada caso mostrado.
Qual é a média da distribuição normal padrão? Qual é o desvio da distribuição normal padrão?
Descreva como você pode transformar uma distribuição normal qualquer em uma distribuição normal padrão?
Nos exercícios a-l, determine a área indicada sob a curva normal padrão.
Se uma variável aleatória x é distribuída normalmente, é possível obter a probabilidade de que x caia em um determinado intervalo calculando a área sob a curva normal para o intervalo dado.
Para determinar a área sob qualquer curva normal , é preciso converter os limites superior e inferior do intervalo para o escore z. Depois, é aplicada a distribuição normal padrão para obter a área.
Considere, uma curva normal com \(\mu=500\) e \(\sigma=100\), conforme a primeira figura. O valor de x um desvio padrão acima da média é \(\mu + \sigma = 500 + 100 = 600\). Considere então a curva normal padrão exibida na segunda figura. O valor de z um desvio padrão acima da média é \(\mu + \sigma = 0 + 1 = 1\). Uma vex que o escore z de 1 corresponde a um valor *x de 600 e as áreas não são modificadas com uma transformação para a curva normal padrão, as áreas sombreadas nos dois gráficos são iguais.
Determinação de áreas sob uma curva normal com parâmetros \(\mu\) e \(\sigma\)
Exemplo 7.4 - Determine a área sob a curva normal com parâmetros \(\mu=100\) e \(\mu=16\) que se encontra à direita de 120.
Solução
Determinação de z:
x=120
\(z = \frac{x - \mu}{\sigma} = \frac{120-100}{16}\) = 1,25
área entre 0 e 1,25 = 0,3944
área final = 0,500 - 0,3944 = 0,1056
Exemplo 7.5
Certo tipo de armazenador de bateria dura, em média, três anos, com desvio-padrão de 0,5 ano. Assumindo que a vida dos armazenadores é distribuída normalmente, encontre a probabilidade de que certo armazenador dure pelo menos 2,3 anos.
Solução: Primeiro, construa o diagrama, mostrando a distribuição da vida do acumulador e a área desejada.
Para determinar P(x < 2,3), precisamos avaliar a área abaixo da curva normal à esquerda de 2,3. Para isso, vamos determinar o valor de z correspondente:
\(z = \frac{2,3 - 3}{0,5}\) = -1,4
Então, usando a Tabela Normal, temos
P(X < 2,3) = P(z < -1,4)
= 0,5 - P(-1,4 < z < 0) = 0,5 - 0,4192
= 0,0808 ou 8,08%.
Portanto, estimamos que as chances do armazenador durar pelo menos 2,3 anos é de 8,08%.
Exemplo 7.6
Uma indústria elétrica fabrica lâmpadas que têm vida útil, antes de queimarem, normalmente distribuída com média igual a 800 horas e desvio-padrão de 40 horas. Encontre a probabilidade de que uma lâmpada queime entre 778 e 834 horas.
Solução: A distribuição da vida útil das lâmpadas é ilustrada na figura abaixo.
Os valores de z correspondentes a \(x_1\) = 778 e \(x_2\) = 834 são:
\(z_1 = \frac{778-899}{40}\)= -0,55
\(z_2 = \frac{834-800}{40}\)= 0,85
Então,
P(778 < x < 834) = P(-0,55 < z < 0,85) =
P(0 < z < 0,85)+P(-0,55 < z < 0) =
0,3023+0,2088 = 0,5111 ou 51,11%
Portanto, a probabilidade de uma lâmpada queime entre 778 e 834 horas é de 51,1%.
Exemplo 7.7 Em um processo industrial, o diâmetro de um rolamento é uma parte importante do processo. O comprador determina que as especificações para o diâmetro sejam 3,0 \(\pm\) 0,01 cm. A consequência é que nenhuma peça fora dessas especificações será aceita. Sabe-se que, no processo, o diâmetro do rolamento tem distribuição normal com média \(\mu\) = 3,0 e desvio-padrão \(\sigma\)=0,05. Em média, quantos rolamentos fabricados serão inutilizados?
Solução: A distribuição dos diâmetros é ilustrada na figura abaixo.
Os valores correspondentes aos limites das especificações são \(x_1\) = 2,99 e \(x_2\) = 3,01. Os valores de z correspondentes são
\(z_1 = \frac{2,99-3,0}{0,005}=-2,0\)
\(z_2 = \frac{3,01-3,0}{0,005}=+2,0\)
Assim,
P(2,99 < x < 3,01) = P(-2,0 < z < +2,0)
= [0,5-P(-2,0 < z < 0)]+[0,5-P(0 < z < +2,0)] = [0,5-0,4772]+[0,5-0,4772] = 0,0456 ou 4,56%
Portanto, como resultado, antecipamos, que em média, 4,56% dos rolamentos fabricados serão inutilizados.
Exemplo 7.8
Certa máquina fabrica resistores elétricos com uma resistência média de 40 ohms e desvio-padrão de 2 0hms. Supondo que a resistência siga uma distribuição normal e que pode ser medida para qualquer grau de acuidade, qual é a porcentagem de resistores que terão uma resistência excedendo 43 ohms?
Solução: Devemos encontrar a área à direita de x=43. Isso pode ser feito transformando-se x no valor de z correspondente, e obtendo a referida área.
\(z = \frac{43-40}{2}\) = 1,5
Portanto,
P(x>43)= P(z>1,5) = 0,5 - P(0
Precisamos de um valor de z que deixe uma área de 0.5 - 0,45 = 0,05 à esquerda. Da Tabela Normal, descobrimos que P(0 < z < 0,05) = 0,13. Então o valor desejado de z é -0,13. Portanto,
x = (6).(-0,13) + 40 = 39,22.
x = (6).(1,08)+40 = 46,48.
A força de tensão do papel usado na confecção de sacos para supermercados é uma característica importante de qualidade. Sabe-se que a força-digamos, x-é normalmente distribuída com média \(\mu=40 lb/pol^2\) e dsvio-padrão \(\sigma = 2 lb/pol^2\), denotada por x \(\sim\) N(40,\(2^2\)). Um comprador dos sacos exige que eles tenham pelo menos 35 \(lb/pol^2\). Qual a probabilidade de que um saco confeccionado com este papel atenda tal especificação?
A força de tensão de uma parte metálica é normalmente distribuída com média de 40 lb e desvio padrão de 8 lb. Se 50000 partessão produzidas, quantas não atenderão à especificação limite mínima de 34 lb? Quantas terão força de tensão superior a 48 lb?
A voltagem de saída de uma fonte de energia é normalmente distribuída com média 12 V e desvio-padrão de 0,05 V. Se as especificações inferior e superior para a voltagem são 11,90 V e 12,10 V, respectivamente, qual é a probabilidade de uma dessas fontes de energia, selecionada aleatoriamente, atender as especificações sobre a voltagem?
Suponha que x seja normalmente distribuída com média \(\mu\) e desvio-padrão igual a 4; dado que a probabilidade de x ser menor que 32 é 0,0228, ache o valor de \(\mu\).
Um ônibus chega a cada dez minutos em um ponto de parada. Assume-se que o tempo de espera para um indivíduo em particular é uma variável aleatória com distribuição uniforme contínua.
Considere um processo consistindo de uma sequência de n testes independentes. Por teste independentes queremos dizer que o resultado de cada teste não depende, de qualquer maneira, dos resultados de testes anteriores. Quando o resultado de cada teste é ou sucesso ou falha, o processo é chamado de processo de Bernoulli. Se a probabilidade de “sucesso” em qualquer teste - digamos, p-é constante, então o número de sucessos x em n provas de Bernoulli independentes tem distribuição binomial com parâmetros n e p, é definida como segue:
DEFINIÇÃO
A distribuição binomial com parâmetros n\(\geq\) 0 e \(0 \leq p \leq1\) é:
\(p(x) = {n \choose x}p^x(1-p)^{n-x} x=0,1,...,n\)
A média e a variância da distribuição binomial sâo:
\(\mu = n.p\)
\(\sigma^2 = n.p(1-p)\)
Note que, quando n=3 e p=1/4, a distribuição de probabilidade de x, o número de itens defeituosos, pode ser descrita como
\(p(x;3,1/4) = {3 \choose x}.(1/4)^x.(3/4)^{3-x}, x=0,1,2,3,...\)
A distribuição binomial é usada frequentemente na engenharia da qualidade. Ela é o modelo apropriado para amostragem de uma população infinitamente grande, onde p representa a fração ou probabilidade de itens defeituosos ou não-conformes na população. Nessas aplicações, x usualmente representa o número de itens não-conformes em uma amostra de tamanho n.
Propriedades do Processo de Bernoulli
O experimento consiste em n tentativas repetidas.
O experimento deve ter um número fixo de repetições.
As repetições devem ser independentes.
A probabilidade de sucesso, denotada por p, se mantém constante de tentativa para tentativa.
Cada repetição deve ter um resultado classificado em apenas duas categorias.
NOTAÇÃO
Sucesso (s) ou falha (f) indicam as duas categorias de todos os resultados; p e q indicam as probabilidades de sucesso e de falha, ou seja:
P(s) = p
p(f) = 1-p = q
Em que, p indica a probabilidade de sucesso,e q indica a probabilidade de falha.
Passos para cálculo de uma distribuição binomial
\(P(x;n,p) = {n \choose x}p^x(1-p)^{n-x}\)
Exemplo 8.1
Sabe-se que uma máquina utilizada para a fabricação de parafusos produz 95% de peças dentro das dimensões padronizadas. Suponha que quatro parafusos sejam escolhidos aleatoriamente. Qual a probabilidade de que exatamente 2 deles atendam às especificações?
Solução Passo1. Identifique um sucesso.
Um sucesso será um parafuso atender as especificações.
Passo2. Determine p, a probabilidade de sucesso.
p=95%=0,95 q=1-0,95=0,05
Passo3. Determine n, o número de repetições.
n=4
x=2
Passo4. A fórmula da distribuição binomial para o número de sucessos x, será:
\(P(x;n,p) = {n \choose x}p^x(1-p)^{n-x}\)
\(P(x;4,0,95) = {4\choose x}.(0,95)^x.(0,05)^{4-x}\)
Desenvolvendo a fórmula para x=2,
\(P(2)=\frac{4!}{2!(4-2)!}.(0,95)^2 . (0,05)^2\)
P(2)=6 x 0,9025 x 0,0025 = 0,01353 ou 1,35%
Portanto, a probabilidade de que exatamente 2 deles atendam às especificações é de 1,35%.
## [1] 0.0135375
Figura 8.1 Funções de probabilidade (esquerda) e distribuição acumulada-ogiva (direita) da B(x,4, 0.95).
Exemplo 8.2
A probabilidade do pouso de um avião ser bem sucedido usando um simulador de vôo é dada por 0,70. seis estudantes de pilotagem, escolhidos aleatoriamente, são convidados a tentar voar no avião, usando o simulador. Qual é a probabilidade de dois dos seis estudantes pousarem com sucesso o avião?
Solução
Passo1. Identifique um sucesso.
Um sucesso será um estudante que realiza um pouso bem sucedido.
Passo2. Determine p, a probabilidade de sucesso.
p=0,70
Passo3. Determine n, o número de repetições.
n=6
Passo4. A fórmula da distribuição binomial para o número de sucessos x, será:
\(p(x) = {6 \choose x}(0,70)^x(0,30)^{6-x}\)
Respondendo a pergunta formulada:
A probabilidade de exatamente 2 estudantes pousarem com sucesso será (x=2):
\(p(x) = {6 \choose 2}(0,70)^2(0,30)^{4}\) = 0,0595
Portanto, existe 5,95% de probabilidade de que 2 estudantes consigam realizar o pouso com sucesso.
## [1] 0.059535
Figura 8.2 Funções de probabilidade (esquerda) e distribuição acumulada-ogiva (direita) da B(x,6, 0.70).
dica: P(nenhum)= 1- p(pelo menos 1)
dica: \(P(x \geq 1)=1-P(x=0)\)
dica: \(P(x \geq 2)=1-P(x < 2)\) dica: \(P(x < 2) = P(0)+ P(1)\)
Trata-se do caso limite da distribuição binomial quando o número de provas n tende para o infinito e a probabilidade p do evento em cada prova é vizinha de zero. Em essência, a distribuição de Poisson é a distribuição binomial adequada para eventos independentes e raros, ocorrendo em um periodo praticamente infinito de intervalos. Cumpre destacar que a unidade de medida é contínua ( em geral tempo ou espaçõ), mas a variável aleatória (número de ocorrências) é discreta.
É uma distribuição semelhante a binomial, exceto pelo fato de que os eventos ocorrem em tentativas fixadas. Por exemplo: número de falhas que ocorrem em um processo industrial em cada lote produzido ou a quantidade de mensagens que chegam por hora no servidor de uma rede de computadores.
DEFINIÇÃO
A **distribuição de Poisson é
\(p(x) = \frac{1}{2}\)
Milone, G. Estatística geral e aplicada. S?o Paulo:Thomson Learning, 2006.
Montgomery, D. Introdução ao controle estatístico de qualidade. Rio de Janeiro:LTC, 20014.