Roberval Lima
2018-03-21
local: //rpubs.com/roberval/371963
Resumos e exibições de dados bem construídos são essenciais para um bom raciocínio estatístico, porque eles podem concentrar o engenheiro em características importantes dos dados ou fornecer informações sobre o tipo de modelo que deve ser utilizado na resolução do problema. O computador tornou-se uma ferramenta importante na apresentação e análise de dados. Embora muitas técnicas estatísticas requerem apenas uma calculadora de mão, muito tempo e esforço pode ser exigido por esta abordagem, e um computador irá executar as tarefas de forma muito mais eficiente.
Muitas vezes é útil descrever os dados numericamente. Por exemplo, podemos caracterizar a localização ou a tendência central dos dados pela média aritmética ordinária ou média.
É o centro de massa de um conjunto de dados, cuja regra de formação é dada por uma progresão aritmética. É representada por \(\mu \) quando se refere à população e por \(\bar{x}\), quando se refere à amostra.
Se as n observações em uma amostra são denotadas por x1, x2,…, xn, a média amostral é:
Exemplo 4.1
Considere 8 observações coletadas de um protótipo de conectores de engenharia. As oito obervações são x1=12,6; x2=12,9; x3=13,4; x4=12,3; x5=13,6; x6=15,5; x7=12,6 e x8=13,1. A média amostral é:
A interpretação física da média amostral como medida de localização é mostrado no gráfico de pontos da figura 4. Note que a média \(\bar{x}\)=13,0 é o “ponto de equilíbrio”. Isto é, cada observação representa 1 grama de massa colocada sobre os pontos no eixo x; um fulcro localizado exatamente no ponto médio estabelece o balanço do sistema de pesos.
Figura 4.1 Média amostral como ponto de equilíbrio para um sistema de pesos
A média pode ser obtida facilmente no R com o comando mean().
#Resolvendo o exemplo 4.1 no programa R:
x<-c(12.6, 12.9, 13.4, 12.3, 13.6, 13.5, 12.6, 13.1) #criando um vetor
mean(x) #obtendo a média
## [1] 13
Em algumas situações é possível haver um ou mais dados ausentes (representados no R por “NA”) em seu conjunto de dados.
Neste caso, basta usar o argumento na.rm=T para que o R desconsidere os elementos NA no cálculo da média.
#Exemplo com dados ausentes:
y<-c(12.6, 12.9, 13.4, NA, 13.6, 13.5) #criando um vetor
y # exbindo y
## [1] 12.6 12.9 13.4 NA 13.6 13.5
mean(y) #cálculo inapropriado
## [1] NA
mean(y, na.rm=T) #cálculo correto
## [1] 13.2
Propriedades da média aritmética:
Uma média aparada é calculada aparando-se certa porcentagem dos maiores e menores valores. Por exemplo, para calcular a média aparada de 10%, deve-se eliminar 10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valores remanescentes.
Exemplo
Em que n = \(\sum{f}\)
Exemplo 4.2 Foram medidas (em mm), as espessuras de 30 chapas produzidas por uma máquina, obtendo-se a distribuição de frequências mostrada na tabela 4.1. Calcule a espessura média.
Tabela 4.1 Espessura (mm) e número de chapas produzidas.
x | f | x.f |
---|---|---|
56 | 6 | |
57 | 2 | |
58 | 9 | |
59 | 5 | |
60 | 3 | |
61 | 1 | |
62 | 4 | |
Total |
Observação: quando os dados são fornecidos por classe de frequências, utilizamos a mesma fómula, sendo xi, os pontos médios das classes.
Exemplo 4.3 Calcular a média da distribuição de frequências indicada na tabela 4.2,
Tabela 4.3 Distribuição de frequências
Classes | Ponto médio | f | x.f |
---|---|---|---|
30\(\leq\) x < 33 | 31,5 | 3 | 94,5 |
33\(\leq\) x < 36 | 5 | ||
36\(\leq\) x < 39 | 2 | ||
39\(\leq\) x < 42 | 4 | ||
42\(\leq\) x < 45 | 6 | ||
45\(\leq\) x < 48 | 46,5 | 7 | 325,5 |
48\(\leq\) x < 51 | 3 | ||
Total |
A mediana (md) é um valor que caracteriza o centro da distribuição de frequências. É o valor que ocupa a posição central do conjunto dos dados ordenados.
Se o conjunto de dados é impar, existe um único valor na posição central. Esse valor é a mediana. Por exemplo, dados:
Exemplo Mediana 3,5,9,12,14
A mediana é 9.
Se o número de dados é par, existem dois valores na posição central. Então a mediana é a média desses dois valores. Por exemplo, dados:
3,5,7,9
A mediana é 6, isto é a média de 5 e 7.
Observação: quando ocorrem dados discrepantes (valores muito maiores ou menores do que os demais), o mais correto é usar a mediana para descrever a tendência central dos dados.
A moda (mo) é uma medida de tendência central, indicando a região das máximas frequências. É uma medida indicativa de concentração. Regra geral, a moda aponta o valor de maior frequência simples - absoluta ou relativa - ou o ponto isolado de maior peso no conjunto de dados.
Por suas propriedades, a moda é mais fortemente associada à VARIÁVEIS QUALITATIVAS.
A moda, por ser o ponto de maior concentração pontual, independe da ordenação dos elementos do conjunto X, de seus extremos e de qualquer valor intermediário.
Para sua obtenção, basta agrupar os dados em uma distribuição de frequência simples e tomar o valor de maior frequência.
Exemplo 4.4 Determinando a moda:
São dados: 0, 0. 2, 5, 3, 7, 4, 7, 8, 7, 9, 6
A moda é 7, porque é o valor que ocorre o maior número de vezes.
Um conjunto de dados pode ter mais que um valor modal. Dizemos então, bimodal (2 modal) ou trimodal (3 modas).
A moda é muito informativa quando o conjunto de dados é grande, mas se o conjunto de dados for pequeno (20 ou 30 observações), a moda não tem, em geral, sentido prático.
Exemplo 4.5 Determinar a moda de: X={85,82,97,88,89,97,89,93,88,97,96,97,98,93,97}
x | 82 | 85 | 88 | 89 | 93 | 96 | 97 | 98 |
---|---|---|---|---|---|---|---|---|
f | 1 | 1 | 2 | 2 | 2 | 1 | 5 | 1 |
Portanto, \(mo = 97\)
Outra medida de posição é o escore padrão ou escore z.
O escore padrão, ou escore z, representa o número de desvios padrão no qual está um valor dado x a partir da média m. Para obter o escore z de um valor dado, use a seguinte fórmula:
z = \(\frac{valor-média}{desvio-padrão}\)=\(\frac{x-\mu}{\sigma}\)
Um escore z pode ser negativo, positivo ou zero. Se z é negativo, o valor x está abaixo da média. Se z é positivo, o valor x correpondente está acima da média. E se z = 0, o valor x correspondente é igual a média.
Exemplo 4.6
O ponto de fusão do ouro é de 1060 graus Celsius. Isto é, evidentemente, um valor médio. O erro experimental inevitável, causa uma variação deste valor para mais ou para menos sempre que um teste é realizado. A melhor medida destas variações é o desvio padrão (s). Suponha que este foi calculado a partir de uma grande série de testes, e verificou-se ser de 3 graus Celsius.
Agora imagine que você está analisando um metal desconhecido, e um teste mostra que seu ponto de fusão é de 1072 graus Celsius. É provável que este metal desconhecido seja ouro? Em outras palavras, qual é a probabilidade de que uma amostra de ouro que apresenta um ponto de fusão médio de 1072 graus Celsius seja ouro.
Solução Vamos converter a observação x, 1072 em z-escore.
\(z = \frac{1072-1060}{3} = \frac{12}{3} = 4\)
Portanto, a observação de 1072 está 4 desvios padrões afastada da média. A probabilidade de uma observação posicionada à 4 desvios padrões de sua média é muito pequena, virtualmente zero; 99,8% da distribuição está dentro de 3 desvios padrões. Portanto, é muito improvável que a amostra em análise é de fato ouro.
Exercício 4.1
3,4 | 2,5 | 4,8 | 2,9 | 3,6 |
---|---|---|---|---|
2,8 | 3,3 | 5,6 | 3,7 | 2,8 |
4,4 | 4,0 | 5,2 | 3,0 | 4,8 |
Suponha que as medidas sejam uma amostra aleatória simples.
Defeitos | Frequência |
---|---|
0 | 30 |
1 | 25 |
2 | 10 |
3 | 5 |
4 | 2 |
Sem envelhecimento:
227 | 222 | 218 | 217 | 225 |
---|---|---|---|---|
218 | 216 | 229 | 228 | 221 |
Com envelhecimento:
219 | 214 | 215 | 211 | 209 |
---|---|---|---|---|
218 | 203 | 204 | 201 | 205 |
Exercícios 4.2
572, 572, 573, 568, 569, 575, 565, 570
Encontre a média e mediana amostrais.
Encontre a variância, o desvio-padrão, o coeficiente de variação e a amplitude amostral.
Usando as estatísticas calculadas em (a) e (b), comente sobre a qualidade dos pneus.
Fumantes:
69,3 | 56,0 | 22,1 | 47,6 |
---|---|---|---|
53,2 | 48,1 | 52,7 | 34,4 |
60,2 | 43,8 | 23,2 | 13,8 |
Não fumantes:
28,6 | 25,1 | 26,4 | 34,9 |
---|---|---|---|
29,8 | 28,4 | 38,5 | 30,2 |
30,6 | 31,8 | 41,6 | 21,1 |
36,0 | 37,9 | 13,9 |
+a. Encontre a média amostral em cada grupo. +b. Encontre o desvio-padrão amostral e o coeficiente de variação em cada grupo. +c. Faça um diagrama de dispersão e um boxplot dos dois conjuntos de dados. +d. Comente o tipo de impacto que o fumo aparenta ter no tempo que se leva para dormir.
23 | 60 | 79 | 32 | 57 | 74 | 52 | 70 | 82 |
---|---|---|---|---|---|---|---|---|
36 | 80 | 77 | 81 | 95 | 41 | 65 | 92 | 85 |
55 | 76 | 52 | 10 | 64 | 75 | 78 | 25 | 80 |
98 | 81 | 67 | 41 | 71 | 83 | 54 | 64 | 72 |
88 | 62 | 74 | 43 | 60 | 78 | 89 | 76 | 84 |
48 | 84 | 90 | 15 | 79 | 34 | 67 | 17 | 82 |
69 | 74 | 63 | 80 | 85 | 61 |