Notas de Aula 4-Medidas de tendência central

Roberval Lima

2018-03-21

Capítulo 4. Medidas de Tendência Central

local: //rpubs.com/roberval/371963

Sumarização e apresentação de dados

Resumos e exibições de dados bem construídos são essenciais para um bom raciocínio estatístico, porque eles podem concentrar o engenheiro em características importantes dos dados ou fornecer informações sobre o tipo de modelo que deve ser utilizado na resolução do problema. O computador tornou-se uma ferramenta importante na apresentação e análise de dados. Embora muitas técnicas estatísticas requerem apenas uma calculadora de mão, muito tempo e esforço pode ser exigido por esta abordagem, e um computador irá executar as tarefas de forma muito mais eficiente.

Muitas vezes é útil descrever os dados numericamente. Por exemplo, podemos caracterizar a localização ou a tendência central dos dados pela média aritmética ordinária ou média.

4.1 Média amostral aritmética (sample mean)

É o centro de massa de um conjunto de dados, cuja regra de formação é dada por uma progresão aritmética. É representada por \(\mu \) quando se refere à população e por \(\bar{x}\), quando se refere à amostra.

DEFINIÇÃO

Se as n observações em uma amostra são denotadas por x1, x2,…, xn, a média amostral é:

\(\bar{x}\) = \(\frac{x_1+x_2+ ...+ x_n}{n}\) = \(\frac{\sum_{i=1}^n}{n}\)

Exemplo 4.1

Considere 8 observações coletadas de um protótipo de conectores de engenharia. As oito obervações são x1=12,6; x2=12,9; x3=13,4; x4=12,3; x5=13,6; x6=15,5; x7=12,6 e x8=13,1. A média amostral é:

\(\bar{x}\) = \(\frac{x_1+x_2+ ...+ x_8}{8}\) = \(\frac{\sum_{i=1}^8}{8}\)

\(=\frac{104}{8}\) = 13,0 gramas

A interpretação física da média amostral como medida de localização é mostrado no gráfico de pontos da figura 4. Note que a média \(\bar{x}\)=13,0 é o “ponto de equilíbrio”. Isto é, cada observação representa 1 grama de massa colocada sobre os pontos no eixo x; um fulcro localizado exatamente no ponto médio estabelece o balanço do sistema de pesos.

Figura 4.1 Média amostral como ponto de equilíbrio para um sistema de pesos

PROGRAMA R

A média pode ser obtida facilmente no R com o comando mean().

 #Resolvendo o exemplo 4.1 no programa R:

x<-c(12.6, 12.9, 13.4, 12.3, 13.6, 13.5, 12.6, 13.1) #criando um vetor
mean(x)                 #obtendo a média
## [1] 13

Em algumas situações é possível haver um ou mais dados ausentes (representados no R por “NA”) em seu conjunto de dados.

Neste caso, basta usar o argumento na.rm=T para que o R desconsidere os elementos NA no cálculo da média.

 #Exemplo com dados ausentes:

y<-c(12.6, 12.9, 13.4, NA, 13.6, 13.5) #criando um vetor
y                       # exbindo y
## [1] 12.6 12.9 13.4   NA 13.6 13.5
mean(y)                 #cálculo inapropriado
## [1] NA
mean(y, na.rm=T)        #cálculo correto
## [1] 13.2

Propriedades da média aritmética:

4.2 Médias aparadas:

Uma média aparada é calculada aparando-se certa porcentagem dos maiores e menores valores. Por exemplo, para calcular a média aparada de 10%, deve-se eliminar 10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valores remanescentes.

Exemplo

4.3 Média aritmética para dados agrupados em Tabela de frequência

\(\bar{x}\) = \(\frac{x_1.f_1+x_2.f_2+ ...+ x_n.f_n}{n}\) = \(\frac{\sum_{i=1}^n{x_i.f_i}}{n}\)

Em que n = \(\sum{f}\)

Exemplo 4.2 Foram medidas (em mm), as espessuras de 30 chapas produzidas por uma máquina, obtendo-se a distribuição de frequências mostrada na tabela 4.1. Calcule a espessura média.

Tabela 4.1 Espessura (mm) e número de chapas produzidas.

x f x.f
56 6
57 2
58 9
59 5
60 3
61 1
62 4
Total

\(\bar{x}\) = \(\frac{\sum_{i=1}^n{x_i.f_i}}{n}\) =

Observação: quando os dados são fornecidos por classe de frequências, utilizamos a mesma fómula, sendo xi, os pontos médios das classes.

Exemplo 4.3 Calcular a média da distribuição de frequências indicada na tabela 4.2,

Tabela 4.3 Distribuição de frequências

Classes Ponto médio f x.f
30\(\leq\) x < 33 31,5 3 94,5
33\(\leq\) x < 36 5
36\(\leq\) x < 39 2
39\(\leq\) x < 42 4
42\(\leq\) x < 45 6
45\(\leq\) x < 48 46,5 7 325,5
48\(\leq\) x < 51 3
Total

4.4 Mediana da amostra

A mediana (md) é um valor que caracteriza o centro da distribuição de frequências. É o valor que ocupa a posição central do conjunto dos dados ordenados.

Se o conjunto de dados é impar, existe um único valor na posição central. Esse valor é a mediana. Por exemplo, dados:

Exemplo Mediana 3,5,9,12,14

A mediana é 9.

Se o número de dados é par, existem dois valores na posição central. Então a mediana é a média desses dois valores. Por exemplo, dados:

3,5,7,9

A mediana é 6, isto é a média de 5 e 7.

Observação: quando ocorrem dados discrepantes (valores muito maiores ou menores do que os demais), o mais correto é usar a mediana para descrever a tendência central dos dados.

4.5 Moda da amostra

A moda (mo) é uma medida de tendência central, indicando a região das máximas frequências. É uma medida indicativa de concentração. Regra geral, a moda aponta o valor de maior frequência simples - absoluta ou relativa - ou o ponto isolado de maior peso no conjunto de dados.

Por suas propriedades, a moda é mais fortemente associada à VARIÁVEIS QUALITATIVAS.

A moda, por ser o ponto de maior concentração pontual, independe da ordenação dos elementos do conjunto X, de seus extremos e de qualquer valor intermediário.

Para sua obtenção, basta agrupar os dados em uma distribuição de frequência simples e tomar o valor de maior frequência.

Exemplo 4.4 Determinando a moda:

São dados: 0, 0. 2, 5, 3, 7, 4, 7, 8, 7, 9, 6

A moda é 7, porque é o valor que ocorre o maior número de vezes.

Um conjunto de dados pode ter mais que um valor modal. Dizemos então, bimodal (2 modal) ou trimodal (3 modas).

A moda é muito informativa quando o conjunto de dados é grande, mas se o conjunto de dados for pequeno (20 ou 30 observações), a moda não tem, em geral, sentido prático.

Exemplo 4.5 Determinar a moda de: X={85,82,97,88,89,97,89,93,88,97,96,97,98,93,97}

x 82 85 88 89 93 96 97 98
f 1 1 2 2 2 1 5 1

Portanto, \(mo = 97\)

4.6 Escore padrão

Outra medida de posição é o escore padrão ou escore z.

DEFINIÇÂO

O escore padrão, ou escore z, representa o número de desvios padrão no qual está um valor dado x a partir da média m. Para obter o escore z de um valor dado, use a seguinte fórmula:

z = \(\frac{valor-média}{desvio-padrão}\)=\(\frac{x-\mu}{\sigma}\)

Um escore z pode ser negativo, positivo ou zero. Se z é negativo, o valor x está abaixo da média. Se z é positivo, o valor x correpondente está acima da média. E se z = 0, o valor x correspondente é igual a média.

Exemplo 4.6

O ponto de fusão do ouro é de 1060 graus Celsius. Isto é, evidentemente, um valor médio. O erro experimental inevitável, causa uma variação deste valor para mais ou para menos sempre que um teste é realizado. A melhor medida destas variações é o desvio padrão (s). Suponha que este foi calculado a partir de uma grande série de testes, e verificou-se ser de 3 graus Celsius.

Agora imagine que você está analisando um metal desconhecido, e um teste mostra que seu ponto de fusão é de 1072 graus Celsius. É provável que este metal desconhecido seja ouro? Em outras palavras, qual é a probabilidade de que uma amostra de ouro que apresenta um ponto de fusão médio de 1072 graus Celsius seja ouro.

Solução Vamos converter a observação x, 1072 em z-escore.

\(z = \frac{1072-1060}{3} = \frac{12}{3} = 4\)

Portanto, a observação de 1072 está 4 desvios padrões afastada da média. A probabilidade de uma observação posicionada à 4 desvios padrões de sua média é muito pequena, virtualmente zero; 99,8% da distribuição está dentro de 3 desvios padrões. Portanto, é muito improvável que a amostra em análise é de fato ouro.

Exercício 4.1

  1. Foram registradas as seguintes medidas para o tempo de secagem, em horas, de certa marca de tinta látex:
3,4 2,5 4,8 2,9 3,6
2,8 3,3 5,6 3,7 2,8
4,4 4,0 5,2 3,0 4,8

Suponha que as medidas sejam uma amostra aleatória simples.

  1. Qual o o tamanho da amostra acima?
  2. Calcule a média amostral para esse conjunto de dados.
  3. Calcule a mediana amostral.
  4. Faça um diagrama de pontos destes dados (Programa R).
  5. Calcule a média aparada de 20% para o conjunto de dados acima.
  1. Na tabela 4.3 apresenta-se a distribuição de frequências, que se refere ao número de defeitos encontrados em placas de circuito integrado. Calcule a média.
Defeitos Frequência
0 30
1 25
2 10
3 5
4 2
  1. Certo polímero é usado em sistemas de evacuação para aeronave. É importante que o polímero seja resistente ao processo de envelhecimento. Vinte amostras deles foram usados no experimento. Dez foram escolhidos aleatoriamente para ser exposto ao processo de aceleração de envelhecimento que envolve exposição a altas temperaturas por dez dias. Foram tomadas as medidas de resistência à tensão dos amostras, e os seguintes dados de resistência à tensão, em psi, foram registrados:

Sem envelhecimento:

227 222 218 217 225
218 216 229 228 221

Com envelhecimento:

219 214 215 211 209
218 203 204 201 205
  1. Faça um boxplot para cada conjunto de dados.
  2. Analisando os gráficos, podemos dizer que o processo de envelhecimento tem efeito na resistência à tensão desse polímero? Explique
  3. Calcule a média amostral da resistência à tensão nas duas amostras.
  4. Calcule a mediana de ambas. Discuta a similaridade ou a falta dela entre a média e a mediana de cada grupo.

Exercícios 4.2

  1. Uma indústria de pneus quer determinar o diâmetro interno de certa graduação de pneu. Idealmente, o diâmetro deveria ser de 570 mm. Os dados seguem abaixo:

572, 572, 573, 568, 569, 575, 565, 570

  1. Encontre a média e mediana amostrais.

  2. Encontre a variância, o desvio-padrão, o coeficiente de variação e a amplitude amostral.

  3. Usando as estatísticas calculadas em (a) e (b), comente sobre a qualidade dos pneus.

  1. Um estudo dos efeitos do tabagismo nos padrões de sono é conduzido. A medida observada é o tempo, em minutos, que se leva para dormir. Os dados obtidos são:

Fumantes:

69,3 56,0 22,1 47,6
53,2 48,1 52,7 34,4
60,2 43,8 23,2 13,8

Não fumantes:

28,6 25,1 26,4 34,9
29,8 28,4 38,5 30,2
30,6 31,8 41,6 21,1
36,0 37,9 13,9

+a. Encontre a média amostral em cada grupo. +b. Encontre o desvio-padrão amostral e o coeficiente de variação em cada grupo. +c. Faça um diagrama de dispersão e um boxplot dos dois conjuntos de dados. +d. Comente o tipo de impacto que o fumo aparenta ter no tempo que se leva para dormir.

  1. As seguintes pontuações representam as notas no exame final de um curso elementar de estatística:
23 60 79 32 57 74 52 70 82
36 80 77 81 95 41 65 92 85
55 76 52 10 64 75 78 25 80
98 81 67 41 71 83 54 64 72
88 62 74 43 60 78 89 76 84
48 84 90 15 79 34 67 17 82
69 74 63 80 85 61
  1. Uma determinada marca de pneus de carro tem vida média útil de 35.000 km e desvio padrão de 2.250 km. As durações de 3 pneus selecionados ao acaso são de 34000, 37000 e 31000 milhas. Encontre o escore z que corresponda a cada duração. De acordo com o escore z, alguma das durações poderia ser considerada incomum?