Aula-Medidas de variabilidade

Roberval Lima

2018-04-18

Capítulo 5. Medidas de variabilidade

http://rpubs.com/roberval/381151

Vimos no capítulo anterior que se resume a informação contida em um conjunto de dados estabelecendo o valor de um ponto central, em torno do qual os dados se distribuem. Neste capítulo veremos que deve-se calcular, além do valor desta medida de tendência central, um valor que mostre a variabilidade dos dados, ou seja, uma medida de dispersão.

As principais medidas de dispersão são: amplitude, variância, desvio-padrão e coeficiente de variação.

5.1 Amplitude

Amplitude é a diferença entre o valor máximo e mínimo de um conjunto de dados.

Fórmula:

\(amplitude = máximo - mínimo\)

A amplitude é fácil de calcular e de interpretar, mas não mede bem a variabilidade dos dados, pois usam-se apenas dois valores extremos.

Isto significa que:

5.2 Variância amostral

Quando a média é usada como medida de tendência central, podemos calcular o desvio de cada observação em relação à média como segue:

\(desvio = observação - média\)

\(desvio = x - \bar{x}\)

Se os desvios em relação à média são pequenos, podemos concluir que as observações estão aglomeradas em torno da média. A variabilidade dos dados é, portanto, pequena. Se os desvios são grandes, os dados estão muito dispersos. Logo, a variabilidade dos dados é grande. A variância é uma medida de variabilidade que capta essas duas situações.

**Exemplo 5.1*

São fornecidas as idades, em anos completos, de cinco máquinas:

      {3,6,5,7 e 9}

Como a média é 6 anos, os desvios em relação à média são os valores apresentados na tabela 5.1.

Tabela 5.1 Cálculo dos desvios

Observação (x) Desvio (x-\(\bar{x}\))
3 3-6=-3
6 6-6=0
5 5-6=-1
7 7-6=1
9 9-6=3

A média dos desvios poderia ser uma boa medida de variabilidade se a sua somatória não fosse zero (-3 + 0 -1 + 1 + 3). Aliás, esse é o motivo de a média aritmética ser uma boa medida de tendência central: o “peso” dos desvios negativos é igual ao peso dos positivos.

Para obter uma medida de variabilidade, é preciso eliminar os sinais dos desvios antes de calcular a média. Para isso eleva-se os desvios ao quadrado. A medida de variabilidade assim obtida é chamada de variância, que se indica por \((s^2)\).

DEFINIÇÃO

Define-se variância do conjunto X como o momento de 2a. ordem centrado em sua média aritmética (pode-se centrar o momento em qualquer valor; o centrado na média aritmética é o menor deles).

Fórmula. Variância populacional de X.

Dados discretos:

\(\sigma^2 = \sum p(x - \mu)^{2}\) (Geral)

\(\sigma^2 = \frac{1}{N}\) \([\sum x^2 - \frac{(\sum x)^2}{N}]\) (Sem a média)

Dados Contínuos \(\sigma^2 = \int(x-\mu)f(x)dx\)

Fórmula. Variância amostral de X.

\(s^2 = \frac{1}{n-1}\) \(\sum (x - \bar{x})^2\) (Geral)

\(s^2 = \frac{1}{n-1}\) \([\sum x^2\) - \(\frac{(\sum x)^2}{n}]\) (Sem a média)

Fórmula. Variância amostral de X, dados agrupados.

\(s^2 = \frac{1}{n-1}\) \(\sum f(x - \bar{x})^2\) (Geral)

\(s^2 = \frac{1}{n-1}\) \([\sum (f.x^2)\) - \(\frac{(\sum f.x)^2}{n}]\) (Sem a média)

onde \(n = \sum f\)

Exemplo 5.2

Calcule a amplitude do conjunto de dados A = {2,4,7,10,27,32,59,147,271,599}

Solução

Amp = 599 - 2 = 597 ( ou de 2 a 599)

A <- c(2,4,7,10,27,32,59,147,271,599)
A
##  [1]   2   4   7  10  27  32  59 147 271 599
max(A)
## [1] 599
min(A)
## [1] 2
Amp <- max(A) - min(A)
Amp
## [1] 597

Exemplo 5.3

Calcule a variância do conjunto de dados: {2,4,7,9,11,15}

\(\bar{x} = 8\)

\(s^2=\frac{(2-8)^2+(4-8)^2+(7-8)^2+(9-8^2+(11-8)^2+(15-8)^2)}{6-1}\)

\(s^2=22,4\)

x<-c(2,4,7,9,11,15)
n<-length(x)
varx<-(sum(x^2)-(sum(x)^2/n))/(n-1)
varx
## [1] 22.4
##Aplicando a fórmula implementada no R:
var(x)
## [1] 22.4

Exemplo 5.4

Determine a variância para a distribuição de frequências dada na tabela 5.2

Tabela 5.2 Distribuição de frequência

x f f.x \(x^2\) \(f.x^2\)
56 6 336 3136 18816
57 2 114 3249 6498
58 9 522 3364 30276
59 5 295 3481 17405
60 3 180 3600 10800
61 1 61 3721 3721
62 4 248 3844 15376
total 30 1756 102892

\(\sigma^2 = \frac{1}{n-1}\) \([\sum (f.x^2)\) - \(\frac{(\sum f.x){^2}}{n}]\)

\(\sigma^2 = \frac{1}{30-1}\) \((102892 - \frac{1756{^2}}{30})\)

\(\sigma^2 = \frac{107,46}{29} = 3,71\)

5.3 Desvio-padrão

O cálculo da variância envolve quadrados de desvios. Então a unidade de medida da variância é igual ao quadrado da medida das observações.

Para obter uma medida de variabilidade na mesma unidade de medida dos dados, extrai-se a raiz quadrada da variância. Obtém-se, assim, o desvio padrão.

Desvio-padrão é a raíz quadrada da variância, com sinal positivo.

DEFINIÇÃO

Desvio-padrão é a média quadrática de X centrado em \(\mu\). É indicado por \(\sigma\) ou por “s”, conforme se refira a populações ou a amostras.

Fórmula:

Desvio-padrão amostral:

\(s =\sqrt{variância} = \sqrt{s^2}\)

Exemplo 5.5

Determinar o desvio-padrão para os dados do exemplo 5.3

\(s = \sqrt{variância} = \sqrt{22,4} = 4,7\)

5.4 Dispersão relativa

Por dispersão relativa entende-se a relação entre uma medida de dispersão e outra de centro. As medidas mais comuns são a variância relativa (variância por unidade de esperança) e o coeficiente de variação, em cujos denominadores está a média aritmética. Assim, a variancia relativa compara a variância com o quadrado da média aritmética e o coeficiente de variação, compara o desvio-padrão com a mesma média aritmética. Outra medida de dispersão relativa é a proporção, que indica o peso relativo de x em X.

Fórmulas

\(v^2 = \frac{s^2}{\bar{x}{^2}}\)

\(cv = \frac{s}{\bar{x}}\)

\(p = \frac{f}{n}\)

Operacionalmente, é fácil perceber que o coeficiente de variação é igual à raiz quadrada da variância relativa e que, multiplicando-se os resultados por 100, as medidas resultam expressas em porcentagem.

Exemplo 5.6

A seguir são dadas as alturas (em cm) de 8 atletas. Determine o coeficiente de variação e a variância relativa.

      178, 180, 192, 180, 190, 179, 180, 191

Solução

Tabela auxiliar:

n x x2
1 178 31684
2 180 32400
3 192 36864
4 180 32400
5 190 36100
6 179 32041
7 180 32400
8 191 36481
total 1470 270370

\(s^2 = \frac{1}{8-1} (270370 - \frac{1470^{2}}{8})\)

\(s^2 = \frac{257,5}{7} = 36,78\)

\(s = \sqrt{36,78} = 6,06\)

\(\bar{x} = \frac{1470}{8} = 183,75\)

Coeficiente de variação:

\(cv = \frac{6,06}{183,75} . 100\) = 3,3%

Variância relativa:

\(v^2 = \frac{36,78}{183,75^{2}}.100\) = 0,11%

x<-c(178, 180, 192, 180, 190, 179, 180, 191)
somax<-sum(x)
somax
## [1] 1470
somax2<-sum(x^2)
somax2
## [1] 270370
var(x)
## [1] 36.78571
mean(x)
## [1] 183.75
sd(x)
## [1] 6.065123
#Coeficiente de variação
cv<-sd(x)/mean(x)*100
cv
## [1] 3.300747
#Variância relativa
v2<-(var(x)/mean(x)^2)*100
v2
## [1] 0.1089493

Exercício 5.1

  1. Foram feitas oito medidas do diâmetro (em mm) interno de anéis forjados de pistão de um motor de um automóvel. Os dados codificados são: 1, 3, 15, 0, 5, 2, 5 e 4. Calcule a média e o desvio-padrão da amostra.

  2. Em applied Life Daa Analysis (Wiley, 1982), Waine Nelson apresenta o tempo de esgotamento de um fluido isolante entre eletrodos a 34 kV. Os tempos, em minutos, são: 0,19; 0,78; 0,96; 1,31; 2,78; 3,16; 4,15; 4,67; 4,85; 6,50; 7,35; 8,01; 8,27; 12,06; 31,75; 32,52; 33,91; 36,71 e 72,89. Calcule a média, a variância e o desvio-padrão da amostra.

  3. Sete medidas da espessura de óxido em pastilhas são estudadas para verificar a qualidade em um processo de fabricação de semicondutores. Os dados (em angstrons) são: 1264, 1280, 1301, 1300, 1292, 1307 e 1275. Calcule a média, a variância relativa e o coeficiente de variação da amostra.

  4. Na tabela de distribuição de frequência a seguir estão apresentadas as espessuras (em mm) de 40 chapas de aço. Determine a espessura média e o desvio-padrão.

Classes (mm) Quantidade de chapas (f)
86 \(\leq\) x < 96 8
96 \(\leq\) x < 106 5
106 \(\leq\) x < 116 10
116 \(\leq\) x < 126 6
126 \(\leq\) x < 136 1
136 \(\leq\) x < 146 5
146 \(\leq\) x < 156 5
  1. Na tabela a seguir estão apresentados os pesos (em kg) de uma amostra constituída por 30 frequentadores de um clube esportivo.
52,5 68,5 64,4 87,2 73,0 83,5 67,9 92,3 66,4 82,3
88,4 55,6 86,7 89,3 72,0 66,3 69,3 77,0 79,2 84,5
92,4 55,0 67,8 93,4 55,8 95,4 96,7 58,4 75,4 72,3
  1. construir a tabela de frequência
  2. Determine média e o desvio-padrão
  3. elabore o histograma e o polígono de frequência