Roberval Lima
2018-04-18
http://rpubs.com/roberval/381151
Vimos no capítulo anterior que se resume a informação contida em um conjunto de dados estabelecendo o valor de um ponto central, em torno do qual os dados se distribuem. Neste capítulo veremos que deve-se calcular, além do valor desta medida de tendência central, um valor que mostre a variabilidade dos dados, ou seja, uma medida de dispersão.
As principais medidas de dispersão são: amplitude, variância, desvio-padrão e coeficiente de variação.
Amplitude é a diferença entre o valor máximo e mínimo de um conjunto de dados.
Fórmula:
\(amplitude = máximo - mínimo\)
A amplitude é fácil de calcular e de interpretar, mas não mede bem a variabilidade dos dados, pois usam-se apenas dois valores extremos.
Isto significa que:
Dois conjuntos de dados com variabilidade muito diferentes podem ter a mesma amplitude.
Um valor discrepante faz a amplitude aumentar muito. A amplitude é muito sensível aos valores extremos.
Quando a média é usada como medida de tendência central, podemos calcular o desvio de cada observação em relação à média como segue:
\(desvio = observação - média\)
\(desvio = x - \bar{x}\)
Se os desvios em relação à média são pequenos, podemos concluir que as observações estão aglomeradas em torno da média. A variabilidade dos dados é, portanto, pequena. Se os desvios são grandes, os dados estão muito dispersos. Logo, a variabilidade dos dados é grande. A variância é uma medida de variabilidade que capta essas duas situações.
**Exemplo 5.1*
São fornecidas as idades, em anos completos, de cinco máquinas:
{3,6,5,7 e 9}
Como a média é 6 anos, os desvios em relação à média são os valores apresentados na tabela 5.1.
Tabela 5.1 Cálculo dos desvios
Observação (x) | Desvio (x-\(\bar{x}\)) |
---|---|
3 | 3-6=-3 |
6 | 6-6=0 |
5 | 5-6=-1 |
7 | 7-6=1 |
9 | 9-6=3 |
A média dos desvios poderia ser uma boa medida de variabilidade se a sua somatória não fosse zero (-3 + 0 -1 + 1 + 3). Aliás, esse é o motivo de a média aritmética ser uma boa medida de tendência central: o “peso” dos desvios negativos é igual ao peso dos positivos.
Para obter uma medida de variabilidade, é preciso eliminar os sinais dos desvios antes de calcular a média. Para isso eleva-se os desvios ao quadrado. A medida de variabilidade assim obtida é chamada de variância, que se indica por \((s^2)\).
DEFINIÇÃO
Define-se variância do conjunto X como o momento de 2a. ordem centrado em sua média aritmética (pode-se centrar o momento em qualquer valor; o centrado na média aritmética é o menor deles).
Fórmula. Variância populacional de X.
Dados discretos:
\(\sigma^2 = \sum p(x - \mu)^{2}\) (Geral)
\(\sigma^2 = \frac{1}{N}\) \([\sum x^2 - \frac{(\sum x)^2}{N}]\) (Sem a média)
Dados Contínuos \(\sigma^2 = \int(x-\mu)f(x)dx\)
Fórmula. Variância amostral de X.
\(s^2 = \frac{1}{n-1}\) \(\sum (x - \bar{x})^2\) (Geral)
\(s^2 = \frac{1}{n-1}\) \([\sum x^2\) - \(\frac{(\sum x)^2}{n}]\) (Sem a média)
Fórmula. Variância amostral de X, dados agrupados.
\(s^2 = \frac{1}{n-1}\) \(\sum f(x - \bar{x})^2\) (Geral)
\(s^2 = \frac{1}{n-1}\) \([\sum (f.x^2)\) - \(\frac{(\sum f.x)^2}{n}]\) (Sem a média)
onde \(n = \sum f\)
Exemplo 5.2
Calcule a amplitude do conjunto de dados A = {2,4,7,10,27,32,59,147,271,599}
Solução
Amp = 599 - 2 = 597 ( ou de 2 a 599)
A <- c(2,4,7,10,27,32,59,147,271,599)
A
## [1] 2 4 7 10 27 32 59 147 271 599
max(A)
## [1] 599
min(A)
## [1] 2
Amp <- max(A) - min(A)
Amp
## [1] 597
Exemplo 5.3
Calcule a variância do conjunto de dados: {2,4,7,9,11,15}
\(\bar{x} = 8\)
\(s^2=\frac{(2-8)^2+(4-8)^2+(7-8)^2+(9-8^2+(11-8)^2+(15-8)^2)}{6-1}\)
\(s^2=22,4\)
x<-c(2,4,7,9,11,15)
n<-length(x)
varx<-(sum(x^2)-(sum(x)^2/n))/(n-1)
varx
## [1] 22.4
##Aplicando a fórmula implementada no R:
var(x)
## [1] 22.4
Exemplo 5.4
Determine a variância para a distribuição de frequências dada na tabela 5.2
Tabela 5.2 Distribuição de frequência
x | f | f.x | \(x^2\) | \(f.x^2\) |
---|---|---|---|---|
56 | 6 | 336 | 3136 | 18816 |
57 | 2 | 114 | 3249 | 6498 |
58 | 9 | 522 | 3364 | 30276 |
59 | 5 | 295 | 3481 | 17405 |
60 | 3 | 180 | 3600 | 10800 |
61 | 1 | 61 | 3721 | 3721 |
62 | 4 | 248 | 3844 | 15376 |
total | 30 | 1756 | 102892 |
\(\sigma^2 = \frac{1}{n-1}\) \([\sum (f.x^2)\) - \(\frac{(\sum f.x){^2}}{n}]\)
\(\sigma^2 = \frac{1}{30-1}\) \((102892 - \frac{1756{^2}}{30})\)
\(\sigma^2 = \frac{107,46}{29} = 3,71\)
O cálculo da variância envolve quadrados de desvios. Então a unidade de medida da variância é igual ao quadrado da medida das observações.
Para obter uma medida de variabilidade na mesma unidade de medida dos dados, extrai-se a raiz quadrada da variância. Obtém-se, assim, o desvio padrão.
Desvio-padrão é a raíz quadrada da variância, com sinal positivo.
DEFINIÇÃO
Desvio-padrão é a média quadrática de X centrado em \(\mu\). É indicado por \(\sigma\) ou por “s”, conforme se refira a populações ou a amostras.
Fórmula:
Desvio-padrão amostral:
\(s =\sqrt{variância} = \sqrt{s^2}\)
Exemplo 5.5
Determinar o desvio-padrão para os dados do exemplo 5.3
\(s = \sqrt{variância} = \sqrt{22,4} = 4,7\)
Por dispersão relativa entende-se a relação entre uma medida de dispersão e outra de centro. As medidas mais comuns são a variância relativa (variância por unidade de esperança) e o coeficiente de variação, em cujos denominadores está a média aritmética. Assim, a variancia relativa compara a variância com o quadrado da média aritmética e o coeficiente de variação, compara o desvio-padrão com a mesma média aritmética. Outra medida de dispersão relativa é a proporção, que indica o peso relativo de x em X.
Fórmulas
\(v^2 = \frac{s^2}{\bar{x}{^2}}\)
\(cv = \frac{s}{\bar{x}}\)
\(p = \frac{f}{n}\)
Operacionalmente, é fácil perceber que o coeficiente de variação é igual à raiz quadrada da variância relativa e que, multiplicando-se os resultados por 100, as medidas resultam expressas em porcentagem.
Exemplo 5.6
A seguir são dadas as alturas (em cm) de 8 atletas. Determine o coeficiente de variação e a variância relativa.
178, 180, 192, 180, 190, 179, 180, 191
Solução
Tabela auxiliar:
n | x | x2 |
---|---|---|
1 | 178 | 31684 |
2 | 180 | 32400 |
3 | 192 | 36864 |
4 | 180 | 32400 |
5 | 190 | 36100 |
6 | 179 | 32041 |
7 | 180 | 32400 |
8 | 191 | 36481 |
total | 1470 | 270370 |
\(s^2 = \frac{1}{8-1} (270370 - \frac{1470^{2}}{8})\)
\(s^2 = \frac{257,5}{7} = 36,78\)
\(s = \sqrt{36,78} = 6,06\)
\(\bar{x} = \frac{1470}{8} = 183,75\)
Coeficiente de variação:
\(cv = \frac{6,06}{183,75} . 100\) = 3,3%
Variância relativa:
\(v^2 = \frac{36,78}{183,75^{2}}.100\) = 0,11%
x<-c(178, 180, 192, 180, 190, 179, 180, 191)
somax<-sum(x)
somax
## [1] 1470
somax2<-sum(x^2)
somax2
## [1] 270370
var(x)
## [1] 36.78571
mean(x)
## [1] 183.75
sd(x)
## [1] 6.065123
#Coeficiente de variação
cv<-sd(x)/mean(x)*100
cv
## [1] 3.300747
#Variância relativa
v2<-(var(x)/mean(x)^2)*100
v2
## [1] 0.1089493
Exercício 5.1
Foram feitas oito medidas do diâmetro (em mm) interno de anéis forjados de pistão de um motor de um automóvel. Os dados codificados são: 1, 3, 15, 0, 5, 2, 5 e 4. Calcule a média e o desvio-padrão da amostra.
Em applied Life Daa Analysis (Wiley, 1982), Waine Nelson apresenta o tempo de esgotamento de um fluido isolante entre eletrodos a 34 kV. Os tempos, em minutos, são: 0,19; 0,78; 0,96; 1,31; 2,78; 3,16; 4,15; 4,67; 4,85; 6,50; 7,35; 8,01; 8,27; 12,06; 31,75; 32,52; 33,91; 36,71 e 72,89. Calcule a média, a variância e o desvio-padrão da amostra.
Sete medidas da espessura de óxido em pastilhas são estudadas para verificar a qualidade em um processo de fabricação de semicondutores. Os dados (em angstrons) são: 1264, 1280, 1301, 1300, 1292, 1307 e 1275. Calcule a média, a variância relativa e o coeficiente de variação da amostra.
Na tabela de distribuição de frequência a seguir estão apresentadas as espessuras (em mm) de 40 chapas de aço. Determine a espessura média e o desvio-padrão.
Classes (mm) | Quantidade de chapas (f) |
---|---|
86 \(\leq\) x < 96 | 8 |
96 \(\leq\) x < 106 | 5 |
106 \(\leq\) x < 116 | 10 |
116 \(\leq\) x < 126 | 6 |
126 \(\leq\) x < 136 | 1 |
136 \(\leq\) x < 146 | 5 |
146 \(\leq\) x < 156 | 5 |
52,5 | 68,5 | 64,4 | 87,2 | 73,0 | 83,5 | 67,9 | 92,3 | 66,4 | 82,3 |
---|---|---|---|---|---|---|---|---|---|
88,4 | 55,6 | 86,7 | 89,3 | 72,0 | 66,3 | 69,3 | 77,0 | 79,2 | 84,5 |
92,4 | 55,0 | 67,8 | 93,4 | 55,8 | 95,4 | 96,7 | 58,4 | 75,4 | 72,3 |