A representação gráfica de dados é uma excelente ferramenta para obter informações e ideias iniciais. Uma análise mais formal dos dados frequentemente exige o cálculo e a interpretação de medidas de resumo numéricas simples. Ou seja, a partir dos dados são extraídos diversos números que servirão para caracterizar o conjunto de dados e indicar algumas informações coonsideráveis. Entre esses números tem-se: média, mediana, variância e desvio-padrão.

Medidas de localização

1.Média

A medida de tendência central mais conhecida é a média aritmética simples ou apenas média. Considere que uma amostra de tamanho \(n\) seja formada pelas observações \(x_{1},x_{2},\dots,x_{n}\). A média amostral \(\bar{x}\) é obtida pelo quociente da soma de todos os valores e a quantidade de valores. Em termos matemáticos,

\(\bar{x}=\dfrac{\displaystyle\sum_{i=1}^{n}x_{i}}{n}\).

Exemplo 1: Dados fictícios: \(x_{1}=40, x_{2}=38, x_{3}=42, x_{4}=43, x_{5}=41\). Tem-se \(\displaystyle\sum_{i=1}^{n}x_{i}=40+38+42+43+41=204\). Logo, \(\bar{x}=\dfrac{204}{5}=40,8\).

É importante notar que:

  1. a média pode pertencer ou não ao conjunto de dados.

  2. a média é um valor compreendido entre o menor e o maior valor. Isto significa que não se poderia, no exemplo anterior, obter para a média um valor menor que 38 ou maior que 43.

Pode-se criar uma função no R para calcular a média de uma amostra.

media<-function(x){
  soma<-sum(x)
  ene<-length(x)
  media<-soma/ene
  return(media)
}

No exemplo 1, o vetor correspondente e o valor da média são:

dados<-c(40,38,42,43,41)
media(dados)
## [1] 40.8

Exemplo 2: As trincas em aço e ferro causadas por fadiga de corrosão cáustica foram estudadas em decorrência de falhas em rebites de caldeiras de aço e motores a vapor. Considere as observações a seguir sobre o comprimento da trinca (\(\mu\)m) como resultado de testes de fadiga por corrosão devido a cargas constantes em amostras de barras de tração lisas durante um período de tempo fixo.

trincas<-c(16.1,9.6,24.9,20.4,12.7,21.2,30.2,25.8,18.5,10.3,25.3,14.0,27.1,45.0,23.3,
           24.2,14.6,8.9,32.4,11.8,28.5)
media(trincas)
## [1] 21.18095

Uma interpretação física da média amostral \(\bar{x}\): Suponha uma barra horizontal equilibrada em um ponto. Cargas são colocadas nessa barra, de modo a desequilibrá-la. Para manter a barra na posição horizontal é necessário deslocar o ponto de apoio. Esse ponto de equilíbrio, que mantém a barra na posição horizontal, é a média.

Um gráfico que ajuda a visualizar como os dados estão distribuídos é o gráfico de pontos.

O gráfico de pontos referente aos dados do exemplo 1 é mostrado abaixo:

No caso do exemplo 2,

2.Mediana

É o valor do meio quando as observações estão ordenadas do menor para o maior. Sejam \(x_{(1)},x_{(2)},\dots,x_{(n)}\) os valores ordenados de uma amostra de tamanho \(n\). No exemplo 1, os valores foram apresentados como \(x_{1}=40\), \(x_{2}=38\), \(x_{3}=42\), \(x_{4}=43\) e \(x_{5}=41\). Ordenados em ordem crescente, os valores são \(x_{(1)}=38\), \(x_{(2)}=40\), \(x_{(3)}=41\), \(x_{(4)}=42\) e \(x_{(5)}=43\). Assim, o valor do meio, isto é, a mediana, é \(\tilde{x}=41\).

A mediana amostral é o \(\Big(\dfrac{n+1}{2}\Big)^{º}\) valor ordenado se \(n\) é ímpar e a média entre os \(\Big(\dfrac{n}{2}\Big)^{º}\) e \(\Big(\dfrac{n}{2}+1\Big)^{º}\) valores ordenados se \(n\) é par.

Desse modo, diante de um conjunto de dados, para se encontrar a mediana a primeira providência a ser tomada é colocá-los em ordem crescente (ou decrescente). Depois, identificar a posição mediana pela regra citada acima e, então, locaizar o elemento da amostra que ocupa aquela posição.

No caso do exemplo 1, \(x_{(1)}=38\), \(x_{(2)}=40\), \(x_{(3)}=41\), \(x_{(4)}=42\), \(x_{(5)}=43\). Como \(n=5\) (ímpar), a posição mediana é o \(\Big(\dfrac{5+1}{2}\Big)=3\)º elemento, qual seja, 41.

No caso do exemplo 2, a amostra ordenada em ordem crescente é:

8.9, 9.6, 10.3, 11.8, 12.7, 14.0, 14.6, 16.1, 18.5, 20.4, 21.2, 23.3, 24.2, 24.9, 25.3, 25.8, 27.1, 28.5, 30.2, 32.4, 45.0

Como a amostra tem \(n=21\) elementos, a posição mediana é \(\Big(\dfrac{21+1}{2}\Big)=11\). Assim, para obter a mediana desta amostra é necessário identificar o valor que ocupa a 11ª posição. A mediana é \(\tilde{x}=21,2\).

Se realizasse a contagem em ordem decrescente chegaria ao mesmo valor.

Exemplo 3: 62.3, 62.8, 63.6, 65.2, 65.7, 66.4, 67.4, 68.4, 68.8, 70.8, 75.7, 79.0

Neste caso \(n=12\). Então, é preciso encontrar os \(\Big(\dfrac{n}{2}\Big)^{º}\) e \(\Big(\dfrac{n}{2}+1\Big)^{º}\) elementos que ocupam essas posições e tomar a média como o valor da mediana. Logo, \(\Big(\dfrac{n}{2}\Big)^{º}=\Big(\dfrac{12}{2}\Big)^{º}=6\). Por outro lado, \(\Big(\dfrac{n}{2}+1\Big)^{º}=\Big(\dfrac{12}{2}+1\Big)^{º}=7\). Portanto, \(\tilde=\dfrac{66.4+67.4}{2}=66.9\).

A média amostral é \(\bar{x}=68.1\). A média excede a mediana porque a amostra ``estende-se’’ um pouco mais para a extremidade superior do que para a inferior.

Os dados do exemplo 3 ilustram uma propriedade importante da mediana em contraste com a média. A mediana é insensível a valores extremos (outliers). Se, por exemplo, os valores 75.7 e 79.0 fossem substituídos por 85.7 e 89, respectivamente, a mediana não seria afetada. Entretanto, a média passaria a ser \(\bar{x}=69.8\). Ambas as quantidades descrevem o local onde os dados são centralizados, mas eles não serão, em geral, iguais porque se concentram em diferentes aspectos da amostra.

Tanto a média amostral \(\bar{x}\) como a mediana amostral \(\tilde{x}\) são utilizadas como estimadores dos verdadeiros valores na população. Ou seja, \(\bar{x}\) é um bom estimador para a média populacional \(\mu\) e \(\tilde{x}\) é um bom estimador para a mediana populacional \(\tilde{\mu}\). Uma mediana é frequentemente utilizada para descrever dados de salários ou rendimentos (porque ela não é influenciada por valores extremos).

A média e a mediana populacionais usulamente não são iguais. Se a distribuição da população tiver desvio positivo ou negativo, então \(\mu \neq \tilde{\mu}\). A figura a seguir ilustra três distribuições diferentes: na primeira, \(\mu = \tilde{\mu}\); na segunda, \(\mu>\tilde{\mu}\) e na terceira, \(\mu<\tilde{\mu}\).

3. Outras medidas de localização: quartis, percentis e média aparada

A mediana divide o conjunto de dados em duas partes de mesmo tamanho. É possível obter outras medidas que dividem os dados em mais partes. Os quartis são três medidas que dividem o conjunto em quatro partes. As observações acima do terceiro quartil \((Q_{3})\) constituem o quarto superior, o segundo quartil \((Q_{2})\) é a mediana e o primeiro quartil \((Q_{1})\) separa o quarto inferior dos três quartos superiores.

Similarmente, um conjunto de dados pode ser dividido mais detalhadamente usando percentis. O 99º pecentil \((P_{99})\) separa o 1% superior dos 99% inferiores e assim por diante. O 50º percentil \((P_{50})\) é igual à mediana. Como já citado anteriormente, a média é bastante sensível a valores extremos (outliers). É possível obter medidas que não sejam tão sensíveis como a média, nem tão insensíveis como a mediana. A média aparada de 10%, por exemplo, é obtida desprezando-se os 10% valores superiores e os 10% valores inferiores da amostra.

A determinação de qualquer percentil é feita por interpolação. Esta técnica começa determinando a posição do percentil correspondente a \(p, 0<p<1\) como \(p(n+1)\). Por exemplo, para achar a posição do quartil inferior (1º quartil) de 30 valores, toma-se \(p = 0,25\) e \(n = 30\), obtendo \(0,25(30+1) = 7,75\). Isto significa que é preciso percorrer três quartos do caminho entre o 7º e o 8º valor. Se esses valores são, por exemplo, 146 e 148, \(Q_{1}\) será:

\(146+\dfrac{3}{4}(148-146)=146,5\)

Exemplo 4: A produção de Bidri é uma arte tradicional na Índia. Os produtos de Bidri (tigelas, casos, etc) são fundidos a partir de uma liga contendo principalmente zinco juntamente com uma certa quantidade de cobre. Considere as 26 observações sobre o teor de cobre (%) de uma amostra de artefatos de Bidri.

bidri<-c(2.0,  2.4,  2.5,  2.6,  2.6,  2.7,  2.7,  2.8,  3.0,  3.1,  3.2,  3.3,  3.3,  3.4,  3.4, 3.6,  3.6,
3.6,  3.6,  3.7,  4.4,  4.6,  4.7,  4.8,  5.3, 10.1)

A média é 3,65 e a mediana 3,35. Um gráfico de pontos mostra a distribuição dos valores.

O primeiro quartil, a mediana e o terceiro quartil são, respectivamente:

## Primeiro quartil=   2.7
## Mediana=    3.35
## Terceiro quartil=   3.75

A distribuição é um pouco mais espaçada na região dos valores maiores do que para os valores menores. Isto sugere a existência de um valor extremo superior (outlier superior). Uma média aparada com uma porcentagem de corte de \(100(2/26)=7,7\%\), resultado da eliminação das duas observações menores e maiores resulta em \(\bar{x}_{ap}=3,45\). O corte elimina o outlier tornando a (nova) média muito mais próxima da mediana.

##  [1] 2.4 2.5 2.6 2.6 2.7 2.7 2.8 3.0 3.1 3.2 3.3 3.3 3.4 3.4 3.6 3.6 3.6 3.6 3.7
## [20] 4.4 4.6 4.7 4.8 5.3
## Média aparada=   3.454167

Exemplo 5: Determine os quartis para a variável “Peso”, cujos dados ordenados estão mostrados a seguir:

sort(dados$peso)
##  [1] 48.0 50.0 50.9 55.3 56.4 58.3 60.0 60.9 61.0 64.7 64.7 65.6 65.8 65.9 65.9
## [16] 66.4 67.9 67.9 68.3 69.2 71.0 71.1 71.6 71.7 72.2 72.2 72.4 73.4 73.7 73.7
## [31] 74.9 75.7 75.8 75.8 76.3 76.5 76.6 77.5 77.8 77.9 78.0 80.3 81.2 82.1 82.6
## [46] 82.9 84.2 84.6 88.9 93.1
peso_ord<-sort(dados$peso)
#calculando os quartis
#primeiro quartil
a=0.25*(50+1)
a
## [1] 12.75
peso_ord[a]
## [1] 65.6
peso_ord[a+1]
## [1] 65.8
q1=peso_ord[a]+0.75*(peso_ord[a+1]-peso_ord[a])
q1
## [1] 65.75
#terceiro quartil
b=0.75*(50+1)
b
## [1] 38.25
peso_ord[b]
## [1] 77.5
peso_ord[b+1]
## [1] 77.8
q3=peso_ord[b]+0.25*(peso_ord[b+1]-peso_ord[b])
q3
## [1] 77.575
#mediana
mediana<-median(peso_ord)
median(dados$peso)
## [1] 72.2
cat("Primeiro quartil=  ",q1,"\n")
## Primeiro quartil=   65.75
cat("Mediaana=   ",mediana, "\n")
## Mediaana=    72.2
cat("Terceiro quartil=  ",q3,"\n")
## Terceiro quartil=   77.575

Utilizando comandos prontos no R:

#Utilizando os comandos prontos do R:
#este comando fornece algumas medidas resumo
summary(dados$peso)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   48.00   65.83   72.20   71.18   77.28   93.10
#ou então
#para q1
quantile(dados$peso,0.25)
##    25% 
## 65.825
#para mediana
quantile(dados$peso,0.50)
##  50% 
## 72.2
#para q3
quantile(dados$peso,0.75)
##    75% 
## 77.275
#genericamente
quantile(dados$peso)
##     0%    25%    50%    75%   100% 
## 48.000 65.825 72.200 77.275 93.100

Por quê os valores do primeiro quartil e do terceiro quartil são diferentes?

Lembre-se que esses valores são calculados po interpolação. Os valores diferem porque são usados algoritmos de interpolação diferentes. O algoritmo utilizado pelo R para o cálculo dos percentis é \(k=(n-1)*p+1\), em que \(p\) é o valor do percentil desejado, com \(0<p<1\). Por exemplo, se o interesse do pesquisador está no 30º percentil, \(p=0.30\).

O gráfico de pontos da variável peso é mostrado a seguir:

O gráfico de pontos em algumas situações não exibe com clareza os pontos extremos (outliers). Há um gráfico que desempenha melhor essa função. É o boxplot. Ele consiste de um retângulo cujos lados são os quartis, com a mediana marcada dentro dele. Do lado de fora são traçadas duas retas: uma à esquerda que se estende até o valor mínimo e outra à direita que se estende até o ponto máximo, desde que esses valores não excedam limites. O(s) ponto(s) que exceder(em) esses valores limites são considerados ´´outliers``.

Como calcular esses limites?

. O limite inferior é \(LI=Q_{1}-1.5*(Q_{3}-Q_{1})\).

. O limite superior é \(LS=Q_{3}+1.5*(Q_{3}-Q_{1})\).

A diferença \(Q_{3}-Q_{1}\) é denominada diferença interquartílica.

Com relação à variável peso, o que se pode dizer sobre a existência de outliers?

## Limite inferior = 48.65

Existe algum valor menor do que LI?

min(dados$peso)
## [1] 48

Sim. Então, há outlier inferior.

## Limite superior = 94.45

Existe algum valor maior do que LS?

max(dados$peso)
## [1] 93.1

Não. Então, não há outlier superior.

O boxplot relativo à variável peso é mostrado na figura a seguir. O padrão no R é um boxplot desenhado na vertical.

boxplot(dados$peso)

Se desejar plotar um boxplot na horizontal.

Medidas de dispersão ou de variabilidade

A variabilidade, também conhecida como variação ou dispersão, está presente em todos os processos de produção de bens e de fornecimento de serviços. Considere uma situação em que serão selecionadas algumas peças provenientes de uma linha de produção e a seguir será medido o diâmetro de cada peça. Se o instrumento de medida utilizado tiver resolução suficiente, os resultados obtidos serão diferentes, ou seja, haverá variabilidade entre as medidas do diâmetro. Em outra situação, considere o tempo gasto por uma camareira para arrumar os quartos de um hotel, em determinado dia. Podemos perceber a existência de variação nos resultados que serão obtidos. Um processo sempre apresenta variabilidade.

Muitas são as causas para a presença dessa variabilidade. De modo geral, podemos dizer que a variabilidade é o resultado de alterações nas condições sob as quais as observações são tomadas. Essas alterações podem refletir diferenças entre as matérias-primas, as condições dos equipamentos, os métodos de trabalho, as condições ambientais, os operadores envolvidos no processo e o sistema de medição empregado. Assim, é extremamente importante definir técnicas capazes de medir a variabilidade.

Sejam os dois conjuntos de dados:

A: 25,28, 31, 34, 37 e B: 17, 23, 30, 39, 46

. Ambos têm média 31

. É fácil perceber que o conjunto B apresenta valores “menos concentrados” em torno da média do que o conjunto A . Em outras palavras, isto significa que o conjunto B apresenta maior dispersão. 

. Necessário estabelecer medidas que indiquem o grau de dispersão ou de variabilidade, em relação ao valor central.

Um gráfico de pontos contendo os dois conjuntos é mostrado abaixo:

  1. Amplitude

É a diferença entre o maior e o menor valor do conjunto.

Para o conjunto A, temos: 37 – 25 = 12.

Para o conjunto B, 46 – 17 = 29.

Fácil de calcular, mas pouco útil, pois leva em conta somente os valores extremos.

  1. Desvio Médio (DM)

É definido como a média dos desvios tomados em relação à média.

\(DM=\displaystyle\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})}{n}\)

Mas, a soma dos desvios em relação à média é nula. Então, o desvio médio também não serve.

  1. Variância amostral \((s^{2})\) e desvio-padrão amostral \((s)\)

A variância amostral é obtida tomando-se a soma dos quadrados dos desvios em relação à média e dividindo-se por \(n-1\).

A razão para se dividir por \(n-1\) e não por \(n\) é que a divisão por \(n\) produz um estimador viciado para o valor da variância populacional \(\sigma^{2}\).

\(s^{2}=\displaystyle\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1}\)

A variância do conjunto A é:

\(s_{A}^{2}=\dfrac{(25-31)^{2}+(28-31)^{2}+(31-31)^{2}+(34-31)^{2}+(37-31)^{2}}{5-1}\)

\(=\dfrac{(-6)^{2}+(-3)^{2}+0^{2}+3^{2}+6^{2}}{4}=\dfrac{90}{4}=22,5\)

A variância do conjunto B é:

\(s_{B}^{2}=\dfrac{(17-31)^{2}+(23-31)^{2}+(30-31)^{2}+(39-31)^{2}+(47-31)^{2}}{5-1}\)

\(=\dfrac{(-14)^{2}+(-8)^{2}+(-1)^{2}+8^{2}+15^{2}}{4}=\dfrac{550}{4}=137,5\)

O desvio-padrão amostral \(s\) é a raiz quadrada positiva da variância, isto é, \(s=\sqrt{s^{2}}\).

Fórmulas alternativas para calcular variância:

\(s^{2}=\dfrac{\sum_{i=1}^{n}x_{i}^{2}-n\bar{x}^{2}}{n-1}\)

\(s^{2}=\dfrac{\sum_{i=1}^{n}x_{i}^{2}-(\sum_{i=1}^{n}x_{i})^{2}/n}{n-1}\)

Exemplo 6: Considere os pesos (kg) de 10 recém-nascidos. Calcule a variância.

pesos<-c(3.2,3.2,2.8,2.1,2.9,3.1,3.2,3.0,3.5,4.0)
\(i\) \(x_{i}\) \(x_{i}^{2}\) \(x_{i}-\bar{x}\) \((x_{i}-\bar{x})^{2}\)
1 3,2 10,24 0,1 0,01
2 3,2 10,24 0,1 0,01
3 2,8 7,84 -0,3 0,09
4 2,1 4,41 -1,0 1,00
5 2,9 8,41 -0,2 0,04
6 3,1 9,61 0,0 0,00
7 3,2 10,24 0,1 0,01
8 3,0 9,00 -0,1 0,01
9 3,5 12,25 0,4 0,16
10 4,0 16,00 0,9 0,81
Total 31,0 98,24 0,0 2,14

Usando a fórmula de definição:

\(s^{2}=\dfrac{2,14}{9}=0,24\)

Usando as fórmulas alternativas:

\(s^{2}=\dfrac{98,24-10(3,1)^{2}}{9}=0,24\)

\(s^{2}=\dfrac{98,24-(31)^{2}/10}{9}=0,24\)

O desvio-padrão é \(s=\sqrt{0,24}=0,49\).

A variância e o desvio-padrão são, respectivamente, 0,24 \(kg^{2}\) e 0,49 \(kg\).

Utilizando os comandos prontos do R:

var(pesos)
## [1] 0.2377778
sd(pesos)
## [1] 0.4876246

Utilizando função construída para calcular variância:

vari(pesos)
## [1] 0.2377778

Um problema que ocorre com a variância é que sua unidade de medida é diferente da unidade de medida dos dados originais. Por exemplo, os pesos dos recém-nascidos são medidos em kg e a variância é medida em \(kg^{2}\). Daí a necessidade do desvio-padrão, que retorna à unidade de medida original dos dados. Com o desvio-padrão é possível fazer comparações, como por exemplo, determinar que proporção de dados se encontra afastada 2 desvios-padrão em torno da média.

Se a amostra for grande e os dados forem aproximadamente simétricos com distribuição em forma de sino, então vale a seguinte regra:

\(68\%\) das observações ficam no intervalo \(\mu\pm \sigma\).

\(95\%\) das observações ficam no intervalo \(\mu\pm 2\sigma\).

\(99\%\) das observações ficam no intervalo \(\mu\pm 3 \sigma\).

  1. Escore padronizado

Uma medida derivada da média e do desvio-padrão é o escore padronizado. É utilizado para locallizar um indivíduo dentro de um grupo.

O escore padronizado \(z\) de um valor \(x\) é obtido pelo quociente da diferença entre \(x\) e a média e o desvio-padrão.

\(z=\dfrac{x-\bar{x}}{s}\)

Exemplo 7: Considere um grupo de 10 alunos de uma mesma turma e suas notas em história e matemática. O aluno nº3 saiu-se melhor em história ou em matemática?

notas
##    historia matemat
## 1         4       7
## 2         6       4
## 3         5       5
## 4         7       4
## 5         7       2
## 6         2       6
## 7         5       3
## 8         7       1
## 9         5       3
## 10        5       7