A representação gráfica de dados é uma excelente ferramenta para obter informações e ideias iniciais. Uma análise mais formal dos dados frequentemente exige o cálculo e a interpretação de medidas de resumo numéricas simples. Ou seja, a partir dos dados são extraídos diversos números que servirão para caracterizar o conjunto de dados e indicar algumas informações coonsideráveis. Entre esses números tem-se: média, mediana, variância e desvio-padrão.
A medida de tendência central mais conhecida é a média aritmética simples ou apenas média. Considere que uma amostra de tamanho \(n\) seja formada pelas observações \(x_{1},x_{2},\dots,x_{n}\). A média amostral \(\bar{x}\) é obtida pelo quociente da soma de todos os valores e a quantidade de valores. Em termos matemáticos,
\(\bar{x}=\dfrac{\displaystyle\sum_{i=1}^{n}x_{i}}{n}\).
Exemplo 1: Dados fictícios: \(x_{1}=40, x_{2}=38, x_{3}=42, x_{4}=43, x_{5}=41\). Tem-se \(\displaystyle\sum_{i=1}^{n}x_{i}=40+38+42+43+41=204\). Logo, \(\bar{x}=\dfrac{204}{5}=40,8\).
É importante notar que:
a média pode pertencer ou não ao conjunto de dados.
a média é um valor compreendido entre o menor e o maior valor. Isto significa que não se poderia, no exemplo anterior, obter para a média um valor menor que 38 ou maior que 43.
Pode-se criar uma função no R para calcular a média de uma amostra.
media<-function(x){
soma<-sum(x)
ene<-length(x)
media<-soma/ene
return(media)
}
No exemplo 1, o vetor correspondente e o valor da média são:
dados<-c(40,38,42,43,41)
media(dados)
## [1] 40.8
Exemplo 2: As trincas em aço e ferro causadas por fadiga de corrosão cáustica foram estudadas em decorrência de falhas em rebites de caldeiras de aço e motores a vapor. Considere as observações a seguir sobre o comprimento da trinca (\(\mu\)m) como resultado de testes de fadiga por corrosão devido a cargas constantes em amostras de barras de tração lisas durante um período de tempo fixo.
trincas<-c(16.1,9.6,24.9,20.4,12.7,21.2,30.2,25.8,18.5,10.3,25.3,14.0,27.1,45.0,23.3,
24.2,14.6,8.9,32.4,11.8,28.5)
media(trincas)
## [1] 21.18095
Uma interpretação física da média amostral \(\bar{x}\): Suponha uma barra horizontal equilibrada em um ponto. Cargas são colocadas nessa barra, de modo a desequilibrá-la. Para manter a barra na posição horizontal é necessário deslocar o ponto de apoio. Esse ponto de equilíbrio, que mantém a barra na posição horizontal, é a média.
Um gráfico que ajuda a visualizar como os dados estão distribuídos é o gráfico de pontos.
O gráfico de pontos referente aos dados do exemplo 1 é mostrado abaixo:
No caso do exemplo 2,
É o valor do meio quando as observações estão ordenadas do menor para o maior. Sejam \(x_{(1)},x_{(2)},\dots,x_{(n)}\) os valores ordenados de uma amostra de tamanho \(n\). No exemplo 1, os valores foram apresentados como \(x_{1}=40\), \(x_{2}=38\), \(x_{3}=42\), \(x_{4}=43\) e \(x_{5}=41\). Ordenados em ordem crescente, os valores são \(x_{(1)}=38\), \(x_{(2)}=40\), \(x_{(3)}=41\), \(x_{(4)}=42\) e \(x_{(5)}=43\). Assim, o valor do meio, isto é, a mediana, é \(\tilde{x}=41\).
A mediana amostral é o \(\Big(\dfrac{n+1}{2}\Big)^{º}\) valor ordenado se \(n\) é ímpar e a média entre os \(\Big(\dfrac{n}{2}\Big)^{º}\) e \(\Big(\dfrac{n}{2}+1\Big)^{º}\) valores ordenados se \(n\) é par.
Desse modo, diante de um conjunto de dados, para se encontrar a mediana a primeira providência a ser tomada é colocá-los em ordem crescente (ou decrescente). Depois, identificar a posição mediana pela regra citada acima e, então, locaizar o elemento da amostra que ocupa aquela posição.
No caso do exemplo 1, \(x_{(1)}=38\), \(x_{(2)}=40\), \(x_{(3)}=41\), \(x_{(4)}=42\), \(x_{(5)}=43\). Como \(n=5\) (ímpar), a posição mediana é o \(\Big(\dfrac{5+1}{2}\Big)=3\)º elemento, qual seja, 41.
No caso do exemplo 2, a amostra ordenada em ordem crescente é:
8.9, 9.6, 10.3, 11.8, 12.7, 14.0, 14.6, 16.1, 18.5, 20.4, 21.2, 23.3, 24.2, 24.9, 25.3, 25.8, 27.1, 28.5, 30.2, 32.4, 45.0
Como a amostra tem \(n=21\) elementos, a posição mediana é \(\Big(\dfrac{21+1}{2}\Big)=11\). Assim, para obter a mediana desta amostra é necessário identificar o valor que ocupa a 11ª posição. A mediana é \(\tilde{x}=21,2\).
Se realizasse a contagem em ordem decrescente chegaria ao mesmo valor.
Exemplo 3: 62.3, 62.8, 63.6, 65.2, 65.7, 66.4, 67.4, 68.4, 68.8, 70.8, 75.7, 79.0
Neste caso \(n=12\). Então, é preciso encontrar os \(\Big(\dfrac{n}{2}\Big)^{º}\) e \(\Big(\dfrac{n}{2}+1\Big)^{º}\) elementos que ocupam essas posições e tomar a média como o valor da mediana. Logo, \(\Big(\dfrac{n}{2}\Big)^{º}=\Big(\dfrac{12}{2}\Big)^{º}=6\). Por outro lado, \(\Big(\dfrac{n}{2}+1\Big)^{º}=\Big(\dfrac{12}{2}+1\Big)^{º}=7\). Portanto, \(\tilde=\dfrac{66.4+67.4}{2}=66.9\).
A média amostral é \(\bar{x}=68.1\). A média excede a mediana porque a amostra ``estende-se’’ um pouco mais para a extremidade superior do que para a inferior.
Os dados do exemplo 3 ilustram uma propriedade importante da mediana em contraste com a média. A mediana é insensível a valores extremos (outliers). Se, por exemplo, os valores 75.7 e 79.0 fossem substituídos por 85.7 e 89, respectivamente, a mediana não seria afetada. Entretanto, a média passaria a ser \(\bar{x}=69.8\). Ambas as quantidades descrevem o local onde os dados são centralizados, mas eles não serão, em geral, iguais porque se concentram em diferentes aspectos da amostra.
Tanto a média amostral \(\bar{x}\) como a mediana amostral \(\tilde{x}\) são utilizadas como estimadores dos verdadeiros valores na população. Ou seja, \(\bar{x}\) é um bom estimador para a média populacional \(\mu\) e \(\tilde{x}\) é um bom estimador para a mediana populacional \(\tilde{\mu}\). Uma mediana é frequentemente utilizada para descrever dados de salários ou rendimentos (porque ela não é influenciada por valores extremos).
A média e a mediana populacionais usulamente não são iguais. Se a distribuição da população tiver desvio positivo ou negativo, então \(\mu \neq \tilde{\mu}\). A figura a seguir ilustra três distribuições diferentes: na primeira, \(\mu = \tilde{\mu}\); na segunda, \(\mu>\tilde{\mu}\) e na terceira, \(\mu<\tilde{\mu}\).
A mediana divide o conjunto de dados em duas partes de mesmo tamanho. É possível obter outras medidas que dividem os dados em mais partes. Os quartis são três medidas que dividem o conjunto em quatro partes. As observações acima do terceiro quartil \((Q_{3})\) constituem o quarto superior, o segundo quartil \((Q_{2})\) é a mediana e o primeiro quartil \((Q_{1})\) separa o quarto inferior dos três quartos superiores.
Similarmente, um conjunto de dados pode ser dividido mais detalhadamente usando percentis. O 99º pecentil \((P_{99})\) separa o 1% superior dos 99% inferiores e assim por diante. O 50º percentil \((P_{50})\) é igual à mediana. Como já citado anteriormente, a média é bastante sensível a valores extremos (outliers). É possível obter medidas que não sejam tão sensíveis como a média, nem tão insensíveis como a mediana. A média aparada de 10%, por exemplo, é obtida desprezando-se os 10% valores superiores e os 10% valores inferiores da amostra.
A determinação de qualquer percentil é feita por interpolação. Esta técnica começa determinando a posição do percentil correspondente a \(p, 0<p<1\) como \(p(n+1)\). Por exemplo, para achar a posição do quartil inferior (1º quartil) de 30 valores, toma-se \(p = 0,25\) e \(n = 30\), obtendo \(0,25(30+1) = 7,75\). Isto significa que é preciso percorrer três quartos do caminho entre o 7º e o 8º valor. Se esses valores são, por exemplo, 146 e 148, \(Q_{1}\) será:
\(146+\dfrac{3}{4}(148-146)=146,5\)
Exemplo 4: A produção de Bidri é uma arte tradicional na Índia. Os produtos de Bidri (tigelas, casos, etc) são fundidos a partir de uma liga contendo principalmente zinco juntamente com uma certa quantidade de cobre. Considere as 26 observações sobre o teor de cobre (%) de uma amostra de artefatos de Bidri.
bidri<-c(2.0, 2.4, 2.5, 2.6, 2.6, 2.7, 2.7, 2.8, 3.0, 3.1, 3.2, 3.3, 3.3, 3.4, 3.4, 3.6, 3.6,
3.6, 3.6, 3.7, 4.4, 4.6, 4.7, 4.8, 5.3, 10.1)
A média é 3,65 e a mediana 3,35. Um gráfico de pontos mostra a distribuição dos valores.
O primeiro quartil, a mediana e o terceiro quartil são, respectivamente:
## Primeiro quartil= 2.7
## Mediana= 3.35
## Terceiro quartil= 3.75
A distribuição é um pouco mais espaçada na região dos valores maiores do que para os valores menores. Isto sugere a existência de um valor extremo superior (outlier superior). Uma média aparada com uma porcentagem de corte de \(100(2/26)=7,7\%\), resultado da eliminação das duas observações menores e maiores resulta em \(\bar{x}_{ap}=3,45\). O corte elimina o outlier tornando a (nova) média muito mais próxima da mediana.
## [1] 2.4 2.5 2.6 2.6 2.7 2.7 2.8 3.0 3.1 3.2 3.3 3.3 3.4 3.4 3.6 3.6 3.6 3.6 3.7
## [20] 4.4 4.6 4.7 4.8 5.3
## Média aparada= 3.454167
Exemplo 5: Determine os quartis para a variável “Peso”, cujos dados ordenados estão mostrados a seguir:
sort(dados$peso)
## [1] 48.0 50.0 50.9 55.3 56.4 58.3 60.0 60.9 61.0 64.7 64.7 65.6 65.8 65.9 65.9
## [16] 66.4 67.9 67.9 68.3 69.2 71.0 71.1 71.6 71.7 72.2 72.2 72.4 73.4 73.7 73.7
## [31] 74.9 75.7 75.8 75.8 76.3 76.5 76.6 77.5 77.8 77.9 78.0 80.3 81.2 82.1 82.6
## [46] 82.9 84.2 84.6 88.9 93.1
peso_ord<-sort(dados$peso)
#calculando os quartis
#primeiro quartil
a=0.25*(50+1)
a
## [1] 12.75
peso_ord[a]
## [1] 65.6
peso_ord[a+1]
## [1] 65.8
q1=peso_ord[a]+0.75*(peso_ord[a+1]-peso_ord[a])
q1
## [1] 65.75
#terceiro quartil
b=0.75*(50+1)
b
## [1] 38.25
peso_ord[b]
## [1] 77.5
peso_ord[b+1]
## [1] 77.8
q3=peso_ord[b]+0.25*(peso_ord[b+1]-peso_ord[b])
q3
## [1] 77.575
#mediana
mediana<-median(peso_ord)
median(dados$peso)
## [1] 72.2
cat("Primeiro quartil= ",q1,"\n")
## Primeiro quartil= 65.75
cat("Mediaana= ",mediana, "\n")
## Mediaana= 72.2
cat("Terceiro quartil= ",q3,"\n")
## Terceiro quartil= 77.575
Utilizando comandos prontos no R:
#Utilizando os comandos prontos do R:
#este comando fornece algumas medidas resumo
summary(dados$peso)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 48.00 65.83 72.20 71.18 77.28 93.10
#ou então
#para q1
quantile(dados$peso,0.25)
## 25%
## 65.825
#para mediana
quantile(dados$peso,0.50)
## 50%
## 72.2
#para q3
quantile(dados$peso,0.75)
## 75%
## 77.275
#genericamente
quantile(dados$peso)
## 0% 25% 50% 75% 100%
## 48.000 65.825 72.200 77.275 93.100
Por quê os valores do primeiro quartil e do terceiro quartil são diferentes?
Lembre-se que esses valores são calculados po interpolação. Os valores diferem porque são usados algoritmos de interpolação diferentes. O algoritmo utilizado pelo R para o cálculo dos percentis é \(k=(n-1)*p+1\), em que \(p\) é o valor do percentil desejado, com \(0<p<1\). Por exemplo, se o interesse do pesquisador está no 30º percentil, \(p=0.30\).
O gráfico de pontos da variável peso é mostrado a seguir:
O gráfico de pontos em algumas situações não exibe com clareza os pontos extremos (outliers). Há um gráfico que desempenha melhor essa função. É o boxplot. Ele consiste de um retângulo cujos lados são os quartis, com a mediana marcada dentro dele. Do lado de fora são traçadas duas retas: uma à esquerda que se estende até o valor mínimo e outra à direita que se estende até o ponto máximo, desde que esses valores não excedam limites. O(s) ponto(s) que exceder(em) esses valores limites são considerados ´´outliers``.
Como calcular esses limites?
. O limite inferior é \(LI=Q_{1}-1.5*(Q_{3}-Q_{1})\).
. O limite superior é \(LS=Q_{3}+1.5*(Q_{3}-Q_{1})\).
A diferença \(Q_{3}-Q_{1}\) é denominada diferença interquartílica.
Com relação à variável peso, o que se pode dizer sobre a existência de outliers?
## Limite inferior = 48.65
Existe algum valor menor do que LI?
min(dados$peso)
## [1] 48
Sim. Então, há outlier inferior.
## Limite superior = 94.45
Existe algum valor maior do que LS?
max(dados$peso)
## [1] 93.1
Não. Então, não há outlier superior.
O boxplot relativo à variável peso é mostrado na figura a seguir. O padrão no R é um boxplot desenhado na vertical.
boxplot(dados$peso)
Se desejar plotar um boxplot na horizontal.
A variabilidade, também conhecida como variação ou dispersão, está presente em todos os processos de produção de bens e de fornecimento de serviços. Considere uma situação em que serão selecionadas algumas peças provenientes de uma linha de produção e a seguir será medido o diâmetro de cada peça. Se o instrumento de medida utilizado tiver resolução suficiente, os resultados obtidos serão diferentes, ou seja, haverá variabilidade entre as medidas do diâmetro. Em outra situação, considere o tempo gasto por uma camareira para arrumar os quartos de um hotel, em determinado dia. Podemos perceber a existência de variação nos resultados que serão obtidos. Um processo sempre apresenta variabilidade.
Muitas são as causas para a presença dessa variabilidade. De modo geral, podemos dizer que a variabilidade é o resultado de alterações nas condições sob as quais as observações são tomadas. Essas alterações podem refletir diferenças entre as matérias-primas, as condições dos equipamentos, os métodos de trabalho, as condições ambientais, os operadores envolvidos no processo e o sistema de medição empregado. Assim, é extremamente importante definir técnicas capazes de medir a variabilidade.
Sejam os dois conjuntos de dados:
A: 25,28, 31, 34, 37 e B: 17, 23, 30, 39, 46
. Ambos têm média 31
. É fácil perceber que o conjunto B apresenta valores “menos concentrados” em torno da média do que o conjunto A . Em outras palavras, isto significa que o conjunto B apresenta maior dispersão.
. Necessário estabelecer medidas que indiquem o grau de dispersão ou de variabilidade, em relação ao valor central.
Um gráfico de pontos contendo os dois conjuntos é mostrado abaixo:
É a diferença entre o maior e o menor valor do conjunto.
Para o conjunto A, temos: 37 – 25 = 12.
Para o conjunto B, 46 – 17 = 29.
Fácil de calcular, mas pouco útil, pois leva em conta somente os valores extremos.
É definido como a média dos desvios tomados em relação à média.
\(DM=\displaystyle\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})}{n}\)
Mas, a soma dos desvios em relação à média é nula. Então, o desvio médio também não serve.
A variância amostral é obtida tomando-se a soma dos quadrados dos desvios em relação à média e dividindo-se por \(n-1\).
A razão para se dividir por \(n-1\) e não por \(n\) é que a divisão por \(n\) produz um estimador viciado para o valor da variância populacional \(\sigma^{2}\).
\(s^{2}=\displaystyle\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1}\)
A variância do conjunto A é:
\(s_{A}^{2}=\dfrac{(25-31)^{2}+(28-31)^{2}+(31-31)^{2}+(34-31)^{2}+(37-31)^{2}}{5-1}\)
\(=\dfrac{(-6)^{2}+(-3)^{2}+0^{2}+3^{2}+6^{2}}{4}=\dfrac{90}{4}=22,5\)
A variância do conjunto B é:
\(s_{B}^{2}=\dfrac{(17-31)^{2}+(23-31)^{2}+(30-31)^{2}+(39-31)^{2}+(47-31)^{2}}{5-1}\)
\(=\dfrac{(-14)^{2}+(-8)^{2}+(-1)^{2}+8^{2}+15^{2}}{4}=\dfrac{550}{4}=137,5\)
O desvio-padrão amostral \(s\) é a raiz quadrada positiva da variância, isto é, \(s=\sqrt{s^{2}}\).
Fórmulas alternativas para calcular variância:
\(s^{2}=\dfrac{\sum_{i=1}^{n}x_{i}^{2}-n\bar{x}^{2}}{n-1}\)
\(s^{2}=\dfrac{\sum_{i=1}^{n}x_{i}^{2}-(\sum_{i=1}^{n}x_{i})^{2}/n}{n-1}\)
Exemplo 6: Considere os pesos (kg) de 10 recém-nascidos. Calcule a variância.
pesos<-c(3.2,3.2,2.8,2.1,2.9,3.1,3.2,3.0,3.5,4.0)
| \(i\) | \(x_{i}\) | \(x_{i}^{2}\) | \(x_{i}-\bar{x}\) | \((x_{i}-\bar{x})^{2}\) |
|---|---|---|---|---|
| 1 | 3,2 | 10,24 | 0,1 | 0,01 |
| 2 | 3,2 | 10,24 | 0,1 | 0,01 |
| 3 | 2,8 | 7,84 | -0,3 | 0,09 |
| 4 | 2,1 | 4,41 | -1,0 | 1,00 |
| 5 | 2,9 | 8,41 | -0,2 | 0,04 |
| 6 | 3,1 | 9,61 | 0,0 | 0,00 |
| 7 | 3,2 | 10,24 | 0,1 | 0,01 |
| 8 | 3,0 | 9,00 | -0,1 | 0,01 |
| 9 | 3,5 | 12,25 | 0,4 | 0,16 |
| 10 | 4,0 | 16,00 | 0,9 | 0,81 |
| Total | 31,0 | 98,24 | 0,0 | 2,14 |
Usando a fórmula de definição:
\(s^{2}=\dfrac{2,14}{9}=0,24\)
Usando as fórmulas alternativas:
\(s^{2}=\dfrac{98,24-10(3,1)^{2}}{9}=0,24\)
\(s^{2}=\dfrac{98,24-(31)^{2}/10}{9}=0,24\)
O desvio-padrão é \(s=\sqrt{0,24}=0,49\).
A variância e o desvio-padrão são, respectivamente, 0,24 \(kg^{2}\) e 0,49 \(kg\).
Utilizando os comandos prontos do R:
var(pesos)
## [1] 0.2377778
sd(pesos)
## [1] 0.4876246
Utilizando função construída para calcular variância:
vari(pesos)
## [1] 0.2377778
Um problema que ocorre com a variância é que sua unidade de medida é diferente da unidade de medida dos dados originais. Por exemplo, os pesos dos recém-nascidos são medidos em kg e a variância é medida em \(kg^{2}\). Daí a necessidade do desvio-padrão, que retorna à unidade de medida original dos dados. Com o desvio-padrão é possível fazer comparações, como por exemplo, determinar que proporção de dados se encontra afastada 2 desvios-padrão em torno da média.
Se a amostra for grande e os dados forem aproximadamente simétricos com distribuição em forma de sino, então vale a seguinte regra:
\(68\%\) das observações ficam no intervalo \(\mu\pm \sigma\).
\(95\%\) das observações ficam no intervalo \(\mu\pm 2\sigma\).
\(99\%\) das observações ficam no intervalo \(\mu\pm 3 \sigma\).
Uma medida derivada da média e do desvio-padrão é o escore padronizado. É utilizado para locallizar um indivíduo dentro de um grupo.
O escore padronizado \(z\) de um valor \(x\) é obtido pelo quociente da diferença entre \(x\) e a média e o desvio-padrão.
\(z=\dfrac{x-\bar{x}}{s}\)
Exemplo 7: Considere um grupo de 10 alunos de uma mesma turma e suas notas em história e matemática. O aluno nº3 saiu-se melhor em história ou em matemática?
notas
## historia matemat
## 1 4 7
## 2 6 4
## 3 5 5
## 4 7 4
## 5 7 2
## 6 2 6
## 7 5 3
## 8 7 1
## 9 5 3
## 10 5 7