Roberval Lima
2018-08-19
Disponível em: http://rpubs.com/roberval/413419
É o centro de massa de um conjunto de dados, cuja regra de formação é dada por uma progresão aritmética. É representada por \(\mu \) quando se refere à população e por \(\bar{x}\), quando se refere à amostra.
Se as n observações em uma amostra são denotadas por x1, x2,…, xn, a média amostral é:
Exemplo 1.1
Considere 8 observações coletadas de um protótipo de conectores de engenharia. As oito obervações são x1=12,6; x2=12,9; x3=13,4; x4=12,3; x5=13,6; x6=15,5; x7=12,6 e x8=13,1. A média amostral é:
A média pode ser obtida facilmente no R com o comando mean().
#Resolvendo o exemplo 4.1 no programa R:
x<-c(12.6, 12.9, 13.4, 12.3, 13.6, 13.5, 12.6, 13.1) #criando um vetor
mean(x) #obtendo a média
## [1] 13
Em algumas situações é possível haver um ou mais dados ausentes (representados no R por “NA”) em seu conjunto de dados.
Neste caso, basta usar o argumento na.rm=T para que o R desconsidere os elementos NA no cálculo da média.
#Exemplo com dados ausentes:
y<-c(12.6, 12.9, 13.4, NA, 13.6, 13.5) #criando um vetor
y # exbindo y
## [1] 12.6 12.9 13.4 NA 13.6 13.5
mean(y) #cálculo inapropriado
## [1] NA
mean(y, na.rm=T) #cálculo correto
## [1] 13.2
A mediana (md) é um valor que caracteriza o centro da distribuição de frequências. É o valor que ocupa a posição central do conjunto dos dados ordenados.
Se o conjunto de dados é impar, existe um único valor na posição central. Esse valor é a mediana. Por exemplo, dados:
Exemplo Mediana 3,5,9,12,14
A mediana é 9.
Se o número de dados é par, existem dois valores na posição central. Então a mediana é a média desses dois valores. Por exemplo, dados:
3,5,7,9
A mediana é 6, isto é a média de 5 e 7.
Observação: quando ocorrem dados discrepantes (valores muito maiores ou menores do que os demais), o mais correto é usar a mediana para descrever a tendência central dos dados.
#Resolvendo o exemplo no programa R:
x<-c(3, 5, 9, 12, 14)#criando um vetor
median(x) #obtendo a mediana
## [1] 9
As principais medidas de dispersão são: amplitude, variância, desvio-padrão e coeficiente de variação.
Amplitude é a diferença entre o valor máximo e mínimo de um conjunto de dados.
Fórmula:
\(amplitude = máximo - mínimo\)
A amplitude é fácil de calcular e de interpretar, mas não mede bem a variabilidade dos dados, pois usam-se apenas dois valores extremos.
Isto significa que:
Dois conjuntos de dados com variailidades muito diferentes podem ter a mesma amplitude.
Um valor discrepante faz a amplitude aumentar muito. A amplitude é muito sensível aos valores extremos.
Quando a média é usada como medida de tendência central, podemos calcular o desvio de cada observação em relação à média como segue:
\(desvio = observação - média\)
\(desvio = x - \bar{x}\)
Se os desvios em relação à média são pequenos, podemos concluir que as observações estão aglomeradas em torno da média. A variabilidade dos dados é, portanto, pequena. Se os desvios são grandes, os dados estão muito dispersos. Logo, a variabilidade dos dados é grande. A variância é uma medida de variabilidade que capta essas duas situações.
**Exemplo 2.1*
São fornecidas as idades, em anos completos, de cinco máquinas:
\({3,6,5,7 e 9}\)
Como a média é 6 anos, os desvios em relação à média são os valores apresentados na tabela 5.1.
Tabela 5.1 Cálculo dos desvios
Observação (x) | Desvio (x-\(\bar{x}\)) |
---|---|
3 | 3-6=-3 |
6 | 6-6=0 |
5 | 5-6=-1 |
7 | 7-6=2 |
9 | 9-6=3 |
A média dos desvios poderia ser uma boa medida de variabilidade se a sua somatória não fosse zero (-3 + 0 -1 + 1 + 3). Aliás, esse é o motivo de a média aritmética ser uma boa medidads de tendência central: o “peso” dos desvios negativos é igual ao peso dos positivos.
Para obter uma medida de variabilidade, é preciso eliminar os sinais dos desvios antes de calcular a média. Para isso eleva-se os desvios ao quadrado. A medida de variabilidade assim obtida é chamada de variância, que se indica por \((s^2)\).
DEFINIÇÃO
Define-se variância do conjunto X como o momento de 2a. ordem centrado em sua média aritmética (pode-se centrar o momento em qualquer valor; o centrado na média aritmética é o menor deles).
Fórmula. Variância populacional de X.
Dados discretos:
\(\sigma^2 = \sum p(x - \mu)^{2}\) (Geral)
\(\sigma^2 = \frac{1}{N}\) \([\sum x^2 - \frac{(\sum x)^2}{N}]\) (Sem a média)
Dados Contínuos \(\sigma^2 = \int(x-\mu)f(x)dx\)
Fórmula. Variância amostral de X.
\(s^2 = \frac{1}{n-1}\) \(\sum (x - \bar{x})^2\) (Geral)
\(s^2 = \frac{1}{n-1}\) \([\sum x^2\) - \(\frac{(\sum x)^2}{n}]\) (Sem a média)
Fórmula. Variância amostral de X, dados agrupados.
\(s^2 = \frac{1}{n-1}\) \(\sum f(x - \bar{x})^2\) (Geral)
\(s^2 = \frac{1}{n-1}\) \([\sum (f.x^2)\) - \(\frac{(\sum f.x)^2}{n}]\) (Sem a média)
onde \(n = \sum f\)
Exemplo 2.2
Calcule a amplitude do conjunto de dados A = {2,4,7,10,27,32,59,147,271,599}
Solução
Amp = 599 - 2 = 597 ( ou de 2 a 599)
A <- c(2,4,7,10,27,32,59,147,271,599)
A
## [1] 2 4 7 10 27 32 59 147 271 599
max(A)
## [1] 599
min(A)
## [1] 2
Amp <- max(A) - min(A)
Amp
## [1] 597
Exemplo 2.3
Calcule a variância do conjunto de dados: {2,4,7,9,11,15}
\(\bar{x} = 8\)
\(s^2=\frac{(2-8)^2+(4-8)^2+(7-8)^2+(9-8^2+(11-8)^2+(15-8)^2)}{6-1}\)
\(s^2=22,4\)
x<-c(2,4,7,9,11,15)
n<-length(x)
varx<-(sum(x^2)-(sum(x)^2/n))/(n-1)
varx
## [1] 22.4
##Aplicando a fórmula implementada no R:
var(x)
## [1] 22.4
Exemplo 2.4
Determine a variância para a distribuição de frequências dada na tabela 5.2
Tabela 5.2 Distribuição de frequência
x | f | x.f | \(x^2\) | \(x^2.f\) |
---|---|---|---|---|
56 | 6 | 336 | 3136 | 18816 |
57 | 2 | 114 | 3249 | 6498 |
58 | 9 | 522 | 3364 | 30276 |
59 | 5 | 295 | 3481 | 17405 |
60 | 3 | 180 | 3600 | 10800 |
61 | 1 | 61 | 3721 | 3721 |
62 | 4 | 248 | 3844 | 15376 |
total | 30 | 1756 | 102892 |
\(\sigma^2 = \frac{1}{n-1}\) \([\sum (f.x^2)\) - \(\frac{(\sum f.x){^2}}{n}]\)
\(\sigma^2 = \frac{1}{30-1}\) \((102892 - \frac{1756{^2}}{30})\)
\(\sigma^2 = \frac{107,46}{29} = 3,71\)
O cálculo da variância envolve quadrados de desvios. Então a unidade de medida da variância é igual ao quadrado da medida das observações.
Para obter uma medida de variabilidade na mesma unidade de medida dos dados, extrai-se a raiz quadrada da variância. Obtém-se, assim, o desvio padrão.
Desvio-padrão é a raíz quadrada da variância, com sinal positivo.
DEFINIÇÃO
Desvio-padrão é a média quadrática de X centrado em \(\mu\). É indicado por \(\sigma\) ou por “s”, conforme se refira a populações ou a amostras.
Fórmula:
Desvio-padrão amostral:
\(s =\sqrt{variância} = \sqrt{s^2}\)
Exemplo 2.5
Determinar o desvio-padrão para os dados do exemplo 5.3
\(s = \sqrt{variância} = \sqrt{22,4} = 4,7\)
x<-c(2,4,7,9,11,15)
n<-length(x)
varx<-(sum(x^2)-(sum(x)^2/n))/(n-1)
varx
## [1] 22.4
s = sqrt(varx)
##Aplicando a fórmula implementada no R:
sd(x) # sd = standart desviation
## [1] 4.732864
Por dispersão relativa entende-se a relação entre uma medida de dispersão e outra de centro. As medidas mais comuns são a variância relativa (variância por unidade de esperança) e o coeficiente de variação, em cujos denominadores está a média aritmética. Assim, a variancia relativa compara a variância com o quadrado da média aritmética e o coeficiente de variação, compara o desvio-padrão com a mesma média aritmética. Outra medida de dispersão relativa é a proporção, que indica o peso relativo de x em X.
Fórmulas
+Variância relativa
\(v^2 = \frac{s^2}{\bar{x}{^2}}\)
+Coeficiente de variação
\(cv = \frac{s}{\bar{x}}\)
+Proporção
\(p = \frac{f}{n}\)
Operacionalmente, é fácil perceber que o coeficiente de variação é igual à raiz quadrada da variância relativa e que, multiplicando-se os resultados por 100, as medidas resultam expressas em porcentagem.
Exemplo 2.6
A seguir são dadas as alturas (em cm) de 8 atletas. Determine o coeficiente de variação e a variância relativa.
Solução
Tabela auxiliar:
n | x | x² |
---|---|---|
1 | 178 | 31684 |
2 | 180 | 32400 |
3 | 192 | 36864 |
4 | 180 | 32400 |
5 | 190 | 36100 |
6 | 179 | 32041 |
7 | 180 | 32400 |
8 | 191 | 36481 |
total | 1470 | 270370 |
\(s^2 = \frac{1}{8-1} (270370 - \frac{1470^{2}}{8})\)
\(s^2 = \frac{257,5}{7} = 36,78\)
\(s = \sqrt{36,78} = 6,06\)
\(\bar{x} = \frac{1470}{8} = 183,75\)
Coeficiente de variação:
\(cv = \frac{6,06}{183,75} . 100\) = 3,3%
Variância relativa:
\(v^2 = \frac{36,78}{183,75^{2}}.100\) = 0,11%
x<-c(178, 180, 192, 180, 190, 179, 180, 191)
somax<-sum(x)
somax
## [1] 1470
somax2<-sum(x^2)
somax2
## [1] 270370
var(x)
## [1] 36.78571
mean(x)
## [1] 183.75
sd(x)
## [1] 6.065123
#Coeficiente de variação
cv<-sd(x)/mean(x)*100
cv
## [1] 3.300747
#Variância relativa
v2<-(var(x)/mean(x)^2)*100
v2
## [1] 0.1089493
Exercícios- Programa R
Foram feitas oito medidas do diâmetro (em mm) interno de anéis forjados de pistão de um motor de um automóvel. Os dados codificados são: 1, 3, 15, 0, 5, 2, 5 e 4. Calcule a média e o desvio-padrão da amostra.
Em applied Life Daa Analysis (Wiley, 1982), Waine Nelson apresenta o tempo de esgotamento de um fluido isolante entre eletrodos a 34 kV. Os tempos, em minutos, são: 0,19; 0,78; 0,96; 1,31; 2,78; 3,16; 4,15; 4,67; 4,85; 6,50; 7,35; 8,01; 8,27; 12,06; 31,75; 32,52; 33,91; 36,71 e 72,89. Calcule a média, a variância e o desvio-padrão da amostra.
Sete medidas da espessura de óxido em pastilhas são estudadas para verificar a qualidade em um processo de fabricação de semicondutores. Os dados (em angstrons) são: 1264, 1280, 1301, 1300, 1292, 1307 e 1275. Calcule a média e o coeficiente de variação da amostra.
Fórmulas \(r = \frac{SQxy}{\sqrt(SQxx*SQyy)}\)
\(SQxy = [\sum xy - \frac{(\sum x).(\sum y)}{n}]\) \(SQxx = [\sum x^2 - \frac{(\sum x^2)}{n}]\) \(SQyy = [\sum y^2 - \frac{(\sum y^2)}{n}]\)
Passos: 1. Obtenha soma dos valores de x (\(\sum x\)) 2. Obtenha soma dos valores de y (\(\sum y\)) 3. Multiplique cada valor x por seu valor y correspondente e determine a soma de xy (\(\sum xy\)) 4. Eleve ao quadrado cada valor de x e obtenha a soma de x ao quadrado (\(\sum x^2\)) 5. Eleve ao quadrado cada valor de y e obtenha a soma de y ao quadrado (\(\sum y^2\)) g. finalmente, use cinco somatórias e calcule o coeficiente de regressão (r).
diagrama de dispersão
Sempre antes de cada análise faça os estudos exploratórias. Uma boa ferramenta é fazer o gráfico da dispersão de y vs x.
Exemplo 2.7
No processo de queima de massa cerâmica para pavimento, corpos de prova foram avaliados por três variáveis: x = retração linear (%), y = resistência mecânica (MPa), z = absorção de água (%). Os resultados de 18 ensaios são apresentados a seguir:
Ensaio | \(x\) | \(y\) | \(z\) |
---|---|---|---|
1 | 8,70 | 38,42 | 5,54 |
2 | 11,68 | 46,93 | 2,83 |
3 | 8,30 | 38,05 | 5,58 |
4 | 12,00 | 47,04 | 1,10 |
5 | 9,50 | 50,90 | 0,64 |
6 | 8,58 | 34,10 | 7,25 |
7 | 10,68 | 48,23 | 1,88 |
8 | 6,32 | 27,74 | 9,92 |
9 | 8,20 | 39,20 | 5,63 |
10 | 13,24 | 60,24 | 0,58 |
11 | 9,10 | 40,58 | 3,64 |
12 | 8,33 | 41,07 | 5,87 |
13 | 11,34 | 41,94 | 3,32 |
14 | 7,48 | 35,53 | 6,00 |
15 | 12,68 | 38,42 | 0,36 |
16 | 8,76 | 45,26 | 4,14 |
17 | 9,93 | 40,70 | 5,48 |
18 | 6,50 | 29,66 | 8,98 |
Solução no R
x<-c(8.70, 11.68,8.30,12.0,9.50,8.58, 10.68,6.32,8.20, 13.24, 9.10, 8.33, 11.34, 7.48, 12.68,8.76, 9.93, 6.50)
y<- c(38.42, 46.93, 38.05, 47.04, 50.90, 34.10, 48.23, 27.74, 39.20, 60.24, 40.58, 41.07, 41.94, 35.53, 38.42, 45.26, 40.70, 29.66)
length (x) # tamanho n da amostra x
## [1] 18
length(y) # tamanho n da amostra y
## [1] 18
# Diagrama de dispersão
plot (x,y)
plot (x,y, main="Diagrama de dispersão x vs y", xlab = "Retração linear (%)", ylab = "resistência mecânica (MPa)", col="blue")
plot (x,y, main="Diagrama de dispersão x vs y", xlab = "Retração linear (%)", ylab = "resistência mecânica (MPa)", col="blue", bty="l")
help(plot) # para saber mais sobre "plot"
#Cálculos para correlação
n>-length(x)
## [1] TRUE
somaxy<-sum(x*y)
somaxy
## [1] 7281.59
somax<-sum(x)
somax
## [1] 171.32
somay<-sum(y)
somay
## [1] 744.01
somax2<-sum(x^2)
somax2
## [1] 1700.531
# SQxy
sqxy<-somaxy - (somax*somay)/n
# SQx
sqx <-somax - (somax^2)/n
# SQy
sqy <- somay - (somay^2)/n
# r
r <- sqxy/sqrt(sqx*sqy)
r
## [1] -0.6717742
# funçao implementada no Rv2<-(var(x)/mean(x)^2)*100
cor (x,y)
## [1] 0.7510241
help(cor) # para mais informações sobre o comando "cor"
Exercícios- Faça primeiro usando as fórmulas e depois noPrograma R
Faça o diagrama de dispersão e calcule o coeficiente de correlaçao de Pearson entre relação linear (%) e resistência mecânica (MPa) para as primeiras 10 observações do exemplo 2.7.
Sejam x = nota na prova do vestibular de matemática e y = nota final na disciplina de cálculo, Essas variáveis foram observadas em 18 alunos, ao final do primeiro período letivo do curso de engenharia. Os dados são apresentados a seguir:
x | y | x | y |
---|---|---|---|
39 | 65 | 28 | 73 |
57 | 92 | 35 | 50 |
34 | 56 | 80 | 90 |
40 | 70 | 64 | 82 |
43 | 78 | 75 | 98 |
47 | 89 | 30 | 50 |
52 | 75 | 32 | 58 |
70 | 50 | 65 | 88 |
21 | 52 | 47 | 71 |