Notas 05

Medidas de Variação

Conceitos

  • O conceito de variação é um conceito que necessita de um referencial.

  • Uma variação é grande ou pequena quando avaliada em relação a alguma medida.

  • Um referencial muito usada para se avaliar a variação de um conjunto de dados é a média dos dados.

    • Se diz que há uma grande variação acima ou abaixo da média.

Amplitude Total

A amplitude total foi abordada anteriormente. A analise a seguir mostra uma forma de uso com respectivos gráficos dos dados. Na realidade, os dados podem ter várias medidas iguais e ainda sim serem totalmente distintos.

  • Exemplo: Considere os conjuntos de dados a seguir:
A=c(1,9,1,9,2,8)
B=c(2,8,2,8,3,7)
C=c(3,7,5,5,4,6)

cat("A=[",A,"]","\n")
A=[ 1 9 1 9 2 8 ] 
cat("B=[",B,"]","\n")
B=[ 2 8 2 8 3 7 ] 
cat("C=[",C,"]","\n")
C=[ 3 7 5 5 4 6 ] 

\(\overline{A}=\dfrac{ \sum_{i=1}^{6} A_{i}}{6}=5\)

\(\overline{B}=\dfrac{ \sum_{i=1}^{6} B_{i}}{6}=5\)

\(\overline{C}=\dfrac{ \sum_{i=1}^{6} C_{i}}{6}=5\)


As médias são iguais, mas as mplitudes totais são diferentes.

cat("Rol A=[",sort(A),"]","\n")
Rol A=[ 1 1 2 8 9 9 ] 
cat("Rol  B=[",sort(B),"]","\n")
Rol  B=[ 2 2 3 7 8 8 ] 
cat("RolC=[",sort(C),"]","\n")
RolC=[ 3 4 5 5 6 7 ] 

\(Amp_A=9-1=8\)

\(Amp_B=8-2=6\)

\(Amp_C=7-3=4\)


Observações:

  • Se a comparação é feita usando o número de elementos \(n=6\) e as médias calculadas são \(\overline{A} =\overline{B}=\overline{C}\), então pode ser concluído, erroneamente, que os conjuntos de dados são iguais.
  • Ao analisar a variabilidade dos dados baseados na amplitude total é possível ter uma noção adicional:
    • O primeiro tem maior variabilidade;
    • O segundo tem uma variabilidade intermediária;
    • O terceiro tem a menor variabilidade
plot(sort(A),ylim=c(0,10),cex = 1.5, col = "red",ylab="")
par(new=T)
plot(sort(B),ylim=c(0,10),cex = 1.5, col = "green",ylab="")
par(new=T)
plot(sort(C),ylim=c(0,10),,cex = 1.5, col = "blue",ylab="")
legend(1, 9, legend=c("A", "B","C"),
       col=c("red","green", "blue"), lty=1:2, cex=0.8)

datax=c("A", "B", "C")

datay=c(max(A)-min(A),max(B)-min(B), max(C)-min(C))

quantity <- datay
names(quantity) <- datax
barplot(quantity, main="Amplitudes", xlab = "Conjuntos de Dados", ylab="Amplitude", col=c("blue", "red", "yellow"),ylim = c(0,10))
legend("topright", legend=datax, fill=c("blue", "red", "yellow"))


Variância e Desvio Padrão

Em Estatística as variâncias da amostra e da população são calculadas por meio de fórmulas diferentes.

  • Variância amostral \(s^2\)
  • Variância populacional \(\sigma^2\)

Dados não agrupados em tabelas de frequências

Se \((x_1,\cdots, x_n)\) é uma amostra amostra aleatória simples:

A variância da amostra é calculado por:

\[ s^2=\dfrac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}\]

em que \(\overline{x}\) é a média amostral, dada por:

\[\overline{x}=\dfrac{\sum_{i=1}^{n}x_i}{n}\]

O desvio padrão é dado pela raíz quadrada da variância:

\[s=\sqrt{\dfrac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1}}\]

  • Exemplo: Considere a amostra aleatória \(x=[0,2,3,5,5]\) de valores numéricos. Determine a variância e o desvio padrão.

Solução: \(\overline{x}=\dfrac{0+2+3+5+5}{5}=3\)

\(s^2=\dfrac{(0-3)^2+(2-3)^2+(3-3)^2+(5-3)^2+(5-3)^2}{5-1}=4.5\)

\(s=\sqrt{4.5}=2.121\).

Usando R:

#inserir os dados!
data=c(0,2,3,5,5)

mean(data)#cálculo da média
var(data)#cálculo da variância
sd(data)#cálculo do desvio-padrão

O gráfico a seguir mostra os dados dispostos por posição, a linha (em y) que fornece o desvio padrão. As linhas abaixo e acima da média são os respectivos valores: \(\hspace{.25cm}\overline{x}-s\) e \(\hspace{.25cm}\overline{x}+s\)

ylimit=c(0,6)
plot(data,xlim=c(0,5),ylim=ylimit,xlab="",ylab="")
par(new=T)
plot(c(0,5),c(mean(data),mean(data)),col='red',type='l',xlim=c(0,5),ylim=ylimit,xlab="",ylab="")
par(new=T)
plot(c(0,0),c(mean(data)-sd(data),mean(data)+sd(data)),col="orange",type = "b", lty = 2, lwd =1,xlim=c(0,5),ylim=ylimit,xlab="",ylab="")
par(new=T)
plot(c(0,5),c(mean(data)-sd(data),mean(data)-sd(data)),col="orange",type = "l", lty = 2, lwd =1,xlim=c(0,5),ylim=ylimit,xlab="",ylab="")
par(new=T)
plot(c(0,5),c(mean(data)+sd(data),mean(data)+sd(data)),col="orange",type = "l", lty = 2, lwd =1,xlim=c(0,5),ylim=ylimit,xlab="",ylab="")

  • Exemplo: Exemplo [@Devore2006, pg.15]
Data = read.table(header=FALSE, stringsAsFactors=TRUE, text="
2,97 4,00 5,20 5,56 5,94 5,98 6,35 6,62 6,72 6,78 6,80 6,85 6,94 7,15 7,16 7,23 7,29 7,62 7,62 7,69 7,73 7,87 7,93 8,00 8,26 8,29 8,37 8,47 8,54 8,58 8,61 8,67 8,69 8,81 9,07 9,27 9,37 9,43 9,52 9,58 9,60 9,76 9,82 9,83 9,83 9,84 9,96 10,04 10,21 10,28 10,28 10,30 10,35 10,36 10,40 10,49 10,50 10,64 10,95 11,09 11,12 11,21 11,29 11,43 11,62 11,70 11,70 12,16 12,19 12,28 12,31 12,62 12,69 12,71 12,91 12,92 13,11 13,38 13,42 13,43 13,47 13,60 13,96 14,24 14,35 15,12 15,24 16,06 16,90 18,26 
",dec=",")
valores=stack(Data)$values
valores
 [1]  2.97  4.00  5.20  5.56  5.94  5.98  6.35  6.62  6.72  6.78  6.80  6.85
[13]  6.94  7.15  7.16  7.23  7.29  7.62  7.62  7.69  7.73  7.87  7.93  8.00
[25]  8.26  8.29  8.37  8.47  8.54  8.58  8.61  8.67  8.69  8.81  9.07  9.27
[37]  9.37  9.43  9.52  9.58  9.60  9.76  9.82  9.83  9.83  9.84  9.96 10.04
[49] 10.21 10.28 10.28 10.30 10.35 10.36 10.40 10.49 10.50 10.64 10.95 11.09
[61] 11.12 11.21 11.29 11.43 11.62 11.70 11.70 12.16 12.19 12.28 12.31 12.62
[73] 12.69 12.71 12.91 12.92 13.11 13.38 13.42 13.43 13.47 13.60 13.96 14.24
[85] 14.35 15.12 15.24 16.06 16.90 18.26

Solução:

Usando R:

cat("média=",mean(valores),"\n")
média= 10.03844 
cat("Var=",var(valores),"\n")
Var= 8.225368 
cat("s=",sd(valores),"\n")
s= 2.86799 

Faça os cálculos manuais e confira os resultados.

A seguir esta uma visualização dos dados com mesos elementos apresentados anteriormente. Note que os dados estão ordenados de forma crescente.

data=valores
n=length(valores)
xlimit=c(0,n)
ylimit=c(min(valores),max(valores))
plot(data,xlab="",ylab="",xlim=xlimit,ylim=ylimit)
par(new=T)
media=mean(data)
val1=media-sd(data)
val2=media+sd(data)
abline(h=c(val1,media,val2),col=c("blue","red","blue"))
abline(h=c(mean(data)-2*sd(data),mean(data)+2*sd(data)),col=c("magenta","magenta"))

Note que os reais valores dos dados estão no eixo y. O eixo x é apenas a posição do respectivo valor. Portanto, as medidas calculadas devem ser olhadas no eixo y.

Agora, observe o histograma dos valores:

hist(data,breaks="Sturges",prob=T,xlab="Consumo médio",ylab="Densidade",col="green",border = "blue")
par(new=T)
abline(v=c(mean(data)-sd(data),mean(data),mean(data)+sd(data)),col=c("blue","red","blue"))
abline(v=c(mean(data)-2*sd(data),mean(data)+2*sd(data)),col=c("magenta","magenta"))

Calcule a frequência relativa dos dados nos intervalos \([\overline{x}-s,\overline{x}+s]\), \([\overline{x}-2s,\overline{x}+2s]\) e \([\overline{x}-3s,\overline{x}+3s]\).

Frequências agrupadas sem intervalos de classe

Em uma distribuição de frequências sem intervalos de classes, a fórmula do desvio é reduzida para:

\[s=\sqrt{\dfrac{\sum_{i=1}^{n}f_i\cdot(x_i-\overline{x})^2}{n-1}}\]

em que \(\overline{x}\) é a média amostral, dada por:

\[\overline{x}=\dfrac{\sum_{i=1}^{n}f_i\cdot x_i}{n}\]

  • Nota:

    • Note que é idêntica a fórmula para dados não agrupados em frequências. A expressão tem objetivo de simplificar o processo.
    • Ao usar o R, os dados não precisam ser agrupados em frequências ou tabelas de distribuição se o objetivo for apenas o cálculo.
  • Exemplo (manual): Variância e desvio de \(x=[1, 1, 3, 3, 5, 5, 5]\)

    \(\overline{x}=\dfrac{1+1+3+3+5+5+5}{7}=\dfrac{2\cdot 1+2\cdot 3+3\cdot 5}{7}=3.286\)

x=c(1,1,3,3,5,5,5)

\(s^2=\dfrac{2\cdot (1-\overline{x})^2+2\cdot (3-\overline{x})^2+3\cdot (5-\overline{x})^2}{7-1}=\) 3.2380952

\(s=\sqrt{\dfrac{2\cdot (1-\overline{x})^2+2\cdot (3-\overline{x})^2+3\cdot (5-\overline{x})^2}{7-1}}=\sqrt{3.238}=\) 1.7994708

  • Exemplo: Os dados a seguir são uma amostra aleatória simples com 50 elementos, apresentadas na forma ordenada.
set.seed(1000)
x1=rpois(50,10)#sample(0:10,50,replace=TRUE)
cat("Dados=[",x1,"]")
Dados=[ 8 6 5 7 12 13 5 13 5 9 5 4 10 3 8 10 11 11 10 10 11 10 11 10 9 3 7 14 12 11 9 6 5 7 10 9 9 14 10 10 19 9 11 13 11 8 11 10 5 7 ]
cat("\n\n")
cat("Rol=[",sort(x1),"]")
Rol=[ 3 3 4 5 5 5 5 5 5 6 6 7 7 7 7 8 8 8 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 10 11 11 11 11 11 11 11 11 12 12 13 13 13 14 14 19 ]

Note que os cálculos da média, variância e desvios podem utilizar tanto a fórmula para dados agrupados quanto para dados não agrupados. No entanto, dados agrupados podem ser mais práticos do ponto de vista de execução dos cálculos manuais.

A tabela a seguir mostra os cálculos com dados agrupados e uma técnica que pode acelerar os cálculos manuais e evitar erros ou problemas com as calculadoras:

options(digits = 4)
#set.seed(1000)
#x=rpois#sample(0:10,50,replace=TRUE)
#var(x)
#mean(x)
x=sort(x1)
#var(x)
#mean(x)

xuniq=unique(x)
x.freq=table(x)
diff=(xuniq-mean(x))
diff2=x.freq*diff^2

data=cbind(xuniq,x.freq,diff,diff2)

sum(x.freq)
sum(diff2)

cat("valor de variância é var=",sum(diff2)/(length(x)-1))
library(knitr)
kable(data,caption="table",col.names=c("$x_i$","$f_i$","$x_i-\\overline{x}$","$f_i\\cdot(x-\\overline{x})^2$"),escape = FALSE, align = "ccccc")
table
\(x_i\) \(f_i\) \(x_i-\overline{x}\) \(f_i\cdot(x-\overline{x})^2\)
3 3 2 -6.12 74.9088
4 4 1 -5.12 26.2144
5 5 6 -4.12 101.8464
6 6 2 -3.12 19.4688
7 7 4 -2.12 17.9776
8 8 3 -1.12 3.7632
9 9 6 -0.12 0.0864
10 10 10 0.88 7.7440
11 11 8 1.88 28.2752
12 12 2 2.88 16.5888
13 13 3 3.88 45.1632
14 14 2 4.88 47.6288
19 19 1 9.88 97.6144

Observe as colunas da tabela e acompanhe o procedimento:

  • Primeiramente, as duas primeiras colunas são construídas.
    • Calule a média:

\(\overline{x}=\dfrac{2\cdot 3 +1\cdot 4+\cdots+14\cdot 2+19\cdot 1}{50}=9.12\)

  • Construa a coluna 3 para todos os valores.

  • Construa a coluna 4, ou seja, faça o produto entre \(f_i\) e \((x-x_i)^2\). Some todos os valores da coluna 4 e divida pela soma dos valores da coluna 2 menos 1:

    \(s^2=\dfrac{\sum_{i=1}^{10}f_i\cdot (x-\overline{x})^2}{(\sum_{i=1}^{10}f_i) -1}=\) 9.9445

\(s=\) 3.1535


A seguir são apresentados os dados em forma de gráfico de dispersão de pontos e o histograma dos dados.

  • Gráfico de dispersão e retas mostrando \(\overline{x}-\sigma\) e \(\overline{x}+\sigma\).
  • Eixo x mostra o número do elemento e não corresponde a valores.
  • o eixo y mostra o valor do dado.
data=x1
xlimit=c(0,length(data))
ylimit=c(0.0*min(data),1.2*max(data))

plot(data,xlab="",ylab="",xlim=xlimit,ylim=ylimit)
par(new=T)
plot(c(0,length(data)),c(mean(data),mean(data)),col='red',type='l',xlim=xlimit,ylim=ylimit,xlab="",ylab="")
par(new=T)
plot(c(0,0),c(mean(data)-sd(data),mean(data)+sd(data)),col="orange",type = "b", lty = 2, lwd =1,xlim=xlimit,ylim=ylimit,xlab="",ylab="")
par(new=T)
plot(c(0,length(data)),c(mean(data)-sd(data),mean(data)-sd(data)),col="orange",type = "l", lty = 2, lwd =1,xlim=c(0,length(x)),ylim=ylimit,xlab="",ylab="")
par(new=T)
plot(c(0,length(data)),c(mean(data)+sd(data),mean(data)+sd(data)),col="orange",type = "l", lty = 2, lwd =1,xlim=c(0,length(x)),ylim=ylimit,xlab="",ylab="")

  • Gráfico de histograma e retas mostrando \(\overline{x}-\sigma\) e \(\overline{x}+\sigma\).
  • Eixo x mostra os valores dos dados e não há ordenação na apresentação. O foco é a “contagem de frequências”.
  • o eixo y mostra as respectivas frequências relativas no intervalo da classe.


Frequências agrupadas com intervalos de classe

Em uma distribuição de frequências sem intervalos de classes, a fórmula:

\(s=\sqrt{\dfrac{\sum_{i=1}^{n}f_i\cdot (x_i-\overline{x})^2}{n-1}}\)

em que \(\overline{x}\) é a média amostral, dada por:

\(\overline{x}=\dfrac{\sum_{i=1}^{n}f_i\cdot x_i}{n}\)


No caso de uma distribuição com intervalos de classe, basta substituir os valores \(x_i\) pelos valores dos pontos médios das classes \(pm_i\). Em outras palavras:

\(s=\sqrt{\dfrac{\sum_{i=1}^{n}f_i\cdot (pm_i-\overline{x})^2}{n-1}}\)

em que \(\overline{x}\) é a média amostral, dada por:

\(\overline{x}=\dfrac{\sum_{i=1}^{n}f_i\cdot pm_i}{n}\)


Observe que as duas fórmulas para o desvio padrão acima são identicas se consideramos o contexto do problema para definir a utilização do \(x_i\) ou de \(pm_i\).


É necessário observar que a tanto a média quanto a variância não são idênticas àquelas calculadas com a fórmula para dados não agrupados.

  • Exemplo: Considere a tabela abaixo:
classes \(f_i\) \(pm_i\)
[0,2) 3 1
[2,4) 5 3
[4,6) 4 5

A variância é calculada diretamente pela aplicação da fórmula. Veja os cálculos a seguir:

  • passo 01: Cálculo da média

    \(\overline{x}=\dfrac{\sum_{i=1}^{3}f_i\cdot pm_i}{\sum_{i=1}^{3}f_i}=\dfrac{3\cdot 1+5\cdot 3+4\cdot 5}{12}=\) 3.1667

dat=c(1,3,5)
freq=c(3,5,4)

xbar=sum(dat*freq)/sum(freq)
var=sum(freq*(dat-xbar)^2)/(sum(freq)-1)
var
  • passo 02: Cálculo da variância

\(s^2=\dfrac{\sum_{i=1}^3f_i\cdot(pm_i-\overline{x})^2}{\sum_{i=1}^{3}f_i-1}=\dfrac{3\cdot (1-\overline{x})^2+5\cdot (3-\overline{x})^2+4\cdot (5-\overline{x})^2}{3+5+4 -1}=\) 2.5152

A média \(\overline{x}=\) precisa ser calculada para que o exercício possa ser finalizado.

A forma com que os dados são apresentados não permite usar o R diretamente, pois não há condições de recuperar os dados que deram origem à tabela acima.

  • Exemplo: Considere a amostra aleatória dada a seguir.
set.seed(421)
data=rexp(100,rate=0.1)
data
  [1]  5.79080 15.46563  4.30899  9.52014  6.90355  3.99014  3.67223 20.61575
  [9]  9.65453 10.96056  8.48555  4.74478  6.18180  9.13508 14.65255  0.51161
 [17]  0.99409  9.49091  7.62447  7.00557  1.90616  5.11412  9.37281  3.74481
 [25]  7.13176  5.52026  6.76988  1.23860  8.53707  1.84557 23.77964  6.32472
 [33] 29.82865  0.89318  0.29117  4.89124 16.42861  2.44175 17.77116  2.68801
 [41]  1.61371  0.07511  3.05082 18.30218  4.73376 10.50917 25.21653  9.52228
 [49]  6.60650 12.02462  3.79872  0.10809 10.86545  0.50285  7.30034 18.77939
 [57]  5.02130  8.76560  2.11722  4.30753  2.00175 17.15152  1.16234 14.06811
 [65]  3.23559  5.38420  5.78571 11.87782  7.18235 16.34176  4.60098  1.45404
 [73]  7.18823 11.45629 33.68824 17.46483  8.76391 27.32521  3.22465  1.98237
 [81]  5.36166 12.08698 21.12615  5.16817  9.55201  9.05031  3.28108 11.75451
 [89] 13.13843  9.78289 28.56294 23.72571 77.23493  0.76515 13.61772  4.01114
 [97]  6.87066 21.81170  4.63772  5.61065

A seguir, os dados são apresentados na forma de tabela de distribuição de frequências com intervalos de classes. Os intervalos de classe adotados são ilustrativos e convenientes para ilustração e execução dos cálculos:

#x=exp#sample(0:10,50,replace=TRUE)#amostra tamanho 50 entre 0-5  com reposição
x=data
options(digits=4); N=length(x); Nc=floor(1+3.3*log10(N)); #Nc
A=round(max(x)-0.0,2);Ac=round(A/Nc,1);#Ac
breaks = seq(min(x),max(x), by=Ac)    #half-integer sequence 
breaks=c(breaks,max(x)+0.1)
breaks=c(0,10,20,30,40,60,80)
x.cut = cut(x, breaks, right=FALSE) 
f_i = table(x.cut) 

pm_i=c(5,15,25,35,50,70)#breaks[1:length(breaks)-1]#+Ac/2;
#pm_i#[4]=100.0

xprod=pm_i-mean(x)#produto entre os valores x e as respectivas frequencias
xprodf=f_i*pm_i#produto entre os valores x e as respectivas frequencias

xprod2=f_i*xprod^2

table=cbind(f_i,pm_i,xprodf,xprod,xprod2)#constroi tabela de frequencias e respectivos produtos por linha
library(knitr)

kable(table,caption="Classes",col.names=c("$f_i$","$pm_i$","$f_i\\cdot pm_i$","$x_i-\\overline{x}$","$f_i\\cdot(x-\\overline{x})^2$"), escape = FALSE, align = "cccccc")
Classes
\(f_i\) \(pm_i\) \(f_i\cdot pm_i\) \(x_i-\overline{x}\) \(f_i\cdot(x-\overline{x})^2\)
[0,10) 69 5 345 -4.579 1447.0
[10,20) 20 15 300 5.421 587.7
[20,30) 9 25 225 15.421 2140.2
[30,40) 1 35 35 25.421 646.2
[40,60) 0 50 0 40.421 0.0
[60,80) 1 70 70 60.421 3650.6

Observe as colunas da tabela e acompanhe o procedimento:

  • Primeiramente, as três primeiras colunas são construídas.
  • Em seguida o ponto médio é calculado.
  • Calule a média:

\(\overline{x}=\dfrac{\sum_{i=1}^{N}f_i\cdot pm_i}{\sum_{i=1}^Nf_i}=\dfrac{69\cdot 5+20\cdot 15\cdots+0\cdot 50+1\cdot 70}{69+20+\cdots+0+1}=\) 9.75

  • Construa a as demais colunas caso deseje seguir passo a passo.
  • Faça o produto entre \(f_i\) e \((x-x_i)^2\). Some todos os valores da coluna e divida pela soma dos valores das frequências menos 1. Observe os resultados a seguir:

\(s^2=\dfrac{\sum_{i=1}^{10}f_i\cdot (pm_i-\overline{x})^2}{(\sum_{i=1}^{10}f_i) -1}=\dfrac{1447+587.7+\cdots+0.0+3650.6}{69+20+\cdots+0+1}=\) 85.5723

\(s=\) 9.2505

Exercício: Utilize a distribuição de frequências anterior para calcular a amplitude total, a média, a moda, a variância e o desvio padrão.

Variância e desvio padrão populacional

A fórmula é diferente quando a população é considerada. Esta diferença é devido ao viés de estimativa ao utilizar a amostra para o cálculo da variância amostral.

\[\sigma^2=\dfrac{\sum_{i=1}^N(x_i-\mu)^2}{N}\]

Evidentemente, o desvio padrão vai ser alterado para

\[\sigma=\sqrt{\dfrac{\sum_{i=1}^N(x_i-\mu)^2}{N}}\]

O cálculo da média e variância para a distribuição de frequências sem intervalo de classe segue as mesmas ideias apresentadas. No entanto, o cálculo para a distribuição de frequências com intervalos de classe não é considerado adequado, pois fornece valores aproximados.

Observação: Caso disponha de toda a população de indivíduos, não há necessidade de fazer amostragem para o cálculo da média amostral. Também não há procedimento de inferência, pois os resultados não precisam ser extrapolados. No entanto, ao usar uma população, não é possível tirar conclusões para outras populações.

  • Exemplo: Notas em \(\{0, 1, 2, \cdots, 10\}\).

A média populacional é \(\mu=\dfrac{0+1\cdots+9+10}{11}=\) 5


Outras medidas de variação.

Desvio médio

O desvio médio é uma medida de variação que leva em conta as diferenças absolutas entre os valores e a média amostral ou populacional.

Apesar da aparente facilidade para o cálculo, o desvio absoluto não possui tantas características interessaantes quanto a variância.

Dados não agrupados

Considere os dados apresentados a seguir:

dados=[ 167.5 170.7 169.6 174.4 170.6 171.6 167.1 173.6 165.9 168.2 ]

Neste caso, a aplicação direta da fórmula:

\(\overline{D}=\dfrac{\sum_{i=1}^{N}|x_i-\overline{x}| }{n}=\) 2.2582

Dados agrupados em classes de frequências

Os dados a seguir são os mesmos considerados no penúltimo exemplo.

Classes
\(f_i\) \(pm_i\) \(f_i\cdot pm_i\) \(x_i-\overline{x}\) \(f_i\cdot abs(x_i-\overline{x})\) \(f_i\cdot(x-\overline{x})^2\)
[0,10) 69 5 345 -4.579 4.579 1447.0
[10,20) 20 15 300 5.421 5.421 587.7
[20,30) 9 25 225 15.421 15.421 2140.2
[30,40) 1 35 35 25.421 25.421 646.2
[40,60) 0 50 0 40.421 40.421 0.0
[60,80) 1 70 70 60.421 60.421 3650.6

\(\overline{D}=\dfrac{\sum_{i=1}^{N}f_i\cdot |pm_i-\overline{x}| }{\sum_{i=1}^Nf_i}=\) 1.5168

Exercícios

  • Exercício 01: Considere os dados a seguir para determinar a variância e desvio padrão.
dados=[ 0.1496 9.202 7.522 15.75 2.317 10.87 23.28 7.291 12.88 6.723 4.265 11.15 13.17 4.133 6.766 16.33 0.7119 25.69 17.45 2.93 ]

Faça um gráfico ilustrativo que contenha os pontos, na ordem que são apresentados, e as retas que correspondem a \(\overline{x}-s\) e \(\overline{x}+s\). Qual a percentagem de dados fora da faixa?

  • Exercício 02: Considere os dados a seguir para determinar a variância e desvio padrão.
dados=[ 170.1 169.1 163.1 167 171.5 171.9 164 168.2 161.9 168.7 175.5 173.8 168.8 174.9 173.7 170.4 165.2 169 174.6 172.4 167 159.1 166.6 159.4 163.7 168.1 166.6 165.6 169.5 168.7 ]

Faça um gráfico ilustrativo que contenha os pontos, na ordem que são apresentados, e as retas que correspondem a \(\overline{x}-s\) e \(\overline{x}+s\). Qual a percentagem de dados fora da faixa?

Dica: Utilize os comandos abaixo para atingir os objetivos do exercício.

a=mean(x)   #média dos valores x

#restrição de valores

x[x<a]

length(x)   #comprimento do vetor
  1. [@Devore2006, pg.15] As empresas de energia necessitam de informações sobre o consumo de seus clientes para obterem previsões precisas da demanda. Investigadores da Wisconsin Power and Light determinaram que o consumo de energia (BTUs) dura um determinado período para uma amostra de 90 lares aquecidos a gás. O valor de consumo ajustado foi calculado conforme segue:

2,97 4,00 5,20 5,56 5,94 5,98 6,35 6,62 6,72 6,78 6,80 6,85 6,94 7,15 7,16 7,23 7,29 7,62 7,62 7,69 7,73 7,87 7,93 8,00 8,26 8,29 8,37 8,47 8,54 8,58 8,61 8,67 8,69 8,81 9,07 9,27 9,37 9,43 9,52 9,58 9,60 9,76 9,82 9,83 9,83 9,84 9,96 10,04 10,21 10,28 10,28 10,30 10,35 10,36 10,40 10,49 10,50 10,64 10,95 11,09 11,12 11,21 11,29 11,43 11,62 11,70 11,70 12,16 12,19 12,28 12,31 12,62 12,69 12,71 12,91 12,92 13,11 13,38 13,42 13,43 13,47 13,60 13,96 14,24 14,35 15,12 15,24 16,06 16,90 18,26

Calcular as medidas de dispersão.

  1. [@Devore2006, p.17] A corrosão das barras de aço da armação é um problema sério em estruturas de concreto localizadas em ambientes afetados por condições climáticas extremas. Por esse motivo, os pesquisadores têm investigado a utilização de barras de reforço feitas de material composto. Um estudo foi executado para desenvolver diretrizes sobre a aderência de barras plásticas reforçadas com fibra de vidro ao concreto (“Design Recommendations for Bond of GFRP Rebars to Concrete,” J. of Structural Engr., 1996, p. 247-254). Considere as 48 observações da resistência da aderência medida:

11,5 12,1 9,9 9,3 7,8 6,2 6,6 7,0 13,4 17,1 9,3 5,6 5,7 5,4 5,2 5,1 4,9 10,7 15,2 8,5 4,2 4,0 3,9 3,8 3,6 3,4 20,6 25,5 13,8 12,6 13,1 8,9 8,2 10,7 14,2 7,6 5,2 5,5 5,1 5,0 5,2 4,8 4,1 3,8 3,7 3,6 3,6 3,6

Calcular as medidas de dispersão.



Referências

  • LARSON, R., FARBER, B. Estatística Aplicada, Editora Pearson, ed 06, 2010. Disponível aqui.
  • TRIOLA, M. Elementary Statistics: Updates for the latest technology, Pearson-Education, ed.09, 2004.
  • MARINHO, Notas de aula Prof. Marinho, Curso Estatística Descritiva, Universidade de São Paulo, 2015.
  • BUSSAB, W.O., MORETTIN, P.A., Estatística Básica, Saraiva, Sao Paulo, 9ed, 2017.