Gráficos Estatísticos

Gráficos estatísticos são formas de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo.


 

Gráfico de Barras

O Gráfico de Barras é uma das formas mais comuns de exibir dados de uma determinada amostra. Gráficos de Barras consistem em 2 variáveis, uma resposta (às vezes chamada de “dependente”) e um preditor (às vezes chamado de “independente”), dispostos no eixo horizontal e vertical de um gráfico. A relação entre o preditor e as variáveis de resposta é mostrada por uma marca de algum tipo (geralmente uma caixa retangular) do valor de uma variável para a outra.

 

Exemplo 01

Esboce um gráfico de barras para os dados abaixo, ou seja, para o número de erros de cálculo em 20 declarações do imposto de renda. Construa uma tabela para 0, 1, 2, 3 erros de cálculo, e o número de restrições em 12, 5, 2, 1.

trutas = c(19.2, 19.6, 17.3, 19.3, 19.5, 20.4, 23.5, 19.0, 19.4, 18.4, 
           19.4, 21.8, 20.4, 21.0, 21.4, 19.8, 19.6, 21.5, 20.2, 20.1, 
           20.3, 19.7, 19.5, 22.9, 20.7, 20.3, 20.8, 19.8, 19.4, 19.3, 
           19.5, 19.8, 18.9, 20.4, 20.2, 21.5, 19.9, 21.7, 19.5, 20.9, 
           18.1, 20.5, 18.3, 19.5, 18.3, 19.0, 19.2, 21.9, 17.0, 19.7, 
           20.7, 21.1, 20.6, 16.6, 19.4, 18.6, 22.7, 18.5, 20.1, 18.6)

sort(trutas)
##  [1] 16.6 17.0 17.3 18.1 18.3 18.3 18.4 18.5 18.6 18.6 18.9 19.0 19.0 19.2
## [15] 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.6 19.6
## [29] 19.7 19.7 19.8 19.8 19.8 19.9 20.1 20.1 20.2 20.2 20.3 20.3 20.4 20.4
## [43] 20.4 20.5 20.6 20.7 20.7 20.8 20.9 21.0 21.1 21.4 21.5 21.5 21.7 21.8
## [57] 21.9 22.7 22.9 23.5
num.erros = c(0, 1, 2, 3)
num.restricoes = c(12, 5, 2, 1)
imposto = cbind(num.erros, num.restricoes)
imposto
##      num.erros num.restricoes
## [1,]         0             12
## [2,]         1              5
## [3,]         2              2
## [4,]         3              1
barplot(num.restricoes, names.arg = num.erros, xlab = "Número de Erros", ylab = "Número de restrições", main = "Gráfico de exemplo Freund (2006, p. 28")

length(trutas)  # Mostra o tamanho da amostra
## [1] 60
min(trutas)     # Valor mínimo da amostra
## [1] 16.6
max(trutas)     # Valor máximo da amostra
## [1] 23.5

 

Exemplo 02

Esboce um diagrama de barras para os dados abaixo:

dados = c(11, 37, 23, 58, 67, 82, 25, 99, 38, 62, 95, 12, 14, 22, 25, 33, 40, 50, 51, 63)
dados
##  [1] 11 37 23 58 67 82 25 99 38 62 95 12 14 22 25 33 40 50 51 63
dados = sort(dados)
dados
##  [1] 11 12 14 22 23 25 25 33 37 38 40 50 51 58 62 63 67 82 95 99
h= hist(dados, right = FALSE, col="yellow", xlab="Dados", ylab="Frequência", main="Histograma de Dados Exemplo")

h
## $breaks
## [1]   0  20  40  60  80 100
## 
## $counts
## [1] 3 7 4 3 3
## 
## $density
## [1] 0.0075 0.0175 0.0100 0.0075 0.0075
## 
## $mids
## [1] 10 30 50 70 90
## 
## $xname
## [1] "dados"
## 
## $equidist
## [1] TRUE
## 
## attr(,"class")
## [1] "histogram"
h$counts        #mostra a tabulação das contagens com base nos pontos de interrupção padrão
## [1] 3 7 4 3 3
h$mids          #ponto médio das células
## [1] 10 30 50 70 90
h$counts*h$mids
## [1]  30 210 200 210 270
sum(h$counts*h$mids)
## [1] 920
sum(h$counts)
## [1] 20
sum(h$counts*h$mids)/sum(h$counts)
## [1] 46
table(trutas)
## trutas
## 16.6   17 17.3 18.1 18.3 18.4 18.5 18.6 18.9   19 19.2 19.3 19.4 19.5 19.6 
##    1    1    1    1    2    1    1    2    1    2    2    2    4    5    2 
## 19.7 19.8 19.9 20.1 20.2 20.3 20.4 20.5 20.6 20.7 20.8 20.9   21 21.1 21.4 
##    2    3    1    2    2    2    3    1    1    2    1    1    1    1    1 
## 21.5 21.7 21.8 21.9 22.7 22.9 23.5 
##    2    1    1    1    1    1    1
perc=h$counts/sum(h$counts)
perc
## [1] 0.15 0.35 0.20 0.15 0.15
cum = cumsum(perc)
cum
## [1] 0.15 0.50 0.70 0.85 1.00
tc = cbind(pto.medio = h$mids, freq = h$counts, freq.acum = cumsum(h$counts), freq.rel = round(perc, 4), freq.rel.acum = round(cum, 4))
tc
##      pto.medio freq freq.acum freq.rel freq.rel.acum
## [1,]        10    3         3     0.15          0.15
## [2,]        30    7        10     0.35          0.50
## [3,]        50    4        14     0.20          0.70
## [4,]        70    3        17     0.15          0.85
## [5,]        90    3        20     0.15          1.00
plot(tc[1:5,2], type = "b", col = 4)

plot(tc[1:5,3], type = "b", col = 2)

meuhist = function(x, title = NA) {
  hist(x, freq = FALSE, main = title)
  amp = max(x)-min(x)
  m = mean(x)
  s = sd(x)
  xx = (0:200)/200*amp+min(x)
  yy = dnorm(xx, m, s)
  lines(xx, yy, type = "l", col = 4, lwd = 2)
}

meuhist(trutas)
abline(v = mean(trutas), col = "red")
abline(v = quantile(trutas, 0.5), col = "green")

# Gráfico dos valores acumulados
plot(h$mids, cumsum(h$counts), type = "b", lty = 1, col = "red", pch = 13)
# Gráfico dos valores das classes
lines(h$mids, h$counts, type = "b", lty = 1, col = "blue", pch = 13)
# Grid de referência
abline(v = c(40, 60, 80, 100), h = 1:5*20, col = "lightblue", lty = 2)

h$breaks
## [1]   0  20  40  60  80 100
h$counts
## [1] 3 7 4 3 3
tc = cbind(
  h$breaks[1:4], 
  h$breaks[2:6], 
  h$counts, 
  cumsum(h$counts)
)
## Warning in cbind(h$breaks[1:4], h$breaks[2:6], h$counts, cumsum(h$counts)):
## number of rows of result is not a multiple of vector length (arg 1)
colnames(tc) = c("LimInf", "LimSup", "Freq", "FreqAcum")
tc
##      LimInf LimSup Freq FreqAcum
## [1,]      0     20    3        3
## [2,]     20     40    7       10
## [3,]     40     60    4       14
## [4,]     60     80    3       17
## [5,]      0    100    3       20

 

Gráfico Boxplots

Os boxplots são uma forma padronizada de exibir a distribuição de dados com base em um resumo de cinco números (“mínimo”, primeiro quartil (Q1), mediana, terceiro quartil (Q3) e “máximo”). Você precisa ter informações sobre a variabilidade ou dispersão dos dados. Um boxplot é um gráfico que fornece uma boa indicação de como os valores nos dados estão espalhados. Embora os lotes de caixas possam parecer primitivos em comparação a um histograma ou gráfico de densidade, eles têm a vantagem de ocupar menos espaço, o que é útil ao comparar distribuições entre vários grupos ou conjuntos de dados.

 

html image example

 

 

html image example

 

As imagens acima é uma comparação de um boxplot de uma distribuição quase normal e a função de densidade de probabilidade (pdf) para uma distribuição normal. A razão pela qual estou mostrando essa imagem é que olhar para uma distribuição estatística é mais comum do que observar um gráfico de caixa. Em outras palavras, isso pode ajudá-lo a entender um boxplot.

 

Exemplo 03

Considere as duas amostras abaixo:

A1={0.22, -0.87, -2.39, -1.79, 0.37, -1.54, 1.28, -0.31, -0.74, 1.72, 0.38, -0.17, -0.62, -1.10, 0.30, 0.15, 2.30, 0.19, -0.50, -0.09}

A2={-5.13, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43, 7.11, 4.87, -3.10, -5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.50}

Observe que ambos os conjuntos de dados são aproximadamente balanceados em torno de zero; evidentemente, a média em ambos os casos é “quase” zero. No entanto, há substancialmente mais variação em A2, que varia aproximadamente entre -6 e 6, enquanto que A1 varia aproximadamente entre -2,5 e 2½.

a1=c(0.22, -0.87, -2.39, -1.79, 0.37, -1.54, 1.28, -0.31, -0.74, 1.72, 0.38, -0.17, -0.62, -1.10, 0.30, 0.15, 2.30, 0.19, -0.50, -0.09)
a2=c(-5.13, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43, 7.11, 4.87, -3.10, -5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.50)
mean(a1)
## [1] -0.1605
mean(a2)
## [1] 0.971
a1
##  [1]  0.22 -0.87 -2.39 -1.79  0.37 -1.54  1.28 -0.31 -0.74  1.72  0.38
## [12] -0.17 -0.62 -1.10  0.30  0.15  2.30  0.19 -0.50 -0.09
a2
##  [1] -5.13 -2.19 -2.43 -3.83  0.50 -3.25  4.32  1.63  5.18 -0.43  7.11
## [12]  4.87 -3.10 -5.81  3.76  6.31  2.58  0.07  5.76  3.50
median(a1)
## [1] -0.13
median(a2)
## [1] 1.065
quantile(a1)
##      0%     25%     50%     75%    100% 
## -2.3900 -0.7725 -0.1300  0.3175  2.3000
quantile(a2)
##      0%     25%     50%     75%    100% 
## -5.8100 -2.5975  1.0650  4.4575  7.1100
par(mfrow=c(1, 2))  # divide graph area in 2 columns
k1=boxplot(a1, vertical=TRUE, main="k1")
k2=boxplot(a2, vertical=TRUE, main="k2")

Dados do boxplot

k1
## $stats
##        [,1]
## [1,] -2.390
## [2,] -0.805
## [3,] -0.130
## [4,]  0.335
## [5,]  1.720
## 
## $n
## [1] 20
## 
## $conf
##            [,1]
## [1,] -0.5327606
## [2,]  0.2727606
## 
## $out
## [1] 2.3
## 
## $group
## [1] 1
## 
## $names
## [1] ""
k2
## $stats
##        [,1]
## [1,] -5.810
## [2,] -2.765
## [3,]  1.065
## [4,]  4.595
## [5,]  7.110
## 
## $n
## [1] 20
## 
## $conf
##           [,1]
## [1,] -1.535279
## [2,]  3.665279
## 
## $out
## numeric(0)
## 
## $group
## numeric(0)
## 
## $names
## [1] ""

Observação importante sobre o gráfico Boxplots

Um caso de preocupação particular - em que um gráfico de caixa pode ser enganoso - é quando os dados são distribuídos em “dois pedaços” em vez dos casos de “um caroço” que consideramos até agora.Um gráfico de “enxame de abelhas” mostra que neste conjunto de dados há muitos dados próximos a 10 e 15, mas relativamente poucos entre eles. Veja que uma caixa não lhe dá nenhuma evidência disso.

 

html image example

 

Exemplo 04

Nas mais diversas áreas do conhecimento, medidas de posição e variação relativa são comumente utilizadas na análise exploratória de variáveis quantitativas ou ordinais. Medidas como a média, desvio-padrão, mínimo, primeiro quartil, segundo quartil, terceiro quartil e máximo são as principais e mais comuns medidas descritivas para estes tipos de variáveis - estas medidas podem ser apresentadas também em disposições gráficas, como é o caso do boxplot.Consideremos alguns conceitos:

  1. O desvio padrão é uma medida que indica a dispersão dos dados dentro de uma amostra com relação à média. Assim, quando se calcula o desvio padrão juntamente com a média de diferentes grupos, obtém-se mais informações para avaliar e diferenciar seus comportamentos.
  2. O erro padrão é uma medida de variação de uma média amostral em relação à média da população. Através do erro padrão, pode-se estimar um intervalo de confiança para a média populacional a partir da média amostral calculada.
  3. Quartil são valores que dividem um conjunto de elementos ordenados em quatro partes iguais, ou seja, cada parte contém 25% desses elementos.Há, portanto, três quartis: Q1, Q2 e Q3. O Q1 é chamado de primeiro quartil, ou seja, valor que deixa 25% dos elementos à sua esquerda e 75% dos elementos à sua direita. Q1 significa um quarto, o Q2 é chamado de segundo quartil e coincide com a mediana (Q2 = Md), ou seja, 50% dos elementos estão à sua esquerda e 50% à sua direita, e por fim, o Q3 é chamado de terceiro quartil, ou seja, valor que deixa 75% dos elementos à sua esquerda e 25% à sua direita (Q3 significa três quartos).
  4. Percentis são denominados aos noventa e nove valores que separam uma série em 100 partes iguais. A notação que usaremos para os percentis será Pi, onde o índice i indica a ordem do percentil considerado. Podemos também conceituar como sendo a medida que divide a amostra em 100 partes iguais.Por exemplo, P10 indica que 10% dos dados estão ordenados à sua esquerda e 90% à direita de P10, e P20 indica que 20% dos dados estão ordenados à sua esquerda e 80% à sua direita.
 
html image example

 

Componentes do Boxplots

O boxplot ou diagrama de caixa é uma ferramenta gráfica que permite visualizar a distribuição e valores discrepantes (outliers) dos dados, fornecendo assim um meio complementar para desenvolver uma perspectiva sobre o caráter dos dados. Além disso, o boxplot também é uma disposição gráfica comparativa. As medidas de estatísticas descritivas como o mínimo, máximo, primeiro quartil, segundo quartil ou mediana e o terceiro quartil formam o boxplot. Observe a figura do boxplot. Note que o local onde a haste vertical começa (de baixo para cima) indica o mínimo (excetuando algum possível valor extremo ou outlier) e, onde a haste termina indica o máximo (também excetuando algum possível outlier).

O retângulo no meio dessa haste possui três linhas horizontais: a linha de baixo, que é o próprio contorno externo inferior do retângulo, indica o primeiro quartil. A de cima, que também é o próprio contorno externo superior do retângulo, indica o terceiro quartil. A linha interna indica o segundo quartil ou mediana. Os asteriscos ou pontos que ás vezes aparecem no boxplot indicam que aquelas observações são atípicas, valores discrepantes, extremos ou outliers.

Como interpretar o Boxplot? O boxplot nos fornece uma análise visual da posição, dispersão, simetria, caudas e valores discrepantes (outliers) do conjunto de dados.

  1. Posição – Em relação à posição dos dados, observa-se a linha central do retângulo (a mediana ou segundo quartil).
  2. Dispersão – A dispersão dos dados pode ser representada pelo intervalo interquatilico que é a diferença entre o terceiro quartil e o primeiro quartil (tamanho da caixa), ou ainda pela amplitude que é calculada da seguinte maneira: valor máximo – valor mínimo. Embora a amplitude seja de fácil entendimento, o intervalo interqualitico é uma estatística mais robusta para medir variabilidade uma vez que não sofre influência de outliers.
  3. Simetria – Um conjunto de dados que tem uma distribuição simétrica, terá a linha da mediana no centro do retângulo. Quando a linha da mediana está próxima ao primeiro quartil, os dados são assimétricos positivos e quando a posição da linha da mediana é próxima ao terceiro quartil, os dados são assimétricos negativos. Vale ressaltar que a mediana é a medida de tendência central mais indicada quando os dados possuem distribuição assimétrica, uma vez que a média aritmética é influenciada pelos valores extremos.
  4. Caudas – As linhas que vão do retângulo até aos outliers podem fornecer o comprimento das caudas da distribuição.
  5. Outliers – Já os outliers indicam possíveis valores discrepantes. No boxplot, as observações são consideradas outliers quando estão abaixo ou acima do limite de detecção de outliers.

O limite de detecção de outliers é construído utilizando o intervalo interquartílico, dado pela distância entre o primeiro e o terceiro quartil. Sendo assim, os limites inferior e superior de detecção de outlier são dados por:

Posição Idade
  1. 18
  2. 19
  3. 21
  4. 21
  5. 21
  6. 22
  7. 22
  8. 22
  9. 23
  10. 23
  11. 24
  12. 27
idade = c(18,19,21,21,21,22,22,22,23,23,24,27)
idade
##  [1] 18 19 21 21 21 22 22 22 23 23 24 27
summary(idade)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   21.00   22.00   21.92   23.00   27.00
boxplot(idade, main="Boxplot: Idade", col="blue")

Neste segundo exemplo vamos apresentar o boxplot comparativo. Como dito anteriormente, o boxplot é uma ferramenta gráfica comparativa entre grupos com relação à posição, à dispersão e à distribuição dos dados. Utilizaremos o banco de dados “cats” do pacote “MASS” do R. Esse banco de dados contém dados de gatos adultos, pesando mais de 2 kg. Utilizaremos as variáveis peso corporal (“Bwt”) e sexo (“Sex”) para construir o boxplot comparativo.

require(MASS)
## Loading required package: MASS
#Carregando pacotes exigidos: MASS
data(cats)
boxplot(cats$Bwt~cats$Sex, main="Boxplot Comparativo: Peso x Sexo", col=c("red", "blue"))

str(airquality)
## 'data.frame':    153 obs. of  6 variables:
##  $ Ozone  : int  41 36 12 18 NA 28 23 19 8 NA ...
##  $ Solar.R: int  190 118 149 313 NA NA 299 99 19 194 ...
##  $ Wind   : num  7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
##  $ Temp   : int  67 72 74 62 56 66 65 59 61 69 ...
##  $ Month  : int  5 5 5 5 5 5 5 5 5 5 ...
##  $ Day    : int  1 2 3 4 5 6 7 8 9 10 ...

 

Exemplo 05

A função boxplot () aceita qualquer número de vetores numéricos, desenhando um boxplot para cada vetor. Você também pode passar uma lista (ou quadro de dados) com vetores numéricos como seus componentes. Para este exemplo, foi criado primeiro um conjunto de dados fictício usando a função \(rnorm()\) que gera seqüências aleatórias distribuídas normais. Esta função requer 3 argumentos, o número de amostras para criar, a média e o desvio padrão da distribuição, por exemplo:

rnorm(n=100,mean=3,sd=1)
##   [1] 4.4410911 5.7854279 4.2791249 3.3011388 2.8890260 2.3885921 2.9379440
##   [8] 4.1743207 3.0119087 3.0095168 3.3521829 3.4972126 2.4362281 4.4771220
##  [15] 2.6966739 3.4526192 2.3717253 4.4887020 2.4797103 2.8563994 3.0069881
##  [22] 3.4811343 4.3394785 2.5205296 1.8800942 3.9807625 2.3358683 1.7622932
##  [29] 2.7507289 2.9655628 3.8631083 2.4388673 2.9701126 2.8519610 2.4584011
##  [36] 5.0489386 4.4016646 0.1946869 3.4191438 3.2401703 3.2746238 1.2792089
##  [43] 2.2096960 3.7081775 2.0531211 3.7277191 3.3795857 2.8422240 1.2845622
##  [50] 4.3492313 3.1244848 2.8577172 3.6558197 3.1860571 3.4337064 3.2464313
##  [57] 4.2965093 2.7101362 3.5822410 2.2055342 4.0048778 5.1554921 3.0259173
##  [64] 1.8831945 2.0761632 4.2819811 2.6797782 1.3522741 4.8458299 0.6714440
##  [71] 3.1596208 2.8017468 3.1238871 2.6230012 4.3176709 3.0799017 2.3885564
##  [78] 2.9902388 2.8519375 1.1650672 4.2521402 3.8786719 3.3364990 4.3501298
##  [85] 2.1054281 2.7681263 5.0553193 2.6348690 4.1708393 2.1072360 2.3094053
##  [92] 3.0252686 1.7968239 2.4406686 1.9696543 2.9084551 3.6618453 2.0553628
##  [99] 2.7240736 1.9784932

Isso gera 100 números (flutuantes para ser exato), que têm média igual a 3 e desvio padrão igual a 1. Para gerar um conjunto de dados, foi usado a seguinte linha de código:

data<-data.frame(Stat11=rnorm(100,mean=3,sd=2),
Stat21=rnorm(100,mean=4,sd=1),
Stat31=rnorm(100,mean=6,sd=0.5),
Stat41=rnorm(100,mean=10,sd=0.5),
Stat12=rnorm(100,mean=4,sd=2),
Stat22=rnorm(100,mean=4.5,sd=2),
Stat32=rnorm(100,mean=7,sd=0.5),
Stat42=rnorm(100,mean=8,sd=3),
Stat13=rnorm(100,mean=6,sd=0.5),
Stat23=rnorm(100,mean=5,sd=3),
Stat33=rnorm(100,mean=8,sd=0.2),
Stat43=rnorm(100,mean=4,sd=4))
data
##         Stat11   Stat21   Stat31    Stat41     Stat12     Stat22   Stat32
## 1    1.7014639 3.551564 6.270581  9.676427  4.9597437  2.0018460 7.098838
## 2    6.9840961 4.555836 5.565593  9.526820  2.9700419  1.4720307 7.858205
## 3    1.8668164 3.999432 5.867983 10.063921  1.1264944  5.4588740 7.551269
## 4    3.3360046 3.258789 6.769414  9.904572  4.0133284  4.4318991 7.893011
## 5    3.8466165 3.734443 6.107975  9.933910  4.0614182  6.4452773 7.018838
## 6    3.9045373 3.805932 7.124227 10.465121  1.6035910  4.4444689 6.417986
## 7    6.9923048 4.021421 5.567582  9.352666  6.8199877  0.7307574 6.014710
## 8    3.2004350 4.488173 5.694554  9.292122  5.9939236  6.5773350 6.685108
## 9    5.8265261 5.329208 5.860390  9.124862  3.6567158  6.5685613 6.491840
## 10   3.3195464 3.764206 5.689751  9.028689  5.9706712  1.5863737 6.956757
## 11   3.5397401 3.074035 6.007717  9.709547  1.0977856  5.8461493 6.684328
## 12   2.2842952 4.327032 6.027170  9.164185  4.5525369  5.0594920 7.421750
## 13   3.1146793 4.160127 5.886292  9.742773  1.0255506  5.8634926 6.588907
## 14   6.8020111 2.762644 5.693985  9.684985  3.2632063  5.2728911 7.036439
## 15   3.8128997 2.740144 6.111994 10.145429  5.8929829  3.1347755 6.823565
## 16   1.2798001 3.294761 5.881509  9.349055  5.7566007  1.8402107 7.483475
## 17   5.2416110 4.009351 6.236250 10.252884  0.4679679  3.9713615 7.595907
## 18   3.7034181 3.588341 5.944468  9.568340  1.1507302  5.2978171 6.832177
## 19   4.1224211 5.578536 5.735317 10.705534  3.8446357  7.7075911 7.624006
## 20   1.0744996 3.790272 6.570150 10.361614  6.0324568  5.8342297 6.722892
## 21  -1.2195700 2.835679 6.677648 10.005128  1.5103518  3.5714171 6.630746
## 22   2.2712858 4.698820 5.744964 10.735179  4.6372402  1.7190163 6.934041
## 23   2.3200999 5.091265 5.509658 10.132115  5.4134919  4.4933042 6.759123
## 24   7.3465315 3.066876 6.334808  9.692963  5.0190577  6.3434472 6.431279
## 25   1.7472613 3.854121 6.245951  9.057677  3.2594659  4.3684291 8.118950
## 26   1.9278538 5.367689 4.908693 11.267873  5.1491689  2.1699886 7.332814
## 27   0.6966441 4.088181 5.702421 10.320748  6.1810734  3.3144004 7.284486
## 28   1.2027078 3.737415 5.870264  9.647494  6.1725039  0.3550058 7.530494
## 29   0.3642962 3.709782 5.918019  9.784430  4.9399974  3.3764866 7.122737
## 30   2.4527419 5.244295 5.646618  9.080108  3.2333420  3.0919721 7.044357
## 31   4.1028976 4.119790 5.936370 10.595803  2.6877821  4.4063240 6.927170
## 32   7.0999411 2.540511 5.979623 10.632726  6.2003031  5.7813436 6.678469
## 33   4.0382178 3.087481 5.582480 10.207060  2.6687357  4.0136281 6.595814
## 34   1.0950887 4.127444 6.169522  9.411769  5.1663979  7.9177330 6.785759
## 35   3.8223662 2.149894 6.701129  9.409538  3.9719790  6.2757358 7.380526
## 36   3.1378895 2.870138 5.722446 10.929315  2.7232640  4.2356357 7.005392
## 37   6.5338898 5.677807 6.557735 10.029578  2.2153433  9.5078110 6.837431
## 38   3.7922840 3.932834 5.713263 10.782907  2.3546912  2.7028118 5.719979
## 39   5.0315736 3.796254 6.318109 10.885492  6.3007710  0.5226058 6.208221
## 40   2.4072233 4.591390 5.289634 10.362423  7.6079261  3.6799117 6.959729
## 41   1.0718230 3.617762 6.621695  9.937783  5.8312948  3.2999901 7.183847
## 42   7.4500453 3.781058 6.342555 10.646976  5.3781785  6.2799709 6.784973
## 43   4.3739475 4.995629 6.608301 10.519417  1.5488468  1.7012185 6.955442
## 44   2.7705016 3.619464 6.448483  9.401155  0.9235648  3.4294125 5.855747
## 45   5.1987666 3.604319 5.969354 10.183496  4.3439485  2.0764054 6.899815
## 46   0.5056607 3.728639 6.543934 10.146231  4.2982723  5.4588721 5.745114
## 47   3.6918297 3.179735 6.174015 10.394820 -0.6922869  7.3489975 7.592486
## 48   2.4125262 3.767504 6.084536 10.109898  2.2280750  5.7613466 6.300399
## 49   4.9517717 2.689129 5.610767 10.604638  4.4859755  8.1667819 7.210385
## 50   1.4433363 3.679859 5.828369 10.084913  5.4392827  4.3953088 6.948255
## 51   3.2922019 5.728371 5.064557  9.686506  5.2090782  5.9017494 7.635270
## 52   4.7358708 2.585251 6.289597 10.496551  4.3751051  4.3992141 7.344951
## 53   2.8757316 4.737301 5.342266  9.948463  2.8555521  4.3756564 7.217642
## 54  -0.7790707 6.620213 6.345507 10.377077  2.6463383  3.9108885 6.916002
## 55   2.1256490 6.604425 5.709788  9.715203  1.2688421  7.6216532 7.293479
## 56   5.5504163 2.266321 5.968033  9.506192  5.0006441  5.2243688 6.756365
## 57   6.9898889 5.416363 7.139060  9.705109  3.6976410  8.0391345 7.199806
## 58   3.3452483 4.794424 7.093319 10.494196  3.1329256  5.3671613 6.904591
## 59   3.2348495 2.520487 6.220152 10.956920  3.4473333  3.6381679 6.649720
## 60   3.7081105 4.231826 5.055829 10.412976  2.4165441  3.4810323 6.288511
## 61   3.5331551 4.560279 5.556053  9.124229  1.8970774  3.7328348 6.391570
## 62   2.3784974 4.053825 5.600284 10.313641  2.8078392  0.8777100 7.303093
## 63  -0.7012460 4.643862 5.326113  9.787793  4.2708519  4.9320270 6.749888
## 64   7.0204095 2.560718 6.512588  9.762383  0.5553455  5.4546652 6.392532
## 65   8.1306529 4.434461 5.515261 10.192271  6.5451535  8.0118167 8.026567
## 66   2.2421231 4.402771 6.424733 10.362632  4.5859031  6.9107978 6.842091
## 67   3.1822119 4.154148 5.650154 10.447903  3.4016310  8.2144065 6.918338
## 68   1.1128111 4.311553 5.404247  9.814164  2.6538469  6.0051224 7.277226
## 69   1.7113400 4.648106 6.669070  8.872383  4.5144127  1.9402307 7.640571
## 70  -0.5138898 3.061852 5.521219 11.271741  2.9279766  5.0129643 6.560853
## 71   3.2404397 4.325838 6.131512  9.819230 -0.0122669  3.6169456 7.179192
## 72   2.4271068 2.697606 6.223425 10.388318  5.1248182  4.0875670 7.603121
## 73   5.1330337 3.984249 7.031066 10.638539  5.1949882  3.7884651 7.246736
## 74   3.2737847 3.623815 6.012650  9.623271  2.1539516  6.0950772 7.033931
## 75   4.4105269 3.134703 7.029362 10.996654  1.6529709  6.0290451 6.370888
## 76   3.9960151 3.634207 5.812241 10.601498  4.9066844  6.0193631 6.919760
## 77   4.5698542 5.061609 6.872744 10.441915  2.3874040  3.2359438 8.569657
## 78   2.9949203 2.746337 6.428500  9.634930  3.2720609  6.0531270 7.201907
## 79   4.0654650 4.731447 6.954675 10.327015  7.7263384  4.1870400 7.289786
## 80   5.6893460 3.870328 5.890552  9.940544  0.9544271  4.7226335 7.665322
## 81   4.9981425 3.320379 6.435057 10.639742  5.2709726  6.1858009 7.089752
## 82   5.7331713 4.994742 5.940776 10.034991  4.5669194  5.5098914 6.634483
## 83   2.1177203 4.722806 6.146622  9.774463  4.9517626  0.2175523 6.345357
## 84   1.9273113 6.421047 6.059141 10.794088  6.9961463  1.7978157 7.521588
## 85   5.3728858 3.397231 5.953875  9.998151  4.9955226 -0.1890696 6.463650
## 86   5.1391790 3.553339 6.699114 10.050595  4.3759555  7.2662030 6.663894
## 87   6.1127530 3.780010 6.518092  9.619213  2.6270495  2.9411599 6.020980
## 88   2.9192465 4.176091 5.288674 10.109403  3.7481904  3.8649795 6.853488
## 89   5.0038390 3.722184 6.199447  9.722647  4.0791373  3.9342202 6.339606
## 90   6.1698170 1.831331 5.587429 10.162040  4.4699345  3.0409198 6.952798
## 91   1.8072524 4.620077 6.216474 10.422504  4.1447505  1.8712817 6.728235
## 92   4.9184692 5.386402 6.775404 10.968536  1.9494380  3.0951141 7.410294
## 93   3.0920845 4.195922 6.239113 11.056381  3.8129879  5.2781299 7.368999
## 94  -0.5231504 4.693785 6.045466  9.513811  5.0416034  0.8306729 7.624618
## 95   5.2974076 3.758573 6.109975 10.204994  1.8783333  6.5347370 6.826857
## 96   1.1269363 4.133199 6.764453 10.291244  8.8586809  5.4696517 7.797135
## 97   3.3206902 4.313532 5.526218 10.386784  0.3099567  1.3567546 7.787157
## 98   4.3464042 2.499278 5.287869  9.977347  4.7159865  2.5485987 7.331941
## 99   5.1129408 5.121423 6.043137  9.245882  3.8222546  3.5870003 7.253309
## 100  0.2254976 4.197032 6.060992  9.806270  3.2143102  6.8724152 7.687711
##        Stat42   Stat13     Stat23   Stat33     Stat43
## 1   10.336545 6.068546  5.0269857 7.986660  7.5576739
## 2    4.998518 6.147320  5.6381659 8.171527  8.9472195
## 3    6.807203 6.175528  2.9067926 7.883618 -0.9424472
## 4    6.113788 7.249082  2.9936758 8.206712 -2.8061866
## 5    7.573384 6.532716  2.4982661 8.037336  3.4507911
## 6    5.953640 6.575924  4.0855518 8.011279  7.7314540
## 7    9.087166 6.446964  5.2843778 8.017435 -8.9561886
## 8    3.669167 6.654569  8.4513157 7.867285  6.4041524
## 9   10.021363 6.168265  5.3797570 8.276058  7.1367764
## 10   8.365987 5.027384  5.0355834 8.015194 11.3876134
## 11   7.653890 5.957721  9.7990930 7.968077  7.0808501
## 12   2.436533 6.209657  1.2165108 8.234360  5.7103000
## 13   7.947240 5.810914  4.3650604 8.108251  6.7144153
## 14   9.552435 6.784976  6.9027680 8.154546  0.6385949
## 15   9.461573 7.051447 10.2233416 7.924402  4.1061646
## 16   4.748569 5.773123  4.1701126 8.147198  5.1420959
## 17  14.878611 6.337250  3.0119696 7.665885 10.4642151
## 18   3.876965 5.360642  4.4006547 8.332973  7.1614178
## 19   9.941097 6.206830  4.0040078 8.026839  8.8617299
## 20   3.197425 6.005018  7.4473179 7.999791  1.8685817
## 21  14.551806 5.921938  5.6628011 7.979186  9.0953591
## 22   7.737356 6.216419  3.9529853 7.934398  1.7715935
## 23  10.301362 5.927929  2.7284998 7.970613  5.9011492
## 24   2.728723 6.605372  3.1209770 7.873031  5.1977445
## 25   4.970394 5.969380  1.6286060 8.351342  4.2414108
## 26  13.461915 5.819015  5.2013318 8.168471 10.0832857
## 27  10.203940 6.227813  2.5579898 7.958094  1.0615670
## 28   6.125621 5.261544 -2.1124987 7.819190  7.5020260
## 29   3.363846 6.054289  5.7778892 7.798863  2.2889162
## 30   7.568388 6.471940 -2.8471945 8.302941  5.3598182
## 31  -1.696982 6.266248  5.3331581 8.025369  8.1327661
## 32  12.264612 6.681327  6.3703296 7.986007  5.9900641
## 33   5.293280 6.440405  4.5065251 7.967071  4.1596689
## 34  10.628082 6.809135  5.1893886 7.892873  0.6860887
## 35   8.436327 5.382936  7.4650486 7.893727  2.7984606
## 36  10.532227 6.673269  2.8863751 8.245954  0.2819719
## 37   9.001773 5.071493  8.9531741 7.836263  1.8367315
## 38   2.766487 5.329532  3.4354313 7.994678  2.5104082
## 39  10.100227 6.887714  6.9659465 8.030125 13.2704503
## 40   6.350169 6.215070  7.4318642 8.270931  8.2575636
## 41   8.055379 6.410353 -0.8540428 8.262351  3.4961875
## 42   7.556356 5.872231 -1.7716389 7.915002  6.5608201
## 43   3.379898 6.236620  4.2326473 8.279836  1.4495012
## 44   6.353236 5.954467  4.6143414 7.641337 -4.4311888
## 45   9.221377 5.531131  2.1959646 7.659578  4.9566847
## 46   4.836864 6.231181  4.4405120 8.014527  4.4680577
## 47  11.270891 6.089411 -1.4350042 7.715464 -2.5672057
## 48   6.394136 5.322213  7.6130005 7.981100  1.0846834
## 49   2.871957 5.433920  4.3596469 8.146408  3.4353919
## 50  12.225124 5.756639  2.2465858 8.029529  4.3477046
## 51   6.567566 6.614677  1.5972806 8.100195 14.8759669
## 52   5.536517 6.310460  7.6466293 8.049829  3.1455855
## 53   8.717057 6.057449  4.1428045 7.565132  2.1675898
## 54   8.739096 5.406211 -2.2591705 7.976489 15.4976716
## 55   6.644587 5.872810  6.1673794 8.176935  5.8417193
## 56   9.199404 6.228881  1.0237171 8.017096  3.6652420
## 57  10.151105 5.492222  8.4044835 7.797459  0.5784663
## 58  10.039131 5.886046  6.1434583 8.236156 -2.8310500
## 59  10.980076 4.971237  2.8354465 7.914248  0.1609319
## 60   8.065389 6.039071  0.1412425 8.069707  1.8484999
## 61   9.769183 5.230608  3.1959591 7.782791 -6.7374753
## 62   8.098733 6.018588  0.2692741 8.095711  7.3327904
## 63  10.866814 6.395883  7.7517045 8.006088  9.4227812
## 64   9.667080 6.076884  4.1368067 8.054455  0.8201452
## 65   5.999105 6.770792  3.7262485 7.928683 -5.2695251
## 66   3.136100 5.376685  4.2880541 8.120377 11.1892761
## 67   5.863468 5.315435  4.1477778 7.856610 11.0599955
## 68   7.378859 6.045268  6.8171861 7.913338 10.8563156
## 69  11.460747 5.644063  6.0747526 7.948528  4.1930525
## 70  10.198969 6.207422  2.5151917 8.120472  2.5920138
## 71   1.359429 6.569634  7.0543666 8.020974  2.2007439
## 72   6.517812 6.178256  3.6679198 8.101389  2.6890905
## 73   3.900912 6.197957  8.0812400 8.008080  5.6896744
## 74  10.411079 6.122291  3.8554070 7.950708  5.4592459
## 75   7.876395 5.666647  6.0080529 8.059343  9.3185860
## 76  11.308799 5.901834  7.4750831 7.902671 -1.0796263
## 77   7.397419 6.176035  4.4583352 7.801016 -0.9003010
## 78   2.570464 5.499047  6.5716165 8.215720 -0.3250232
## 79   7.121393 5.466873  8.2527545 8.125590 11.7035650
## 80   4.356751 6.505294  4.6755369 8.100143  7.3327166
## 81   5.878717 5.642162  8.4046977 8.084891  4.4609331
## 82   7.850257 5.865781  4.6974597 7.877609  2.8804432
## 83   8.791385 6.176833 10.2048326 7.411118  5.0089837
## 84   7.579144 6.218627 -0.1918026 7.735679  4.3202658
## 85   3.216016 6.250862  5.2907128 7.651581  2.2160133
## 86  11.199290 6.289555  3.4179275 7.986039 12.3625466
## 87   5.836957 6.514907  3.7918155 7.778151  4.6096018
## 88  11.350392 5.829591  5.1517129 8.001382  7.7961843
## 89   9.662012 4.954637  9.3366300 8.442733  9.3103534
## 90   7.918635 5.766525  6.6940027 7.707096  0.3881215
## 91   6.425097 5.527234  7.4784308 8.226355 -0.4597202
## 92   7.800852 5.956296  6.8085742 7.898118  2.9219184
## 93   4.581290 6.304404  7.0373825 8.144093  0.8446282
## 94   8.811616 5.779216 -0.8295865 7.816650  2.9653130
## 95   7.206190 6.192684  2.2957132 7.698248 -2.3224963
## 96   4.741411 5.095238  5.9624595 8.160768  6.8010164
## 97   8.084151 5.712706  5.7123091 8.305041  4.4986973
## 98   6.113576 5.808685  0.5835730 7.942669  1.8909146
## 99   8.110440 5.600824  7.7344438 8.107810  8.0310262
## 100  1.678394 6.423424  0.3160489 7.987559  4.9509087

Isso deve representar 4 estações para as quais a medida foi replicada em 3 dias sucessivos. Agora, para a criação da plotagem do boxplot, a função mais simples é \(boxplot()\) e pode ser simplesmente chamada adicionando o nome do conjunto de dados como único argumento:

boxplot(data)

Já é um bom começo, mas precisa de alguns ajustes. Em preto e branco, as plotagens do boxplot são uniformemente espaçadas, embora sejam de 3 réplicas diferentes, não há rótulos no eixo e os nomes das estações não são todos relatados. Então, agora precisamos começar a fazer alguns ajustes. Primeiro, serão desenhados os nomes das estações verticalmente, em vez de horizontalmente. Isso pode ser feito facilmente com o argumento \(las\). Então agora a chamada para a função boxplot:

boxplot(data, las = 2)

 


Lista de Exercícios 001/2017

Gráficos estatísticos são formas de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo.


EX. 01

Seja o conjunto de dados gerado com os comandos:

set.seed(1)
N = 100
a = c(rnorm(N, 10, 2) + rnorm(N, 5, 1), 1, 14, 22)
# Foi gerado um conjunto de tamanho
length(a)
## [1] 103
head(a)
## [1] 13.12673 15.40940 12.41782 18.34859 15.00443 15.12635

Calcule a média dos dados:

mean(a)
## [1] 15.09706

Calcule o desvio padrão:

sd(a)
## [1] 2.540348

Calcule os quartis dos dados:

q = summary(a)
q
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00   13.68   15.31   15.10   16.59   22.00

Verifique a presença de outliers pelo critério da distância interquartílica, onde:

Outlier є {x | x < \(Q_1\) - 1.5 (\(Q_3 - Q_1\)) V x > \(Q_3\) + 1.5 \((Q_3-Q_1\)}

diq = q[5] - q[2]
liminf = (q[2] - 1.5 * diq)
liminf
##  1st Qu. 
## 9.306361
limsup = (q[5] + 1.5 * diq)
limsup
##  3rd Qu. 
## 20.96677
out = sort(c(which(a < liminf), which(a > limsup)))
out
## [1] 101 103
sort(a[out])
## [1]  1 22

Calcule a amplitude dos dados

mmin = min(a)
mmax = max(a)
amp = mmax - mmin
amp
## [1] 21

Calcule o número de classes pela regra de Sturges \(k = 1 + 3.322 log_{10}(n)\)

n = length(a)
n
## [1] 103
k = ceiling(1 + 3.322 * log(n, 10))
k
## [1] 8

Calcule as classes para k = 10

k = 10
c = amp/(k - 1)
c
## [1] 2.333333
l1 = mmin - c/2
l = (0:(k)) * c + l1
l
##  [1] -0.1666667  2.1666667  4.5000000  6.8333333  9.1666667 11.5000000
##  [7] 13.8333333 16.1666667 18.5000000 20.8333333 23.1666667

Faça um histograma com k = 10

h = hist(a, plot = TRUE, breaks = l)

h
## $breaks
##  [1] -0.1666667  2.1666667  4.5000000  6.8333333  9.1666667 11.5000000
##  [7] 13.8333333 16.1666667 18.5000000 20.8333333 23.1666667
## 
## $counts
##  [1]  1  0  0  0  4 24 37 33  3  1
## 
## $density
##  [1] 0.004160888 0.000000000 0.000000000 0.000000000 0.016643551
##  [6] 0.099861304 0.153952843 0.137309293 0.012482663 0.004160888
## 
## $mids
##  [1]  1.000000  3.333333  5.666667  8.000000 10.333333 12.666667 15.000000
##  [8] 17.333333 19.666667 22.000000
## 
## $xname
## [1] "a"
## 
## $equidist
## [1] TRUE
## 
## attr(,"class")
## [1] "histogram"

Faça um gráfico da fdp dos dados.

fdp = h$counts/sum(h$counts)
plot(fdp, type = "b", lwd = 3)

Faça um gráfico da FDP:

\[ FDP= \int_0^\infty \mathrm{fdp(x)dx} \]

FDP = cumsum(fdp)
plot(FDP, type = "b", lwd = 3)

Faça um gráfico conjunto da fdp e da FDP dos dados.

FDP = cumsum(fdp)
plot(FDP, type = "b", lwd = 3, col = 1)
lines(fdp, type = "b", lwd = 3, col = 4)

A partir da tabela de 10 classes, calcule a média dos dados.

m = sum(h$mids * h$counts)/sum(h$counts)
m
## [1] 15.09061

A partir da tabela de 10 classes, calcule o desvio-padrão dos dados.

s = sqrt(sum((h$mids - m)^2 * h$counts)/(sum(h$counts) - 1))
s
## [1] 2.632623

 


Lista Preparatória 001/2018


 

01 - Sejam as Figuras 1, 2, 3 e 4 referentes a coleta de dados das variáveis a e b. Considerando as seguintes assertivas, comente os resultados I. O numero de observações de a é maior que o número de observações de b II. A mediana de a é menor que a mediana de b III. A variável b possui um outlier

 

02 - Considerando as seguintes assertivas, comente os resultados: I. Os pratos numerados em um cardápio de comida chinesa podem ser considerados em uma escala intervalar II. Ao perguntar a um conjunto de alunos se a prova foi muito fácil, fácil, difícil ou muito difícil e codificarmos as respostas para os valores 1, 2, 3 e 4, respectivamente, esses dados podem ser considerados como intervalares III. Os dados resultantes da coleta do numero de turistas que visitam Itaipu por mês ao longo de um ano podem ser considerados como de razão

 

03 - Considerando os dados da Figura 5 (gráfico de ramos e folhas), referentes a coleta de dados da variável x, assinale a alternativa verdadeira.

 
html image example

 

x=c(5,10,20,20,21,24,26,26,27,32,32,36,38,40,44,53,55,57,58,78)

mean(x)      #média
## [1] 35.1
length(x)    #número de observações
## [1] 20
max(x)       #maior valor de x
## [1] 78
sd(x)        #desvio padrão amostral de x
## [1] 18.1192
sd(x)*sqrt((length(x)-1)/length(x))   # desvio-padr˜ao populacional
## [1] 17.66041

De acordo com as alternativas, podemos concluir que a alternativa a é correta, onde afirma que o desvio-padrão populacional de x é 17.6604

 

06 - — Considerando os dados da abaixo, referentes a coleta de dados da variável x, assinale a alternativa verdadeira:

tab=cbind(
  c(10, 20, 30, 40),
  c(20, 30, 40, 50),
  c(28, 23, 29, 20)
)

colnames(tab) = c("LimInf", "LimSup", "N")

tab
##      LimInf LimSup  N
## [1,]     10     20 28
## [2,]     20     30 23
## [3,]     30     40 29
## [4,]     40     50 20
mids = (tab[,1] + tab[,2])/2
mids
## [1] 15 25 35 45
f = tab[,3]
f
## [1] 28 23 29 20
m = sum(tab*f)/sum(f)    #média
m
## [1] 83.74
sum(f)                               #total de observações
## [1] 100
tab[3,1]                             # limite inferior da terceira classe
## LimInf 
##     30
sqrt(sum((tab-m)^2*f)/(sum(f)-1))    #desvio-padrão amostral
## [1] 98.78795
quantile(c(tab[,1], tab[,2]), 0:1)   # valor minimo e maximo
##   0% 100% 
##   10   50

 


Lista Preparatória 001/2018


&nbsp

05 - — Considerando os dados da abaixo, referentes a coleta de dados da variável x, assinale a alternativa verdadeira:

tab = cbind(
  c(10, 20, 30, 40),
  c(20, 30, 40, 50),
  c(3, 53, 38, 6)
)

colnames(tab) = c("LimInf", "LimSup", "N")

tab
##      LimInf LimSup  N
## [1,]     10     20  3
## [2,]     20     30 53
## [3,]     30     40 38
## [4,]     40     50  6
mids = (tab[,1]+tab[,2])/2
mids
## [1] 15 25 35 45
f = tab[,3]
f
## [1]  3 53 38  6
m = sum(mids*f)/sum(f)      #media
m
## [1] 29.7
sum(f)          # total de observacoes
## [1] 100
tab[4,1]          # limite inferior da quarta classe
## LimInf 
##     40
sqrt(sum((mids-m)^2*f)/(sum(f)-1))       # desvio-padrao amostral
## [1] 6.583573
quantile(c(tab[,1], tab[,2]), 0:1)       # valor minimo e maximo
##   0% 100% 
##   10   50

 

07 - Considerando os dados da Figura 5 (gráfico de ramos e folhas), referentes a coleta de dados da variável x, assinale a alternativa verdadeira.

 
html image example

 

x = c(17, 20, 27, 27, 27, 29, 31, 31, 31, 35, 35, 37, 39, 40, 42, 49, 50, 51, 52, 65)

mean(x)
## [1] 36.75
length(x)
## [1] 20
max(x)
## [1] 65
sd(x)
## [1] 11.97311
sd(x)*sqrt((length(x)-1)/length(x))
## [1] 11.66994

CONCEITO - Outliers

Nosso objetivo aqui é levantar os outliers de uma determinada amostra usando o R Studio.


Exemplo 01

data(rivers)
head(rivers)
## [1] 735 320 325 392 524 450
length(rivers)
## [1] 141
#par(mfrow=c(1, 2))  # divide graph area in 2 columns
hist(rivers)

boxplot(rivers, horizontal = T )

summary(rivers)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   135.0   310.0   425.0   591.2   680.0  3710.0

 

Exemplo 02

De acordo com os dados abaixo calcule os outliers da amostra e comente.

data <- c(sample(x=1:20, size=40, replace=TRUE), 65, 80)
data
##  [1] 13  1 19  4 16 17  7  6 20 16  2 13  3 10  6  7 17  1  1  3 11 13 18
## [24]  5 16  8  2  4  6 17  9 13 14  9 11  8  3 19 19  1 65 80
summary(data)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    4.25    9.50   12.69   16.00   80.00
length(data)
## [1] 42
boxplot(data)

data1 <- data
length(data1)
## [1] 42
bench <- 17.75 + 1.5*IQR(data1)
bench
## [1] 35.375
data1[data1 > 29.75]
## [1] 65 80
data1[data1 > 29.75]
## [1] 65 80
data1 <- data1[data1 < bench]
summary(data1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0     4.0     9.0     9.7    16.0    20.0
data1
##  [1] 13  1 19  4 16 17  7  6 20 16  2 13  3 10  6  7 17  1  1  3 11 13 18
## [24]  5 16  8  2  4  6 17  9 13 14  9 11  8  3 19 19  1
length(data1)
## [1] 40
boxplot(data1)

 


Avaliação Presencial 001/2019


 

Fórmulas para dados agrupados

\[n=\sum f_i\] \[ẍ=\frac{1}{n}\sum(ẍ_if_i)\]

\[σ^2=\frac{1}{n} \sum((ẍ-ẍ)^2f_i)\]

\[sk=\frac{\frac{1}{n} \sum((ẍ-ẍ)^2f_i)}{σ^3}\]

\[sk=\frac{\frac{1}{n} \sum((ẍ-ẍ)^4f_i)}{σ^4}\]  

03 - Considerando os dados abaixo, referentes à coleta de dados da variável x assinale a alternativa correta:

tab=cbind(
  c(10, 20, 30, 40),
  c(20, 30, 40, 50),
  c(4, 98, 90, 8)
)

colnames(tab) = c("LimInf", "LimSup", "N")

tab
##      LimInf LimSup  N
## [1,]     10     20  4
## [2,]     20     30 98
## [3,]     30     40 90
## [4,]     40     50  8
mids=(tab[,1]+tab[,2])/2
mids
## [1] 15 25 35 45
f = tab[,3]
f
## [1]  4 98 90  8
m=sum(mids*f)/sum(f)   #média
m
## [1] 30.1
sum(f)    # total de observações
## [1] 200
tab[4,1]       # limite inferior da quarta classe
## LimInf 
##     40
sqrt(sum((mids-m)^2*f)/(sum(f)-1))     # desvio-padrão amostral
## [1] 6.097203
quantile(c(tab[,1], tab[,2]), 0:1)        # valor minimo e maximo
##   0% 100% 
##   10   50

A resposta desta questão é que o desvio-padrão amostral de x é 6.0972

 

04 - Considerando os dados abaixo, referentes à coleta de dados da variável x assinale a alternativa correta:

tc = cbind(
  c(20,30,40,50,60),
  c(30,40,50,60,70),
  c(13,28,30,6,3)
)

colnames(tc) = c("LimInf", "LimSup", "Freq")
tc
##      LimInf LimSup Freq
## [1,]     20     30   13
## [2,]     30     40   28
## [3,]     40     50   30
## [4,]     50     60    6
## [5,]     60     70    3
mids = (tab[,1]+tab[,2])/2
mids
## [1] 15 25 35 45
f = tc[,3]
f
## [1] 13 28 30  6  3
# media
m = sum(mids*f)/sum(f)
## Warning in mids * f: comprimento do objeto maior não é múltiplo do
## comprimento do objeto menor
m
## [1] 28.25
# total de observações
sum(f)
## [1] 80
# desvio-padrão amostral
sqrt(sum((mids-m)^2*f)/(sum(f)-1))
## Warning in (mids - m)^2 * f: comprimento do objeto maior não é múltiplo do
## comprimento do objeto menor
## [1] 8.826743
# desvio-padrão populacional
sqrt(sum((mids-m)^2*f)/sum(f))
## Warning in (mids - m)^2 * f: comprimento do objeto maior não é múltiplo do
## comprimento do objeto menor
## [1] 8.771402

A resposta para este exercício é que o desvio padrão populacional é 9.7436

 

06 - Sejam as Figuras 1, 2, 3 e 4 referentes à coleta de dados das variáveis a e b. Considerando as seguintes assertivas:

 
html image example

 

html image example

 

Calcule os mild outliers e extreme outliers para a e b considerando a distribuição abaixo:

 

Para a temos que:

\[ L_{inf}=Q_1-1,5 \Delta Q = 37.50 - 1.5(43-37.5)=29.25 \]

\[ L_{sup}=Q_1+1,5 \Delta Q = 43 + 1.5(43-37.5)=51.25 \]

Para b temos que:

\[ L_{inf}=Q_1-1,5 \Delta Q = 35 - 1.5(42-35)=21.25 \]

\[ L_{sup}=Q_1+1,5 \Delta Q = 42 + 1.5(42-35)=55.50 \]

 

Portanto a resposta correta é que os limites de mild outliers para a variável a são \(29.25\) e \(51.25\).