Introdução

No encontro de hoje, vamos estudar a média, a mediana, a aplitude e o desvio padrão.

Média e Mediana são estatística de posição, com objetivo de encontrar o meio de um conjunto de dados.

Amplitude, variância e desvio padrão são medidas de dispersão, com o objetivo de encontrar a variabilidade, disparidade ou/e disperção dos dados.

Exemplo de conjunto de dados

dados1=c(1,2,3,4,5)
mean(dados1)
## [1] 3
median(dados1)
## [1] 3
dados2=c(1,2,3,4,50000)
mean(dados2)
## [1] 10002
median(dados2)
## [1] 3

Gráficos

Histograma

O Histograma é para variáveis quantitativas. Ele pode ser simétrico ou assimétrico. O hsitograma pode mostrar a presença de outliers. Ele também pode ser unimodal ou bimodal.

load("~/Base_de_dados-master/CARROS.RData")
hist(CARROS$Kmporlitro,col="darkgreen", main="Meu primeiro Histograma",
xlab = "Km/L", ylab = "Frequência" )

O histograma acima é assimétrico e com uma unica moda.

Outros exemplos de Histograma:

hist(CARROS$Preco,col="purple", main="Histograma do preço do carro", ylab = "Frequência", xlab = "Preço dos carros" )

hist(CARROS$Peso,col="yellow", main="Grafico do Peso dos Carros - em toneladas",
     ylab = "Frequência", xlab = "Peso dos Carros")

hist(CARROS$RPM, col="brown", main="Histograma do RPM", ylab = "Frequência", xlab = "RPM")

Dotchart

stripchart(CARROS$NumdeValvulas, method = "stack", at= .15, 
 pch =19, xlab = "Número de valvulas",col="blue", main= "Dotchart - Gráfico de Valvulas dos carros" )

Conclusão da aula

  1. 50.000 é um outlier.
  2. Quando houver outliers, a mediana vai ser melhor do que a média. A mediana vai ser robusta na presença de outliers e a media é sensivel a presença deles.
  3. O desvio padrao é sempre melhor que a amplitude para mensurar a dispersão. 4.Histograma é para variáveis quantitativas continuas. 5.Gráfico de Barras é para variáveis qualitativas.