Hoje vamos estudar média, mediana, amplitude e desvio padrão.
São medidas de posição: média e mediana. Nesse sentido, auxiliam na observação do meio do conjunto de dados.
São medidas de dispersão: amplitude, variância e desvio padrão. Dessa forma, são mais adequadas para encontrar a variabilidade, disparidade ou/e disperção dos dados.
dados1 = c(1,2,3,4,5)
mean(dados1)
## [1] 3
median(dados1)
## [1] 3
dados2 = c(1,2,3,4,50000)
mean(dados2)
## [1] 10002
O histograma é para variáveis quantitativas contínuas. O Histograma pode ser simétrico ou assimétrico. O histograma pode mostrar a presença de outlines O histograma pode ser unimodal ou bi-modal
load("C:/Users/17717613778/Desktop/Base_de_dados-master/CARROS.RData")
#Histograma
hist(CARROS$Kmporlitro,col="#004b80", main="Meu Primeiro Histograma", xlab="km/l", ylab="Frequência")
O histograma acima é assimético e com uma única moda
outros tipos de histograma:
hist(CARROS$Preco, col= "#00bef3", main= "Preços", xlab="Preço dos carros", ylab="Frequência")
#assimétrico e bomidal
hist(CARROS$Peso, col= "green", main= "Preços", xlab="Peso dos carros (em toneladas)", ylab="Frequência")
#assimétrico e com 3 outliers
hist(CARROS$RPM, col= "dark green", main= "Tabela RPM", xlab="RPM", ylab="Frequência")
stripchart(CARROS$NumdeValvulas,
method= "stack",
at = .15, pch = 19,
main = "Gáfico 5 - dotchaart do número de válvulas", col="#00bef3",
xlab = "Número de válvulas")
1.O número OUTLIER da base de dados é o 50000. 2.Na presença de outliers, a mediana é melhor que a média. Para todos os outros 3.Casos, a média é mais utilizada que a mediana. 4.O desvio padrão é sempre melhor que a amplitude para mensurar a dispersão.