Nessa atividade, devemos fazer a análise de uma variável quantitativa por meio da sua média e desvio padrão e de um histograma. Para isso, utilizarei a variável Valor, da base de dados AptosCriciuma.
library(readxl)
AptosCriciuma <- read_excel("C:\\Users\\Lenovo\\Base_de_dados-master\\AptosCriciuma.xls")
mean(AptosCriciuma$Valor)
## [1] 107.5063
sd(AptosCriciuma$Valor)
## [1] 90.73032
Por meio do cálculo da média, podemos expressar a concentração de valores em um conjunto de dados, ou seja, é considerada uma medida de centralidade. O desvio-padrão, por sua vez, é uma medida de dispersão, que indica quanto os dados analisados variam da média. Por isso, quanto mais próximo de zero for o desvio-padrão, mais uniforme será o conjunto de dados.
Demonstraremos a disparidade de dados por meio de um histograma.
hist(AptosCriciuma$Valor,col="#150e8f",
main="Valor de apartamentos em Criciúma",
xlab = "Valor (em milhares)",ylab = "Frequência")
O histograma acima é assimétrico, com a presença de 3 outliers. Ademais, por meio de observação da tabela, podemos concluir que os 2 outliers presentes na casa de 300 mil são os valores 360 e 390 mil, enquanto o outlier na casa de 400 mil representa o valor 475.716. Estes valores são considerados outliers porque variam da frequência de dados, que se concentra na extrema esquerda do histograma, classificando-o como assimétrico, à direita.
Segundo o histograma, a maior frequência de valores se concentra no intervalo de 50 a 100 mil, isto é, entre os 50 apartamentos analisados, 22 se encaixam nesse intervalo, o que constitui 44% do total de apartamentos, enquanto 12 se encaixam no intervalo de zero a 50 mil (24%), 7 no intervalo de 100 a 150 mil (14%), 5 no intervalo de 150 a 200 mil (10%), 1 no intervalo de 200 a 250 mil (2%) e, finalmente, entre os outliers, que diferem do intervalo de zero a 250 mil, em que a frequência de valores se concentra, 2 se encaixam nos intervalos de 350 a 400 mil, com os valores 360 e 390 mil e 1 no intervalo de 450 a 500 mil, com o valor 475.716.