Gráfico para variáveis quantitativas

A atividade consiste em fazer uma publicação no RPUBS com o estudo da estrutura das variáveis [str(data.frame)], de um histograma e uma análise descritiva [média, mediana, etc] em uma variável quantitativa da base de dados chamada “house-selling-price.csv”.

Importação do banco de dados

library(readr)
casas <- read_csv("C:/Users/renato/Desktop/Mestrado/Disciplinas/2021.2/estatistica/Base_de_dados_master/house-selling-price.csv")

Rows: 100 Columns: 7

-- Column specification --------------------------------------------------------
Delimiter: ","
dbl (7): case, Taxes, Beds, Baths, New, Price, Size


i Use `spec()` to retrieve the full column specification for this data.
i Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(casas)
head(casas)

# A tibble: 6 x 7
   case Taxes  Beds Baths   New  Price  Size
  <dbl> <dbl> <dbl> <dbl> <dbl>  <dbl> <dbl>
1     1  3104     4     2     0 279900  2048
2     2  1173     2     1     0 146500   912
3     3  3076     4     2     0 237700  1654
4     4  1608     3     2     0 200000  2068
5     5  1454     3     3     0 159900  1477
6     6  2997     3     2     1 499900  3153

O banco de dados é composto por 100 linhas e 07 colunas, com informações sobre casas que estão a venda.

Estrutura do banco de dados

str(casas)

spec_tbl_df [100 x 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ case : num [1:100] 1 2 3 4 5 6 7 8 9 10 ...
 $ Taxes: num [1:100] 3104 1173 3076 1608 1454 ...
 $ Beds : num [1:100] 4 2 4 3 3 3 3 3 5 3 ...
 $ Baths: num [1:100] 2 1 2 2 3 2 2 2 4 2 ...
 $ New  : num [1:100] 0 0 0 0 0 1 0 1 0 0 ...
 $ Price: num [1:100] 279900 146500 237700 200000 159900 ...
 $ Size : num [1:100] 2048 912 1654 2068 1477 ...
 - attr(*, "spec")=
  .. cols(
  ..   case = col_double(),
  ..   Taxes = col_double(),
  ..   Beds = col_double(),
  ..   Baths = col_double(),
  ..   New = col_double(),
  ..   Price = col_double(),
  ..   Size = col_double()
  .. )
 - attr(*, "problems")=<externalptr>

O banco de dados possui informações sobre a venda de 100 casas, apresentando 7 variáveis. A primeira variável (“case”) é a ordenação das casas e as outras variáveis são características de cada casa, sendo elas o imposto, o número de quartos, o número de banheiros, se é nova ou não, o preço e o tamanho.

Correção da variável “Nova”

Todas as variáveis estão classificadas como numéricas, porém a variável “nova”, que informa se a casa é nova ou não, deve ser corrigida para categórica.

#---------------------------------------
# Correção da variável
#---------------------------------------

casas$New <- ifelse(casas$New==0,"nova","velha")
str(casas)

spec_tbl_df [100 x 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ case : num [1:100] 1 2 3 4 5 6 7 8 9 10 ...
 $ Taxes: num [1:100] 3104 1173 3076 1608 1454 ...
 $ Beds : num [1:100] 4 2 4 3 3 3 3 3 5 3 ...
 $ Baths: num [1:100] 2 1 2 2 3 2 2 2 4 2 ...
 $ New  : chr [1:100] "nova" "nova" "nova" "nova" ...
 $ Price: num [1:100] 279900 146500 237700 200000 159900 ...
 $ Size : num [1:100] 2048 912 1654 2068 1477 ...
 - attr(*, "spec")=
  .. cols(
  ..   case = col_double(),
  ..   Taxes = col_double(),
  ..   Beds = col_double(),
  ..   Baths = col_double(),
  ..   New = col_double(),
  ..   Price = col_double(),
  ..   Size = col_double()
  .. )
 - attr(*, "problems")=<externalptr>

Análise da variável “Quartos”

Tabela de proporção

tabela_quartos <- table(casas$Beds)
tabela_quartos


 2  3  4  5 
19 64 15  2

tabela_prop_qto <- prop.table(tabela_quartos)*100
tabela_prop_qto


 2  3  4  5 
19 64 15  2

tabela_prop_qto <- data.frame(tabela_prop_qto)
names(tabela_prop_qto)[1] <- "Quartos"
names(tabela_prop_qto)[2] <- "Proporção"
library(flextable)
flextable(tabela_prop_qto)

Quartos	Proporção
2	19
3	64
4	15
5	2

A tabela de proporção demonstra que a maioria das casas a venda possuem 3 quartos, representando 64% do total.

Histograma da variável “Quartos”

Histograma padrão

hist(casas$Beds)

Histograma customizado

quebras <- seq(0,5,1)
quebras

[1] 0 1 2 3 4 5

hist(casas$Beds, main = "Histograma do número de quartos",
     xlab = "Quartos", ylab = "Frequência",
     xlim = c(0,6), ylim = c(0,70),
     col = "#1ee8e5", breaks = quebras)

O histograma customizado permite uma melhor visualização dos dados. Nota-se que se trata de um histograma levemente assimétrico a esquerda, com intervalo entre 1 e 5, sem a presença de outliers.

Cálculo da média

mean(casas$Beds)

[1] 3

Cálculo da mediana

median(casas$Beds)

[1] 3

Conclusão

O banco de dados objeto do presente estudo contém informações sobre casas que estão a venda. Ele é composto por 100 unidades e informações de sete variáveis sobre cada uma delas. A variável estudada foi a “quartos”, que apresenta o número de quartos existente em cada casa.

A partir do histograma e da tabela de proporção da variável, podemos concluir que o intervalo de valores está situado entre 1 e 5, onde existem 19 casas com 2 quartos, 64 casas com 3 quartos, 15 casas com 4 quartos e 2 casas com 5 quartos. Desse modo, a maioria das casas possuem 3 quartos, representando 64% do total. Além disso, nota-se que o histograma possui características de assimetria leve à esquerda e não apresenta a presença de outliers.

Os cálculos da média e mediana apresentaram o mesmo valor, que pode ser característico de histogramas levemente assimétricos sem a presença de outliers.

Atividade 03

Renato Paraquett

20/11/2021