A atividade consiste em fazer uma publicação no RPUBS com o estudo da estrutura das variáveis [str(data.frame)], de um histograma e uma análise descritiva [média, mediana, etc] em uma variável quantitativa da base de dados chamada “house-selling-price.csv”.
library(readr)
casas <- read_csv("C:/Users/renato/Desktop/Mestrado/Disciplinas/2021.2/estatistica/Base_de_dados_master/house-selling-price.csv")
Rows: 100 Columns: 7
-- Column specification --------------------------------------------------------
Delimiter: ","
dbl (7): case, Taxes, Beds, Baths, New, Price, Size
i Use `spec()` to retrieve the full column specification for this data.
i Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(casas)
head(casas)
# A tibble: 6 x 7
case Taxes Beds Baths New Price Size
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 3104 4 2 0 279900 2048
2 2 1173 2 1 0 146500 912
3 3 3076 4 2 0 237700 1654
4 4 1608 3 2 0 200000 2068
5 5 1454 3 3 0 159900 1477
6 6 2997 3 2 1 499900 3153
O banco de dados é composto por 100 linhas e 07 colunas, com informações sobre casas que estão a venda.
str(casas)
spec_tbl_df [100 x 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
$ case : num [1:100] 1 2 3 4 5 6 7 8 9 10 ...
$ Taxes: num [1:100] 3104 1173 3076 1608 1454 ...
$ Beds : num [1:100] 4 2 4 3 3 3 3 3 5 3 ...
$ Baths: num [1:100] 2 1 2 2 3 2 2 2 4 2 ...
$ New : num [1:100] 0 0 0 0 0 1 0 1 0 0 ...
$ Price: num [1:100] 279900 146500 237700 200000 159900 ...
$ Size : num [1:100] 2048 912 1654 2068 1477 ...
- attr(*, "spec")=
.. cols(
.. case = col_double(),
.. Taxes = col_double(),
.. Beds = col_double(),
.. Baths = col_double(),
.. New = col_double(),
.. Price = col_double(),
.. Size = col_double()
.. )
- attr(*, "problems")=<externalptr>
O banco de dados possui informações sobre a venda de 100 casas, apresentando 7 variáveis. A primeira variável (“case”) é a ordenação das casas e as outras variáveis são características de cada casa, sendo elas o imposto, o número de quartos, o número de banheiros, se é nova ou não, o preço e o tamanho.
Todas as variáveis estão classificadas como numéricas, porém a variável “nova”, que informa se a casa é nova ou não, deve ser corrigida para categórica.
#---------------------------------------
# Correção da variável
#---------------------------------------
casas$New <- ifelse(casas$New==0,"nova","velha")
str(casas)
spec_tbl_df [100 x 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
$ case : num [1:100] 1 2 3 4 5 6 7 8 9 10 ...
$ Taxes: num [1:100] 3104 1173 3076 1608 1454 ...
$ Beds : num [1:100] 4 2 4 3 3 3 3 3 5 3 ...
$ Baths: num [1:100] 2 1 2 2 3 2 2 2 4 2 ...
$ New : chr [1:100] "nova" "nova" "nova" "nova" ...
$ Price: num [1:100] 279900 146500 237700 200000 159900 ...
$ Size : num [1:100] 2048 912 1654 2068 1477 ...
- attr(*, "spec")=
.. cols(
.. case = col_double(),
.. Taxes = col_double(),
.. Beds = col_double(),
.. Baths = col_double(),
.. New = col_double(),
.. Price = col_double(),
.. Size = col_double()
.. )
- attr(*, "problems")=<externalptr>
tabela_quartos <- table(casas$Beds)
tabela_quartos
2 3 4 5
19 64 15 2
tabela_prop_qto <- prop.table(tabela_quartos)*100
tabela_prop_qto
2 3 4 5
19 64 15 2
tabela_prop_qto <- data.frame(tabela_prop_qto)
names(tabela_prop_qto)[1] <- "Quartos"
names(tabela_prop_qto)[2] <- "Proporção"
library(flextable)
flextable(tabela_prop_qto)
Quartos | Proporção |
2 | 19 |
3 | 64 |
4 | 15 |
5 | 2 |
A tabela de proporção demonstra que a maioria das casas a venda possuem 3 quartos, representando 64% do total.
Histograma padrão
hist(casas$Beds)
Histograma customizado
quebras <- seq(0,5,1)
quebras
[1] 0 1 2 3 4 5
hist(casas$Beds, main = "Histograma do número de quartos",
xlab = "Quartos", ylab = "Frequência",
xlim = c(0,6), ylim = c(0,70),
col = "#1ee8e5", breaks = quebras)
O histograma customizado permite uma melhor visualização dos dados. Nota-se que se trata de um histograma levemente assimétrico a esquerda, com intervalo entre 1 e 5, sem a presença de outliers.
mean(casas$Beds)
[1] 3
median(casas$Beds)
[1] 3
O banco de dados objeto do presente estudo contém informações sobre casas que estão a venda. Ele é composto por 100 unidades e informações de sete variáveis sobre cada uma delas. A variável estudada foi a “quartos”, que apresenta o número de quartos existente em cada casa.
A partir do histograma e da tabela de proporção da variável, podemos concluir que o intervalo de valores está situado entre 1 e 5, onde existem 19 casas com 2 quartos, 64 casas com 3 quartos, 15 casas com 4 quartos e 2 casas com 5 quartos. Desse modo, a maioria das casas possuem 3 quartos, representando 64% do total. Além disso, nota-se que o histograma possui características de assimetria leve à esquerda e não apresenta a presença de outliers.
Os cálculos da média e mediana apresentaram o mesmo valor, que pode ser característico de histogramas levemente assimétricos sem a presença de outliers.