A atividade consiste em fazer uma publicação no RPUBS com o estudo da estrutura das variáveis [str(data.frame)], de um histograma e uma análise descritiva [média, mediana, etc] em uma variável quantitativa da base de dados chamada “house-selling-price.csv”.
library(readr)
house_selling_price <- read_csv("C:/Users/carol/OneDrive/Documentos/Estatistica1/Base_de_dados-master/house-selling-price.csv")
head(house_selling_price)
## # A tibble: 6 x 7
## case Taxes Beds Baths New Price Size
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 3104 4 2 0 279900 2048
## 2 2 1173 2 1 0 146500 912
## 3 3 3076 4 2 0 237700 1654
## 4 4 1608 3 2 0 200000 2068
## 5 5 1454 3 3 0 159900 1477
## 6 6 2997 3 2 1 499900 3153
str(house_selling_price)
## spec_tbl_df [100 x 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ case : num [1:100] 1 2 3 4 5 6 7 8 9 10 ...
## $ Taxes: num [1:100] 3104 1173 3076 1608 1454 ...
## $ Beds : num [1:100] 4 2 4 3 3 3 3 3 5 3 ...
## $ Baths: num [1:100] 2 1 2 2 3 2 2 2 4 2 ...
## $ New : num [1:100] 0 0 0 0 0 1 0 1 0 0 ...
## $ Price: num [1:100] 279900 146500 237700 200000 159900 ...
## $ Size : num [1:100] 2048 912 1654 2068 1477 ...
## - attr(*, "spec")=
## .. cols(
## .. case = col_double(),
## .. Taxes = col_double(),
## .. Beds = col_double(),
## .. Baths = col_double(),
## .. New = col_double(),
## .. Price = col_double(),
## .. Size = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
O banco de dados possui informações sobre a venda de 100 casas, apresentando 7 variáveis.
Foi verificado que a variável nova estava como numérica, sendo esta categórica corrigindo:
house_selling_price$New <- ifelse (house_selling_price$New==0, "nova","velha")
str(house_selling_price)
## spec_tbl_df [100 x 7] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ case : num [1:100] 1 2 3 4 5 6 7 8 9 10 ...
## $ Taxes: num [1:100] 3104 1173 3076 1608 1454 ...
## $ Beds : num [1:100] 4 2 4 3 3 3 3 3 5 3 ...
## $ Baths: num [1:100] 2 1 2 2 3 2 2 2 4 2 ...
## $ New : chr [1:100] "nova" "nova" "nova" "nova" ...
## $ Price: num [1:100] 279900 146500 237700 200000 159900 ...
## $ Size : num [1:100] 2048 912 1654 2068 1477 ...
## - attr(*, "spec")=
## .. cols(
## .. case = col_double(),
## .. Taxes = col_double(),
## .. Beds = col_double(),
## .. Baths = col_double(),
## .. New = col_double(),
## .. Price = col_double(),
## .. Size = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
tabela <- table(house_selling_price$Baths)
tabela
##
## 1 2 3 4
## 17 71 11 1
tabela_prop <- prop.table(tabela)*100
tabela_prop
##
## 1 2 3 4
## 17 71 11 1
barplot(tabela,main="Grafico Quantidade de Banheiros")
col=c ("pink","blue", "red", "yellow")
tabela_bath <-table(house_selling_price$Baths)
tabela_bath
##
## 1 2 3 4
## 17 71 11 1
tabela_bath <- data.frame(tabela_bath)
names(tabela_bath)[1] <- "Banheiros"
names(tabela_bath)[2] <- "Proporção"
library(flextable)
flextable(tabela_bath)
Banheiros | Proporção |
1 | 17 |
2 | 71 |
3 | 11 |
4 | 1 |
Media_baths=mean(house_selling_price$Baths)
Media_baths
## [1] 1.96
Mediana_baths=median(house_selling_price$Baths)
Mediana_baths
## [1] 2
Conseguimos concluir então, que trata-se de dados de vendas de casas com 100 casas no total. Analisei aqui a quantidade de banheiros.
Conclui-se que dessas casas, 17 tem 1 banheiro, 71 tem 2 banheiros, 11 tem 3 banheiros e apenas 1 tem 4 banheiros.
Conseguimos então ter uma média de quantidade de banheiros de 1.96, sendo a mediana 2.