1 Thư viện sử dụng

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.1

2 Giới thiệu về dữ liệu

Tập dữ liệu này ban đầu được zameen.com thu thập dưới dạng dữ iệu giá nhà ở Pakistan và đã được sử dụng một số kỹ thuật làm sạch dữ liệu để cung cấp tập dữ liệu đặc biệt cho Thành phố Islamabad

Mô tả dữ liệu: Bộ dữ liệu ta lấy được gồm có 153432 quan sát và 6 biến:

Property type: là các loại tài sản. Trong phần này, chúng ta có 6 loại khác nhau: House, FarmHouse, Upper Portion, Lower Portion, Flat, Room

Price: là giá của các loại tài sản

Baths: số phòng tắm

Purpose: mục đích của căn hộ

Bedrooms: số phòng ngủ

Area in Marla: khu vực ở Marla

3 Dữ liệu

setwd("D:/HN")
ED <- read.csv("EDA.csv", header=TRUE)
str(ED)
## 'data.frame':    153430 obs. of  7 variables:
##  $ X            : int  0 1 2 3 4 5 6 7 8 9 ...
##  $ property_type: chr  "Flat" "Flat" "House" "House" ...
##  $ price        : int  10000000 6900000 16500000 43500000 7000000 34500000 27000000 7800000 50000000 40000000 ...
##  $ baths        : int  2 3 6 4 3 8 8 2 7 5 ...
##  $ purpose      : chr  "For Sale" "For Sale" "For Sale" "For Sale" ...
##  $ bedrooms     : int  2 3 5 4 3 8 8 2 7 5 ...
##  $ Area_in_Marla: chr  "4" "5.6" "8" "40" ...

4 Thống kê mô tả biến phụ thuộc (biến Purpose)

4.1 Bảng tần số

table(ED$purpose)
## 
## For Rent For Sale 
##    43183   110247

4.2 Đồ thị

ED  |> ggplot(aes(x = purpose, y = after_stat(count))) + geom_bar(fill = 'pink') + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = - .5) + theme_classic() + labs(x = 'Mục đích mua nhà', y = 'Số người')