Bộ dữ liệu tổng hợp thương mại điện tử Tổng quan về tập dữ liệu: Bộ dữ liệu này chứa 100.000 hàng với thông tin chi tiết về người dùng, sản phẩm và giao dịch, cũng như mức độ tương tác của người dùng và các thuộc tính giao dịch. Bộ dữ liệu được thiết kế sao cho giống với dữ liệu thương mại điện tử thực tế, cung cấp thông tin chi tiết về nhân khẩu học, xu hướng mua sắm và mức độ tương tác của khách hàng. # 1. Những thông tin cơ bản liên quan đế bộ dữ liệu ## Ý nghĩa các biến ### Thông tin cơ bản -UserID : Mã định danh duy nhất cho mỗi người dùng. -UserName : Tên người dùng mô phỏng cho mỗi người dùng. -Age: Độ tuổi của người dùng (từ 18 đến 70). -Gender: Giới tính của khách hàng -Country: Quốc gia của khách hàng -SignUpDate: Ngày đăng kí tài khoản của khách hàng ### Thông tin sản phẩm -ProductID: Mã định danh sản phẩm -ProductName: Tên sản phẩmmà khách hàng mua -Category: Danh mục sản phẩm -Price: Gía của sản phẩm mà khách hàng mua ### Chi tiết giao dịch -PurchaseDate: Ngày mua sản phẩm -Quantity: Số lượng sản phẩm mà khách hàng mua (1-4) -TotalAmount: Tổng tiền mà khách hàng phải bỏ ra khi mua sản phẩm -PaymentMethod: Phương thức thanh toán ### Số liệu về mức độ tương tác của người dùng -HasDiscountApplied: Giao dịch đó có áp dụng bất kỳ hình thức giảm giá nào hay không. (TRUE/FALSE) -DiscountRate: Tỷ lệ chiết khấu -ReviewScore: Điểm đánh giá sản phẩm/giao dịch do khách để lại -ReviewText: Nội dung/nhãn đánh giá -LastLogin: Thời điểm đăng nhập gần nhất của người dùng -SessionDuration: Thời lượng phiên truy cập -DeviceType: Thiết bị truy cập -ReferralSource: Nguồn giới thiệu
library(readr)
dataecommerce <- read_csv(file.choose())
## Rows: 111043 Columns: 11
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): customer_state
## dbl (10): price, freight_value, payment_value, payment_installments, product...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
str(dataecommerce) #xem cấu trúc
## spc_tbl_ [111,043 × 11] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ price : num [1:111043] 58.9 239.9 199 13 199.9 ...
## $ freight_value : num [1:111043] 13.3 19.9 17.9 12.8 18.1 ...
## $ payment_value : num [1:111043] 72.2 259.8 216.9 25.8 218 ...
## $ payment_installments : num [1:111043] 2 3 5 2 3 1 1 10 3 1 ...
## $ product_weight_g : num [1:111043] 650 30000 3050 200 3750 ...
## $ product_length_cm : num [1:111043] 28 50 33 16 35 24 27 35 30 29 ...
## $ product_height_cm : num [1:111043] 9 30 13 10 40 8 5 75 12 3 ...
## $ product_width_cm : num [1:111043] 14 40 33 15 30 15 20 45 16 21 ...
## $ product_description_lenght: num [1:111043] 598 239 695 480 409 ...
## $ estimated_delivery_days : num [1:111043] 15 18 21 11 40 21 24 20 9 20 ...
## $ customer_state : chr [1:111043] "RJ" "SP" "MG" "SP" ...
## - attr(*, "spec")=
## .. cols(
## .. price = col_double(),
## .. freight_value = col_double(),
## .. payment_value = col_double(),
## .. payment_installments = col_double(),
## .. product_weight_g = col_double(),
## .. product_length_cm = col_double(),
## .. product_height_cm = col_double(),
## .. product_width_cm = col_double(),
## .. product_description_lenght = col_double(),
## .. estimated_delivery_days = col_double(),
## .. customer_state = col_character()
## .. )
## - attr(*, "problems")=<externalptr>
head(dataecommerce, 10) #xem 10 cái đầu
## # A tibble: 10 × 11
## price freight_value payment_value payment_installments product_weight_g
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 58.9 13.3 72.2 2 650
## 2 240. 19.9 260. 3 30000
## 3 199 17.9 217. 5 3050
## 4 13.0 12.8 25.8 2 200
## 5 200. 18.1 218. 3 3750
## 6 21.9 12.7 34.6 1 450
## 7 19.9 11.8 31.8 1 200
## 8 810 70.8 881. 10 13805
## 9 146. 11.6 158. 3 2000
## 10 54.0 11.4 65.4 1 850
## # ℹ 6 more variables: product_length_cm <dbl>, product_height_cm <dbl>,
## # product_width_cm <dbl>, product_description_lenght <dbl>,
## # estimated_delivery_days <dbl>, customer_state <chr>
tail(dataecommerce, 10) #xem cái đuôi
## # A tibble: 10 × 11
## price freight_value payment_value payment_installments product_weight_g
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 55 34.2 357. 1 350
## 2 55 34.2 357. 1 350
## 3 55 34.2 357. 1 350
## 4 55 34.2 357. 1 350
## 5 120. 20.0 140. 3 1050
## 6 300. 43.4 343. 1 10150
## 7 350 36.5 387. 1 8950
## 8 99.9 17.0 117. 3 967
## 9 56.0 8.72 64.7 3 100
## 10 43 12.8 55.8 1 600
## # ℹ 6 more variables: product_length_cm <dbl>, product_height_cm <dbl>,
## # product_width_cm <dbl>, product_description_lenght <dbl>,
## # estimated_delivery_days <dbl>, customer_state <chr>
summary(dataecommerce) #tóm tắt thống kê cho mỗi cột
## price freight_value payment_value payment_installments
## Min. : 0.85 Min. : 0.00 Min. : 9.59 Min. : 0.000
## 1st Qu.: 39.90 1st Qu.: 13.08 1st Qu.: 65.71 1st Qu.: 1.000
## Median : 74.99 Median : 16.31 Median : 114.37 Median : 2.000
## Mean : 120.76 Mean : 20.03 Mean : 180.59 Mean : 3.007
## 3rd Qu.: 134.90 3rd Qu.: 21.18 3rd Qu.: 195.91 3rd Qu.: 4.000
## Max. :6735.00 Max. :409.68 Max. :13664.08 Max. :24.000
## product_weight_g product_length_cm product_height_cm product_width_cm
## Min. : 0 Min. : 7.00 Min. : 2.00 Min. : 6.00
## 1st Qu.: 300 1st Qu.: 18.00 1st Qu.: 8.00 1st Qu.: 15.00
## Median : 700 Median : 25.00 Median : 13.00 Median : 20.00
## Mean : 2100 Mean : 30.21 Mean : 16.63 Mean : 23.04
## 3rd Qu.: 1800 3rd Qu.: 38.00 3rd Qu.: 20.00 3rd Qu.: 30.00
## Max. :40425 Max. :105.00 Max. :105.00 Max. :118.00
## product_description_lenght estimated_delivery_days customer_state
## Min. : 4.0 Min. : 2.00 Length:111043
## 1st Qu.: 348.0 1st Qu.: 18.00 Class :character
## Median : 603.0 Median : 23.00 Mode :character
## Mean : 787.9 Mean : 23.48
## 3rd Qu.: 987.0 3rd Qu.: 28.00
## Max. :3992.0 Max. :155.00
dim(dataecommerce)
## [1] 111043 11
names(dataecommerce) #trả về tên các cột biến
## [1] "price" "freight_value"
## [3] "payment_value" "payment_installments"
## [5] "product_weight_g" "product_length_cm"
## [7] "product_height_cm" "product_width_cm"
## [9] "product_description_lenght" "estimated_delivery_days"
## [11] "customer_state"
colSums(is.na(dataecommerce))
## price freight_value
## 0 0
## payment_value payment_installments
## 0 0
## product_weight_g product_length_cm
## 0 0
## product_height_cm product_width_cm
## 0 0
## product_description_lenght estimated_delivery_days
## 0 0
## customer_state
## 0
Vậy bộ dữ liệu cho thấy không xuất hiện quan sát bị thiếu cho thấy đây là bộ dữ liệu sạch