Link dữ liệu : https://docs.google.com/spreadsheets/d/145maNAw_eTFb3F0DHOTOvzySyviuqj6n/edit#gid=1973331805

1 Giới thiệu dữ liệu

Tập dữ liệu này đề cập đến việc mua quần áo qua các cửa hàng trực tuyến.

Tập dữ liệu bao gồm 4 biến với 119734 quan sát

  1. Weight : Trọng lượng (đơn vị kg)

  2. Age : Tuổi

  3. Height : Chiều cao ( đơn vị cm )

  4. Size : Kích cỡ

2 Lấy dữ liệu từ file excel

library(readxl)
## Warning: package 'readxl' was built under R version 4.3.1
d <- read_xlsx("C:/Users/Dell/Downloads/dangthanhtruc (1).xlsx")
str(d)
## tibble [119,734 × 4] (S3: tbl_df/tbl/data.frame)
##  $ weight: num [1:119734] 62 59 61 65 62 50 53 51 54 53 ...
##  $ age   : num [1:119734] 28 36 34 27 45 27 65 33 26 32 ...
##  $ height: num [1:119734] 173 168 165 175 173 ...
##  $ size  : chr [1:119734] "XL" "L" "M" "L" ...

3 Xử lý dữ liệu

3.1 Tính toán các số liệu

head(d)
## # A tibble: 6 × 4
##   weight   age height size 
##    <dbl> <dbl>  <dbl> <chr>
## 1     62    28   173. XL   
## 2     59    36   168. L    
## 3     61    34   165. M    
## 4     65    27   175. L    
## 5     62    45   173. M    
## 6     50    27   160. S

3.1.1 Tính giá trị trung bình của biến weight

mean(d$weight)
## [1] 61.75681

3.1.2 Tính phương sai dựa vào dữ liệu của biến Weight

var(d$weight)
## [1] 98.90031

3.1.3 Tính độ lệch chuẩn của biến Weight

sd(d$weight)
## [1] 9.944863

3.1.4 Tính tổng các giá trị trong cột’Weight’của tập dữ liệu “d”

summary(d)
##      weight            age             height          size          
##  Min.   : 22.00   Min.   :  0.00   Min.   :137.2   Length:119734     
##  1st Qu.: 55.00   1st Qu.: 29.00   1st Qu.:160.0   Class :character  
##  Median : 61.00   Median : 32.00   Median :165.1   Mode  :character  
##  Mean   : 61.76   Mean   : 34.03   Mean   :165.8                     
##  3rd Qu.: 67.00   3rd Qu.: 37.00   3rd Qu.:170.2                     
##  Max.   :136.00   Max.   :117.00   Max.   :193.0                     
##                   NA's   :257      NA's   :330
sum(d$weight)
## [1] 7394390

3.1.5 Tính phương sai của cột ‘Weight’ trong tập dữ liệu data

aggregate(d$weight, list(d$height), FUN = 'var')
##    Group.1         x
## 1   137.16  39.51111
## 2   139.70 104.52778
## 3   142.24  77.47436
## 4   144.78  57.70137
## 5   147.32  83.69271
## 6   149.86  89.93995
## 7   152.40  78.54429
## 8   154.94  68.17208
## 9   157.48  74.08241
## 10  160.02  80.78482
## 11  162.56  81.08847
## 12  165.10  83.58307
## 13  167.64  86.19522
## 14  170.18  88.93829
## 15  172.72  84.79605
## 16  175.26  93.89749
## 17  177.80  89.87544
## 18  180.34  94.82480
## 19  182.88 108.50468
## 20  185.42 128.93647
## 21  187.96  69.72866
## 22  190.50  78.56494
## 23  193.04 309.83929

3.1.6 Tính độ lệch chuẩn của cột ‘Weight’ trong tập dữ liệu data

aggregate(d$weight, list(d$height), FUN = 'sd')
##    Group.1         x
## 1   137.16  6.285786
## 2   139.70 10.223883
## 3   142.24  8.801952
## 4   144.78  7.596142
## 5   147.32  9.148372
## 6   149.86  9.483668
## 7   152.40  8.862522
## 8   154.94  8.256638
## 9   157.48  8.607114
## 10  160.02  8.988038
## 11  162.56  9.004914
## 12  165.10  9.142378
## 13  167.64  9.284138
## 14  170.18  9.430710
## 15  172.72  9.208477
## 16  175.26  9.690072
## 17  177.80  9.480266
## 18  180.34  9.737803
## 19  182.88 10.416558
## 20  185.42 11.355020
## 21  187.96  8.350369
## 22  190.50  8.863686
## 23  193.04 17.602252

3.1.7 Tính tổng của cột ‘Weight’ trong tập dữ liệu data

aggregate(d$weight, list(d$height), FUN = 'sum')
##    Group.1       x
## 1   137.16     578
## 2   139.70     554
## 3   142.24     743
## 4   144.78    2297
## 5   147.32    6751
## 6   149.86   33842
## 7   152.40  135656
## 8   154.94  250156
## 9   157.48  604037
## 10  160.02  762163
## 11  162.56 1056125
## 12  165.10  930226
## 13  167.64 1005201
## 14  170.18  960728
## 15  172.72  648752
## 16  175.26  463922
## 17  177.80  296288
## 18  180.34  128511
## 19  182.88   61858
## 20  185.42   17091
## 21  187.96    6114
## 22  190.50    1699
## 23  193.04     735

3.1.8 Tính toán thống kê tóm tắt của cột ‘Weight’ trong tập dữ liệu data

aggregate(d$weight, list(d$height), FUN = 'summary')
##    Group.1    x.Min. x.1st Qu.  x.Median    x.Mean x.3rd Qu.    x.Max.
## 1   137.16  48.00000  54.00000  56.00000  57.80000  62.50000  68.00000
## 2   139.70  53.00000  56.00000  56.00000  61.55556  62.00000  86.00000
## 3   142.24  40.00000  52.00000  61.00000  57.15385  63.00000  69.00000
## 4   144.78  42.00000  45.75000  52.00000  52.20455  56.00000  72.00000
## 5   147.32  38.00000  47.00000  51.00000  52.33333  54.00000  81.00000
## 6   149.86  40.00000  47.00000  51.00000  53.29449  56.00000 122.00000
## 7   152.40  22.00000  48.00000  53.00000  54.39294  58.00000 113.00000
## 8   154.94  39.00000  49.00000  54.00000  55.05194  58.00000 115.00000
## 9   157.48  36.00000  52.00000  55.00000  56.87731  61.00000 129.00000
## 10  160.02  39.00000  53.00000  56.00000  58.73636  63.00000 131.00000
## 11  162.56  43.00000  54.00000  58.00000  59.93219  63.00000 126.00000
## 12  165.10  40.00000  56.00000  61.00000  61.59213  65.00000 136.00000
## 13  167.64  22.00000  56.00000  61.00000  62.77798  68.00000 136.00000
## 14  170.18  45.00000  58.00000  62.00000  63.70453  68.00000 136.00000
## 15  172.72  26.00000  58.00000  63.00000  65.43137  70.00000 131.00000
## 16  175.26  31.00000  61.00000  65.00000  67.12806  72.00000 136.00000
## 17  177.80  49.00000  63.00000  68.00000  69.11313  74.00000 136.00000
## 18  180.34  49.00000  63.00000  68.00000  70.30142  74.00000 122.00000
## 19  182.88  35.00000  67.00000  72.00000  73.64048  79.00000 117.00000
## 20  185.42  57.00000  70.00000  74.00000  76.98649  81.00000 122.00000
## 21  187.96  61.00000  73.50000  78.00000  77.39241  81.00000 104.00000
## 22  190.50  63.00000  71.00000  79.00000  77.22727  81.00000  99.00000
## 23  193.04  70.00000  84.25000  95.00000  91.87500  95.00000 126.00000

3.2 Tạo bảng tần số

3.2.1 Tạo bảng tần số cho biến ‘Weight’

table(cut(d$weight,4))
## 
## (21.9,50.5]   (50.5,79]    (79,108]   (108,136] 
##        9893      103730        5726         385

Dựa vào kết quả ta thấy

Những người có số kg từ 21,9 đến 50,5 chiếm 9893 người , từ 50,5 đến 79 kg chiếm 103730 người , từ 79 đến 108 kg có 5726 người , từ 108 đến 136 có 385 người .

3.2.2 Tạo bảng tần số cho biến ‘Height’

table(cut(d$height,4))
## 
## (137,151] (151,165] (165,179] (179,193] 
##       840     63359     52206      2999

Theo khảo sát cho thấy những người có chiều cao từ (137,151] cm có khoảng 840 người , từ (151,165] có 63359 người chiếm tỉ trong cao nhất , cho thấy đa số những người mua hàng onl đều có chiều cao trên 1m5 , từ 165 đến 179cm có khoảng 52206 người và từ 179 đến 193cm có 2999 người.

3.2.3 Tạo bảng tần số không đều cho biến ‘Weight’

d$weight <- cut(d$weight, breaks = c(30,70,100,130),labels = c('nhẹ','vừa','nặng'))
table(d$weight)
## 
##    nhẹ    vừa   nặng 
## 101387  17652    678