Link dữ liệu : https://docs.google.com/spreadsheets/d/145maNAw_eTFb3F0DHOTOvzySyviuqj6n/edit#gid=1973331805
Tập dữ liệu này đề cập đến việc mua quần áo qua các cửa hàng trực tuyến.
Tập dữ liệu bao gồm 4 biến với 119734 quan sát
Weight : Trọng lượng (đơn vị kg)
Age : Tuổi
Height : Chiều cao ( đơn vị cm )
Size : Kích cỡ
library(readxl)## Warning: package 'readxl' was built under R version 4.3.1
d <- read_xlsx("C:/Users/Dell/Downloads/dangthanhtruc (1).xlsx")
str(d)## tibble [119,734 × 4] (S3: tbl_df/tbl/data.frame)
## $ weight: num [1:119734] 62 59 61 65 62 50 53 51 54 53 ...
## $ age : num [1:119734] 28 36 34 27 45 27 65 33 26 32 ...
## $ height: num [1:119734] 173 168 165 175 173 ...
## $ size : chr [1:119734] "XL" "L" "M" "L" ...
head(d)## # A tibble: 6 × 4
## weight age height size
## <dbl> <dbl> <dbl> <chr>
## 1 62 28 173. XL
## 2 59 36 168. L
## 3 61 34 165. M
## 4 65 27 175. L
## 5 62 45 173. M
## 6 50 27 160. S
mean(d$weight)## [1] 61.75681
var(d$weight)## [1] 98.90031
sd(d$weight)## [1] 9.944863
summary(d)## weight age height size
## Min. : 22.00 Min. : 0.00 Min. :137.2 Length:119734
## 1st Qu.: 55.00 1st Qu.: 29.00 1st Qu.:160.0 Class :character
## Median : 61.00 Median : 32.00 Median :165.1 Mode :character
## Mean : 61.76 Mean : 34.03 Mean :165.8
## 3rd Qu.: 67.00 3rd Qu.: 37.00 3rd Qu.:170.2
## Max. :136.00 Max. :117.00 Max. :193.0
## NA's :257 NA's :330
sum(d$weight)## [1] 7394390
aggregate(d$weight, list(d$height), FUN = 'var')## Group.1 x
## 1 137.16 39.51111
## 2 139.70 104.52778
## 3 142.24 77.47436
## 4 144.78 57.70137
## 5 147.32 83.69271
## 6 149.86 89.93995
## 7 152.40 78.54429
## 8 154.94 68.17208
## 9 157.48 74.08241
## 10 160.02 80.78482
## 11 162.56 81.08847
## 12 165.10 83.58307
## 13 167.64 86.19522
## 14 170.18 88.93829
## 15 172.72 84.79605
## 16 175.26 93.89749
## 17 177.80 89.87544
## 18 180.34 94.82480
## 19 182.88 108.50468
## 20 185.42 128.93647
## 21 187.96 69.72866
## 22 190.50 78.56494
## 23 193.04 309.83929
aggregate(d$weight, list(d$height), FUN = 'sd')## Group.1 x
## 1 137.16 6.285786
## 2 139.70 10.223883
## 3 142.24 8.801952
## 4 144.78 7.596142
## 5 147.32 9.148372
## 6 149.86 9.483668
## 7 152.40 8.862522
## 8 154.94 8.256638
## 9 157.48 8.607114
## 10 160.02 8.988038
## 11 162.56 9.004914
## 12 165.10 9.142378
## 13 167.64 9.284138
## 14 170.18 9.430710
## 15 172.72 9.208477
## 16 175.26 9.690072
## 17 177.80 9.480266
## 18 180.34 9.737803
## 19 182.88 10.416558
## 20 185.42 11.355020
## 21 187.96 8.350369
## 22 190.50 8.863686
## 23 193.04 17.602252
aggregate(d$weight, list(d$height), FUN = 'sum')## Group.1 x
## 1 137.16 578
## 2 139.70 554
## 3 142.24 743
## 4 144.78 2297
## 5 147.32 6751
## 6 149.86 33842
## 7 152.40 135656
## 8 154.94 250156
## 9 157.48 604037
## 10 160.02 762163
## 11 162.56 1056125
## 12 165.10 930226
## 13 167.64 1005201
## 14 170.18 960728
## 15 172.72 648752
## 16 175.26 463922
## 17 177.80 296288
## 18 180.34 128511
## 19 182.88 61858
## 20 185.42 17091
## 21 187.96 6114
## 22 190.50 1699
## 23 193.04 735
aggregate(d$weight, list(d$height), FUN = 'summary')## Group.1 x.Min. x.1st Qu. x.Median x.Mean x.3rd Qu. x.Max.
## 1 137.16 48.00000 54.00000 56.00000 57.80000 62.50000 68.00000
## 2 139.70 53.00000 56.00000 56.00000 61.55556 62.00000 86.00000
## 3 142.24 40.00000 52.00000 61.00000 57.15385 63.00000 69.00000
## 4 144.78 42.00000 45.75000 52.00000 52.20455 56.00000 72.00000
## 5 147.32 38.00000 47.00000 51.00000 52.33333 54.00000 81.00000
## 6 149.86 40.00000 47.00000 51.00000 53.29449 56.00000 122.00000
## 7 152.40 22.00000 48.00000 53.00000 54.39294 58.00000 113.00000
## 8 154.94 39.00000 49.00000 54.00000 55.05194 58.00000 115.00000
## 9 157.48 36.00000 52.00000 55.00000 56.87731 61.00000 129.00000
## 10 160.02 39.00000 53.00000 56.00000 58.73636 63.00000 131.00000
## 11 162.56 43.00000 54.00000 58.00000 59.93219 63.00000 126.00000
## 12 165.10 40.00000 56.00000 61.00000 61.59213 65.00000 136.00000
## 13 167.64 22.00000 56.00000 61.00000 62.77798 68.00000 136.00000
## 14 170.18 45.00000 58.00000 62.00000 63.70453 68.00000 136.00000
## 15 172.72 26.00000 58.00000 63.00000 65.43137 70.00000 131.00000
## 16 175.26 31.00000 61.00000 65.00000 67.12806 72.00000 136.00000
## 17 177.80 49.00000 63.00000 68.00000 69.11313 74.00000 136.00000
## 18 180.34 49.00000 63.00000 68.00000 70.30142 74.00000 122.00000
## 19 182.88 35.00000 67.00000 72.00000 73.64048 79.00000 117.00000
## 20 185.42 57.00000 70.00000 74.00000 76.98649 81.00000 122.00000
## 21 187.96 61.00000 73.50000 78.00000 77.39241 81.00000 104.00000
## 22 190.50 63.00000 71.00000 79.00000 77.22727 81.00000 99.00000
## 23 193.04 70.00000 84.25000 95.00000 91.87500 95.00000 126.00000
table(cut(d$weight,4))##
## (21.9,50.5] (50.5,79] (79,108] (108,136]
## 9893 103730 5726 385
Dựa vào kết quả ta thấy
Những người có số kg từ 21,9 đến 50,5 chiếm 9893 người , từ 50,5 đến 79 kg chiếm 103730 người , từ 79 đến 108 kg có 5726 người , từ 108 đến 136 có 385 người .
table(cut(d$height,4))##
## (137,151] (151,165] (165,179] (179,193]
## 840 63359 52206 2999
Theo khảo sát cho thấy những người có chiều cao từ (137,151] cm có khoảng 840 người , từ (151,165] có 63359 người chiếm tỉ trong cao nhất , cho thấy đa số những người mua hàng onl đều có chiều cao trên 1m5 , từ 165 đến 179cm có khoảng 52206 người và từ 179 đến 193cm có 2999 người.
d$weight <- cut(d$weight, breaks = c(30,70,100,130),labels = c('nhẹ','vừa','nặng'))
table(d$weight)##
## nhẹ vừa nặng
## 101387 17652 678