1 PHẦN 1: TÌM HIểU VÀ CHUẨN BỊ DỮ LIỆU

1.1 Đọc và làm quen với dữ liệu

# Đọc file
library("csv")
## Warning: package 'csv' was built under R version 4.3.3
data <- read.csv("D:/Downloads/sales_data.csv", header = T)

# Hiển thị cấu trúc dữ liệu
str(data)
## 'data.frame':    76000 obs. of  16 variables:
##  $ Date              : chr  "2022-01-01" "2022-01-01" "2022-01-01" "2022-01-01" ...
##  $ Store.ID          : chr  "S001" "S001" "S001" "S001" ...
##  $ Product.ID        : chr  "P0001" "P0002" "P0003" "P0004" ...
##  $ Category          : chr  "Electronics" "Clothing" "Clothing" "Electronics" ...
##  $ Region            : chr  "North" "North" "North" "North" ...
##  $ Inventory.Level   : int  195 117 247 139 152 209 118 244 115 192 ...
##  $ Units.Sold        : int  102 117 114 45 65 60 81 42 88 70 ...
##  $ Units.Ordered     : int  252 249 612 102 271 0 335 0 139 300 ...
##  $ Price             : num  72.7 80.2 62.9 87.6 54.4 ...
##  $ Discount          : int  5 15 10 10 0 0 5 5 5 10 ...
##  $ Weather.Condition : chr  "Snowy" "Snowy" "Snowy" "Snowy" ...
##  $ Promotion         : int  0 1 1 0 0 0 0 0 0 0 ...
##  $ Competitor.Pricing: num  85.7 92 60.1 85.2 51.6 ...
##  $ Seasonality       : chr  "Winter" "Winter" "Winter" "Winter" ...
##  $ Epidemic          : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ Demand            : int  115 229 157 52 59 55 94 61 129 69 ...
# Hiển thị vài dòng đầu và cuối
head(data)
##         Date Store.ID Product.ID    Category Region Inventory.Level Units.Sold
## 1 2022-01-01     S001      P0001 Electronics  North             195        102
## 2 2022-01-01     S001      P0002    Clothing  North             117        117
## 3 2022-01-01     S001      P0003    Clothing  North             247        114
## 4 2022-01-01     S001      P0004 Electronics  North             139         45
## 5 2022-01-01     S001      P0005   Groceries  North             152         65
## 6 2022-01-01     S001      P0006        Toys  North             209         60
##   Units.Ordered Price Discount Weather.Condition Promotion Competitor.Pricing
## 1           252 72.72        5             Snowy         0              85.73
## 2           249 80.16       15             Snowy         1              92.02
## 3           612 62.94       10             Snowy         1              60.08
## 4           102 87.63       10             Snowy         0              85.19
## 5           271 54.41        0             Snowy         0              51.63
## 6             0 35.53        0             Snowy         0              40.01
##   Seasonality Epidemic Demand
## 1      Winter        0    115
## 2      Winter        0    229
## 3      Winter        0    157
## 4      Winter        0     52
## 5      Winter        0     59
## 6      Winter        0     55
tail(data)
##             Date Store.ID Product.ID  Category Region Inventory.Level
## 75995 2024-01-30     S005      P0015 Groceries  North             520
## 75996 2024-01-30     S005      P0016      Toys  North             233
## 75997 2024-01-30     S005      P0017      Toys  North             137
## 75998 2024-01-30     S005      P0018  Clothing  North             197
## 75999 2024-01-30     S005      P0019 Furniture  North             125
## 76000 2024-01-30     S005      P0020      Toys  North             126
##       Units.Sold Units.Ordered  Price Discount Weather.Condition Promotion
## 75995        116             0  48.62       10             Snowy         0
## 75996         63             0  29.80        5             Snowy         0
## 75997        115           141  42.92        5             Snowy         0
## 75998         44             0  17.81       10             Snowy         0
## 75999         58             0 151.72        0             Snowy         0
## 76000         63            59  25.78       10             Snowy         0
##       Competitor.Pricing Seasonality Epidemic Demand
## 75995              53.71      Winter        0    122
## 75996              32.23      Winter        0     64
## 75997              40.73      Winter        0    137
## 75998              19.41      Winter        0     68
## 75999             143.71      Winter        0     84
## 76000              29.32      Winter        0     73
# Chuyển các biến định tính phù hợp sang factor
factor <- c("Date", "Store.ID", "Product.ID", "Category", "Region",
                 "Weather.Condition", "Seasonality")

# Kiểm tra biến nào tồn tại trong data
factor <- intersect(factor, names(data))

# Chuyển sang factor
data[factor] <- lapply(data[factor], as.factor)

# Kiểm tra lại cấu trúc
str(data)
## 'data.frame':    76000 obs. of  16 variables:
##  $ Date              : Factor w/ 760 levels "2022-01-01","2022-01-02",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Store.ID          : Factor w/ 5 levels "S001","S002",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Product.ID        : Factor w/ 20 levels "P0001","P0002",..: 1 2 3 4 5 6 7 8 9 10 ...
##  $ Category          : Factor w/ 5 levels "Clothing","Electronics",..: 2 1 1 2 4 5 4 2 1 3 ...
##  $ Region            : Factor w/ 4 levels "East","North",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ Inventory.Level   : int  195 117 247 139 152 209 118 244 115 192 ...
##  $ Units.Sold        : int  102 117 114 45 65 60 81 42 88 70 ...
##  $ Units.Ordered     : int  252 249 612 102 271 0 335 0 139 300 ...
##  $ Price             : num  72.7 80.2 62.9 87.6 54.4 ...
##  $ Discount          : int  5 15 10 10 0 0 5 5 5 10 ...
##  $ Weather.Condition : Factor w/ 4 levels "Cloudy","Rainy",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ Promotion         : int  0 1 1 0 0 0 0 0 0 0 ...
##  $ Competitor.Pricing: num  85.7 92 60.1 85.2 51.6 ...
##  $ Seasonality       : Factor w/ 4 levels "Autumn","Spring",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ Epidemic          : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ Demand            : int  115 229 157 52 59 55 94 61 129 69 ...

1.2 Tổng quan về bộ dữ liệu

Bộ dữ liệu Retail Store Inventory and Demand Forecasting bao gồm 76,000 quan sát với 16 biến mô tả các giao dịch bán hàng của các cửa hàng bán lẻ khác nhau. Dữ liệu này ghi lại chi tiết thông tin về tồn kho, số lượng bán ra, các yếu tố ảnh hưởng như khuyến mãi, thời tiết, giá cạnh tranh, dịch bệnh cùng nhiều thông tin khác liên quan đến hoạt động bán lẻ.

Mục đích chính của bộ dữ liệu là:

  • Dự báo nhu cầu sản phẩm (Demand Forecasting),

  • Phân tích tồn kho,

  • Đánh giá ảnh hưởng của các yếu tố bên ngoài như khuyến mãi, thời tiết, dịch bệnh (COVID-19 giả lập) đến nhu cầu tiêu dùng,

  • Mô phỏng hoạt động bán lẻ trong bối cảnh có dịch bệnh để hỗ trợ ra quyết định quản lý tồn kho và điều phối hàng hóa hiệu quả.

Giải thích chi tiết các biến trong bộ dữ liệu

Tên biến Ý nghĩa
Date Ngày diễn ra giao dịch (định dạng YYYY-MM-DD).
Store.ID Mã định danh duy nhất của cửa hàng (ví dụ: S001, S002).
Product.ID Mã định danh duy nhất của sản phẩm.
Category Loại sản phẩm (ví dụ: Electronics, Clothing, Toys, Furniture, Groceries,…).
Region Khu vực cửa hàng (North, South, East, West).
Inventory.Level Số lượng sản phẩm còn trong kho tại thời điểm ghi nhận.
Units.Sold Số lượng sản phẩm đã bán trong ngày.
Units.Ordered Số lượng hàng đã đặt thêm để bổ sung kho.
Price Giá bán sản phẩm trong ngày (theo đơn vị tiền tệ).
Discount Mức chiết khấu áp dụng cho sản phẩm (tính theo %).
Weather.Condition Tình trạng thời tiết trong ngày giao dịch (ví dụ: Snowy, Cloudy, Rainy, Sunny,…).
Promotion Có áp dụng khuyến mãi hay không (1 = có, 0 = không).
Competitor.Pricing Giá bán của sản phẩm tương tự từ đối thủ cạnh tranh.
Seasonality Mùa trong năm (Winter, Spring, Summer, Fall).
Epidemic Tình trạng dịch bệnh (0 = không có dịch, 1 = có dịch, mô phỏng COVID-19).
Demand Nhu cầu sản phẩm ước tính trong ngày, là biến mục tiêu cần dự báo.

1.3 Phân loại biến theo kiểu dữ liệu

Dữ liệu Định tính

  • Category

  • Region

  • Weather.Condition

  • Promotion

  • Seasonality

  • Epidemic

Dữ liệu Định lượng

  • Inventory.Level

  • Units.Sold

  • Units.Ordered

  • Price

  • Discount

  • Competitor.Pricing

  • Demand

1.4 Kiểm tra giá trị NA

Trước khi tiến hành phân tích dữ liệu, chúng ta cần kiểm tra và xử lý các giá trị bị thiếu nhằm đảm bảo độ chính xác và tính toàn vẹn của kết quả phân tích.

sum(is.na(data))
## [1] 0
which(is.na(data))
## integer(0)

Cả hai lệnh đều trả về kết quả cho thấy không tồn tại giá trị thiếu:

  • sum(is.na(data)) trả về 0, nghĩa là không có giá trị NA nào.

  • which(is.na(data)) trả về integer(0), nghĩa là không có vị trí nào chứa NA.

Điều này cho phép chúng ta tiếp tục các bước xử lý dữ liệu và phân tích mà không cần thực hiện bước xử lý giá trị thiếu.

1.5 Tạo bộ dữ liệu chỉ có biến định tính

dataDT <- data[, c("Category", "Region",
                  "Weather.Condition", "Promotion", "Seasonality", "Epidemic")]
str(dataDT)
## 'data.frame':    76000 obs. of  6 variables:
##  $ Category         : Factor w/ 5 levels "Clothing","Electronics",..: 2 1 1 2 4 5 4 2 1 3 ...
##  $ Region           : Factor w/ 4 levels "East","North",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ Weather.Condition: Factor w/ 4 levels "Cloudy","Rainy",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ Promotion        : int  0 1 1 0 0 0 0 0 0 0 ...
##  $ Seasonality      : Factor w/ 4 levels "Autumn","Spring",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ Epidemic         : int  0 0 0 0 0 0 0 0 0 0 ...

2 PHẦN 2: PHÂN TÍCH MÔ TẢ MỘT BIẾN ĐỊNH TÍNH

2.1 Biến Category

Lập bảng tần số và tần suất

#Bảng tần số
table(dataDT$Category)
## 
##    Clothing Electronics   Furniture   Groceries        Toys 
##       12160        9120       13680       30400       10640
#Bảng tần suất
table(dataDT$Category)/sum(table(dataDT$Category))
## 
##    Clothing Electronics   Furniture   Groceries        Toys 
##        0.16        0.12        0.18        0.40        0.14

Biểu đồ cột

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
# Chuẩn bị dữ liệu từ bảng tần số
category <- as.data.frame(table(dataDT$Category))
colnames(category) <- c("Category", "Frequency")

# Vẽ biểu đồ cột có số trên mỗi cột
ggplot(category, aes(x = Category, y = Frequency, fill = Category)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = Frequency), vjust = -0.5, size = 4) +
  labs(title = "Biểu đồ cột: Tần số theo loại sản phẩm (Category)",
       x = "Loại sản phẩm",
       y = "Tần số") +
  theme_minimal() +
  theme(legend.position = "none")

Biểu đồ tròn

category$Percentage <- round(100 * category$Frequency / sum(category$Frequency), 1)
ggplot(category, aes(x = "", y = Frequency, fill = Category)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y", start = 0) +
  labs(title = "Biểu đồ tròn: Tỷ lệ loại sản phẩm (Category)") +
  theme_void()

Nhận xét

  • Dựa vào bảng tần số, phần lớn sản phẩm trong dữ liệu thuộc nhóm Groceries với 30400 mục, chiếm khoảng 40% tổng số quan sát. Theo sau là Furniture với 13680 mục (~18%), và Clothing với 12160 mục (~16%). Nhóm Toys có 10640 mục (~14%), trong khi Electronics là nhóm có số lượng thấp nhất với 9120 mục (~12%).

  • Biểu đồ cột thể hiện rõ rằng Groceries là loại sản phẩm chiếm ưu thế trong tập dữ liệu, với số lượng vượt trội so với các nhóm còn lại. Biểu đồ tròn giúp trực quan hóa tỷ lệ phân bổ, cho thấy phần hình tròn của Groceries lớn hơn đáng kể. Điều này phản ánh rằng nhu cầu hoặc tần suất giao dịch liên quan đến thực phẩm cao hơn đáng kể, trong khi các sản phẩm như ElectronicsToys có tỷ trọng nhỏ hơn trong cơ cấu loại sản phẩm.

2.2 Biến Region

Lập bảng tần số và tần suất

# Bảng tần số
table(dataDT$Region)
## 
##  East North South  West 
## 15200 30400 15200 15200
# Bảng tần suất
table(dataDT$Region)/sum(table(dataDT$Region))
## 
##  East North South  West 
##   0.2   0.4   0.2   0.2

Biểu đồ cột

region <- as.data.frame(table(dataDT$Region))
colnames(region) <- c("Region", "Frequency")
ggplot(region, aes(x = Region, y = Frequency, fill = Region)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = Frequency), vjust = -0.5, size = 4) +
  labs(title = "Biểu đồ cột: Tần số theo khu vực (Region)",
       x = "Khu vực",
       y = "Tần số") +
  theme_minimal() +
  theme(legend.position = "none")

Biểu đồ tròn

region$Percentage <- round(100 * region$Frequency / sum(region$Frequency), 1)
ggplot(region, aes(x = "", y = Frequency, fill = Region)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y", start = 0) +
   labs(title = "Biểu đồ tròn: Tỷ lệ khu vực (Region)") +
  theme_void()

Nhận xét

  • Dựa vào bảng tần số, phần lớn quan sát trong dữ liệu đến từ khu vực North với 30400 mục, chiếm khoảng 40% tổng số quan sát. Các khu vực East, SouthWest có cùng số lượng là 15200 mục (~20%).

  • Biểu đồ cột thể hiện rõ rằng North là khu vực chiếm ưu thế trong tập dữ liệu, với số lượng vượt trội so với ba khu vực còn lại. Biểu đồ tròn giúp trực quan hóa tỷ lệ phân bổ, cho thấy phần hình tròn của North lớn hơn đáng kể. Điều này phản ánh rằng hoạt động hoặc tần suất giao dịch tại khu vực phía Bắc diễn ra nhiều hơn so với các khu vực khác, trong khi East, SouthWest có vai trò tương đương nhau về quy mô trong cơ cấu khu vực.

2.3 Biến Weather.Condition

Lập bảng tần số và tần suất

table(dataDT$Weather.Condition)
## 
## Cloudy  Rainy  Snowy  Sunny 
##  24360  17500  11160  22980
table(dataDT$Weather.Condition)/sum(table(dataDT$Weather.Condition))
## 
##    Cloudy     Rainy     Snowy     Sunny 
## 0.3205263 0.2302632 0.1468421 0.3023684

Biểu đồ cột

weather <- as.data.frame(table(dataDT$Weather.Condition))
colnames(weather) <- c("Weather.Condition", "Frequency")

ggplot(weather, aes(x = Weather.Condition, y = Frequency, fill = Weather.Condition)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = Frequency), vjust = -0.5, size = 4) +
  labs(title = "Biểu đồ cột: Tình trạng thời tiết (Weather.Condition)",
       x = "Thời tiết",
       y = "Tần số") +
  theme_minimal() +
  theme(legend.position = "none")

Biểu đồ tròn

weather$Percentage <- round(100 * weather$Frequency / sum(weather$Frequency), 1)
ggplot(weather, aes(x = "", y = Frequency, fill = Weather.Condition)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y", start = 0) +
  labs(title = "Biểu đồ tròn: Tỷ lệ tình trạng thời tiết") +
  theme_void()

Nhận xét

  • Dựa vào bảng tần số, phần lớn các quan sát rơi vào điều kiện thời tiết Cloudy với 24360 mục, chiếm khoảng 32% tổng số. Theo sau là Sunny với 22980 mục (~30%), và Rainy với 17500 mục (~23%). Trong khi đó, điều kiện Snowy xuất hiện ít nhất với 11160 mục (~15%).

  • Biểu đồ cột thể hiện rõ rằng Cloudy là trạng thái thời tiết phổ biến nhất trong dữ liệu, với số lượng vượt trội hơn hẳn các trạng thái khác. Sunny cũng chiếm tỷ lệ lớn, chỉ thấp hơn một chút so với Cloudy. Ngược lại, Snowy có tần suất thấp nhất. Biểu đồ tròn giúp trực quan hóa tỷ lệ này, thể hiện rõ phần diện tích lớn nhất thuộc về Cloudy, tiếp theo là SunnyRainy. Những kết quả này cho thấy dữ liệu thu thập được chủ yếu diễn ra trong điều kiện thời tiết nhiều mây và nắng, trong khi điều kiện tuyết ít gặp hơn.

2.4 Biến Seasonality

Lập bảng tần số và tần suất

table(dataDT$Seasonality)
## 
## Autumn Spring Summer Winter 
##  18200  18400  18400  21000
table(dataDT$Seasonality)/sum(table(dataDT$Seasonality))
## 
##    Autumn    Spring    Summer    Winter 
## 0.2394737 0.2421053 0.2421053 0.2763158

Biểu đồ cột

season <- as.data.frame(table(dataDT$Seasonality))
colnames(season) <- c("Season", "Frequency")
ggplot(season, aes(x = Season, y = Frequency, fill = Season)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = Frequency), vjust = -0.5, size = 4) +
  labs(title = "Biểu đồ cột: Mùa trong năm (Seasonality)",
       x = "Mùa",
       y = "Tần số") +
  theme_minimal() +
  theme(legend.position = "none")

Biểu đồ tròn

season$Percentage <- round(100 * season$Frequency / sum(season$Frequency), 1)
ggplot(season, aes(x = "", y = Frequency, fill = Season)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y", start = 0) +
  labs(title = "Biểu đồ tròn: Phân bố theo mùa (Seasonality)") +
  theme_void()

Nhận xét

  • Dựa vào bảng tần số, phần lớn các quan sát rơi vào mùa Winter với 21000 mục, chiếm khoảng 28% tổng số. Ba mùa còn lại có số lượng quan sát khá gần nhau, lần lượt là SpringSummer với 18400 và 18400 mục (~24% và 24%), và Autumn với 18200 mục (~24%).

  • Biểu đồ cột thể hiện rõ rằng Winter là mùa chiếm tỷ lệ quan sát lớn nhất trong dữ liệu, vượt trội hơn một chút so với các mùa còn lại. Ba mùa Spring, SummerAutumn có số lượng quan sát khá đồng đều, chỉ chênh lệch nhẹ. Biểu đồ tròn trực quan hóa tỷ lệ này rất rõ ràng, với diện tích lớn nhất thuộc về Winter, tiếp theo là ba mùa còn lại có tỷ lệ khá tương đương nhau. Những kết quả này cho thấy dữ liệu được thu thập trải đều trong các mùa, với một lượng quan sát nhỉnh hơn vào mùa đông.

2.5 Biến Promotion

Lập bảng tần số và tần suất

table(dataDT$Promotion)
## 
##     0     1 
## 51000 25000
table(dataDT$Promotion)/sum(table(dataDT$Promotion))
## 
##         0         1 
## 0.6710526 0.3289474

Biểu đồ cột

promo <- as.data.frame(table(dataDT$Promotion))
colnames(promo) <- c("Promotion", "Frequency")
ggplot(promo, aes(x = Promotion, y = Frequency, fill = Promotion)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = Frequency), vjust = -0.5) +
  labs(title = "Tần số áp dụng khuyến mãi (Promotion)", x = "Promotion (0=No,1=Yes)", y = "Tần số") +
  theme_minimal() +
  theme(legend.position = "none")

Nhận xét

  • Dựa vào bảng tần số, số lượng quan sát không áp dụng khuyến mãi (Promotion = 0) là 51000 mục, chiếm khoảng 67.1% tổng số. Trong khi đó, số quan sát áp dụng khuyến mãi (Promotion = 1) là 25000 mục, chiếm khoảng 32.9%.

  • Biểu đồ tần số thể hiện rõ rằng phần lớn giao dịch không có khuyến mãi, nhưng khuyến mãi vẫn chiếm tỷ lệ đáng kể trong hoạt động bán hàng.

2.6 Biến Epidemic

Lập bảng tần số và tần suất

table(dataDT$Epidemic)
## 
##     0     1 
## 60800 15200
table(dataDT$Epidemic)/sum(table(dataDT$Epidemic))
## 
##   0   1 
## 0.8 0.2

Biểu đồ cột

epi <- as.data.frame(table(dataDT$Epidemic))
colnames(epi) <- c("Epidemic", "Frequency")
ggplot(epi, aes(x = Epidemic, y = Frequency, fill = Epidemic)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = Frequency), vjust = -0.5) +
  labs(title = "Tần số dịch bệnh (Epidemic)", x = "Epidemic (0=No,1=Yes)", y = "Tần số") +
  theme_minimal() +
  theme(legend.position = "none")

Nhận xét

  • Theo bảng tần số, số quan sát không có dịch bệnh (Epidemic = 0) là 60800 mục, chiếm khoảng 80% tổng số. Các quan sát trong điều kiện có dịch bệnh (Epidemic = 1) là 15200 mục, chiếm khoảng 20%.

  • Dữ liệu cho thấy phần lớn giao dịch diễn ra trong điều kiện không có dịch bệnh, trong khi khoảng 20% giao dịch xảy ra trong bối cảnh dịch bệnh (mô phỏng COVID-19), cho phép phân tích tác động dịch bệnh tới hoạt động bán lẻ.

3 Phần 3: Ước lượng Khoảng và Kiểm định Giả thuyết cho Tỷ lệ

3.1 Biến Category

Mục tiêu

Thực hiện kiểm định để xác định xem tỷ lệ thuộc hạng mục “Groceries” trong biến Category có khác biệt so với 50% hay không.

Dữ liệu và biến quan tâm

  • Biến quan tâm: Category

  • Hạng mục quan tâm: "Groceries"

Tính toán tỷ lệ mẫu

# Số lượng cá thể thuộc Category = "Groceries"
sumGroceries <- sum(dataDT$Category == "Groceries")

# Tổng số cá thể trong dữ liệu
totalCategory <- length(dataDT$Category)

Thực hiện kiểm định tỷ lệ 1 mẫu

Giả thuyết kiểm định:

  • Giả thuyết H0: Tỷ lệ cá thể thuộc “Groceries” bằng 0.5

  • Giả thuyết H1: Tỷ lệ cá thể thuộc “Groceries” khác 0.5

# Kiểm định tỷ lệ 1 mẫu với giả thuyết p = 0.5
prop.test(x = sumGroceries, n = totalCategory, p = 0.5, conf.level = 0.95, correct = TRUE)
## 
##  1-sample proportions test with continuity correction
## 
## data:  sumGroceries out of totalCategory, null probability 0.5
## X-squared = 3039.6, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.3965156 0.4034945
## sample estimates:
##   p 
## 0.4

Kết quả kiểm định:

  • Giá trị thống kê Chi-squared: 3039.6

  • Bậc tự do (df): 1

  • p-value: < 2.2e-16

  • Khoảng tin cậy 95% cho tỷ lệ “Groceries”: (0.3965, 0.4035)

  • Ước lượng tỷ lệ “Groceries” từ mẫu: 0.40 (tức 40%)

Kết luận:

Với mức ý nghĩa 5%, vì p-value rất nhỏ (< 0.05), ta bác bỏ giả thuyết H0. Điều này chứng tỏ tỷ lệ cá thể thuộc hạng mục “Groceries” trong dữ liệu khác biệt có ý nghĩa thống kê so với tỷ lệ 50%. Cụ thể, tỷ lệ thực tế khoảng 40%, thấp hơn đáng kể so với 50%.

3.2 Biến Region

Mục tiêu

Thực hiện kiểm định để xác định xem tỷ lệ thuộc vùng “North” trong biến Region có khác biệt so với 40% hay không.

Dữ liệu và biến quan tâm

  • Biến quan tâm: Region

  • Hạng mục quan tâm: "North"

Tính toán tỷ lệ mẫu

# Số lượng cá thể thuộc Region = "North"
sumNorth <- sum(dataDT$Region == "North")

# Tổng số cá thể trong dữ liệu
totalRegion <- length(dataDT$Region)

Thực hiện kiểm định tỷ lệ 1 mẫu

Giả thuyết kiểm định:

  • Giả thuyết H0: Tỷ lệ cá thể thuộc “North” bằng 0.4

  • Giả thuyết H1: ỷ lệ cá thể thuộc “North” khác 0.4

# Kiểm định tỷ lệ 1 mẫu với giả thuyết p = 0.4
prop.test(x = sumNorth, n = totalRegion, p = 0.4, conf.level = 0.95, correct = TRUE)
## 
##  1-sample proportions test without continuity correction
## 
## data:  sumNorth out of totalRegion, null probability 0.4
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
##  0.3965222 0.4034879
## sample estimates:
##   p 
## 0.4

Kết quả kiểm định:

  • Giá trị thống kê Chi-squared: 0

  • Bậc tự do (df): 1

  • p-value: 1

  • Khoảng tin cậy 95% cho tỷ lệ “North”: (0.3965, 0.4035)

  • Ước lượng tỷ lệ “North” từ mẫu: 0.40 (tức 40%)

Kết luận:

Với mức ý nghĩa 5%, vì p-value = 1 > 0.05, ta không bác bỏ giả thuyết H0. Điều này cho thấy tỷ lệ cá thể thuộc vùng “North” trong dữ liệu không khác biệt có ý nghĩa thống kê so với tỷ lệ 40%. Tỷ lệ thực tế ước lượng là 40%, phù hợp với tỉ lệ giả định.

4 PHẦN 4: PHÂN TÍCH MỐI QUAN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH

4.1 Cặp biến Weather.Condition và Region

4.1.1 Thống kê mô tả cặp biến Weather.Condition và Region

Bảng tần số chéo

weather_region <- table(dataDT$Weather.Condition, dataDT$Region)
weather_region
##         
##          East North South West
##   Cloudy 4920  9440  5260 4740
##   Rainy  3580  7480  3320 3120
##   Snowy  2400  4280  2140 2340
##   Sunny  4300  9200  4480 5000

Nhận xét

  • Điều kiện thời tiết Cloudy (nhiều mây): Xuất hiện phổ biến nhất ở vùng North với 9440 lượt quan sát, gần gấp đôi so với các vùng khác như East (4920), South (5260), và West (4740).

  • Thời tiết Rainy (mưa): Cũng có tần suất cao nhất ở vùng North (7480 lượt), trong khi các vùng East, South, và West dao động từ 3120 đến 3580 lượt.

  • Thời tiết Snowy (tuyết): Chủ yếu tập trung ở vùng North (4280), cao gần gấp đôi so với vùng South (2140) – điều này phản ánh đặc điểm khí hậu lạnh hơn của miền Bắc.

  • Thời tiết Sunny (nắng): Ghi nhận số lượng lớn ở North (9200) và West (5000), trong khi hai vùng còn lại – East (4300) và South (4480) – có số lượng gần tương đương.

  • So sánh giữa các vùng:

    • North là vùng có số lượng quan sát cao nhất ở tất cả các loại thời tiết. Điều này có thể cho thấy:

      • Đây là khu vực được quan sát, thu thập dữ liệu nhiều hơn.

      • Hoặc khí hậu nơi đây đa dạng và biến động rõ rệt theo mùa.

    • SouthWest có số lượng quan sát thấp hơn, đặc biệt là với thời tiết Snowy, có thể liên quan đến đặc điểm khí hậu ấm hơn, ít tuyết hơn so với các vùng còn lại.

Bảng tần suất chéo

prop.table(weather_region)
##         
##                East      North      South       West
##   Cloudy 0.06473684 0.12421053 0.06921053 0.06236842
##   Rainy  0.04710526 0.09842105 0.04368421 0.04105263
##   Snowy  0.03157895 0.05631579 0.02815789 0.03078947
##   Sunny  0.05657895 0.12105263 0.05894737 0.06578947

Nhận xét bảng tần suất chéo

  • Weather.Condition = Cloudy (nhiều mây): Chiếm tỷ lệ cao nhất tại vùng North (12.42%), cao hơn đáng kể so với các vùng South (6.92%), East (6.47%), và West (6.24%). Điều này cho thấy thời tiết nhiều mây xảy ra thường xuyên hơn ở khu vực miền Bắc.

  • Weather.Condition = Rainy (mưa): Vẫn ghi nhận tỷ lệ cao nhất tại vùng North (9.84%), trong khi ba vùng còn lại dao động thấp hơn: East (4.71%), South (4.37%), West (4.11%).

  • Weather.Condition = Snowy (tuyết): Rõ ràng tập trung nhiều ở North (5.63%), cao hơn gần gấp đôi so với South (2.82%) và nhỉnh hơn các vùng East (3.16%), West (3.08%). Điều này phù hợp với đặc điểm khí hậu lạnh ở miền Bắc.

  • Weather.Condition = Sunny (nắng): Vùng North vẫn dẫn đầu với tỷ lệ 12.11%, tiếp theo là West (6.58%), South (5.89%) và East (5.66%).

  • So sánh tổng thể giữa các vùng:

    • North là vùng có tỷ lệ xuất hiện cao nhất ở mọi điều kiện thời tiết, chiếm ưu thế rõ rệt, phản ánh sự đa dạng khí hậu hoặc mức độ ghi nhận dữ liệu lớn hơn so với các vùng khác.

    • Các vùng East, South, và West có phân bố khá tương đồng và thấp hơn đáng kể so với North, đặc biệt ở các điều kiện như RainySnowy.

Nhìn chung, North là vùng nổi bật với tần suất thời tiết đa dạng và cao, trong khi các vùng khác có mức xuất hiện đều và thấp hơn, phản ánh sự khác biệt về điều kiện tự nhiên hoặc quy mô thu thập dữ liệu.

Vẽ đồ thị

df_weather_region <- as.data.frame(weather_region)
colnames(df_weather_region) <- c("Weather.Condition", "Region", "Count")
ggplot(df_weather_region, aes(x = Region, y = Count, fill = Weather.Condition)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Số lượng quan sát theo Region và Weather.Condition", 
       x = "Region", y = "Count") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))

4.1.2 Kiểm định thống kê

Giả thuyết kiểm định::

  • H0: Hai biến Weather.Condition và Region độc lập

  • H1: Hai biến Weather.Condition và Region có mối liên hệ

Thực hiện kiểm định Chi- bình phương

chisq_result <- chisq.test(weather_region)
chisq_result
## 
##  Pearson's Chi-squared test
## 
## data:  weather_region
## X-squared = 216.45, df = 9, p-value < 2.2e-16

Kết quả kiểm định Chi-squared

  • Giá trị thống kê Chi-squared: X-squared = 216.45

  • Bậc tự do: df = 9

  • Giá trị p-value: p-value < 2.2e-16

Kết luận

Vì giá trị p rất nhỏ (p-value < 0.05), ta bác bỏ giả thuyết không (H0). Điều này cho thấy có mối liên hệ có ý nghĩa thống kê giữa điều kiện thời tiết (Weather.Condition) và vùng miền (Region).

4.2 Cặp biến region và epidemic

Tính Relative Risk

library(epitools)

# 1. Lọc dữ liệu chỉ lấy 2 vùng North và South
subset_data <- subset(dataDT, Region %in% c("North", "South"))
subset_data$Region <- droplevels(subset_data$Region)

# 2. Tạo bảng tần số chéo
region_epidemic <- table(subset_data$Region, subset_data$Epidemic)
addmargins(region_epidemic)
##        
##             0     1   Sum
##   North 24320  6080 30400
##   South 12160  3040 15200
##   Sum   36480  9120 45600
# 3. Tính Rủi ro tương đối (Relative Risk)
riskratio(region_epidemic)
## $data
##        
##             0    1 Total
##   North 24320 6080 30400
##   South 12160 3040 15200
##   Total 36480 9120 45600
## 
## $measure
##        risk ratio with 95% C.I.
##         estimate     lower    upper
##   North        1        NA       NA
##   South        1 0.9618079 1.039709
## 
## $p.value
##        two-sided
##         midp.exact fisher.exact chi.square
##   North         NA           NA         NA
##   South  0.9993396            1          1
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Kết quả tính Rủi ro tương đối (Relative Risk)

  • Rủi ro mắc dịch ở North = 6,080 / 30,400 = 0.20

  • Rủi ro mắc dịch ở South = 3,040 / 15,200 = 0.20

  • RR (South so với North) = 1.000

    → Khoảng tin cậy 95%: [0.9618 ; 1.0397]

  • Giá trị p-value = 0.999 (từ kiểm định Fisher’s Exact và Chi-squared)

Kết luận và Nhận xét

  • Rủi ro tương đối (RR = 1) cho thấy khả năng mắc dịch (Epidemic = 1) giữa hai vùng NorthSouth là tương đương.

  • Khoảng tin cậy 95% của RR bao gồm 1 → Không có sự khác biệt có ý nghĩa thống kê.

  • Giá trị p-value cao (p ≈ 1) → Không bác bỏ giả thuyết H₀, tức là không có mối liên hệ đáng kể giữa vùng miền (Region) và tình trạng dịch bệnh (Epidemic) trong hai khu vực này.

Tính odd và oddratio

# 4. Tính Odds và Odds Ratio thủ công
odd_North <- region_epidemic["North", "1"] / region_epidemic["North", "0"]
odd_South <- region_epidemic["South", "1"] / region_epidemic["South", "0"]

cat("Odds (North):", odd_North, "\n")
## Odds (North): 0.25
cat("Odds (South):", odd_South, "\n")
## Odds (South): 0.25
odds_ratio <- odd_South / odd_North
cat("Odds Ratio (South vs. North):", odds_ratio, "\n")
## Odds Ratio (South vs. North): 1
# 5. Hoặc dùng epitools để tính Odds Ratio kèm khoảng tin cậy
oddsratio(region_epidemic, method = "midp")
## $data
##        
##             0    1 Total
##   North 24320 6080 30400
##   South 12160 3040 15200
##   Total 36480 9120 45600
## 
## $measure
##        odds ratio with 95% C.I.
##         estimate     lower    upper
##   North 1.000000        NA       NA
##   South 1.000022 0.9524335 1.049819
## 
## $p.value
##        two-sided
##         midp.exact fisher.exact chi.square
##   North         NA           NA         NA
##   South  0.9993396            1          1
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Kết luận và Nhận xét

  • Odds mắc dịch giữa hai vùng NorthSouth là bằng nhau (OR = 1), cho thấy khả năng mắc dịch tương đương.

  • Khoảng tin cậy 95% của Odds Ratio bao gồm 1 → không có sự khác biệt có ý nghĩa thống kê.

  • Giá trị p-value rất cao (p ≈ 1) → không có bằng chứng bác bỏ giả thuyết H₀, tức không có mối liên hệ đáng kể giữa vùng miền (Region) và tình trạng dịch bệnh (Epidemic) trong hai khu vực này.

