PHẦN 1: TÌM
HIểU VÀ CHUẨN BỊ DỮ LIỆU
Đọc và làm
quen với dữ liệu
# Đọc file
library("csv")
## Warning: package 'csv' was built under R version 4.3.3
data <- read.csv("D:/Downloads/sales_data.csv", header = T)
# Hiển thị cấu trúc dữ liệu
str(data)
## 'data.frame': 76000 obs. of 16 variables:
## $ Date : chr "2022-01-01" "2022-01-01" "2022-01-01" "2022-01-01" ...
## $ Store.ID : chr "S001" "S001" "S001" "S001" ...
## $ Product.ID : chr "P0001" "P0002" "P0003" "P0004" ...
## $ Category : chr "Electronics" "Clothing" "Clothing" "Electronics" ...
## $ Region : chr "North" "North" "North" "North" ...
## $ Inventory.Level : int 195 117 247 139 152 209 118 244 115 192 ...
## $ Units.Sold : int 102 117 114 45 65 60 81 42 88 70 ...
## $ Units.Ordered : int 252 249 612 102 271 0 335 0 139 300 ...
## $ Price : num 72.7 80.2 62.9 87.6 54.4 ...
## $ Discount : int 5 15 10 10 0 0 5 5 5 10 ...
## $ Weather.Condition : chr "Snowy" "Snowy" "Snowy" "Snowy" ...
## $ Promotion : int 0 1 1 0 0 0 0 0 0 0 ...
## $ Competitor.Pricing: num 85.7 92 60.1 85.2 51.6 ...
## $ Seasonality : chr "Winter" "Winter" "Winter" "Winter" ...
## $ Epidemic : int 0 0 0 0 0 0 0 0 0 0 ...
## $ Demand : int 115 229 157 52 59 55 94 61 129 69 ...
# Hiển thị vài dòng đầu và cuối
head(data)
## Date Store.ID Product.ID Category Region Inventory.Level Units.Sold
## 1 2022-01-01 S001 P0001 Electronics North 195 102
## 2 2022-01-01 S001 P0002 Clothing North 117 117
## 3 2022-01-01 S001 P0003 Clothing North 247 114
## 4 2022-01-01 S001 P0004 Electronics North 139 45
## 5 2022-01-01 S001 P0005 Groceries North 152 65
## 6 2022-01-01 S001 P0006 Toys North 209 60
## Units.Ordered Price Discount Weather.Condition Promotion Competitor.Pricing
## 1 252 72.72 5 Snowy 0 85.73
## 2 249 80.16 15 Snowy 1 92.02
## 3 612 62.94 10 Snowy 1 60.08
## 4 102 87.63 10 Snowy 0 85.19
## 5 271 54.41 0 Snowy 0 51.63
## 6 0 35.53 0 Snowy 0 40.01
## Seasonality Epidemic Demand
## 1 Winter 0 115
## 2 Winter 0 229
## 3 Winter 0 157
## 4 Winter 0 52
## 5 Winter 0 59
## 6 Winter 0 55
tail(data)
## Date Store.ID Product.ID Category Region Inventory.Level
## 75995 2024-01-30 S005 P0015 Groceries North 520
## 75996 2024-01-30 S005 P0016 Toys North 233
## 75997 2024-01-30 S005 P0017 Toys North 137
## 75998 2024-01-30 S005 P0018 Clothing North 197
## 75999 2024-01-30 S005 P0019 Furniture North 125
## 76000 2024-01-30 S005 P0020 Toys North 126
## Units.Sold Units.Ordered Price Discount Weather.Condition Promotion
## 75995 116 0 48.62 10 Snowy 0
## 75996 63 0 29.80 5 Snowy 0
## 75997 115 141 42.92 5 Snowy 0
## 75998 44 0 17.81 10 Snowy 0
## 75999 58 0 151.72 0 Snowy 0
## 76000 63 59 25.78 10 Snowy 0
## Competitor.Pricing Seasonality Epidemic Demand
## 75995 53.71 Winter 0 122
## 75996 32.23 Winter 0 64
## 75997 40.73 Winter 0 137
## 75998 19.41 Winter 0 68
## 75999 143.71 Winter 0 84
## 76000 29.32 Winter 0 73
# Chuyển các biến định tính phù hợp sang factor
factor <- c("Date", "Store.ID", "Product.ID", "Category", "Region",
"Weather.Condition", "Seasonality")
# Kiểm tra biến nào tồn tại trong data
factor <- intersect(factor, names(data))
# Chuyển sang factor
data[factor] <- lapply(data[factor], as.factor)
# Kiểm tra lại cấu trúc
str(data)
## 'data.frame': 76000 obs. of 16 variables:
## $ Date : Factor w/ 760 levels "2022-01-01","2022-01-02",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Store.ID : Factor w/ 5 levels "S001","S002",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Product.ID : Factor w/ 20 levels "P0001","P0002",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ Category : Factor w/ 5 levels "Clothing","Electronics",..: 2 1 1 2 4 5 4 2 1 3 ...
## $ Region : Factor w/ 4 levels "East","North",..: 2 2 2 2 2 2 2 2 2 2 ...
## $ Inventory.Level : int 195 117 247 139 152 209 118 244 115 192 ...
## $ Units.Sold : int 102 117 114 45 65 60 81 42 88 70 ...
## $ Units.Ordered : int 252 249 612 102 271 0 335 0 139 300 ...
## $ Price : num 72.7 80.2 62.9 87.6 54.4 ...
## $ Discount : int 5 15 10 10 0 0 5 5 5 10 ...
## $ Weather.Condition : Factor w/ 4 levels "Cloudy","Rainy",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ Promotion : int 0 1 1 0 0 0 0 0 0 0 ...
## $ Competitor.Pricing: num 85.7 92 60.1 85.2 51.6 ...
## $ Seasonality : Factor w/ 4 levels "Autumn","Spring",..: 4 4 4 4 4 4 4 4 4 4 ...
## $ Epidemic : int 0 0 0 0 0 0 0 0 0 0 ...
## $ Demand : int 115 229 157 52 59 55 94 61 129 69 ...
Tổng quan về
bộ dữ liệu
Bộ dữ liệu Retail Store Inventory and Demand
Forecasting bao gồm 76,000 quan sát với
16 biến mô tả các giao dịch bán hàng của các cửa hàng
bán lẻ khác nhau. Dữ liệu này ghi lại chi tiết thông tin về tồn kho, số
lượng bán ra, các yếu tố ảnh hưởng như khuyến mãi, thời tiết, giá cạnh
tranh, dịch bệnh cùng nhiều thông tin khác liên quan đến hoạt động bán
lẻ.
Mục đích chính của bộ dữ liệu là:
Dự báo nhu cầu sản phẩm (Demand Forecasting),
Phân tích tồn kho,
Đánh giá ảnh hưởng của các yếu tố bên ngoài như khuyến mãi, thời
tiết, dịch bệnh (COVID-19 giả lập) đến nhu cầu tiêu dùng,
Mô phỏng hoạt động bán lẻ trong bối cảnh có dịch bệnh để hỗ trợ
ra quyết định quản lý tồn kho và điều phối hàng hóa hiệu quả.
Giải thích chi tiết các biến trong bộ dữ liệu
| Date |
Ngày diễn ra giao dịch (định dạng YYYY-MM-DD). |
| Store.ID |
Mã định danh duy nhất của cửa hàng (ví dụ: S001, S002). |
| Product.ID |
Mã định danh duy nhất của sản phẩm. |
| Category |
Loại sản phẩm (ví dụ: Electronics, Clothing, Toys, Furniture,
Groceries,…). |
| Region |
Khu vực cửa hàng (North, South, East, West). |
| Inventory.Level |
Số lượng sản phẩm còn trong kho tại thời điểm ghi nhận. |
| Units.Sold |
Số lượng sản phẩm đã bán trong ngày. |
| Units.Ordered |
Số lượng hàng đã đặt thêm để bổ sung kho. |
| Price |
Giá bán sản phẩm trong ngày (theo đơn vị tiền tệ). |
| Discount |
Mức chiết khấu áp dụng cho sản phẩm (tính theo %). |
| Weather.Condition |
Tình trạng thời tiết trong ngày giao dịch (ví dụ: Snowy, Cloudy,
Rainy, Sunny,…). |
| Promotion |
Có áp dụng khuyến mãi hay không (1 = có, 0 = không). |
| Competitor.Pricing |
Giá bán của sản phẩm tương tự từ đối thủ cạnh tranh. |
| Seasonality |
Mùa trong năm (Winter, Spring, Summer, Fall). |
| Epidemic |
Tình trạng dịch bệnh (0 = không có dịch, 1 = có dịch, mô phỏng
COVID-19). |
| Demand |
Nhu cầu sản phẩm ước tính trong ngày, là biến mục tiêu cần dự
báo. |
Phân loại
biến theo kiểu dữ liệu
Dữ liệu Định tính
Category
Region
Weather.Condition
Promotion
Seasonality
Epidemic
Dữ liệu Định lượng
Inventory.Level
Units.Sold
Units.Ordered
Price
Discount
Competitor.Pricing
Demand
Kiểm tra giá
trị NA
Trước khi tiến hành phân tích dữ liệu, chúng ta cần kiểm tra và xử lý
các giá trị bị thiếu nhằm đảm bảo độ chính xác và tính toàn vẹn của kết
quả phân tích.
sum(is.na(data))
## [1] 0
which(is.na(data))
## integer(0)
Cả hai lệnh đều trả về kết quả cho thấy không tồn tại giá trị
thiếu:
sum(is.na(data)) trả về 0, nghĩa là không có giá
trị NA nào.
which(is.na(data)) trả về integer(0), nghĩa là
không có vị trí nào chứa NA.
Điều này cho phép chúng ta tiếp tục các bước xử lý dữ liệu và phân
tích mà không cần thực hiện bước xử lý giá trị thiếu.
Tạo bộ dữ
liệu chỉ có biến định tính
dataDT <- data[, c("Category", "Region",
"Weather.Condition", "Promotion", "Seasonality", "Epidemic")]
str(dataDT)
## 'data.frame': 76000 obs. of 6 variables:
## $ Category : Factor w/ 5 levels "Clothing","Electronics",..: 2 1 1 2 4 5 4 2 1 3 ...
## $ Region : Factor w/ 4 levels "East","North",..: 2 2 2 2 2 2 2 2 2 2 ...
## $ Weather.Condition: Factor w/ 4 levels "Cloudy","Rainy",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ Promotion : int 0 1 1 0 0 0 0 0 0 0 ...
## $ Seasonality : Factor w/ 4 levels "Autumn","Spring",..: 4 4 4 4 4 4 4 4 4 4 ...
## $ Epidemic : int 0 0 0 0 0 0 0 0 0 0 ...
PHẦN 2: PHÂN
TÍCH MÔ TẢ MỘT BIẾN ĐỊNH TÍNH
Biến
Category
Lập bảng tần số và tần suất
#Bảng tần số
table(dataDT$Category)
##
## Clothing Electronics Furniture Groceries Toys
## 12160 9120 13680 30400 10640
#Bảng tần suất
table(dataDT$Category)/sum(table(dataDT$Category))
##
## Clothing Electronics Furniture Groceries Toys
## 0.16 0.12 0.18 0.40 0.14
Biểu đồ cột
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
# Chuẩn bị dữ liệu từ bảng tần số
category <- as.data.frame(table(dataDT$Category))
colnames(category) <- c("Category", "Frequency")
# Vẽ biểu đồ cột có số trên mỗi cột
ggplot(category, aes(x = Category, y = Frequency, fill = Category)) +
geom_bar(stat = "identity") +
geom_text(aes(label = Frequency), vjust = -0.5, size = 4) +
labs(title = "Biểu đồ cột: Tần số theo loại sản phẩm (Category)",
x = "Loại sản phẩm",
y = "Tần số") +
theme_minimal() +
theme(legend.position = "none")
Biểu đồ tròn
category$Percentage <- round(100 * category$Frequency / sum(category$Frequency), 1)
ggplot(category, aes(x = "", y = Frequency, fill = Category)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y", start = 0) +
labs(title = "Biểu đồ tròn: Tỷ lệ loại sản phẩm (Category)") +
theme_void()

Nhận xét
Dựa vào bảng tần số, phần lớn sản phẩm trong dữ liệu thuộc nhóm
Groceries với 30400 mục, chiếm khoảng 40% tổng số quan sát.
Theo sau là Furniture với 13680 mục (~18%), và
Clothing với 12160 mục (~16%). Nhóm Toys có 10640 mục
(~14%), trong khi Electronics là nhóm có số lượng thấp nhất với
9120 mục (~12%).
Biểu đồ cột thể hiện rõ rằng Groceries là loại sản phẩm
chiếm ưu thế trong tập dữ liệu, với số lượng vượt trội so với các nhóm
còn lại. Biểu đồ tròn giúp trực quan hóa tỷ lệ phân bổ, cho thấy phần
hình tròn của Groceries lớn hơn đáng kể. Điều này phản ánh rằng
nhu cầu hoặc tần suất giao dịch liên quan đến thực phẩm cao hơn đáng kể,
trong khi các sản phẩm như Electronics và Toys có tỷ
trọng nhỏ hơn trong cơ cấu loại sản phẩm.
Biến
Region
Lập bảng tần số và tần suất
# Bảng tần số
table(dataDT$Region)
##
## East North South West
## 15200 30400 15200 15200
# Bảng tần suất
table(dataDT$Region)/sum(table(dataDT$Region))
##
## East North South West
## 0.2 0.4 0.2 0.2
Biểu đồ cột
region <- as.data.frame(table(dataDT$Region))
colnames(region) <- c("Region", "Frequency")
ggplot(region, aes(x = Region, y = Frequency, fill = Region)) +
geom_bar(stat = "identity") +
geom_text(aes(label = Frequency), vjust = -0.5, size = 4) +
labs(title = "Biểu đồ cột: Tần số theo khu vực (Region)",
x = "Khu vực",
y = "Tần số") +
theme_minimal() +
theme(legend.position = "none")

Biểu đồ tròn
region$Percentage <- round(100 * region$Frequency / sum(region$Frequency), 1)
ggplot(region, aes(x = "", y = Frequency, fill = Region)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y", start = 0) +
labs(title = "Biểu đồ tròn: Tỷ lệ khu vực (Region)") +
theme_void()

Nhận xét
Dựa vào bảng tần số, phần lớn quan sát trong dữ liệu đến từ khu
vực North với 30400 mục, chiếm khoảng 40% tổng số quan sát. Các
khu vực East, South và West có cùng số lượng
là 15200 mục (~20%).
Biểu đồ cột thể hiện rõ rằng North là khu vực chiếm ưu
thế trong tập dữ liệu, với số lượng vượt trội so với ba khu vực còn lại.
Biểu đồ tròn giúp trực quan hóa tỷ lệ phân bổ, cho thấy phần hình tròn
của North lớn hơn đáng kể. Điều này phản ánh rằng hoạt động
hoặc tần suất giao dịch tại khu vực phía Bắc diễn ra nhiều hơn so với
các khu vực khác, trong khi East, South và
West có vai trò tương đương nhau về quy mô trong cơ cấu khu
vực.
Biến
Weather.Condition
Lập bảng tần số và tần suất
table(dataDT$Weather.Condition)
##
## Cloudy Rainy Snowy Sunny
## 24360 17500 11160 22980
table(dataDT$Weather.Condition)/sum(table(dataDT$Weather.Condition))
##
## Cloudy Rainy Snowy Sunny
## 0.3205263 0.2302632 0.1468421 0.3023684
Biểu đồ cột
weather <- as.data.frame(table(dataDT$Weather.Condition))
colnames(weather) <- c("Weather.Condition", "Frequency")
ggplot(weather, aes(x = Weather.Condition, y = Frequency, fill = Weather.Condition)) +
geom_bar(stat = "identity") +
geom_text(aes(label = Frequency), vjust = -0.5, size = 4) +
labs(title = "Biểu đồ cột: Tình trạng thời tiết (Weather.Condition)",
x = "Thời tiết",
y = "Tần số") +
theme_minimal() +
theme(legend.position = "none")

Biểu đồ tròn
weather$Percentage <- round(100 * weather$Frequency / sum(weather$Frequency), 1)
ggplot(weather, aes(x = "", y = Frequency, fill = Weather.Condition)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y", start = 0) +
labs(title = "Biểu đồ tròn: Tỷ lệ tình trạng thời tiết") +
theme_void()

Nhận xét
Dựa vào bảng tần số, phần lớn các quan sát rơi vào điều kiện thời
tiết Cloudy với 24360 mục, chiếm khoảng 32% tổng số. Theo sau
là Sunny với 22980 mục (~30%), và Rainy với 17500 mục
(~23%). Trong khi đó, điều kiện Snowy xuất hiện ít nhất với
11160 mục (~15%).
Biểu đồ cột thể hiện rõ rằng Cloudy là trạng thái thời
tiết phổ biến nhất trong dữ liệu, với số lượng vượt trội hơn hẳn các
trạng thái khác. Sunny cũng chiếm tỷ lệ lớn, chỉ thấp hơn một
chút so với Cloudy. Ngược lại, Snowy có tần suất thấp
nhất. Biểu đồ tròn giúp trực quan hóa tỷ lệ này, thể hiện rõ phần diện
tích lớn nhất thuộc về Cloudy, tiếp theo là Sunny và
Rainy. Những kết quả này cho thấy dữ liệu thu thập được chủ yếu
diễn ra trong điều kiện thời tiết nhiều mây và nắng, trong khi điều kiện
tuyết ít gặp hơn.
Biến
Seasonality
Lập bảng tần số và tần suất
table(dataDT$Seasonality)
##
## Autumn Spring Summer Winter
## 18200 18400 18400 21000
table(dataDT$Seasonality)/sum(table(dataDT$Seasonality))
##
## Autumn Spring Summer Winter
## 0.2394737 0.2421053 0.2421053 0.2763158
Biểu đồ cột
season <- as.data.frame(table(dataDT$Seasonality))
colnames(season) <- c("Season", "Frequency")
ggplot(season, aes(x = Season, y = Frequency, fill = Season)) +
geom_bar(stat = "identity") +
geom_text(aes(label = Frequency), vjust = -0.5, size = 4) +
labs(title = "Biểu đồ cột: Mùa trong năm (Seasonality)",
x = "Mùa",
y = "Tần số") +
theme_minimal() +
theme(legend.position = "none")

Biểu đồ tròn
season$Percentage <- round(100 * season$Frequency / sum(season$Frequency), 1)
ggplot(season, aes(x = "", y = Frequency, fill = Season)) +
geom_bar(stat = "identity", width = 1) +
coord_polar("y", start = 0) +
labs(title = "Biểu đồ tròn: Phân bố theo mùa (Seasonality)") +
theme_void()

Nhận xét
Dựa vào bảng tần số, phần lớn các quan sát rơi vào mùa
Winter với 21000 mục, chiếm khoảng 28% tổng số. Ba mùa
còn lại có số lượng quan sát khá gần nhau, lần lượt là
Spring và Summer với 18400 và 18400
mục (~24% và 24%), và Autumn với 18200 mục
(~24%).
Biểu đồ cột thể hiện rõ rằng Winter là mùa chiếm
tỷ lệ quan sát lớn nhất trong dữ liệu, vượt trội hơn một chút so với các
mùa còn lại. Ba mùa Spring, Summer và
Autumn có số lượng quan sát khá đồng đều, chỉ chênh
lệch nhẹ. Biểu đồ tròn trực quan hóa tỷ lệ này rất rõ ràng, với diện
tích lớn nhất thuộc về Winter, tiếp theo là ba mùa còn
lại có tỷ lệ khá tương đương nhau. Những kết quả này cho thấy dữ liệu
được thu thập trải đều trong các mùa, với một lượng quan sát nhỉnh hơn
vào mùa đông.
Biến
Epidemic
Lập bảng tần số và tần suất
table(dataDT$Epidemic)
##
## 0 1
## 60800 15200
table(dataDT$Epidemic)/sum(table(dataDT$Epidemic))
##
## 0 1
## 0.8 0.2
Biểu đồ cột
epi <- as.data.frame(table(dataDT$Epidemic))
colnames(epi) <- c("Epidemic", "Frequency")
ggplot(epi, aes(x = Epidemic, y = Frequency, fill = Epidemic)) +
geom_bar(stat = "identity") +
geom_text(aes(label = Frequency), vjust = -0.5) +
labs(title = "Tần số dịch bệnh (Epidemic)", x = "Epidemic (0=No,1=Yes)", y = "Tần số") +
theme_minimal() +
theme(legend.position = "none")

Nhận xét
Theo bảng tần số, số quan sát không có dịch bệnh (Epidemic = 0)
là 60800 mục, chiếm khoảng 80% tổng số. Các quan sát trong điều kiện có
dịch bệnh (Epidemic = 1) là 15200 mục, chiếm khoảng 20%.
Dữ liệu cho thấy phần lớn giao dịch diễn ra trong điều kiện không
có dịch bệnh, trong khi khoảng 20% giao dịch xảy ra trong bối cảnh dịch
bệnh (mô phỏng COVID-19), cho phép phân tích tác động dịch bệnh tới hoạt
động bán lẻ.
Phần 3: Ước
lượng Khoảng và Kiểm định Giả thuyết cho Tỷ lệ
Biến
Category
Mục tiêu
Thực hiện kiểm định để xác định xem tỷ lệ thuộc hạng mục
“Groceries” trong biến Category có khác biệt so với 50% hay
không.
Dữ liệu và biến quan tâm
Tính toán tỷ lệ mẫu
# Số lượng cá thể thuộc Category = "Groceries"
sumGroceries <- sum(dataDT$Category == "Groceries")
# Tổng số cá thể trong dữ liệu
totalCategory <- length(dataDT$Category)
Thực hiện kiểm định tỷ lệ 1 mẫu
Giả thuyết kiểm định:
# Kiểm định tỷ lệ 1 mẫu với giả thuyết p = 0.5
prop.test(x = sumGroceries, n = totalCategory, p = 0.5, conf.level = 0.95, correct = TRUE)
##
## 1-sample proportions test with continuity correction
##
## data: sumGroceries out of totalCategory, null probability 0.5
## X-squared = 3039.6, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3965156 0.4034945
## sample estimates:
## p
## 0.4
Kết quả kiểm định:
Giá trị thống kê Chi-squared: 3039.6
Bậc tự do (df): 1
p-value: < 2.2e-16
Khoảng tin cậy 95% cho tỷ lệ “Groceries”: (0.3965,
0.4035)
Ước lượng tỷ lệ “Groceries” từ mẫu: 0.40 (tức 40%)
Kết luận:
Với mức ý nghĩa 5%, vì p-value rất nhỏ (< 0.05), ta bác bỏ giả
thuyết H0. Điều này chứng tỏ tỷ lệ cá thể thuộc hạng mục “Groceries”
trong dữ liệu khác biệt có ý nghĩa thống kê so với tỷ lệ 50%. Cụ thể, tỷ
lệ thực tế khoảng 40%, thấp hơn đáng kể so với 50%.
Biến
Region
Mục tiêu
Thực hiện kiểm định để xác định xem tỷ lệ thuộc vùng “North”
trong biến Region có khác biệt so với 40% hay không.
Dữ liệu và biến quan tâm
Tính toán tỷ lệ mẫu
# Số lượng cá thể thuộc Region = "North"
sumNorth <- sum(dataDT$Region == "North")
# Tổng số cá thể trong dữ liệu
totalRegion <- length(dataDT$Region)
Thực hiện kiểm định tỷ lệ 1 mẫu
Giả thuyết kiểm định:
# Kiểm định tỷ lệ 1 mẫu với giả thuyết p = 0.4
prop.test(x = sumNorth, n = totalRegion, p = 0.4, conf.level = 0.95, correct = TRUE)
##
## 1-sample proportions test without continuity correction
##
## data: sumNorth out of totalRegion, null probability 0.4
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
## 0.3965222 0.4034879
## sample estimates:
## p
## 0.4
Kết quả kiểm định:
Giá trị thống kê Chi-squared: 0
Bậc tự do (df): 1
p-value: 1
Khoảng tin cậy 95% cho tỷ lệ “North”: (0.3965, 0.4035)
Ước lượng tỷ lệ “North” từ mẫu: 0.40 (tức 40%)
Kết luận:
Với mức ý nghĩa 5%, vì p-value = 1 > 0.05, ta không bác bỏ giả
thuyết H0. Điều này cho thấy tỷ lệ cá thể thuộc vùng “North” trong dữ
liệu không khác biệt có ý nghĩa thống kê so với tỷ lệ 40%. Tỷ lệ thực tế
ước lượng là 40%, phù hợp với tỉ lệ giả định.
PHẦN 4: PHÂN
TÍCH MỐI QUAN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH
Cặp biến
Weather.Condition và Region
Thống kê mô
tả cặp biến Weather.Condition và Region
Bảng tần số chéo
weather_region <- table(dataDT$Weather.Condition, dataDT$Region)
weather_region
##
## East North South West
## Cloudy 4920 9440 5260 4740
## Rainy 3580 7480 3320 3120
## Snowy 2400 4280 2140 2340
## Sunny 4300 9200 4480 5000
Nhận xét
Điều kiện thời tiết Cloudy (nhiều
mây): Xuất hiện phổ biến nhất ở vùng North với
9440 lượt quan sát, gần gấp đôi so với các vùng khác
như East (4920), South (5260), và
West (4740).
Thời tiết Rainy (mưa): Cũng có tần
suất cao nhất ở vùng North (7480
lượt), trong khi các vùng East, South,
và West dao động từ 3120 đến
3580 lượt.
Thời tiết Snowy (tuyết): Chủ yếu
tập trung ở vùng North (4280), cao gần
gấp đôi so với vùng South (2140) –
điều này phản ánh đặc điểm khí hậu lạnh hơn của miền Bắc.
Thời tiết Sunny (nắng): Ghi nhận số
lượng lớn ở North (9200) và
West (5000), trong khi hai vùng còn
lại – East (4300) và
South (4480) – có số lượng gần tương
đương.
So sánh giữa các vùng:
North là vùng có số lượng quan sát cao nhất ở
tất cả các loại thời tiết. Điều này có thể cho
thấy:
Đây là khu vực được quan sát, thu thập dữ liệu nhiều
hơn.
Hoặc khí hậu nơi đây đa dạng và biến động rõ rệt theo
mùa.
South và West có số lượng quan
sát thấp hơn, đặc biệt là với thời tiết Snowy, có thể liên
quan đến đặc điểm khí hậu ấm hơn, ít tuyết hơn so với
các vùng còn lại.
Bảng tần suất chéo
prop.table(weather_region)
##
## East North South West
## Cloudy 0.06473684 0.12421053 0.06921053 0.06236842
## Rainy 0.04710526 0.09842105 0.04368421 0.04105263
## Snowy 0.03157895 0.05631579 0.02815789 0.03078947
## Sunny 0.05657895 0.12105263 0.05894737 0.06578947
Nhận xét bảng tần suất chéo
Weather.Condition = Cloudy (nhiều mây): Chiếm tỷ
lệ cao nhất tại vùng North (12.42%), cao hơn đáng kể so
với các vùng South (6.92%), East
(6.47%), và West (6.24%). Điều này cho thấy thời tiết
nhiều mây xảy ra thường xuyên hơn ở khu vực miền Bắc.
Weather.Condition = Rainy (mưa): Vẫn ghi nhận tỷ
lệ cao nhất tại vùng North (9.84%), trong khi ba vùng
còn lại dao động thấp hơn: East (4.71%),
South (4.37%), West (4.11%).
Weather.Condition = Snowy (tuyết): Rõ ràng tập
trung nhiều ở North (5.63%), cao hơn gần gấp đôi so với
South (2.82%) và nhỉnh hơn các vùng
East (3.16%), West (3.08%). Điều này
phù hợp với đặc điểm khí hậu lạnh ở miền Bắc.
Weather.Condition = Sunny (nắng): Vùng
North vẫn dẫn đầu với tỷ lệ 12.11%,
tiếp theo là West (6.58%), South
(5.89%) và East (5.66%).
So sánh tổng thể giữa các vùng:
North là vùng có tỷ lệ xuất hiện cao nhất ở
mọi điều kiện thời tiết, chiếm ưu thế rõ rệt, phản ánh
sự đa dạng khí hậu hoặc mức độ ghi nhận dữ liệu lớn hơn so với các vùng
khác.
Các vùng East, South, và
West có phân bố khá tương đồng và thấp hơn đáng kể so
với North, đặc biệt ở các điều kiện như
Rainy và Snowy.
Nhìn chung, North là vùng nổi bật với tần suất thời
tiết đa dạng và cao, trong khi các vùng khác có mức xuất hiện đều và
thấp hơn, phản ánh sự khác biệt về điều kiện tự nhiên hoặc quy mô thu
thập dữ liệu.
Vẽ đồ thị
df_weather_region <- as.data.frame(weather_region)
colnames(df_weather_region) <- c("Weather.Condition", "Region", "Count")
ggplot(df_weather_region, aes(x = Region, y = Count, fill = Weather.Condition)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Số lượng quan sát theo Region và Weather.Condition",
x = "Region", y = "Count") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))

Kiểm định
thống kê
Giả thuyết kiểm định::
Thực hiện kiểm định Chi- bình phương
chisq_result <- chisq.test(weather_region)
chisq_result
##
## Pearson's Chi-squared test
##
## data: weather_region
## X-squared = 216.45, df = 9, p-value < 2.2e-16
Kết quả kiểm định Chi-squared
Kết luận
Vì giá trị p rất nhỏ (p-value < 0.05), ta bác bỏ giả thuyết không
(H0). Điều này cho thấy có mối liên hệ có ý nghĩa thống kê giữa điều
kiện thời tiết (Weather.Condition) và vùng miền
(Region).
Cặp biến
region và epidemic
Tính Relative Risk
library(epitools)
# 1. Lọc dữ liệu chỉ lấy 2 vùng North và South
subset_data <- subset(dataDT, Region %in% c("North", "South"))
subset_data$Region <- droplevels(subset_data$Region)
# 2. Tạo bảng tần số chéo
region_epidemic <- table(subset_data$Region, subset_data$Epidemic)
addmargins(region_epidemic)
##
## 0 1 Sum
## North 24320 6080 30400
## South 12160 3040 15200
## Sum 36480 9120 45600
# 3. Tính Rủi ro tương đối (Relative Risk)
riskratio(region_epidemic)
## $data
##
## 0 1 Total
## North 24320 6080 30400
## South 12160 3040 15200
## Total 36480 9120 45600
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## North 1 NA NA
## South 1 0.9618079 1.039709
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## North NA NA NA
## South 0.9993396 1 1
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Kết quả tính Rủi ro tương đối (Relative Risk)
Rủi ro mắc dịch ở North = 6,080 / 30,400 =
0.20
Rủi ro mắc dịch ở South = 3,040 / 15,200 =
0.20
RR (South so với North) = 1.000
→ Khoảng tin cậy 95%: [0.9618 ; 1.0397]
Giá trị p-value = 0.999 (từ kiểm định Fisher’s
Exact và Chi-squared)
Kết luận và Nhận xét
Rủi ro tương đối (RR = 1) cho thấy khả năng mắc dịch (Epidemic =
1) giữa hai vùng North và South là
tương đương.
Khoảng tin cậy 95% của RR bao gồm 1 → Không có sự khác biệt có ý
nghĩa thống kê.
Giá trị p-value cao (p ≈ 1) → Không bác bỏ giả thuyết H₀, tức là
không có mối liên hệ đáng kể giữa vùng miền (Region) và tình trạng dịch
bệnh (Epidemic) trong hai khu vực này.
Tính odd và oddratio
# 4. Tính Odds và Odds Ratio thủ công
odd_North <- region_epidemic["North", "1"] / region_epidemic["North", "0"]
odd_South <- region_epidemic["South", "1"] / region_epidemic["South", "0"]
cat("Odds (North):", odd_North, "\n")
## Odds (North): 0.25
cat("Odds (South):", odd_South, "\n")
## Odds (South): 0.25
odds_ratio <- odd_South / odd_North
cat("Odds Ratio (South vs. North):", odds_ratio, "\n")
## Odds Ratio (South vs. North): 1
# 5. Hoặc dùng epitools để tính Odds Ratio kèm khoảng tin cậy
oddsratio(region_epidemic, method = "midp")
## $data
##
## 0 1 Total
## North 24320 6080 30400
## South 12160 3040 15200
## Total 36480 9120 45600
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## North 1.000000 NA NA
## South 1.000022 0.9524335 1.049819
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## North NA NA NA
## South 0.9993396 1 1
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Kết luận và Nhận xét
Odds mắc dịch giữa hai vùng North và
South là bằng nhau (OR = 1), cho thấy khả năng mắc dịch
tương đương.
Khoảng tin cậy 95% của Odds Ratio bao gồm 1 → không có sự khác
biệt có ý nghĩa thống kê.
Giá trị p-value rất cao (p ≈ 1) → không có bằng chứng bác bỏ giả
thuyết H₀, tức không có mối liên hệ đáng kể giữa vùng miền (Region) và
tình trạng dịch bệnh (Epidemic) trong hai khu vực này.
