Cuốn sách này tập trung vào các mô hình thống kê, với trọng tâm là mô hình hồi quy tuyến tính và mở rộng sang mô hình tuyến tính tổng quát (Generalized Linear Models - GLMs).Nội dung chính của sách cũng nhấn mạnh việc sử dụng phần mềm R để thực hiện các phân tích.Cuốn sách có các mục chính như sau
Tóm lại, cuốn sách “Generalized Linear Models With Examples in R” cung cấp một cái nhìn chi tiết về mô hình hồi quy tuyến tính và các mô hình tuyến tính tổng quát. Nó bao gồm lý thuyết về cấu trúc mô hình, các họ phân phối (đặc biệt là EDMs và Tweedie), các phương pháp ước lượng và kiểm định giả thuyết (bao gồm Wald, Score, LLR, Pearson), và đặc biệt chú trọng vào việc chẩn đoán mô hình cũng như các kỹ thuật xây dựng mô hình. Xuyên suốt cuốn sách, việc sử dụng phần mềm R được tích hợp sâu rộng thông qua nhiều ví dụ thực tế và nghiên cứu tình huống từ nhiều lĩnh vực khác nhau
dulieu <- read.csv("C:/Users/Welcome !/Downloads/Supermarket Transactions.csv")
# Liệt kê các biến định tính
categorical_vars <- c("Gender", "MaritalStatus", "Homeowner", "AnnualIncome",
"City", "StateorProvince", "Country",
"ProductFamily", "ProductDepartment", "ProductCategory")
# Thống kê mô tả cho từng biến định tính
for (var in categorical_vars) {
cat("===== Thống kê mô tả cho biến:", var, "=====\n")
print(table(dulieu[[var]]))
cat("\nTỷ lệ phần trăm:\n")
print(round(prop.table(table(dulieu[[var]])) * 100, 2))
cat("\n\n")
}
## ===== Thống kê mô tả cho biến: Gender =====
##
## F M
## 7170 6889
##
## Tỷ lệ phần trăm:
##
## F M
## 51 49
##
##
## ===== Thống kê mô tả cho biến: MaritalStatus =====
##
## M S
## 6866 7193
##
## Tỷ lệ phần trăm:
##
## M S
## 48.84 51.16
##
##
## ===== Thống kê mô tả cho biến: Homeowner =====
##
## N Y
## 5615 8444
##
## Tỷ lệ phần trăm:
##
## N Y
## 39.94 60.06
##
##
## ===== Thống kê mô tả cho biến: AnnualIncome =====
##
## $10K - $30K $110K - $130K $130K - $150K $150K + $30K - $50K
## 3090 643 760 273 4601
## $50K - $70K $70K - $90K $90K - $110K
## 2370 1709 613
##
## Tỷ lệ phần trăm:
##
## $10K - $30K $110K - $130K $130K - $150K $150K + $30K - $50K
## 21.98 4.57 5.41 1.94 32.73
## $50K - $70K $70K - $90K $90K - $110K
## 16.86 12.16 4.36
##
##
## ===== Thống kê mô tả cho biến: City =====
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 383 143 811 834 452
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 75 845 926 654 194
## Orizaba Portland Salem San Andres San Diego
## 464 876 1386 621 866
## San Francisco Seattle Spokane Tacoma Vancouver
## 130 922 875 1257 633
## Victoria Walla Walla Yakima
## 176 160 376
##
## Tỷ lệ phần trăm:
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 2.72 1.02 5.77 5.93 3.22
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 0.53 6.01 6.59 4.65 1.38
## Orizaba Portland Salem San Andres San Diego
## 3.30 6.23 9.86 4.42 6.16
## San Francisco Seattle Spokane Tacoma Vancouver
## 0.92 6.56 6.22 8.94 4.50
## Victoria Walla Walla Yakima
## 1.25 1.14 2.67
##
##
## ===== Thống kê mô tả cho biến: StateorProvince =====
##
## BC CA DF Guerrero Jalisco OR Veracruz WA
## 809 2733 815 383 75 2262 464 4567
## Yucatan Zacatecas
## 654 1297
##
## Tỷ lệ phần trăm:
##
## BC CA DF Guerrero Jalisco OR Veracruz WA
## 5.75 19.44 5.80 2.72 0.53 16.09 3.30 32.48
## Yucatan Zacatecas
## 4.65 9.23
##
##
## ===== Thống kê mô tả cho biến: Country =====
##
## Canada Mexico USA
## 809 3688 9562
##
## Tỷ lệ phần trăm:
##
## Canada Mexico USA
## 5.75 26.23 68.01
##
##
## ===== Thống kê mô tả cho biến: ProductFamily =====
##
## Drink Food Non-Consumable
## 1250 10153 2656
##
## Tỷ lệ phần trăm:
##
## Drink Food Non-Consumable
## 8.89 72.22 18.89
##
##
## ===== Thống kê mô tả cho biến: ProductDepartment =====
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 356 425 1072 680
## Breakfast Foods Canned Foods Canned Products Carousel
## 188 977 109 59
## Checkout Dairy Deli Eggs
## 82 903 699 198
## Frozen Foods Health and Hygiene Household Meat
## 1382 893 1420 89
## Periodicals Produce Seafood Snack Foods
## 202 1994 102 1600
## Snacks Starchy Foods
## 352 277
##
## Tỷ lệ phần trăm:
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 2.53 3.02 7.63 4.84
## Breakfast Foods Canned Foods Canned Products Carousel
## 1.34 6.95 0.78 0.42
## Checkout Dairy Deli Eggs
## 0.58 6.42 4.97 1.41
## Frozen Foods Health and Hygiene Household Meat
## 9.83 6.35 10.10 0.63
## Periodicals Produce Seafood Snack Foods
## 1.44 14.18 0.73 11.38
## Snacks Starchy Foods
## 2.50 1.97
##
##
## ===== Thống kê mô tả cho biến: ProductCategory =====
##
## Baking Goods Bathroom Products Beer and Wine
## 484 365 356
## Bread Breakfast Foods Candles
## 425 417 45
## Candy Canned Anchovies Canned Clams
## 352 44 53
## Canned Oysters Canned Sardines Canned Shrimp
## 35 40 38
## Canned Soup Canned Tuna Carbonated Beverages
## 404 87 154
## Cleaning Supplies Cold Remedies Dairy
## 189 93 903
## Decongestants Drinks Eggs
## 85 135 198
## Electrical Frozen Desserts Frozen Entrees
## 355 323 118
## Fruit Hardware Hot Beverages
## 765 129 226
## Hygiene Jams and Jellies Kitchen Products
## 197 588 217
## Magazines Meat Miscellaneous
## 202 761 42
## Packaged Vegetables Pain Relievers Paper Products
## 48 192 345
## Pizza Plastic Products Pure Juice Beverages
## 194 141 165
## Seafood Side Dishes Snack Foods
## 102 153 1600
## Specialty Starchy Foods Vegetables
## 289 277 1728
##
## Tỷ lệ phần trăm:
##
## Baking Goods Bathroom Products Beer and Wine
## 3.44 2.60 2.53
## Bread Breakfast Foods Candles
## 3.02 2.97 0.32
## Candy Canned Anchovies Canned Clams
## 2.50 0.31 0.38
## Canned Oysters Canned Sardines Canned Shrimp
## 0.25 0.28 0.27
## Canned Soup Canned Tuna Carbonated Beverages
## 2.87 0.62 1.10
## Cleaning Supplies Cold Remedies Dairy
## 1.34 0.66 6.42
## Decongestants Drinks Eggs
## 0.60 0.96 1.41
## Electrical Frozen Desserts Frozen Entrees
## 2.53 2.30 0.84
## Fruit Hardware Hot Beverages
## 5.44 0.92 1.61
## Hygiene Jams and Jellies Kitchen Products
## 1.40 4.18 1.54
## Magazines Meat Miscellaneous
## 1.44 5.41 0.30
## Packaged Vegetables Pain Relievers Paper Products
## 0.34 1.37 2.45
## Pizza Plastic Products Pure Juice Beverages
## 1.38 1.00 1.17
## Seafood Side Dishes Snack Foods
## 0.73 1.09 11.38
## Specialty Starchy Foods Vegetables
## 2.06 1.97 12.29
# Thống kê số lượng và tỷ lệ phần trăm
gender_freq <- table(dulieu$Gender)
gender_percent <- round(prop.table(gender_freq) * 100, 2)
# Kết hợp thành bảng tổng hợp
summary_gender <- data.frame(
Category = names(gender_freq),
Count = as.vector(gender_freq),
Percentage = as.vector(gender_percent)
)
categorical_vars <- c("Gender", "MaritalStatus", "Homeowner", "AnnualIncome")
# Tạo danh sách màu cho từng biến
color_list <- list(
Gender = c("#f5f5f5", "#73c6b6"),
MaritalStatus = c("#ff9999", "#66b2ff", "#99ff99"),
Homeowner = c("#ffcc99", "#66cc99"),
AnnualIncome = c("#a6cee3", "#1f78b4", "#b2df8a", "#33a02c")
)
for (var in categorical_vars) {
freq <- table(dulieu[[var]])
percent <- round(prop.table(freq) * 100, 2)
pie(
freq,
labels = paste0(names(freq), ": ", percent, "%"),
main = paste("Biểu đồ tròn thể hiện tỷ lệ phần trăm các quan sát của biến", var),
col = color_list[[var]][1:length(freq)]
)
}
library(ggplot2)
ggplot(dulieu, aes(x = AnnualIncome)) +
geom_bar(fill = "steelblue") +
labs(title = "Biểu đồ cột phân phối Annual Income", x = "Annual Income", y = "Số lượng") +
theme_minimal()