1 1. Thông tin cơ bản của dữ liệu

1.1 1.1. Đọc dữ liệu

Bộ dữ liệu “UK Car Accidents 2005–2015” ghi lại các vụ tai nạn giao thông xảy ra tại Vương quốc Anh trong giai đoạn 2005–2015, được công bố bởi Bộ Giao thông Vận tải (Department for Transport - DfT). ## 1.2. Xác định số quan sát và số biến

## [1] 1780653      32

Kết quả cho thấy số dòng là số quan sát (vụ tai nạn), số cột là số biến (thuộc tính mô tả vụ tai nạn). Bộ dữ liệu này có 1780653 quan sát và 32 biến. ## 1.3. Phân loại kiểu dữ liệu

## 'data.frame':    1780653 obs. of  32 variables:
##  $ Accident_Index                             : chr  "200501BS00001" "200501BS00002" "200501BS00003" "200501BS00004" ...
##  $ Location_Easting_OSGR                      : int  525680 524170 524520 526900 528060 524770 524220 525890 527350 524550 ...
##  $ Location_Northing_OSGR                     : int  178240 181650 182240 177530 179040 181160 180830 179710 177650 180810 ...
##  $ Longitude                                  : num  -0.191 -0.212 -0.206 -0.174 -0.157 ...
##  $ Latitude                                   : num  51.5 51.5 51.5 51.5 51.5 ...
##  $ Police_Force                               : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Accident_Severity                          : int  2 3 3 3 3 3 3 3 3 3 ...
##  $ Number_of_Vehicles                         : int  1 1 2 1 1 2 2 1 2 2 ...
##  $ Number_of_Casualties                       : int  1 1 1 1 1 1 1 2 2 5 ...
##  $ Date                                       : chr  "04/01/2005" "05/01/2005" "06/01/2005" "07/01/2005" ...
##  $ Day_of_Week                                : int  3 4 5 6 2 3 5 6 7 7 ...
##  $ Time                                       : chr  "17:42" "17:36" "00:15" "10:35" ...
##  $ Local_Authority_.District.                 : int  12 12 12 12 12 12 12 12 12 12 ...
##  $ Local_Authority_.Highway.                  : chr  "E09000020" "E09000020" "E09000020" "E09000020" ...
##  $ X1st_Road_Class                            : int  3 4 5 3 6 6 5 3 3 4 ...
##  $ X1st_Road_Number                           : int  3218 450 0 3220 0 0 0 315 3212 450 ...
##  $ Road_Type                                  : int  6 3 6 6 6 6 6 3 6 6 ...
##  $ Speed_limit                                : int  30 30 30 30 30 30 30 30 30 30 ...
##  $ Junction_Detail                            : int  0 6 0 0 0 0 3 0 6 3 ...
##  $ Junction_Control                           : int  -1 2 -1 -1 -1 -1 4 -1 2 4 ...
##  $ X2nd_Road_Class                            : int  -1 5 -1 -1 -1 -1 6 -1 4 5 ...
##  $ X2nd_Road_Number                           : int  0 0 0 0 0 0 0 0 304 0 ...
##  $ Pedestrian_Crossing.Human_Control          : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ Pedestrian_Crossing.Physical_Facilities    : int  1 5 0 0 0 0 0 0 5 8 ...
##  $ Light_Conditions                           : int  1 4 4 1 7 1 4 1 4 1 ...
##  $ Weather_Conditions                         : int  2 1 1 1 1 2 1 1 1 1 ...
##  $ Road_Surface_Conditions                    : int  2 1 1 1 2 2 1 1 1 1 ...
##  $ Special_Conditions_at_Site                 : int  0 0 0 0 0 6 0 0 0 0 ...
##  $ Carriageway_Hazards                        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ Urban_or_Rural_Area                        : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Did_Police_Officer_Attend_Scene_of_Accident: int  1 1 1 1 1 1 1 1 1 1 ...
##  $ LSOA_of_Accident_Location                  : chr  "E01002849" "E01002909" "E01002857" "E01002840" ...

ộ dữ liệu gồm 32 biến, trong đó có 4 biến định tính dạng chuỗi (Accident_Index, Date, Local_Authority_(Highway), LSOA_of_Accident_Location) và 28 biến còn lại là biến định lượng. ## 1.4. Kiểm tra giá trị bị thiếu

##                              Accident_Index 
##                                           0 
##                       Location_Easting_OSGR 
##                                         138 
##                      Location_Northing_OSGR 
##                                         138 
##                                   Longitude 
##                                         138 
##                                    Latitude 
##                                         138 
##                                Police_Force 
##                                           0 
##                           Accident_Severity 
##                                           0 
##                          Number_of_Vehicles 
##                                           0 
##                        Number_of_Casualties 
##                                           0 
##                                        Date 
##                                           0 
##                                 Day_of_Week 
##                                           0 
##                                        Time 
##                                           0 
##                  Local_Authority_.District. 
##                                           0 
##                   Local_Authority_.Highway. 
##                                           0 
##                             X1st_Road_Class 
##                                           0 
##                            X1st_Road_Number 
##                                           0 
##                                   Road_Type 
##                                           0 
##                                 Speed_limit 
##                                           0 
##                             Junction_Detail 
##                                           0 
##                            Junction_Control 
##                                           0 
##                             X2nd_Road_Class 
##                                           0 
##                            X2nd_Road_Number 
##                                           0 
##           Pedestrian_Crossing.Human_Control 
##                                           0 
##     Pedestrian_Crossing.Physical_Facilities 
##                                           0 
##                            Light_Conditions 
##                                           0 
##                          Weather_Conditions 
##                                           0 
##                     Road_Surface_Conditions 
##                                           0 
##                  Special_Conditions_at_Site 
##                                           0 
##                         Carriageway_Hazards 
##                                           0 
##                         Urban_or_Rural_Area 
##                                           0 
## Did_Police_Officer_Attend_Scene_of_Accident 
##                                           0 
##                   LSOA_of_Accident_Location 
##                                           0
## [1] 552

Bộ dữ liệu nhìn chung khá đầy đủ, phần lớn các biến không xuất hiện giá trị thiếu. Tuy vậy, vẫn có một số ngoại lệ: các biến tọa độ địa lý như Location_Easting_OSGR, Location_Northing_OSGR, Longitude, Latitude cùng với biến Time có vài trăm quan sát bị khuyết, mức độ này không lớn nên ít ảnh hưởng đến kết quả tổng thể. ## 1.5. Số quan sát bị trùng lặp

## [1] 0
## [1] 1780653

Dữ liệu không có quan sát nào bị trùng lặp. ## 1.6. Giải thích ý nghĩa các biến chính Accident_Index: Mã định danh duy nhất cho từng vụ tai nạn Accident_Severity: Mức độ nghiêm trọng của tai nạn (Slight, Serious, Fatal) Number_of_Vehicles: Số lượng phương tiện liên quan Number_of_Casualties: Số người bị thương hoặc tử vong Date: Ngày xảy ra tai nạn Time: Giờ xảy ra tai nạn Weather_Conditions: Thời tiết tại thời điểm tai nạn Road_Type: Loại đường (một chiều, hai chiều, vòng xoay, v.v.) Speed_limit: Giới hạn tốc độ tại khu vực xảy ra tai nạn Light_Conditions: Điều kiện ánh sáng (ban ngày, đêm, đèn đường, v.v.) Urban_or_Rural_Area: Phân loại khu vực (Đô thị/Nông thôn) # 2. Phân tổ các biến ## 2.1. Phân tổ theo thời gian: theo năm và ngày trong tuần

## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:data.table':
## 
##     between, first, last
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
## Attaching package: 'lubridate'
## The following objects are masked from 'package:data.table':
## 
##     hour, isoweek, mday, minute, month, quarter, second, wday, week,
##     yday, year
## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union
Số vụ tai nạn giao thông giảm dần theo thời gian: từ mức xấp xỉ 30 nghìn vụ/ngày (2005) xuống còn dưới 20 nghìn vụ/ngày (2015). Xu hướng này cho thấy các chính sách an toàn giao thông và nâng cấp hạ tầng đã có tác động tích cực, giúp giảm thiểu tai nạn theo năm. ## 2.2. Phân tổ theo số phương tiện tham gia
Đa số tai nạn giao thông xảy ra trong tình huống va chạm giữa 2 phương tiện (thường là xe đối đầu hoặc va chạm khi qua đường). Tai nạn liên quan đến nhiều phương tiện cùng lúc ít xảy ra, và thường chỉ thấy trong các vụ nghiêm trọng như tai nạn liên hoàn trên đường cao tốc. # 3. Phân tích biến

Phân tích dữ liệu cho thấy sự khác biệt rõ giữa đô thị và nông thôn về mức độ nghiêm trọng của tai nạn giao thông. Ở đô thị, số vụ tai nạn nhiều nhưng chủ yếu là nhẹ (khoảng 87%), trong khi tai nạn nghiêm trọng và tử vong chiếm tỷ lệ rất nhỏ. Ngược lại, tại nông thôn, dù số vụ ít hơn nhưng tỷ lệ nghiêm trọng (16%) và tử vong (hơn 2%) lại cao hơn hẳn, phản ánh đặc thù giao thông: đô thị đông đúc, tốc độ thấp dẫn đến va chạm nhẹ, còn nông thôn tốc độ cao nên tai nạn thường nặng nề hơn.