An ninh xã hội rất quan trọng đối với sức khỏe và hạnh phúc cộng đồng, và an toàn của bang có thể là yếu tố quyết định trong việc quyết định nơi tái định cư của gia đình bạn. Bản đồ cho thấy Mattapan, Roxbury và Dorchester đã có nhiều vụ tấn công nghiêm trọng hơn các khu vực lân cận khác. Roxbury, trung tâm thành phố và Dorchester có nhiều vụ cướp hơn các khu vực khác trong thành phố. Back Bay, South End và trung tâm thành phố chịu nhiều tiếng cười. Trong năm 2017, tỷ lệ tội phạm bạo lực ở Massachusetts đã giảm năm thứ sáu liên tiếp và giảm xuống dưới mức quốc gia lần thứ hai kể từ năm 2016, theo thống kê của FBI.
Trong năm 2017, đã có 358 vụ phạm tội bạo lực trên 100.000 người ở Massachusetts, so với tỷ lệ quốc gia là 394 trên 100.000 người, theo dữ liệu được công bố vào cuối tháng 9. FBI định nghĩa tội phạm bạo lực là giết người, hiếp dâm, cướp, và tấn công nghiêm trọng . Văn phòng cho biết họ tính toán tỷ lệ tội phạm bằng cách sử dụng số liệu do các cơ quan thực thi pháp luật tự nguyện cung cấp, và ước tính số liệu khi nó không nhận được một dữ liệu hoàn chỉnh trong một năm.
Đường dẫn: https://www.kaggle.com/ankkur13/boston-crime-data Bộ dữ liệu Báo cáo sự cố tội phạm là một chương trình trực quan dữ liệu mở do chính quyền Boston dẫn đầu để ghi lại các chi tiết ban đầu xung quanh một vụ việc mà các sĩ quan của Sở Cảnh sát Boston (BPD) phản ứng. Bộ dữ liệu chứa các hồ sơ từ hệ thống báo cáo sự cố tội phạm mới của chính phủ Boston, bao gồm một tập hợp các lĩnh vực giảm tập trung vào việc nắm bắt loại sự cố cũng như thời điểm và nơi xảy ra. Chính phủ Boston đã chủ động cải thiện thành phố Boston bằng cách phát hành nguồn dữ liệu của mình cho công chúng. Trong vài thập kỷ qua, cách chúng ta nhìn vào lĩnh vực khí hậu, di truyền, thể thao, đã bị thay đổi đáng kể do những tiến bộ công nghệ dữ liệu lớn; tương tự, cách thức dữ liệu tội phạm theo truyền thống của các cơ quan thực thi pháp luật cũng đã thay đổi, dự đoán tội phạm là một xu hướng thích hợp trong thời đại này.
Bộ dữ liệu bắt đầu từ tháng 8 năm 2015 đến ngày 21 tháng 12 năm 2018 (ngày đầu tiên của mùa đông), tính đến ngày 21 tháng 12 năm 2018, có gần 300k sự cố và 17 biến; từ các loại vi phạm, khu vực báo cáo và khu vực báo cáo, ngày xảy ra, đường phố, và kinh độ và vĩ độ của vụ việc. Kích thước của tập dữ liệu là ….mb.
Thực hiện phân tích tội phạm trên bộ dữ liệu Boston sẽ giúp không chỉ tôi mà cả những người sống ở đây xác định và phân tích các mô hình trong các vụ việc tội phạm ở Boston. Tôi tin rằng kết quả phân tích này có thể hữu ích cho các cơ quan thực thi pháp luật trong cách họ triển khai các tài nguyên của họ và hỗ trợ xác định và bắt giữ các nghi phạm. Cuối cùng nhưng không kém phần quan trọng, nó sẽ giúp nhiều người quốc tế cư trú tại Boston, hiểu rõ hơn về thành phố Boston.
Tôi dự định khám phá các sự cố ngược thời gian và khai thác các mẫu theo thời gian và địa điểm và để thể hiện trực quan các kết quả này. Những kết quả này không chỉ có khả năng mang lại lợi ích cho cơ quan thực thi pháp luật, mà còn có thể có lợi cho cư dân Boston để xem và hiểu nơi và tần suất xảy ra tội phạm trong khu phố của họ. Tôi hy vọng rằng bằng cách hiểu tần suất sự cố trong một khu phố, cư dân có thể chủ động về cách họ báo cáo sự cố. ## Một số phương pháp thống kê * Thống kê mô tả: Mô tả các trường dữ liệu, vẽ bảng, biểu đồ * Thống kê phân tích: thực hiện các test thống kê (t-test, anova, chi-square), hồi quy tuyến tính, hồi quy logistic, hồi uy Poisson. * Dự đoán: Phân tích time series và một số thuật toán Machine Learning
Sử dụng R, RStudio, một số thư viện như: tidyverse (nhập dữ liệu,làm sạch, biến đổi, biểu đồ), summarytools (thống kê mô tả) (Sẽ bổ sung vào các buổi sau)
[1] 327820 17
Lệnh summary
INCIDENT_NUMBER OFFENSE_CODE OFFENSE_CODE_GROUP Length:327820 Length:327820 Length:327820
Class :character Class :character Class :character
Mode :character Mode :character Mode :character
OFFENSE_DESCRIPTION DISTRICT REPORTING_AREA SHOOTING
Length:327820 Length:327820 Min. : 0.0 Mode:logical
Class :character Class :character 1st Qu.:177.0 NA’s:327820
Mode :character Mode :character Median :343.0
Mean :383.2
3rd Qu.:544.0
Max. :962.0
NA’s :20920
OCCURRED_ON_DATE YEAR MONTH
Min. :2015-06-15 00:00:00 Min. :2015 Min. : 1.000
1st Qu.:2016-04-20 09:43:45 1st Qu.:2016 1st Qu.: 4.000
Median :2017-02-14 15:49:00 Median :2017 Median : 7.000
Mean :2017-02-10 07:26:53 Mean :2017 Mean : 6.672
3rd Qu.:2017-11-30 18:23:45 3rd Qu.:2017 3rd Qu.: 9.000
Max. :2018-10-03 20:49:00 Max. :2018 Max. :12.000
DAY_OF_WEEK HOUR UCR_PART STREET
Length:327820 Min. : 0.00 Length:327820 Length:327820
Class :character 1st Qu.: 9.00 Class :character Class :character
Mode :character Median :14.00 Mode :character Mode :character
Mean :13.11
3rd Qu.:18.00
Max. :23.00
Lat Long Location
Min. :-1.00 Min. :-71.18 Length:327820
1st Qu.:42.30 1st Qu.:-71.10 Class :character
Median :42.33 Median :-71.08 Mode :character
Mean :42.21 Mean :-70.91
3rd Qu.:42.35 3rd Qu.:-71.06
Max. :42.40 Max. : -1.00
NA’s :20632 NA’s :20632
Summary tools
crime
Dimensions: 327820 x 17
Duplicates: 0
| No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Missing |
|---|---|---|---|---|---|
| 1 | INCIDENT_NUMBER [character] |
1. I162030584 2. I152080623 3. I172013170 4. I172096394 5. I182065208 6. I162001871 7. I162071327 8. I162098170 9. I172022524 10. I172054429 [ 290146 others ] |
13 ( 0.0%) 11 ( 0.0%) 10 ( 0.0%) 10 ( 0.0%) 10 ( 0.0%) 9 ( 0.0%) 9 ( 0.0%) 9 ( 0.0%) 9 ( 0.0%) 9 ( 0.0%) 327721 (100.0%) |
0 (0%) |
|
| 2 | OFFENSE_CODE [character] |
1. 03006 2. 03115 3. 03831 4. 01402 5. 00802 6. 03301 7. 03410 8. 03114 9. 02647 10. 00617 [ 253 others ] |
19360 ( 5.9%) 19172 ( 5.8%) 16730 ( 5.1%) 15540 ( 4.7%) 15191 ( 4.6%) 13478 ( 4.1%) 11632 ( 3.5%) 11442 ( 3.5%) 9343 ( 2.9%) 9293 ( 2.8%) 186639 (56.9%) |
0 (0%) |
|
| 3 | OFFENSE_CODE_GROUP [character] |
1. Motor Vehicle Accident Re 2. Larceny 3. Medical Assistance 4. Investigate Person 5. Other 6. Drug Violation 7. Simple Assault 8. Vandalism 9. Verbal Disputes 10. Towed [ 57 others ] |
38134 (11.6%) 26670 ( 8.1%) 24226 ( 7.4%) 19176 ( 5.8%) 18612 ( 5.7%) 17037 ( 5.2%) 16263 ( 5.0%) 15810 ( 4.8%) 13478 ( 4.1%) 11632 ( 3.5%) 126782 (38.7%) |
0 (0%) |
|
| 4 | OFFENSE_DESCRIPTION [character] |
1. SICK/INJURED/MEDICAL - PE 2. INVESTIGATE PERSON 3. M/V - LEAVING SCENE - PRO 4. VANDALISM 5. ASSAULT SIMPLE - BATTERY 6. VERBAL DISPUTE 7. TOWED MOTOR VEHICLE 8. INVESTIGATE PROPERTY 9. THREATS TO DO BODILY HARM 10. LARCENY THEFT FROM BUILDI [ 230 others ] |
19360 ( 6.1%) 19180 ( 6.0%) 16730 ( 5.2%) 15542 ( 4.9%) 15191 ( 4.8%) 13478 ( 4.2%) 11632 ( 3.6%) 11443 ( 3.6%) 9346 ( 2.9%) 9293 ( 2.9%) 177845 (55.7%) |
0 (0%) |
|
| 5 | DISTRICT [character] |
1. B2 2. C11 3. D4 4. A1 5. B3 6. C6 7. D14 8. E13 9. E18 10. A7 [ 2 others ] |
51288 (15.7%) 43817 (13.4%) 43338 (13.3%) 36735 (11.3%) 36400 (11.2%) 24190 ( 7.4%) 20632 ( 6.3%) 17981 ( 5.5%) 17825 ( 5.5%) 13634 ( 4.2%) 20206 ( 6.2%) |
1774 (0.54%) |
|
| 6 | REPORTING_AREA [numeric] |
Mean (sd) : 383.2 (242) min < med < max: 0 < 343 < 962 IQR (CV) : 367 (0.6) |
879 distinct values | 20920 (6.38%) |
|
| 7 | SHOOTING [logical] |
All NA’s | 327820 (100%) |
||
| 8 | OCCURRED_ON_DATE [POSIXct, POSIXt] |
min : 2015-06-15 med : 2017-02-14 15:49:00 max : 2018-10-03 20:49:00 range : 3y 3m 18d 20H 49M 0S |
239364 distinct values | 0 (0%) |
|
| 9 | YEAR [numeric] |
Mean (sd) : 2016.6 (1) min < med < max: 2015 < 2017 < 2018 IQR (CV) : 1 (0) |
2015 : 53392 (16.3%) 2016 : 99134 (30.2%) 2017 : 100938 (30.8%) 2018 : 74356 (22.7%) |
0 (0%) |
|
| 10 | MONTH [numeric] |
Mean (sd) : 6.7 (3.3) min < med < max: 1 < 7 < 12 IQR (CV) : 5 (0.5) |
12 distinct values | 0 (0%) |
|
| 11 | DAY_OF_WEEK [character] |
1. Friday 2. Monday 3. Saturday 4. Sunday 5. Thursday 6. Tuesday 7. Wednesday |
49758 (15.2%) 46970 (14.3%) 45969 (14.0%) 41374 (12.6%) 47872 (14.6%) 47726 (14.6%) 48151 (14.7%) |
0 (0%) |
|
| 12 | HOUR [numeric] |
Mean (sd) : 13.1 (6.3) min < med < max: 0 < 14 < 23 IQR (CV) : 9 (0.5) |
24 distinct values | 0 (0%) |
|
| 13 | UCR_PART [character] |
1. Other 2. Part One 3. Part Three 4. Part Two |
1285 ( 0.4%) 63231 (19.3%) 162928 (49.7%) 100283 (30.6%) |
93 (0.03%) |
|
| 14 | STREET [character] |
1. WASHINGTON ST 2. BLUE HILL AVE 3. BOYLSTON ST 4. DORCHESTER AVE 5. TREMONT ST 6. MASSACHUSETTS AVE 7. HARRISON AVE 8. CENTRE ST 9. COMMONWEALTH AVE 10. HYDE PARK AVE [ 4669 others ] |
14590 ( 4.6%) 8010 ( 2.5%) 7425 ( 2.3%) 5297 ( 1.7%) 4925 ( 1.6%) 4892 ( 1.5%) 4739 ( 1.5%) 4487 ( 1.4%) 4301 ( 1.4%) 3572 ( 1.1%) 254605 (80.4%) |
10977 (3.35%) |
|
| 15 | Lat [numeric] |
Mean (sd) : 42.2 (2.2) min < med < max: -1 < 42.3 < 42.4 IQR (CV) : 0.1 (0.1) |
18239 distinct values | 20632 (6.29%) |
|
| 16 | Long [numeric] |
Mean (sd) : -70.9 (3.5) min < med < max: -71.2 < -71.1 < -1 IQR (CV) : 0 (0) |
18239 distinct values | 20632 (6.29%) |
|
| 17 | Location [character] |
1. (0.00000000, 0.00000000) 2. (42.34862382, -71.0827763 3. (42.36183857, -71.0597648 4. (42.28482577, -71.0913736 5. (42.32866284, -71.0856340 6. (42.25621592, -71.1240194 7. (42.29755533, -71.0597091 8. (42.34128751, -71.0546793 9. (-1.00000000, -1.00000000 10. (42.33152148, -71.0708530 [ 18245 others ] |
20632 ( 6.3%) 1276 ( 0.4%) 1248 ( 0.4%) 1137 ( 0.3%) 1075 ( 0.3%) 916 ( 0.3%) 794 ( 0.2%) 786 ( 0.2%) 775 ( 0.2%) 760 ( 0.2%) 298421 (91.0%) |
0 (0%) |
Kết quả: Các biến ….. là biến dạng character (chữ) Các biến ….. dạng số