## Loading required package: survival
## Package epiR 2.0.84 is loaded
## Type help(epi.about) for summary information
## Type browseVignettes(package = 'epiR') to learn how to use epiR for applied epidemiological analyses
## 
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Loading required package: lattice
## 
## Attaching package: 'caret'
## The following object is masked from 'package:survival':
## 
##     cluster

1. Tìm hiểu và nhập dữ liệu

1.1 Nhập dữ liệu

## 'data.frame':    1259 obs. of  9 variables:
##  $ Timestamp     : Factor w/ 884 levels "1/3/2015 3:38",..: 73 73 73 73 74 75 75 76 76 76 ...
##  $ Age           : num  37 44 32 31 31 33 35 39 42 23 ...
##  $ Gender        : Factor w/ 49 levels "A little about you",..: 16 24 30 30 30 30 16 24 16 30 ...
##  $ Country       : Factor w/ 48 levels "Australia","Austria",..: 46 46 8 45 46 46 46 8 46 8 ...
##  $ family_history: Factor w/ 2 levels "No","Yes": 1 1 1 2 1 2 2 1 2 1 ...
##  $ treatment     : Factor w/ 2 levels "No","Yes": 2 1 1 2 1 1 2 1 2 1 ...
##  $ no_employees  : Factor w/ 6 levels "100-500","25-Jun",..: 2 6 2 3 1 2 4 4 1 3 ...
##  $ remote_work   : Factor w/ 2 levels "No","Yes": 1 1 1 1 2 1 2 2 1 1 ...
##  $ tech_company  : Factor w/ 2 levels "No","Yes": 2 1 2 2 2 2 2 2 2 2 ...

Bộ dữ liệu bao gồm 1259 quan sát với 9 biến chính: thời gian ghi nhận (Timestamp), độ tuổi (Age), giới tính (Gender), quốc gia (Country), tiền sử bệnh gia đình (family_history), tình trạng điều trị (treatment), làm việc từ xa (remote_work), làm việc tại công ty công nghệ (tech_company) và một biến bổ sung. Dữ liệu được thu thập từ bộ dữ liệu UCI Heart Disease, phản ánh thông tin nhân khẩu học và các yếu tố liên quan đến sức khỏe cũng như môi trường làm việc của người tham gia khảo sát. Đây là tập dữ liệu tổng hợp có tính đa dạng về mặt đặc điểm dân số và tình trạng sức khỏe, phù hợp cho việc phân tích các mối quan hệ giữa yếu tố nhân khẩu học, tiền sử bệnh và điều kiện làm việc đối với các kết quả sức khỏe. Việc sử dụng dữ liệu này góp phần hỗ trợ nghiên cứu dịch tễ học, xác định các yếu tố nguy cơ, cũng như xây dựng mô hình dự báo trong lĩnh vực y tế một cách hiệu quả và có cơ sở khoa học vững chắc.

1.2 Kiểm tra giá trị thiếu

## [1] 0

Kết quả cho thấy dữ liệu không có giá trị bị thiếu.

2. Phân tích mô tả biến định tính

2.1 Biến Gender

##                    Giới_tính Tần_số       Tỷ_lệ_phần_trăm.Var1
## 1                   Nam giới    988                   Nam giới
## 2                    Nữ giới    244                    Nữ giới
## 3 Khác / Không xác định giới     27 Khác / Không xác định giới
##   Tỷ_lệ_phần_trăm.Freq
## 1                78.47
## 2                19.38
## 3                 2.14

Dữ liệu về giới tính cho thấy đa số người tham gia là nam giới với 988 quan sát, chiếm tỷ lệ lớn nhất khoảng 78.47%. Nữ giới chiếm 19.38% với 244 quan sát, trong khi nhóm khác hoặc không xác định giới tính chiếm tỷ lệ nhỏ nhất, khoảng 2.14% với 27 quan sát. Phân bố này cho thấy mẫu khảo sát có sự chênh lệch rõ rệt về giới tính, tập trung chủ yếu vào nam giới. Điều này cần được lưu ý khi phân tích vì có thể ảnh hưởng đến tính đại diện và kết quả nghiên cứu liên quan đến các yếu tố sức khỏe hoặc đặc điểm khác theo giới.

## 2.2 Biến Country

##                Quốc_gia Tần_số   Tỷ_lệ_phần_trăm.Var1 Tỷ_lệ_phần_trăm.Freq
##               Australia     21              Australia                 1.67
##                 Austria      3                Austria                 0.24
##            Bahamas, The      1           Bahamas, The                 0.08
##                 Belgium      6                Belgium                 0.48
##  Bosnia and Herzegovina      1 Bosnia and Herzegovina                 0.08
##                  Brazil      6                 Brazil                 0.48
##                Bulgaria      4               Bulgaria                 0.32
##                  Canada     72                 Canada                 5.72
##                   China      1                  China                 0.08
##                Colombia      2               Colombia                 0.16
##              Costa Rica      1             Costa Rica                 0.08
##                 Croatia      2                Croatia                 0.16
##          Czech Republic      1         Czech Republic                 0.08
##                 Denmark      2                Denmark                 0.16
##                 Finland      3                Finland                 0.24
##                  France     13                 France                 1.03
##                 Georgia      1                Georgia                 0.08
##                 Germany     45                Germany                 3.57
##                  Greece      2                 Greece                 0.16
##                 Hungary      1                Hungary                 0.08
##                   India     10                  India                 0.79
##                 Ireland     27                Ireland                 2.14
##                  Israel      5                 Israel                 0.40
##                   Italy      7                  Italy                 0.56
##                   Japan      1                  Japan                 0.08
##                  Latvia      1                 Latvia                 0.08
##                  Mexico      3                 Mexico                 0.24
##                 Moldova      1                Moldova                 0.08
##             Netherlands     27            Netherlands                 2.14
##             New Zealand      8            New Zealand                 0.64
##                 Nigeria      1                Nigeria                 0.08
##                  Norway      1                 Norway                 0.08
##             Philippines      1            Philippines                 0.08
##                  Poland      7                 Poland                 0.56
##                Portugal      2               Portugal                 0.16
##                 Romania      1                Romania                 0.08
##                  Russia      3                 Russia                 0.24
##               Singapore      4              Singapore                 0.32
##                Slovenia      1               Slovenia                 0.08
##            South Africa      6           South Africa                 0.48
##                   Spain      1                  Spain                 0.08
##                  Sweden      7                 Sweden                 0.56
##             Switzerland      7            Switzerland                 0.56
##                Thailand      1               Thailand                 0.08
##          United Kingdom    185         United Kingdom                14.69
##           United States    751          United States                59.65
##                 Uruguay      1                Uruguay                 0.08
##                Zimbabwe      1               Zimbabwe                 0.08

Bảng phân phối tần số và tỷ lệ phần trăm theo quốc gia phản ánh sự đa dạng trong dữ liệu, tuy nhiên tập trung chủ yếu ở một số quốc gia nhất định. Hoa Kỳ chiếm phần lớn với 751 quan sát, tương đương 59.65%, tiếp theo là Vương quốc Anh với 185 quan sát (14.69%). Các quốc gia khác đều có tỷ lệ rất thấp, đa số dưới 1%, dẫn đến phân bố không đồng đều. Sự tập trung mạnh ở các quốc gia phát triển như Mỹ và Anh có thể ảnh hưởng đến tính đại diện của dữ liệu khi phân tích. Điều này cần được cân nhắc kỹ lưỡng để tránh kết luận sai lệch hoặc áp dụng không phù hợp cho các nhóm dân số đa dạng về quốc gia.

2.3 Biến family_history

##   Tiền_sử_gia_đình Tần_số Tỷ_lệ_phần_trăm.Var1 Tỷ_lệ_phần_trăm.Freq
## 1               No    767                   No                60.92
## 2              Yes    492                  Yes                39.08

Phân bố biến “Tiền sử gia đình” cho thấy 60.92% người tham gia không có tiền sử bệnh trong gia đình, trong khi 39.08% còn lại có tiền sử bệnh. Tỷ lệ này cho thấy một phần đáng kể mẫu khảo sát có yếu tố di truyền hoặc liên quan đến tiền sử bệnh gia đình, điều này có thể ảnh hưởng đến nguy cơ và các kết quả sức khỏe trong các phân tích tiếp theo.

2.4 Biến treatment

##   Treatment Tần_số Tỷ_lệ_phần_trăm.Var1 Tỷ_lệ_phần_trăm.Freq
## 1        No    622                   No                 49.4
## 2       Yes    637                  Yes                 50.6

Phân bố biến “Treatment” cho thấy tỷ lệ giữa hai nhóm gần như cân bằng, với 49.4% người tham gia không điều trị và 50.6% có điều trị. Điều này giúp đảm bảo tính đại diện và cân đối trong phân tích tác động của việc điều trị đối với các biến khác trong dữ liệu. ## 2.5 Biến remote_work

##  Trạng_thái Tần_số Tỷ_lệ_phần_trăm.Var1 Tỷ_lệ_phần_trăm.Freq
##          No    883                   No                70.14
##         Yes    376                  Yes                29.86

Biến Remote Work phản ánh tình trạng làm việc từ xa của người tham gia khảo sát, trong đó có 883 trường hợp (chiếm 70.14%) không làm việc từ xa, trong khi 376 trường hợp (chiếm 29.86%) có trạng thái làm việc từ xa. Điều này cho thấy phần lớn người tham gia khảo sát không thực hiện hình thức làm việc từ xa trong khoảng thời gian thu thập dữ liệu.

2.6 Biến tech_company

##  Giá_trị Tần_số Tỷ_lệ_phần_trăm.Var1 Tỷ_lệ_phần_trăm.Freq
##       No    228                   No                18.11
##      Yes   1031                  Yes                81.89

Biến tech_company cho biết người tham gia khảo sát có làm việc trong công ty công nghệ hay không. Kết quả cho thấy đa số người tham gia (1,031 trường hợp, tương ứng 81.89%) làm việc tại các công ty công nghệ, trong khi chỉ có 228 trường hợp (18.11%) không thuộc nhóm này. Điều này phản ánh rằng dữ liệu chủ yếu tập trung vào nhóm người làm việc trong ngành công nghệ, có thể ảnh hưởng đến đặc điểm và kết quả phân tích tổng thể của nghiên cứu.

3. Ước lượng Khoảng và Kiểm định Giả thuyết cho Tỷ lệ (Một biến)

3.1 hạng mục quan tâm

Mỗi biến ta chọn 1 hạng mục quan tâm, cụ thể: Hạng mục “Female” (nữ) của biến “Gender” (giới tính) Hạng mục “Canada” (Canada) của biến “Country” (quốc gia) Hạng mục “Yes” (có) của biến “family_history” (tiền sử gia đình) Hạng mục “Yes” (có) của biến “treatment” (điều trị) Hạng mục “Yes” (có) của biến “remote_work” (làm việc từ xa) Hạng mục “Yes” (có) của biến “tech_company” (công ty công nghệ) # 3.1.1 Hạng mục “Female” (nữ) của biến “Gender” (giới tính)

## Tỷ lệ mẫu (Female) = 0
## Khoảng tin cậy 95%: [ 0 , 0 ]
## Thống kê z = -Inf
## Giá trị p = < 2.2e-16
## Kết luận: Bác bỏ giả thuyết không. Tỉ lệ nữ khác 50%.

3.1.2 Hạng mục “Canada” (Canada) của biến “Country” (quốc gia)

## Tỷ lệ mẫu (Canada) = 0.0572
## Khoảng tin cậy 95% (Canada): [ 0.0444 , 0.07 ]
## Thống kê z = 1.098
## Giá trị p = 0.272
## Kết luận: Không đủ bằng chứng bác bỏ giả thuyết không.

3.1.3 Hạng mục “yes” (có) của biến “family_history” (tiền sử gia đình)

## Tỷ lệ mẫu (family_history = yes) = 0
## Khoảng tin cậy 95% (family_history = yes): [ 0 , 0 ]
## Thống kê z = -Inf
## Giá trị p = < 2.2e-16
## Kết luận: Bác bỏ giả thuyết không. Tỷ lệ family_history = yes khác 50%.

3.1.4 Hạng mục “Yes” (có) của biến “treatment” (điều trị)

## Tỷ lệ mẫu (treatment = yes) = 0
## Khoảng tin cậy 95% (treatment = yes): [ 0 , 0 ]
## Thống kê z = -Inf
## Giá trị p = < 2.2e-16
## Kết luận: Bác bỏ giả thuyết không. Tỷ lệ treatment = yes khác 50%.

3.1.5 Hạng mục “Yes” (có) của biến “remote_work” (làm việc từ xa)

## Tỷ lệ mẫu (remote_work = yes) = 0
## Khoảng tin cậy 95% (remote_work = yes): [ 0 , 0 ]
## Thống kê z = -Inf
## Giá trị p = < 2.2e-16
## Kết luận: Bác bỏ giả thuyết không. Tỷ lệ remote_work = yes khác 50%.

3.1.6 Hạng mục “Yes” (có) của biến “tech_company” (công ty công nghệ)

## Tỷ lệ mẫu (tech_company = yes) = 0
## Khoảng tin cậy 95% (tech_company = yes): [ 0 , 0 ]
## Thống kê z = -Inf
## Giá trị p = < 2.2e-16
## Kết luận: Bác bỏ giả thuyết không. Tỷ lệ tech_company = yes khác 50%.

4.Phân tích Mối quan hệ giữa Hai biến Định tính (Bivariate Analysis)

4.1 Biến “Treatment” và “Remote_work”

##          RemoteWork
## Treatment   No  Yes  Sum
##       No   444  178  622
##       Yes  439  198  637
##       Sum  883  376 1259

Bảng tần số chéo giữa Treatment (Việc tham gia điều trị) và RemoteWork (Làm việc từ xa) cho thấy: - Trong nhóm không tham gia điều trị (Treatment = No), số người làm việc không từ xa là 444, trong khi làm việc từ xa là 178. - Trong nhóm tham gia điều trị (Treatment = Yes), số người làm việc không từ xa là 439, làm việc từ xa là 198. - Tổng số người làm việc không từ xa là 883, trong khi làm việc từ xa là 376. => Phân bố số lượng giữa các nhóm Treatment theo trạng thái làm việc từ xa và không từ xa tương đối đồng đều, không có sự chênh lệch lớn giữa hai nhóm. Điều này gợi ý rằng việc tham gia điều trị có thể không ảnh hưởng rõ rệt đến việc làm việc từ xa trong mẫu dữ liệu này.

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(dulieu$treatment, dulieu$remote_work)
## X-squared = 0.8, df = 1, p-value = 0.4

Kết quả kiểm định Chi-square cho thấy giá trị thống kê X-squared = 0.79963 với bậc tự do = 1 và p-value = 0.3712. Vì p-value > 0.05, ta không đủ bằng chứng để bác bỏ giả thuyết không, tức là không có mối liên hệ có ý nghĩa thống kê giữa việc tham gia Treatment và trạng thái làm việc từ xa trong mẫu dữ liệu này. Nói cách khác, việc tham gia điều trị không ảnh hưởng đáng kể đến việc làm việc từ xa của người tham gia ## 4.2 Biến “Family_history” và “Country”

##      
##       Australia Austria Bahamas, The Belgium Bosnia and Herzegovina Brazil
##   No         10       2            0       5                      0      4
##   Yes        11       1            1       1                      1      2
##   Sum        21       3            1       6                      1      6
##      
##       Bulgaria Canada China Colombia Costa Rica Croatia Czech Republic Denmark
##   No         4     45     1        2          1       1              0       0
##   Yes        0     27     0        0          0       1              1       2
##   Sum        4     72     1        2          1       2              1       2
##      
##       Finland France Georgia Germany Greece Hungary India Ireland Israel Italy
##   No        3     11       1      31      2       0     9      18      4     5
##   Yes       0      2       0      14      0       1     1       9      1     2
##   Sum       3     13       1      45      2       1    10      27      5     7
##      
##       Japan Latvia Mexico Moldova Netherlands New Zealand Nigeria Norway
##   No      0      1      2       1          19           6       1      0
##   Yes     1      0      1       0           8           2       0      1
##   Sum     1      1      3       1          27           8       1      1
##      
##       Philippines Poland Portugal Romania Russia Singapore Slovenia
##   No            1      5        2       1      3         3        1
##   Yes           0      2        0       0      0         1        0
##   Sum           1      7        2       1      3         4        1
##      
##       South Africa Spain Sweden Switzerland Thailand United Kingdom
##   No             3     0      5           4        1            127
##   Yes            3     1      2           3        0             58
##   Sum            6     1      7           7        1            185
##      
##       United States Uruguay Zimbabwe  Sum
##   No            421       1        0  767
##   Yes           330       0        1  492
##   Sum           751       1        1 1259

Bảng tần số chéo thể hiện phân bố tình trạng tiền sử bệnh gia đình (family history) theo quốc gia (country) cho thấy: - Ở nhiều quốc gia như United States (Hoa Kỳ), United Kingdom (Vương quốc Anh), Australia (Úc), số lượng người không có tiền sử bệnh gia đình (No - Không) chiếm ưu thế so với người có tiền sử (Yes - Có). - Một số quốc gia như Zimbabwe (Zimbabwe), South Africa (Nam Phi), Mexico (Mexico), Ireland (Ireland) có tỷ lệ người có tiền sử gia đình tương đối cao so với tổng số. - Tổng thể dữ liệu cho thấy số người không có tiền sử gia đình (767) nhiều hơn người có tiền sử (492 ).Nhận xét sơ bộ cho thấy sự phân bố tiền sử bệnh gia đình khác nhau theo quốc gia, nhưng để kết luận chính xác về sự khác biệt có ý nghĩa thống kê giữa các quốc gia với tiền sử gia đình, cần thực hiện kiểm định Chi-square hoặc các phương pháp phân tích phù hợp khác.Ngoài ra, sự khác biệt này cũng có thể bị ảnh hưởng bởi kích thước mẫu ở từng quốc gia khác nhau (có quốc gia rất ít mẫu như Slovenia, Bahamas), do đó khi phân tích cần cân nhắc yếu tố này để tránh sai lệch kết quả.

## `summarise()` has grouped output by 'Country'. You can override using the
## `.groups` argument.

## Warning in chisq.test(table(dulieu$family_history, dulieu$Country)):
## Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  table(dulieu$family_history, dulieu$Country)
## X-squared = 60, df = 47, p-value = 0.09

Kết quả kiểm định Chi-square với giá trị X-squared = 60.461, bậc tự do = 47 và p-value = 0.08985 cho thấy: Vì p-value > 0.05, không đủ bằng chứng để bác bỏ giả thuyết không. Điều này nghĩa là không có mối liên hệ có ý nghĩa thống kê giữa biến tiền sử bệnh gia đình (family_history) và quốc gia (Country) trong mẫu dữ liệu này. Tuy nhiên, p-value khá gần mức 0.05, cho thấy có thể có xu hướng khác biệt nhưng chưa đủ mạnh để kết luận chắc chắn.