Bộ dữ liệu này chứa thông tin về tiền lương của các nhân viên tại một công ty ở Mỹ. Mỗi hàng sẽ đại diện cho một nhân viên khác nhau và các cột bao gồm thông tin của các nhân viên như tuổi, giới tính, trình độ học vấn, chức danh công việc, số năm kinh nghiệm và mức lương.
tuoi: Cột này thể hiện tuổi của từng nhân viên theo năm.
gt: Cột này chứa giới tính của từng nhân viên, (F: Nữ ; M: Nam)
td: Cột này chứa trình độ học vấn của từng nhân viên là cử nhân, thạc sĩ hoặc tiến sĩ.
cv: Cột này chứa chức danh công việc của từng nhân viên.
nkn: Cột này thể hiện số năm kinh nghiệm làm việc của mỗi nhân viên.
ml: Cột này thể hiện mức lương hàng năm của mỗi nhân viên bằng đô la Mỹ (USD).
Dữ liệu này thu tập được gồm 373 quan sát, trong đó có tổng cộng 6 biến gồm 3 biến định tính và 3 biến định lượng
Nguồn: https://www.kaggle.com/datasets/rkiattisak/salaly-prediction-for-beginer
setwd("C:/PTDLDT")
library(xlsx)
library(readxl)
## Warning: package 'readxl' was built under R version 4.2.3
d <- read.xlsx("dataa.xlsx",1)
d
Bộ dữ liệu chứa thông tin 1 trong những nguyên nhân dẫn đến bệnh tim ở người.Theo CDC, bệnh tim là một trong những nguyên nhân gây tử vong hàng đầu cho những người thuộc hầu hết các chủng tộc ở Hoa Kỳ (Người Mỹ gốc Phi, người Mỹ da đỏ và thổ dân Alaska, và người da trắng). Khoảng một nửa số người Mỹ (47%) có ít nhất 1 trong 3 yếu tố nguy cơ chính gây bệnh tim: huyết áp cao, cholesterol cao và hút thuốc. Các chỉ số quan trọng khác bao gồm tình trạng tiểu đường, béo phì (chỉ số BMI cao), không hoạt động thể chất đầy đủ hoặc uống quá nhiều rượu.
hd: (Heart disease) là những người được hỏi đã từng báo cáo mắc bệnh tim mạch vành (CHD) hoặc nhồi máu cơ tim (MI)
bmi: chỉ số khối cơ thể BMI
sk: (Smoking) là người đó có hút thuốc hay không (yes/no)
ad: (Alcohol drinking) là những người nghiện rượu nặng
stroke: là người đó đã từng đột quỵ chưa (yes/no)
ph: (PhycicalHealth) sức khỏe thể chất, bao gồm bệnh tật và chấn thương thể chất, trong 30 ngày qua sức khỏe thể chất không được tốt bao nhiêu ngày (0-30 ngày)
mh: (Mental health) sức khỏe tinh thần, có bao nhiêu ngày trong 30 ngày sức khỏe tinh thần không tốt (0-30 ngày)
dw:(Diff walking) người gặp khó khăn nghiêm trọng khi đi bộ hoặc leo cầu thang
sex: giới tính (M:nam/ F:nữ)
agec: mức tuổi
dia: (diabetic) người bị mắc bệnh tiểu đường (yes/no)
pa: (Physical activity) hoạt động thể chất. Người đó có hoạt động thể chất hoặc tập thể dục trong 30 ngày qua không (yes/no)
Dữ liệu này thu tập được gồm 584 quan sát, trong đó có tổng cộng 12 biến gồm 8 biến định tính và 3 biến định lượng
Nguồn: https://www.kaggle.com/code/andls555/heart-disease-prediction/
Bài nghiên cứu chọn biến bmi là biến phụ thuộc vì tác giả muốn xem xét rằng liệu rằng những bệnh nhân mắc những căn bệnh như bệnh tim, tiểu đường, từng đột quỵ hay những bệnh nhân thường xuyên sử dụng thuốc lá, rượu sẽ ảnh hưởng đến chỉ số bmi như thế nào. Từ đó có những biện pháp cân bằng lại chế độ ăn uống lành mạnh để đạt được chỉ số bmi tốt.
Bài nghiên cứu chọn biến hd (bệnh nhân mắc bệnh tim mạch (yes/no)). Tại đây tác giả sẽ thông qua báo cáo của 584 bệnh nhân để biết được những yếu tố nào là nguyên nhân chính gây ra bệnh về tim. Từ đó có thể đưa ra giải pháp phòng ngừa bệnh tim mạch.