Giới thiệu
Bài tiểu luận sử dụng bộ dữ liệu Diabetes Health Indicators (nguồn: Kaggle). Dữ liệu gồm các chỉ số nhân khẩu học và sức khoẻ như tuổi, BMI, huyết áp, đường huyết, HbA1c, thói quen hút thuốc, hoạt động thể chất, v.v.
Mục tiêu:
Mô tả tổng quan dữ liệu
Chuẩn hoá dữ liệu
Phân tích theo điều kiện, phân tổ và trực quan hoá kết quả
Đưa ra nhận xét ban đầu #TỔNG QUAN BỘ DỮ LIỆU
install.packages("DT", repos = "https://cloud.r-project.org")
## Installing package into 'C:/Users/maica/AppData/Local/R/win-library/4.4'
## (as 'lib' is unspecified)
## package 'DT' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\maica\AppData\Local\Temp\RtmpiOib5p\downloaded_packages
install.packages("readxl", repos = "https://cloud.r-project.org")
## Installing package into 'C:/Users/maica/AppData/Local/R/win-library/4.4'
## (as 'lib' is unspecified)
## package 'readxl' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\maica\AppData\Local\Temp\RtmpiOib5p\downloaded_packages
library(DT)
## Warning: package 'DT' was built under R version 4.4.3
library(readxl)
## Warning: package 'readxl' was built under R version 4.4.3
d <- read_excel("C:/Users/maica/Downloads/DU LIEU.xlsx")
datatable(d)
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html